Analisis item dan standardisasi tes
Tujuan Memahami konsep dan strategi memilih item tes berdasarkan kriteria eksternal. Memahami konsep dan strategi memilih item tes berdasarkan konsistensi internal yang meliputi kesulitan item (indeks kesulitan item atau p) dan kemampuan mendiskriminan kelompok (indeks diskriminasi item atau D). Memahami konsep dan strategi memilih pengganggu item pilihan ganda (multiple-choice item distracters). Memahami konsep dan strategi memilih tes berdasarkan item-response curve dan item-response theory (IRT) Mendeskripsikan strategi pengembangan sampel standard. Mendeskripsi persentil dan juga skor standard yang diikuti : skor z, skor Z, skor CEEB dan skor standard yang dinormalisir.
Penghitungan statistik tertentu yang harus diteliti dengan seksama untuk menentukan apakah semua item pada tes berfungsi seperti yang seharusnya dan bagaimana cara menginterpretasikan skor tes. Analisis item berfokus pada memfungsikan masing-masing item sedangkan standardisasi tes berkaitan dengan interpretatif skor normatif pada tes secara keseluruhan atau pada beberapa bagian atau sub tes yang memuatnya.
Classical Test Theory (CTT) dan Item-respons theory (IRT) bermanfaat pada penyusunan, analisis dan penerapan tes dan tergantung pada tugas khusus. Setelah tes diselenggarakan dan diberi skor, baru ketahuan bahwa tes itu belum dilaksanakan dengan baik. Ketika tes diuji coba pertama kali, tampaknya sejumlah masalah dapat diselesaikan. Pelaksanaan tes yang tidak baik ini merupakan salah satu alasan mengapa tes yang didistribusikan secara komersial diselenggarakan dulu pada sampel orang. Setelah itu tes diselenggarakan bagi populasi sampel tersebut. Respon pilot sampel ini kemudian dianalisis untuk menentukan apakah item tersebut berfungsi tepat.
Apapun jenis tes – terstandardisasi atau dibuat guru, kemampuan atau kepribadian – analisis hasil post-mortem atau post hoc sama perlunya pada perusahaan obat atau perusahaan lain yang berciri manusia. Diantara pertanyaan yang perlu dijawab adalah : Apakah waktu yang tersedia cukup ? Apakah peserta memahami petunjuk tes ? Apakah kondisi tes memadai ? Apakah keadaan darurat diatasi dengan tepat ? Apakah item jelas ? Apakah tes cukup wajar ? Kuesioner umpan balik sederhana yang berkaitan dengan pertanyaan ini dan pertanyaan yang relevan lain seringkali dapat membantu memperbaiki tes tersebut.
Analisis respons yang disampaikan oleh kelompok orang mengenai masing-masing item pada tes memberikan beberapa fungsi. Tujuan utama analisis item semacam itu adalah membantu meningkatkan tes dengan memperbaiki atau menghapus item inefektif. Fungsi penting lain dari analisis item, terutama analisis item pada tes pencapaian adalah memberikan informasi diagnostik mengenai apa yang diketahui dan tidak diketahui oleh peserta tes.
Tes yang mengacu ke Kriteria dan Tes Penguasaan Prosedur yang digunakan dalam mengevaluasi efektivitas item tes tergantung pada tujuan tes. Misalnya, penyusun tes ingin mendesain tes yang memprediksi gejala klinis yang relevan, seperti hasil diagnosis psikoterapi atau psikiatri. Item pada tes akan dipilih berdasarkan pada seberapa bagus penyusun tes memprediksi gejala klinis ini. Penyusun tes lain berkaitan dengan menentukan seberapa banyak peserta tes mengetahui isi bidang akademi. Dalam kasus ini, kinerja diukur berdasarkan kriteria atau standard yang ditentukan oleh guru kelas atau kebijakan institusi.
Tujuan pengetesan criterion-referenced (or domain referenced) testing semacam itu bukan hanya untuk menemukan bagaimana skor yang diperoleh seseorang dibandingkan dengan orang lain tetapi juga untuk menentukan di mana dia berposisi terhadap tujuan kuliah atau gejala klinis tertentu. Jenis khusus tes yang mengacu ke kriteria yang didisain untuk mengukur pencapaian ketrampilan kognitif yang lingkupnya terbatas dikenal sebagai tes penguasaan (mastery test). Skor seseorang pada tes penguasaan diungkapkan dengan persentase jumlah item total yang dijawab dengan benar, skor sempurna menunjukkan 100 % penguasaan materi.
Perbedaan Individu dan Validitas Item Karena sangat sulit memperoleh persetujuan pada seberapa banyak orang seharusnya tahu mengenai subjek tertentu atau apa yang mendasari menguasaan ini, skor tes psikologi atau pendidikan secara tradisional telah diinterpretasikan dengan cara membandingkannya dengan skor yang diperoleh orang lain. Tes psikologi telah direncanakan terutama untuk memeriksa perbedaan antara individu mengenai karakteristik kognitif dan afektif.
Orang berbeda dalam kemampuan dan kepribadian mereka dan para psikolog berusaha mengevaluasi perbedaan ini dengan berbagai jenis tes. Para penyusun tes professional mencoba merencanakan item yang berbeda bagi orang yang berbeda dalam kaitannya dengan kemampuan apa yang diukur . Untuk menilai kemanfaatan item sebagai ukuran perbedaan individu dalam kemampuan atau karakteristik kepribadian, para penguji perlu ukuran patokan eksternal karakteristik menyangkut karakteristik.
Validitas item untuk memprediksi keadaan kriteria eksternal ditentukan dengan mengkorelasikan skor pada item (nol untuk salah dan 1 untuk benar) dengan skor pada ukuran patokan. Jenis koefisien korelasi yang berbeda-beda digunakan untuk tujuan ini yang paling umum koefisien dua-rangkaian titik (point biserial coefficient).
Item yang memiliki korelasi serendah 0,20 berdasarkan kriteria memberikan kontribusi untuk memprediksi item itu, meskipun koefisien lebih tinggi lebih disukai. Item yang memiliki korelasi hampir atau kurang dari 0,00 dengan criteria pasti harus diperbaiki atau dibuang. Item yang memiliki korelasi tinggi berdasarkan criteria tetapi korelasi rendah dengan item lain adalah yang terbaik karena item itu membuat kontribusi yang lebih independen terhadap prediksi skor kriteria.
Indeks Kesulitan Item dan Indeks Diskriminasi Dalam kasus tes pencapaian prestasi di kelas, item dikorelasikan dengan skor total pada tes itu sendiri. Diasumsikan bahwa rangkaian item sebagai keseluruhan merupakan ukuran pencapaian yang memadai mengenai subjek, skor total sebagai kriteria dalam menentukan konsistensi internal tes. Prosedur jalan pintas adalah menyortir para peserta tes menjadi 3 kelompok menurut skor mereka pada tes sebagai satu keseluruhan : kelompok tinggi terdiri dari 27 % yang membuat skor tertinggi, kelompok rendah terdiri dari 27 % yang membuat skor terendah dan sisanya 46 % berada pada kelompok tengah. Jika jumlah responden kecil, kelompok skor 50 % tinggi dan rendah dari tes total kadangkala digunakan untuk tujuan analisis item.
Nilai p disebut indeks kesulitan item (item difficulty indeks) dan D sebagai indeks diskriminasi item (item discrimination indeks). Misalkan disumsikan bahwa 50 orang mengikuti tes. Kemudian , kelompok tinggi dan rendah dibentuk dari bagian atas 0,27 x 50 = 14 dan 14 terendah pada skor tes total. Jika 12 orang pada kelompok tinggi dan 7 orang pada kelompok rendah lolos item A maka p = (12 + 7)/28 = 0,68 dan D = (12-7)/14 = 0,36.
Indeks kesulitan item memiliki cakupan dari 0,00 – 1,00 Indeks kesulitan item memiliki cakupan dari 0,00 – 1,00. Item dengan p = 0,00 adalah item yang tidak seorangpun menjawab benar dan item p = 1,00 dijawab benar oleh semua orang. Nilai-p optimum untuk item tergantung pada sejumlah faktor, yang mencakup tujuan tes dan jumlah opsi respons. Jika tujuan tes adalah mengidentifikasikan atau memilih hanya presentase kecil dari pelamar terbaik maka tes harus cukup sulit seperti tercermin pada nilai mean p rendah. Jika tes didesain untuk menyaring hanya sedikit pelamar yang sangat buruk maka nilai mean p tinggi adalah yang terbaik.
Nilai optimum p tergantung pada tes Nilai optimum p tergantung pada tes. Misalnya, p optimum harus cukup rendah untuk item tes yang didesain untuk menentukan penerima beasiswa atau untuk penempatan tingkat lanjut, tetapi cukup tinggi pada tes yang didesain untuk mengidentifikasikan siswa yang mengikuti program remidi. Pada tes yang didesain untuk mengukur cakupan luas kemampuan, nilai p optimum hampir memdekati 0,5. Nilai mean optimum p untuk tes semacam itu juga bervariasi secara berkebalikan dengan jumlah opsi respons (k), p untuk item yang dapat diterima akan masuk ke cakupan yang cukup sempit, sekitar 0,20 di sekitar nilai dalam tabel ini.
Indeks diskriminasi item (D) adalah ukuran efektivitas item dalam mendeskripsikan antara pemilik skor tinggi dan rendah pada tes. Semakin tinggi nilai D, semakin efektif item dalam mendeskriminasikan antara peserta tes dengan skor tinggi dan peserta tes dengan skor rendah pada tes sebagai satu keseluruhan. Ketika D adalah 1,00 semua peserta tes di kelompok tinggi menjawab item dengan benar dan tak seorangpun di kelompok rendah pada skor tes total menjawab item dengan benar. Akan tetapi, jarang D setera dengan 1,00 dan item ini biasanya dianggap diterima jika indeks D adalah 0,30 atau lebih tinggi.
Tetapi D dan p bukan indeks independen, dan nilai D minimum yang dapat diterima ketika p semakin tinggi atau semakin rendah daripada nilai optimum terutama ketika ukuran/besar kelompok pembanding tinggi dan rendah adalah besar.
Faktor yang Mempengaruhi Berfungsinya Item Dalam menyusun tes terstandardisasi, sekarang menjadi praktik umum untuk meneliti tiap-tiap item dan statistik yang terkait dengannya untuk mendapatkan indikasi mengenai diskriminasi atau bias kelompok. Indeks statistik differential item function (DIF) seringkali dihitung untuk mempermudah proses ini. Item dapat bias hanya ketika item itu mengukur sesuatu yang berbeda – karakteristik atau ciri berbeda- dalam satu kelompok dengan karakteristik atau ciri lain.
Jika skor item mencerminkan perbedaan nyata kemampuan atau karakteristik apa pun yang didesain untuk diukur oleh item itu, item itu secara teknis tidak bias. Menyelenggarakan analisis item terpisah bagi tiap-tiap kelompok akan mengungkapkan keberadaan bias item yakni apakah item tersebut mendeskriminasi dengan baik antara pemilik skor tinggi dan rendah pada kedua kelompok tersebut. Analisis item menghasilkan perbaikan signifikan terhadap efektivitas tes. Indeks diskriminasi item secara khusus merupakan ukuran yang cukup bagus mengenai kualitas item. Bersama dengan indeks kesulitan ( p ), D dapat digunakan sebagai peringatan bahwa ada yang salah pada item tersebut.
Bank item semacam itu digunakan tidak hanya oleh penyusun tes tradisional professional, tetapi juga diberikan sebagai bahan tambahan pada sejumlah buku teks yang digunakan sebagai tes praktek atau menjadi kumpulan item untuk menyusun tes di kelas.
Konsistensi Internal Versus Validitas Internal Konsep validitas item biasanya mengacu ke hubungan item dengan kriteria eksternal. Sebaliknya, D adalah ukuran hubungan skor item dengan kriteria internal – skor total – bukan dengan kriteria eksternal. Memilih item yang berdasar statistik D menghasilkan jenis tes yang berbeda daripada item yang terdiri atas item yang dipilih berdasar korelasi tinggi dengan kriteria eksternal. Kadangkala kombinasi dua startegi memadai : tes gabungan disusun dari subtes yang saling memiliki korelasi rendah dan korelasi yang substansial dengan kriteria eksternal, tetapi item-item subtes sangat berkaitan.
Item Tes yang Mengacu ke Kriteria Indeks kesulitan dan indeks diskriminasi juga dapat dihitung berdasar item tes yang mengacu ke kriteria yang didesain untuk menentukan posisi peserta tes terhadap tujuan pendidikan yang telah ditetapkan. Dalam kasus ini, peserta tes dibagi menjadi 2 kelompok : kelompok atas yang terdiri dari peserta U yang skor tes totalnya memenuhi kinerja yang dapat diterima yang telah dirancang berdasar kriteria dari peserta tes L yang skor totalnya gagal memenuhi kriteria.
Analisis terhadap Pengganggu Analisis item pilihan-ganda secara tradisional telah mulai dengan penghitungan indeks kesulitan dan indeks diskriminasi untuk tiap-tiap item. Analisis kedua berkaitan dengan berfungsinya k-1 opsi (pengganggu atau distracter) salah untuk tiap-tiap item. Indeks diskriminasi item (D) memberikan informasi pada berfungsinya gangguan secara keseluruhan. D positif berarti pada peserta tes pada kelompok atas (pada skor tes total) cenderung memilih jawaban dengan benar sedangkan yang ada di kelompok bawah cenderung memilih satu pengganggu besarnya D menunjukkan tingkat kecenderungan ini. D negatif menunjukkan bahwa pengganggu dipilih lebih sering oleh peserta tes pada tes kelompok atas daripada oleh yang ada di kelompok bawah dan bahwa item itu perlu direvisi.
Kurva Karakteristik Item Nilai p dan D yang dapat diterima tidak menjamin bahwa item berfungsi dengan tepat di semua level kinerja tes. Agar sangat efektif, proporsi orang yang menjawab item tes dengan tepat harus meningkat dengan mantap seiring dengan peningkatan skor total pada tes atau subtes. Apakah item tes berfungsi dengan cara ini dapat ditentukan dari item characteristic curve (ICC). Dalam menyusun ICC, proporsi responden yang member jawaban kunci diplot terhadap skor mereka berdasarkan kriteria internal (misalnya skor tes total) atau criteria eksternal seperti pencapaian atau kinerja pekerjaan.
Level kesulitan (b) adalah skor criteria yang 50 % peserta tes member jawaban benar (berdasar kunci); indeks diskriminasi (a) adalah tingkat kemiringan (slope) kurva respons-tem pada poin 50 %. Misalkan dari dua ICC yang diplot pada Gambar 4.1, nilai 0,5 pada sumbu vertical berhubungan dengan skor total 68 pada kasus item 1 dan 77 pada kasus item 2. Akibatnya item 2 lebih sulit daripada item 1. Akan tetapi, ICC item 1 memiliki kemiringan lebih curam dari pada item 2 , maka item 1 mendiskriminasi dengan lebih baik daripada item 2 antara pemilik skor tinggi dan rendah pada seluruh tes.
Item response Theory Metode ini pertama kali mengembangkan teori mengenai cara berfungsinya item berdasarkan pengetahuan mengenai kemampuan atau ciri kepribadian (Trait). Metode ini membandingkan respons sesungguhnya terhadap item untuk menentukan seberapa bagus berfungsinya item. Jadi item sesungguhnya dibandingkan dengan bagaimana seharusnya item itu berfungsi secara teori.
Seperti digambarkan pada Gambar 4 Seperti digambarkan pada Gambar 4.2, bentuk kurva respons-item bervariasi mengikuti nilai parameter a dan b. Kedua kurva pada gambar ini disusun dengan fungsi dua-parameter pada rumus 4.5. Pada kurva P, parameter kesulitan (b) adalah 1,00 dan parameter diskriminan (a) adalah 0,5; pada kurva Q, b = 0,25 dan a = 0,75. Catat bahwa b adalah nilai (titik pada sumbu horizontal) yang berhubungan dengan P() = 0,5 dan a adalah kemiringan kurva pada P() – 0,5. Pada model 3 parameter, b adalah nilai P() yang berhubungan dengan 0,5 ( c + 1) dengan c adalah titik persilangan antara kurva respons-item dengan sumbu vertikal.
Skor pada kontinum, kemampuan tersembunyi (latent ability continuum) dinyatakan sebagai unit skor standard (z ), tetapi pada penerapan sebagian besar pendidikan, skor z diubah ke skala yang memiliki mean 300 dan deviasi standard 50. Pada praktek sesungguhnya, parameter item dan skor kemampuan tersembunyi (latent ability score) peserta tes tidak diketahui.
Masalahnya adalah mencari kurva respons-item yang paling cocok dengan respons terhadap tiap-tiap item. Pencarian ini melibatkan prosedur yang mungkin-maksimum secara iterative dengan mengasumsikan nilai awal tertentu untuk parameter itemnya dengan menghitung P() yang berhubungan dengan berbagai nilai , membandingkan respons-item hasil prediksi dengan respons-item sesungguhnya dan melanjutkan proses sampai solusi terbaik dapat diraih. Proses estimasi parameter item membutuhkan respons banyak peserta tes yang mewakili populasi potensi peserta tes kira-kira 2.000 untuk model tiga parameter dan 1.500 untuk model satu parameter (Rasch).
Tidak seperti metodologi pengetesan tradisional, yang mengacaukan antara diskriminasi dan kesulitan tes pada sampel tertentu orang yang dites, pada IRT maka parameternya adalah, setidaknya dalam teori, independen terhadap sampel tes. Sifat IRT yang menarik lainnya, invariance kemampuan tes dengan respons terhadap item yang digunakan untuk mengestimasinya, berakar pada proses pengestimasian . Fitur IRT ini berarti bahwa tes pada level kesulitan manapun dapat dikelola untuk menentukan posisi seseorang pada berbagai level kemampuan tersembunyi (latent ability continuum). IRT telah dipergunakan untuk berbagai tujuan, yang meliputi penyusunan tes, kalibrasi skor tes untuk menyediakan kerangka acuan guna menginterpretasikannya. Standardisasi tes, penentuan differential item functioning (DIF) dan pengetesan adaptif.
Standardisasi dan Norma Tes Fitur inti pada sebagian besar tes psikologi adalah bahwa skor individu harus dibandingkan dengan beberapa kelompok normative. Fitur ini memungkinkan kita harus menginterpretasikan makna skor. Misalnya, kita tahu bahwa seseorang mendapat skor tinggi pada introversi karena orang lain merespon pada item sama menguasai sedikit jumlah item yang berkaitan dengan introversi. Untuk menyelesaikan tugas ini, tes, inventori (kumpulan soal tes), skala peringkat atau peralatan psikometri lain harus distandardisasi.
Tes terstandardisasi apapun memiliki petunjuk standard mengenai penyelenggaraan dan pemberian skor yang harus benar-benar diikuti sehingga hanya menyisakan ruang kecil untuk interpretasi dan bias pribadi. Standardisasi juga melibatkan pengelolaan tes tes terhadap sampel orang dalam jumlah besar (standardisasi sampel) yang dipilih sebagai wakil dari populasi sasaran berupa orang yang menjadi sasaran tes.
Tujuan utama standardisasi tes adalah untuk menentukan distribusi skor mentah pada sampel terstandardisasi (kelompok norma). Skor mentah yang diperoleh tersebut kemudian dikonversikan ke beberapa bentuk skor turunan atau norma. Dalam mengevaluasi anak cacat, kadangkala perlu mengelola tes di luar level (out-of-level test) yang didesain untuk level usia dan level grade di bawah orang yang menginterpretasikan skor.
Memilih Sampel Terstandardisasi Agar berfungsi secara efektif pada interpretasi skor tes, norma harus sesuai dengan kelompok atau individu yang dievaluasi. Kapanpun skor tes dikonversikan dengan mengacu ke tabel norma, penting untuk membuat catatan mengenai karakteristik sampel (usia, jenis kelamin, etnik, pendidikan , status sosioekonomi, wilayah geografi) dari kelompok norma tertentu dan memasuk ini ke dalam semua komunikasi mengenai kinerja seseorang.
Ciri pemilihan sampel terstandardisasi dari populasi bervariasi dari pengambilan sampel secara acak sederhana (simple random sampling) sampai strategi pemilihan sampel yang lebih rumit seperti pengambilan sampel secara cluster (cluster sampling). Pengambilan sampel secara cluster lebih ekonomis daripada pengambilan sampel secara acak terstratifikasi dan lebih mungkin dari pada pengambilan sampel secara acak sederhana dalam menghasilkan sampel yang mewakili populasi sasaran. Norma yang dipublikasikan pada buku petunjuk bermanfaat untuk membandingkan skor peserta tes dengan skor sampel orang dari berbagai lokasi, kadangkala cross section dari seluruh bagian Negara.
Norma Usia dan Kelas Norma usia (ekuivalen usia , usia pendidikan) merupakan skor median pada tes yang diperoleh orang pada usia kronologis tertentu; norma kelas (grade norm) (ekuivalen kelas) adalah skor median yang diperoleh siswa pada level kelas tertentu. Norma usia dan norma kelas memiliki kelemahan yang serius. Masalah utama adalah pertumbuhan karakteristik kognitif, psikomotorik atau afektif tidak seragam pada seluruh cakupan usia atau kelas.
Norma usia dan kelas secara salah menyiratkan bahwa laju peningkatan kemampuan yang dites adalah konstan dari tahun ke tahun karena itu penggunaan dua norma itu sering dihalangi oleh para ahli di bidang pengukuran pendidikan. Norma yang unit pengukuran kurang variabel sepanjang cakupan skor lebih disukai. Karena kemudahan penggunaan, norma usia dan norma kelas terus digunakan pada level SD dimana unit-unit pertumbuhan hampir mendekati konstan dari waktu ke waktu.
Normal Persentil Norma persentil berisi tabel persentase yang berkaitan dengan skor mentah tertentu. Skor mentah ini disebut sebagai persentil dan persentase kelompok norma yang masuk ke bawah skor tertentu merupakan rentang persentil (persentil range) skor ini. Peringkat persentil (persentil rank) cukup mudah dihitung dan dipahami oleh karena itu lebih populer daripada norma standard. Laporan psikologi yang berusaha keras untuk menekankan kejelasan akan berkata sesuatu seperti “John mendapat skor pada peringkat rata-rata tinggi atau dalam persentil ke-85. Ini berarti bahwa dia mendapat skor lebih tinggi dari 85 % terhadap rekan-rekan seusianya.
Norma-skor Standard Tidak seperti peringkat persentil, skor standard menghadirkan pengukuran pada skala interval. Norma skor standard adalah skor terkonversi yang memiliki mean dan standard deviasi yang diinginkan. Ada banyak skor standard yang berbeda, meliputi skor z, skor Z, skor CEEB, skor IQ deviasi, skor stanine, skor T dan skor NCE.
Skor Z Kenyataan bahwa skor z mungkin angka desimal negatif atau positif menciptakan beberapa kesulitan dalam menggerakkan angka itu. Masalah dapat diselesaikan dengan mengalikan skor z dengan angka konstan dan menambah angka konstan lain pada hasilnya. Mengalikan z dengan 10, menambah 50 pada hasil dan membulatkan hasil ke angka terdekat menghasilkan skor Z. Mean serangkaian skor Z adalah 50 dan standard deviasi adalah 10 tetapi distribusi frekuensi skor Z memiliki bentuk yang sama dengan distribusi skor mentah asal.
Skor CEEB Pada suatu saat skor satu waktu CEEB pada tes yang dipublikasikan oleh College Entrance Examination Board (CEEB) ditentukan dengan mengalikan skor z yang berkaitan dengan 100 dan menambah 500 ke hasilnya. Misalnya, ini dilakukan pada skor mentah pada Scolastic Aptitude Test (SAT) yang diselenggarakan pada 1941, menghasilkan distribusi baru yang memiliki mean 500 dan deviasi standard 100. Akan tetapi, sesudah itu, skor yang diperoleh siswa dengan mengambil SAT tidak diubah dengan cara ini. Melainkan, untuk menyakinkan unit skor konstan dalam rangka membandingkan hasil tes dari tahun ke tahun yang dimulai 1941 skor pada skala SAT didasarkan pada hasil yang diselenggarakan pada tahun itu.
Skor Wechsler Skor mentah pada subtes skala kecerdasan Wechsler diubah agar memiliki mean 10 dan deviasi standard 3. Namun, skor verbal, Kinerja dan Skala penuh (deviasi IQ) pada tes Wechsler dikonversikan ke distribusi yang memiliki mean 100 dan deviasi standard 15.
Skor Standard yang dinormalisir Skor zn dapat diubah menjadi skor dinormalisir yang memiliki mean dan deviasi standard yang diinginkan. Skala skor lain adalah skala stanine yang diilustrasikan dengan skala ketiga dari bawah. Pada skala standard dinormalisir ini, yang memiliki mean 5 dan deviasi standard sekitar 2, ada sembilan rentang berbeda atau stanine.
Rentang ini didesain dari angka 1 – 9 dan seperti diperlihatkan pada gambar, persentase tertentu dari distribusi skala normal berada dalam interval yang diwakili oleh stanine tertentu. Akan tetapi, skala stanine bukanlah skala standard sesungguhnya, karena stanine pertama dan kesembilan terbuka di bagian akhir. Salah satu keunggulan skor statine adalah bahwa skor tersebut mewakili rentang bukan titik tertentu. Keunggulan ini membantu melawan kecenderungan untuk memandang skor tes sebagai ukuran perbedaan individu yang sempurna dan tidak bervariasi.
Tes Penyamaan (Equating Tests) Skor yang dibuat pada satu bentuk, sangat serupa dengan skor peserta tes yang sama pada bentuk pertama. Proses penyamaan atau lebih tepatnya membuat perbandingan, dua tes dengan level kesulitan sama (misalnya kelas sama) disebut sebagai penyamaan horizontal (horizontal equating). Penyamaan juga dapat dilakukan secara vertikal, seperti ketika skor pada dua tes yang memiliki level kesulitan berbeda (mis. Kelas berbeda) dipersamakan. Secara umum, proses penyemaan melibatkan menjangkarkan tes ke tes umum atau kumpulan item, seperti yang kita lakukan setiap tahun dengan Scholastic Aptitude Test (SAT) yang telah lama ada itu.
Pembahasan sebelumnya mengenai item-response theory menunjukkan bahwa teori ini mengkalibrasikan serangkaian item tes berdasar pada bagaimana cara item itu harus dilakukan secara teoritis. Lalu teori ini membandingkan respons item sesungguhnya untuk melihat tingkat seberapa respons ini mendekati kinerja teoritis (biasanya diwakili dengan skor standard pada sumbu horizontal kurva respons-item). Pendekatan IRT pada penyamaan melibatkan temuan equation linear yang mengubah parameter item (indeks kesulitan dan indeks diskriminasi) dari satu bentuk tes ke bentuk kedua. Proses ini disebut sebagai kaitan (linking). Prosedur linking ini mengharuskan bahwa dua tes berbagi beberapa item umum (jangkar/anchor) atau bahwa subtes peserta tes mengikuti kedua tes atau tes ketiga yang mengukur ciri yang sama. Prosedur penyamaan pada IRT itu ekonomis pada pengambilan sampel item, di mana sub-rangkaian item yang dipilih secara acak dikelola ke kelompok orang berbeda yang dipilih secara acak, juga dilibatkan.
TERIMA KASIH