SEMINAR NASIONAL MATEMATIKA DAN PENDIDIKAN MATEMATIKA UNY 2015 PM - 136
Analisis Kualitas Tes Ujian Sekolah Matematika SMP di Kabupaten Bangkalan Hadi Sutrisno SMP Negeri 1 Tanahmeerah Kabupaten Bangkalan
[email protected] Abstrak—Penelitian ini bertujuan untuk mendeskripsikan kualitas dan keseteraan tes ujian sekolah matematika SMP di Kabupaten Bangkalan. Tes yang digunakan dalam ujian sekolah matematika SMP di Kabupaten Bangkalan adalah tes pilihan ganda. Tes dikatakan berkualitas jika memenuhi persyaratan validitas, reliabelitas dan mempunyai karakteristik yang baik. Tes dikatakan setara dengan tes yang lain jika skor tes yang satu dapat dipertukarkan dengan skor tes yang lain. Teknik pengumpulan data pada penelitian ini adalah dokumentasi terhadap perangkat tes dan lembar jawaban peserta tes. Kemudian, untuk mendeskripsikan kualitas tes dilakukan analisis data secara kualitatif dan kuantitatif. Analisis data secara kualitatif dilakukan dengan bantuan expert dalam bidang pendidikan matematika untuk melihat kesesuaian dari aspek materi, kontruksi dan bahasa. Analisis data secara kuantitatif dilakukan dengan pendekatan teori tes klasik dan teori respons butir. Analisis data secara kuantitatif ini dilaksanakan dengan bantuan program Iteman dan Bilog. Untuk menganalisis kesetaraan antar perangkat tes digunakan metode rerata dan rerata. Metode rerata dan rerata merupakan metode penyetaraan tes yang menggunakan parameter indeks daya beda dan indeks kesukaran butir. Kata kunci: kualitas tes, kesetaraan tes, teori tes klasik, teori respons butir, serta metode rerata dan rerata
I.
PENDAHULUAN
Penilaian adalah salah satu bagian penting dalam menjamin kualias hasil pendidikan. Menurut [1], penilaian adalah bagian penting dalam proses pendidikan. Kualitas pendidikan akan meningkat jika kualitas pembelajaran dan kualitas penilaiannya meningkat. Penilaian yang berkualitas memerlukan alat ukur yang berkualitas. Menurut [2], penilaian yang baik dapat meningkatkan proses belajar peserta didik. Salah satu ciri penilaian yang baik adalah menggunakan alat ukur yang baik, yang mampu menyampaikan pesan kepada peserta didik. Alat ukur yang banyak digunakan dalam penilaian pendidikan adalah tes. Menurut [3], tes adalah alat ukur yang penting untuk menilai kualitas pembelajaran. Sensitifitas tes yang dibuat pendidik penting digunakan untuk mencari bukti keefektifan pembelajaran yang dilaksanakan. Tes yang berkualitas baik disusun berdasarkan prosedur penyusunan tes. Menurut [4], semua yang menyusun tes harus harus memperhatikan prosedur penyusunan tes. Musyawarah Guru Mata Pelajaran Matematika (MGMP) SMP Kabupaten Bangkalan selaku tim penyusun soal ujian sekolah matematika SMP kurang memperhatikan prosedur penyusunan tes. Berdasarkan hasil wawancara dengan Ketua Musyawarah Guru Mata Pelajaran Matematika (MGMP) Matematika SMP Kabupaten Bangkalan pada 18 Agustus 2015 diperoleh kesimpulan bahwa tim penyusun soal ujian sekolah SMP mata pelajaran matematika menyusun soal ujian sekolah matematika berdasarkan Standar Kelulusan (SKL) dan direncanakan tanpa melakukan analisis butir soal. Hal ini juga diperkuat hasil wawancara dengan Kepala Bidang Kurikulum SMP/SMA Kabupaten Bangkalan pada 20 Agustus 2015 yang menjelaskan bahwa dari tahun ke tahun penyusunan soal ujian sekolah matematika SMP hanya sebatas menyusun butir soal tanpa melakukan analisis butir soal. Soal ujian sekolah SMP mata pelajaran matematika di Kabupaten Bangkalan yang disusun tanpa melakukan analisis butir soal melahirkan soal yang kualitasnya dan kesetaraannya tidak diketahui. Untuk mengetahui kualitas tes ujian sekolah matematika SMP tahun di Kabupaten Bangkalan perlu dilakukan analisis sehingga soal tes yang digunakan mampu memberikan informasi tentang kualitas setiap butir soal tes. Analisis yang dilakukan adalah menggunakan analisis kualitatif dan kuantitatif. Berdasarkan latar belakang di atas, rumusan masalah pada penelitian ini adalah: (1) Bagaimana kualitas soal Ujian Sekolah Matematika SMP di Kabupaten Bangkalan berdasarkan kriteria analisis kualitatif butir soal?; (2) Bagaimana kualitas soal Ujian Sekolah Matematika SMP di Kabupaten Bangkalan berdasarkan 959
ISBN. 978-602-73403-0-5
analisis kuantitatif butir soal?; dan (3) Bagaimana kesetaraan soal Ujian Sekolah Matematika SMP di Kabupaten Bangkalan?. Penelitian ini bertujuan untuk mendeskripsikan: (1) Kualitas soal Ujian Sekolah Menengah Pertama Mata Pelajaran Matematika di Kabupaten Bangkalan berdasarkan kriteria analisis kualitatif butir soal; (2) Kualitas soal Ujian Sekolah Menengah Pertama Mata Pelajaran Matematika di Kabupaten Bangkalan berdasarkan analisis kuantitatif butir soal; dan (3) Kesetaraan soal Ujian Sekolah Matematika Sekolah Menengah Pertama di Kabupaten Bangkalan. Manfaat yang diharapkan dari penelitian ini adalah: (1) Sebagai masukan bagi Dinas Pendidikan Kabupaten Bangkalan khususnya MGMP Matematika SMP dalam penyusunan butir soal Ujian Sekolah SMP Mata Pelajaran Matematika; (2) Sebagai masukan bagi guru-guru SMP di lingkungan Dinas Pendidikan Kabupaten Bangkalan dalam hal langkah-langkah penyusunan butir soal; dan (3) Sebagai awalan dalam menyusun butir soal Ujian Sekolah Menengah Pertama Mata Pelajaran Matematika yang berkualitas pada tahun pelajaran yang akan datang sehingga mampu mengukur prestasi belajar peserta didik dengan akurat.
II.
PEMBAHASAN
Tes yang digunakan dalam Ujian Sekolah Matematika SMP di Kabupaten Bangkalan adalah tes pilihan ganda. Menurut [5], “a multiple-choice item consists of one or more introductory sentences followed by a list of two or more suggested responses”. Tes pilihan ganda terdiri atas satu atau lebih kalimat pengantar yang disertai oleh dua atau lebih pilihan jawaban. Peserta tes harus memilih jawaban yang benar di antara pilihan jawaban yang diberikan. Menurut [6], “A multiple-choice item consists of a problem and a list of suggested solutions”. Tes pilihan ganda adalah bentuk tes yang terdiri atas sebuah permasalahan dan daftar pilihan jawaban. Peserta tes diminta untuk memilih pilihan jawaban yang benar atau pilihan jawaban terbaik dari permasalahan tersebut. Permasalahan dalam tes bisa berupa pertanyaan atau pertanyaan yang tidak lengkap. Permasalahan tersebut harus dibuat dengan jelas dan tidak mengarah ke salah satu pilihan jawaban secara langsung. Berdasarkan beberapa pendapat di atas maka dapat disimpulkan bahwa tes pilihan ganda adalah bentuk tes yang di dalamnya terdiri atas permasalahan dan beberapa pilihan jawaban. Peserta tes diminta menjawab dengan cara memilih pilihan jawaban yang paling benar. Kualitas tes pilihan ganda dapat diketahui melalui karakteristik-karakteristik tes tersebut. Menurut [7], “to be a good test, a test ought to have adequate evidence for its validity, reliability, and accuracy for the purpose it is being used for”. Tes yang berkualitas baik harus mampu menunjukkan kevalidan, kereliabelan dan keakuratan terhadap tujuan tes. Hal ini sejalan dengan pendapat menurut [3], “An educational test’s usefulness for particular assessment functions should be judged according to the following four factors: reliability, validity, bias, and instructional sensitivity”. Kegunaan sebuah tes dalam dunia pendidikan dapat dinilai berdasarkan empat faktor yaitu reliabilitas, validitas, bias dan sensivitas dalam pembelajaran. Menurut [8], kualitas tes yang baik dapat ditinjau dari teori tes klasik dan teori respon butir. Parameter yang diukur dalam teori tes klasik adalah reliabilitas tes, indeks daya beda item, indeks kesukaran item, validitas isi, validitas konstruk, dan validitas berdasar kriteria. Parameter yang diukur dalam teori respon butir adalah indeks daya beda item, indeks kesukaran item, dan terkaan (guessing). Berdasarkan beberapa pendapat di atas maka dapat disimpulkan bahwa sebuah tes dikatakan berkualitas baik jika mempunyai validitas, reliabilitas dan karakteristik lain yang baik. Karakteristik lain tersebut meliputi indek daya beda, indek kesukaran butir, efektivitas distraktor, kecocokan model dan guessing. Untuk mengetahui kualitas tes Ujian Sekolah Matematika SMP di Kabupaten Bangkalan dilakukan analisis, baik secara kualitatif dan kuantitatif. Analisis kualitatif butir tes dilakukan oleh para pakar yang bertujuan untuk mengetahui kualitas butir tes berdasarkan aspek materi, aspek konstruksi dan aspek bahasa. Berdasarkan kaidah penyusunan tes pilihan ganda yang dikemukakan oleh [6] dan [9] maka dapat disusun kriteria analisis kualitatif butir tes pilihan ganda pada tabel berikut: TABEL 1. KRITERIA ANALISIS KUALITATIF BUTIR TES PILIHAN GANDA KRITERIA
NO
ASPEK
1.
Materi
a. b. c. d. e. f.
2.
Konstruksi
a.
Butir tes sesuai dengan indikator tes. Pengecoh logis dan berfungsi. Butir tes hanya mempunyai satu pilihan jawaban benar. Pilihan jawaban homogen dari aspek materi. Butir tes tidak bergantung kepada jawaban butir tes lainnya. Gambar, grafik, tabel, diagram, wacana atau lainnya jelas dan berfungsi untuk menjawab permasalahan. Pokok soal jelas dan lengkap.
960
SEMINAR NASIONAL MATEMATIKA DAN PENDIDIKAN MATEMATIKA UNY 2015
NO
ASPEK
KRITERIA
b. c. d. e. f. g. h. 3.
Bahasa
a. b. c.
Pokok soal berisi pernyataan atau informasi yang diperlukan saja. Pokok soal tidak mengarah kepada pilihan jawaban benar. Pokok soal tidak mengandung pernyataan negatif ganda. Pokok soal tidak mengandung kata yang bermakna ketidakpastian, seperti sebaiknya, umumnya, atau kadang-kadang. Semua pilihan jawaban memiliki panjang yang sama. Pilihan jawaban yang tidak mengandung pernyataan “tidak ada pilihan jawaban benar” atau “semua pilihan jawaban benar”. Pilihan jawaban yang berbentuk angka atau waktu tersusun secara berurutan. Butir tes sesuai dengan kaidah Bahasa Indonesia yang benar. Butir tes menggunakan bahasa yang komunikatif. Pilihan jawaban homogen dan logis dari aspek bahasa.
Analisis secara kualitatif terhadap tes tersebut akan menghasilkan validitas isi. Menurut [4], “content validity is established through a rational analysis of the content of a test, and its determination is based on individual, subjective judgment”. Validitas isi merupakan validitas yang ditetapkan melalui analisis rasional dari isi suatu tes yang ditentukan oleh subyektivitas expert judgment. Untuk menilai kesepakatan pakar dalam membuktikan validitas isi digunakanlah indeks validitas. Menurut [10], rumus untuk menentukan indeks validitas adalah:
s n (c 1) Dimana V adalah indeks validitas butir tes. s adalah skor yang ditetapkan oleh pakar dikurangi skor terendah dalam kategori tersebut (s = r – r0, dengan r adalah skor yang ditetapkan oleh pakar dan r0 adalah skor terendah dalam kategori tersebut). n adalah banyaknya pakar. Sedangkan, c adalah banyaknya kategori yang bisa dipilih oleh pakar. Selain validitas isi, validitas yang diperlukan oleh sebuah tes adalah validitas konstruk. Validitas konstruk merupakan validitas yang mempermasalahkan seberapa jauh butir tes mampu mengukur apa yang benar-benar hendak diukur sesuai dengan konsep khusus atau definisi konseptual yang telah ditetapkan. Pembuktian validitas konstruk tes Ujian Sekolah Matematika SMP di Kabupaten Bangkalan menggunakan Confirmatory Factor Analysis (CFA) satu jenjang. Confirmatory Factor Analysis merupakan metode yang dapat digunakan untuk menegaskan model yang telah dihipotesiskan. Confirmatory Factor Analysis didasarkan pada teori atau konsep yang secara apriori telah ditentukan sebelumnya. CFA satu jenjang merupakan Confirmatory Factor Analysis yang memuat satu konstruk laten dengan beberapa indikator, baik berupa kumpulan indikator yang dijadikan satu maupun langsung berupa butirnya. Pembuktian validitas konstruk butir tes dapat dilihat dari nilai loading factor (λ). Setelah diperoleh indeks validitas dan nilai loading factor (λ), maka validitas dapat dikategorikan. Menurut [11], kategori indeks validitas sebagai berikut: V
TABEL 2. KRITERIA VALIDITAS BUTIR TES
Indeks Validitas atau Loading Factor (λ) 0,40 – 1,00 0,00 – 0,39
Kategori Validitas Tinggi Rendah
Analisis kuantitatif butir tes dilakukan untuk membuktikan validitas konstruk, mengestimasi reliabilitas dan mendeskripsikan karakteristik tes. Untuk melakukan analisis butir tes secara kuantitatif digunakan dua pendekatan yaitu teori tes klasik dan teori respon butir. Menurut [1], teori tes klasik merupakan teori yang menggunakan model matematika yang sederhana untuk menunjukkan hubungan antara skor amatan, skor sebenarnya dan skor kesalahan. Asumsi-asumsi dalam teori tes klasik dapat dikembangkan menjadi berbagai formula yang berguna dalam melakukan pengukuran. Formula-formula yang dihasilkan dari teori tes klasik merupakan karakteristik dari butir tes seperti relibilitas, indeks daya beda, indeks kesukaran, dan efektifitas distractor. Reliabilitas adalah koefisien korelasi yang menunjukkan kehandalan tes melalui konsistensi hasil pengukuran suatu tes. Suatu tes dikatakan memiliki reliabilitas yang tinggi jika tes tersebut memberikan hasil yang tetap. Hal ini didasarkan kepada pendapat [6], “reliability coefficient is a correlation coefficient that indicates the degree of relationship between two sets of scores intended to be measures of the same characteristic”. Koefisien reliabilitas adalah koefisien korelasi yang menunjukkan tingkat hubungan antara
961
ISBN. 978-602-73403-0-5
dua set skor untuk mengukur karakteristik yang sama. Dan pendapat [4], “reliability can be expressed as a correlation coefficient between observed scores on two parallel tests”. Reliabilitas dimaknai sebagai koefisien korelasi antara skor dari dua buah tes yang paralel. Dalam artian untuk mengestimasi suatu tes reliabel atau tidak adalah dengan menghitung nilai koreasi antara skor amatan dan skor sebenarnya yang didapatkan oleh peserta tes. Berdasarkan beberapa pendapat di atas maka dapat disimpulkan bahwa reliabilitas adalah koefisien korelasi yang menunjukkan kehandalan tes melalui konsistensi hasil pengukuran suatu tes. Suatu tes dikatakan memiliki reliabilitas yang tinggi jika tes tersebut memberikan hasil yang tetap. Dalam mengestimasi reliabilitas tes Ujian Sekolah Matematika SMP di Kabupaten Bangkalan digunakan metode Kuder-Richardson Formula 20 (KR-20). Menurut [12], “K–R 20 is applicable to tests whose items are scored dichotomously (0 or 1)”. KR-20 adalah estimasi reliabilitas yang dapat diaplikasikan untuk tes yang skor butir tesnya dikotomi (0 atau 1) seperti halnya tes pilihan ganda. Menurut [13], rumus estimasi relibilitas dengan metode Kuder-Richardson Formula 20 (KR-20) adalah:
2 n S pq r n 1 S2 Dimana r adalah indeks reliabilitas tes. n adalah banyaknya butir tes. S2 adalah varian tes. p adalah proporsi peserta tes yang menjawab benar pada suatu butir tes. Sedangkan, q adalah proporsi peserta tes yang menjawab salah pada suatu butir tes (q = 1 – p). Setelah diperoleh estimasi reliabilitas menggunakan metode Kuder-Richardson Formula 20 (KR-20)., maka reliabilitas tes dapat dikategorikan. Menurut [13], kategori indeks reliabilitas berdasarkan koefisien korelasi sebagai berikut: TABEL 3. KRITERIA RELIABILITAS TES
Indeks Reliabilitas 0,81 – 1,00 0,61 – 0,80 0,41 – 0,60 0,21 – 0,40 0,00 – 0,20
Kategori Reliabilitas Sangat tinggi Tinggi Cukup Rendah Sangat rendah
Indeks daya beda suatu butir tes adalah kemampuan suatu butir untuk membedakan antara peserta tes yang mempunyai nilai tinggi dan peserta tes yang mempunyai nilai rendah. Hal ini didasarkan kepada pendapat [7], “discrimination index measure the extent to which a test item discriminates or differentiates between students who do well on the overall test and those who do not do well on the overall test”. Indeks daya beda adalah karakteristik butir tes yang membedakan antara peserta tes yang menjawab keseluruhan tes dengan baik dan yang tidak. Indeks daya beda dibedakan menjadi tiga yaitu positif, negatif dan nol. Dan menurut [5], “the item discrimination index is the difference between the fraction of the upper group answering the item correctly and the fraction of the lower group answering it correctly”. Indeks daya beda adalah perbedaan antara kelompok atas yang menjawab butir tes dengan benar dan kelompok bawah yang menjawab butir tes dengan benar. Daya beda butir dapat diketahui dengan melihat besar kecilnya indeks daya beda atau angka yang menunjukkan besar kecilnya daya beda. Adapun fungsi dari daya beda tersebut adalah untuk mendeteksi perbedaan individual yang sekecil-kecilnya diantara para peserta tes. Salah satu cara yang banyak digunakan dalam megestimasi indeks daya beda adalah menggunakan korelasi point biserial. Menurut [14], rumus mengestimasi indeks daya beda dengan menggunakan korelasi point biserial sebagai berikut:
r pb
X 1 X 0 p(1 p) Sx
Dimana r pb adalah korelasi point biserial. X 1 adalah rata-rata skor peserta tes yang menjawab benar. X 0 adalah rata-rata skor seluruh peserta tes yang menjawab salah. Sx adalah standar deviasi skor seluruh peserta tes. pi adalah proporsi peserta tes yang menjawab benar. Menurut [15] dan menurut [16], penentuan keberfungsian indeks daya beda suatu butir tes sebagai berikut:
962
SEMINAR NASIONAL MATEMATIKA DAN PENDIDIKAN MATEMATIKA UNY 2015
TABEL 4. KRITERIA KEBERFUNGSIAN INDEKS DAYA BEDA BUTIR TES
Indeks Daya Beda > 0,30 0,20 – 0,30 < 0,20
Keberfungsian Butir Tes Baik dan diterima Cukup baik dan perlu perbaikan Kurang baik dan tidak diterima
Indeks kesukaran butir tes adalah proporsi peserta tes yang menjawab benar. Hal ini didasarkan kepada pendapat [4], “the item difficulty is defined as the proportion of examinees who get that item correct”. Indeks kesukaran adalah proporsi peserta tes yang menjawab benar. Semakin tinggi indeks kesukaran butir tes maka semakin mudah butir tes tersebut. Dan menurut [5], “the fraction of the total group answering the item correctly is called the item difficulty index”. Indeks kesukaran adalah bagain peserta tes yang menjawab benar. Rumus untuk menentukan indeks kesukaran butir menurut [5] sebagai berikut:
banyaknya peserta tes yang menjawab benar banyaknya peserta tes Dengan p adalah indeks kesukaran butir tes. Menurut [4] dan menurut [1], penentuan indeks kesukaran butir tes sebagai berikut: p
TABEL 5. KRITERIA INDEKS KESUKARAN BUTIR TES
Indeks Kesukaran > 0,70 0,30 – 0,70 < 0,30
Kesukaran Butir Tes Mudah dan kurang baik Sedang dan baik Sukar dan kurang baik
Distractor dikatakan efektif jika dipilih minimal oleh 2% dari seluruh peserta tes dan memiliki nilai korelasi point biserial negatif. Distractor yang tidak efektif sebaiknya diganti dengan distractor lain yang mungkin lebih menarik perhatian peserta tes yang belum menguasai pengetahuan dalam butir tes untuk memilih distractor tersebut. Pendekatan yang kedua yang digunakan dalam analisis kuantitatif tes Ujian Sekolah Matematika SMP di Kabupaten Bangkalan adalah teori respons butir. Menurut [17], “item response theory (IRT) models show the relationship between the ability or trait (symbolized ) measured by the instrument and an item response”. Teori respons butir adalah model yang menunjukkan hubungan antara kemampuan atau trait (disimbolkan ) yang diukur oleh instrumen dan sebuah respons butir. Menurut [18], “one central concept of item response theory is the item characteristic curve (ICC). An ICC plots the probability of responding correctly to an item as a function of the latent trait (denoted by ) underlying performance on the items on the test”. Konsep utama dari teori respons butir adalah kurva karakteristik butir. Sebuah kurva karakteristik butir dari probabilitas peserta tes menjawab benar suatu butir tes merupakan sebuah fungsi dari latent trait (disimbolkan ) yang didasari karakteristik butir tes. Menurut [19], teori respons butir adalah model matematis yang memiliki probabilitas peserta tes menjawab benar tergantung pada kemampuan peserta tes dan karakteristik butir. Peserta tes dengan kemampuan tinggi akan memiliki probabilitas menjawab benar lebih tinggi dari pada peserta tes dengan kemampuan rendah. Dari beberapa pendapat di atas dapat disimpulkan bahwa teori respons butir adalah model matematika yang menunjukkan hubungan antara kemampuan peserta tes menjawab benar dengan karakteristik butir yang disimbolkan dengan . Untuk mempermudah perhitungan dalam teori respons butir digunakanlah distribusi logistik atau model logistik. Menurut [1], ada tiga model logistik berdasarkan jumlah parameter butir yaitu 1-P, 2-P dan 3-P. Parameter butir tes meliputi indeks kesukaran butir tes (a), indeks daya beda butir tes (b) dan peluang menebak atau guessing (c). Menurut [19], model logistik satu parameter (1-P), dua parameter (2-P), dan tiga parameter (3-P) berturut-turut sebagai berikut:
Pi ( )
e
( bi )
dengan i 1,2,3,....n
( bi )
1 e a ( bi ) e i Pi ( ) a ( bi ) 1 e i 963
dengan i 1,2,3,....n
ISBN. 978-602-73403-0-5
a ( bi ) e i Pi ( ) ci (1 ci ) dengan i 1,2,3,....n ai ( bi ) 1 e Dimana Pi ( ) adalah peluang menjawab butir tes ke-i benar, dipilih secara acak yang memiliki kemampuan . adalah tingkat kemampuan peserta tes (sebagai variabel bebas). ai adalah indeks daya beda butir tes ke-i. bi adalah indeks kesukaran butir tes ke-i. ci adalah peluang menebak butir tes ke-i. e adalah bilangan natural yang nilainya mendekati 2,718. Dan, n adalah banyaknya butir tes dalam tes. Langkah pertama yang harus dilakukan dalam menganalisis butir tes menggunakan teori respons butir adalah mengestimasi parameter. Estimasi parameter meliputi estimasi parameter butir tes maupun estimasi parameter kemampuan peserta tes. Setelah mengestimasi parameter, langkah selanjutnya dalam teori respons butir adalah mengetahui kecocokan model (goodness of fit). Tujuan langkah ini adalah untuk menguji karakteristik butir tes setelah direspon oleh berbagai kemampuan peserta tes. Langkah ini akan menentukan model yang digunakan sesuai dengan model 1-P, 2-P atau 3-P. Pengujian kecocokan model dengan statistik menggunakan statistik Zij2 yang berdistribusi khi kuadrat (chi square). Menurut [20], rumus menentukan Zij2 adalah sebagai berikut:
Z ij
pij E ( pij ) E ( pij )[1 E ( pij )] N ij
Dimana pij adalah proporsi jawaban benar pada butir tes ke-i dalam kelompok kemampuan ke-j. E(pij) adalah nilai harapan. Dan Nij adalah banyak peserta tes yang menjawab butir tes ke-i dalam kelompok kemampuan ke-j. Langkah terakhir dalam teori respons butir adalah menentukan kriteria butir tes. Penentuan kriteria butir tes dilihat berdasarkan kecocokan model dan parameter butir tes yang meliputi indeks kesukaran, indeks daya beda dan peluang menebak (guessing). Kriteria butir tes berdasarkan teori respons butir menurut Menurut [21], [22], dan [23]adalah: TABEL 6. KRITERIA BUTIR TES BERDASARKAN TEORI RESPONS BUTIR
Model Parameter 1-P 2-P
3-P
Kriteria Baik
Cukup Baik
p > 0,05 -2 b 2 p > 0,05 0a2 -2 b 2 p > 0,05 0a2 -2 b 2 c 0,25
p > 0,05 b < -2 atau b > 2 p > 0,05 Salah satu kriteria a atau b tidak terpenuhi p > 0,05 Salah satu kriteria a, b atau c tidak terpenuhi
Belum Dapat Ditentukan p < 0,05 p < 0,05
p < 0,05
Selain untuk mengetahui kualitas tes masing-masing paket tes Ujian Sekolah Matematika SMP di Kabupaten Bangkalan, perlu juga mengetahui kesetaraan antar paket tes. Menurut [24], “Equating is the strongest form of linking between the scores on two tests. Equating may be viewed as a form of scale aligning in which very strong requirements are placed on the tests being linked”. Penyetaraan adalah bentuk terbaik yang menghubungkan antara skor pada dua tes. Penyetaraan dapat dilihat sebagai bentuk mensejajarkan skala tes yang mempunyai hubungan yang sangat baik dalam tes-tes yang setara. Menurut [25], “Equating is a statistical process that is used to adjust scores on test forms so that scores on the forms can be used interchangeably”. Penyetaraan adalah proses statistik yang digunakan untuk menyesuaikan skor pada tes sehingga skor tersebut dapat digunakan secara bergantian. Menurut Heri Retnawati (2014: 93), penyetaraan adalah proses menghubungkan skor-skor tes secara statistik dan konseptual yang bertujuan untuk dapat saling menggantikan. Berdasarkan beberapa definisi di atas dapat disimpulkan bahwa penyetaraan atau equating merupakan suatu prosedur statistik dan konseptual dalam rangka menyetarakan skor dari perangkat tes yang satu ke perangkat tes yang lain sehingga hasilnya dapat diperbandingkan dan dapat dipertukarkan penggunaannya. Tujuan penyetaraan tes adalah untuk membandingkan sedekat mungkin skor dari dua tes.
964
SEMINAR NASIONAL MATEMATIKA DAN PENDIDIKAN MATEMATIKA UNY 2015
Pendekatan penyetaraan atau equating yang digunakan adalah metode rerata dan rerata. Menurut [19], metode rerata dan rerata merupakan metode penyetaraan yang melibatkan 2 parameter yaitu indeks daya beda dan indeks kesukaran butir. Konstanta penyetaraan dapat diperoleh dari rerata indeks daya beda dan rerata indeks kesukaran butir. Persamaan penyetaraan menurut [19] adalah b2 b1 a a2 1
Kemudian diperoleh b2 b1
Dengan
a a2 1
Dengan b1 dan b2 adalah rerata indeks kesukaran butir tes 1 dan tes 2. a1 dan a 2 dan rerata indeks daya beda butir tes 1 dan tes 2. dan adalah konstanta penyetaraan. Dua tes dikatakan setara jika kurva masing-masing tes yang dibentuk dari tingkat kemampuan peserta tes dan peluang menjawab butir tes benar berhimpit. III.
SIMPULAN DAN SARAN
Berdasarkan pembahasan di atas maka dapat disimpulkan bahwa untuk mengetahui kualitas dan kesetaraan tes dalam Ujian Sekolah Matematika SMP di Kabupaten Bangkalan diperlukan analisis baik secara kualitatif dan kunatitatif. Analisis tes secara kualitatif dibantu oleh pakar untuk menilai tes dari aspek materi, konstruksi dan bahasa. Analisis tes secara kuantitatif menggunakan pendekatan teori tes klasik dan teori respons butir. Sedangkan untuk mengetahui kesetaraan tes digunakan pendekatan teori respons butir metode rerata-rerata. Suatu tes dikatakan berkualitas jika mampu menunjukkan validitas isi, validitas konstruk, reliabilitas dan karakteristik tes lainnya yang baik. Sedangkan dua tes dikatakan setara jika kurva tingkat kemampuan peserta tes dan peluang menjawab butir tes benar berhimpit. Makalah ini hanya sebatas kajian teoritis sehingga masih banyak kekurangan. Oleh karenanya kajian secara teoritis ini perlu dilanjutkan dengan penelitian secara empiris sehingga mampu menggambarkan kualitas tes Ujian Sekolah Matematika SMP di Kabupaten Bangkalan. DAFTAR PUSTAKA [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17]
Djemari Mardapi. “Pengukuran penilaian & evaluasi pendidikan”. Yogyakarta: Nuha Litera, 2012 NCTM. “Principles and standards for school mathematics”. USA: The National Council of Teachers of Mathematics, Inc, 2000 Popham, W. James. “Classroom assessment: what teachers need to know”. Boston: Allyn and Bacon, 1995 Allen, M. J., & Yen, W. M. “Introduction to measurement theory”. California: Brooks/Cole Publishing Company, 1979 Nitko, Anthony J. & Brookhart, Susan M. “Educational assessment of students”. Englewood Cliffs. NJ: Prentice-Hall, Inc.,2007 Miller, M.D., Linn, R.L., & Gronlund, N.E. “Measurement and assessment in teaching”. Upper Saddle River, N.J.: Pearson, 2009 Kubiszyn, Tom & Borich, Gary. “Educational testing and measurement, seventh edition”. NJ: John Wiley & Sons, Inc., 2003 Nonoh Siti Aminah. Karakteristik metode penyetaraan skor tes untuk data dikotomos. “Jurnal Penelitian dan Evaluasi Pendidikan, Vol. Dies Natalis ke-48 UNY”, 2012, pp. 88-101, Haladyna, Thomas M. “Developing and validating multiple-choice test items”. New Jersey: Lawrence Erlbaum Associates, Inc., 2004 Aiken, Lewis R. Content validity and reliability of single items or questionnaires. “Educational and Psychological Measurement. Vol. 40”, 1980, pp. 955-959. Urbina, Susana. “Psychological Testing Second Edition”. New Jersey: John Wiley & Sons, Inc., 2014 Ary, Donald., et al. “Introduction of research in education 8th edition”. USA: Wadsworth, 2010 Suharsimi Arikunto. “Dasar-dasar evaluasi pendidikan”. Jakarta: Bumi Aksara,1999 Wright, Robert J. “Educational assessment”. USA: Sage Publication, Inc., 2008 Djemari Mardapi. “Pengembangan instrumen penelitian pendidikan”. Yogyakarta: Nuha Litera, 2005 Ebel, Robert L & Frisbie, David A. “ Essentials of educational measurement”. New Jersey: Prentice-Hall, Inc., 1991 DeMars, Christine. “ Item response theory”. NY: Oxford University Press, Inc., 2010
965
ISBN. 978-602-73403-0-5
[18] Crocker, Linda & Algina, James. “ Introduction to classical and modern test theory”. Ohio: Cengage Learning, 2008 [19] Heri Retnawati. “Teori respon butir dan penerapannya”. Yogyakarta: Parama Peblishing, 2014 [20] Hambleton, R. K., Swaminathan, H., & Roger, H.J. “Fundamenthal of item respons theory”. Newbury Park, CA: Sage Publication Inc., 1991 [21] Hambleton, R. K, & Swaminathan, H. “Item respons theory”. Boston: Kluwer-Nijhoff Publ., 1985 [22] Kusaeri. Menggunakan model DINA dalam pengembangan tes diagnostik untuk mendeteksi salah konsepsi. “Jurnal Penelitian dan Evaluasi Pendidikan, Vol. 16, 1”, 2012, pp. 281-306. [23] I Wayan Gunartha, Badrun Kartowagiran, & Siti Partini Suardiman. “Pengembangan model evaluasi program layanan pendidikan anak usia dini (PAUD). “Jurnal Penelitian dan Evaluasi Pendidikan, Vol. 18, 1”, 2014, pp. 30-43. [24] Von Davier, Alina A. “Statistical models for test equating, scaling and linking”. New Jersey: Springer., 2011 [25] Kolen, Michael J. & Brennan, Robert L. “ Test equating, scaling and linking”. New York: Springer., 2004
966