Rabu, 21 September 2016

Analisis Kualitas Butir Soal

BAB I
PENDAHULUAN
A.    LATAR BELAKANG
Tes merupakan salah satu cara untuk mengevaluasi proses pembelajaran yang dianggap mampu memfasilitasi kebutuhan orang-orang di bidang pendidikan tentang perangkat atau alat yang mampu memberi gambaran tentang proses pembelajaran yang dilaksanakan. Untuk menghasilkan gambaran yang akurat, relevan dan sesuai dengan data yang sesungguhnya terjadi di lapangan membutuhkan tes yang berkualitas. Oleh karena itu dibutuhkan analisis kualitas tes guna menciptakan kualitas tes yang benar-benar mampu melaksanakan tugasnya sebagai alat evaluasi.
Analisis kualitas tes merupakan suatu tahap yang harus ditempuh untuk mengetahui derajat kualitas suatu tes, baik tes secara keseluruhan maupun butir soal yang menjadi bagian dari tes tersebut. Analisis kualitas tes digunakan untuk menjawab pertanyaan apakah tes sebagai alat ukur benar-benar mampu mengukur apa yang sebenarnya hendak diukur dan apakah tes tersebut dapat diandalkan dan berguna bagi dunia pendidikan.
B.     RUMUSAN MASALAH
Adapun rumusan masalahnya adalah :
1.      Bagaimana validitas itu ?
2.      Bagaimana Reliabilitas itu?
3.      Bagaimana kepraktisan itu?
4.      Bagaimana objektifitas itu?
5.      Bagaimana analisis kutip soal itu ?
6.      Bagaimana analisis pengecoh itu ?
7.      Bagaimana analisis homogenitas soal itu?
8.      Bagaimana efektifitas fungsi opsi itu ?
C.    TUJUAN PENULISAN
Dilihat dari rumusan masalah diatas maka diambillah tujuannnya yaitu
1.   Mengetahui validitas,
2. Mengetahui reliabilitas,
3. Mengetahui kepraktisan,
4. Mengetahui objektifitas,
5. Mengetahui analisis kualitas kutip soal,
6. Mengetahui analisis pengecoh,
7. Mengetahui analisis homogenitas soal,
8.  Mengetahui efektifitas fungsi opsi.
     
BAB II
PEMBAHASAN
A.    Validitas
Sebelum  menggunakan suatu tes, hendaknya mengukur terlebih dahulu derajat validitasnya berdasarkan kriteria tertentu. Dengan kata lain, untuk melihat apakah tes tersebut valid (sahih), Anda harus membandingkan skor peserta didik yang didapat dalam tes dengan skor yang dianggap sebagai nilai baku. Misalnya, nilai ujian akhir semester peserta didik dalam salah satu mata pelajaran dibandingkan dengan nilai ujian akhir semester pada mata pelajaran yang lain. Semakin mendekati kedua skor tersebut, maka semakin soal ujian akhir tadi dapat dikatakan valid. Validitas suatu tes erat kaitannya dengan tujuan penggunaan tes tersebut. Namun demikian, tidak ada validitas yang berlaku secara umum. Artinya, jika suatu tes dapat memberikan informasi yang sesuai dan dapat digunakan untuk mencapai tujuan tertentu, maka tes itu valid untuk tujuan tersebut.[1]
Ada dua hal penting dalam validitas yaitu pertama, validitas yang menunjukkan suatu derajat, ada yang sempurna, ada yang sedang, dan ada yang rendah. Kedua, validitas selalu dihubungkan dengan suatu putusan dengan suatu putusan atau tujuan yang spesifik. Sebagaimana pendapat R.L. Thorndike dan H.P. Hagen (1997) bahwa “ validity is always in relation to a spesific decision or use”. Sementara itu, Grounlund (1985) mengemukakan ada tiga faktor yang mempengaruhi validitas hasil tes, yaitu :
1.  Faktor instrumen evaluasi
2.  Faktor administrasi evaluasi dan penskoran
3.  Faktor dari jawaban peserta didik[2]
Dalam literatur modern tentang evaluasi, banyak dikemukakan tentang jenis-jenis-jenis validitas, antara lain :
1.        Validitas permukaan
Validitas ini menggunakan kriteria yang sangat sederhana, karena hanya melihat dari sisi muka atau tampang dari instrumen itu sendiri. Artinya jika suatu tes secara sepintas telah dianggap baik untuk mengungkapkan fenomena yang akan diukur, maka tes tersebut sudah dapat dikatakan memenuhi syarat validitas permukaan, sehingga tidak perlu lagi adanya judgement yang mendalam.[3]
2.        Validitas isi
Validtas isi sering digunakan dalam penilaian hasil belajar. Tujuan utamanya adalah untuk mengetahui sejauh mana peserta didik menguasai materi pelajaran yang telah disampaikan, dan perubahan-perubahan psikologis apa yang timbul pada diri peserta didik tersebut setelah mengalami proses pembelajaran tertentu.[4]
3.        Validitas empiris
Validitas ini biasanya menggunakan teknik statistik, yaitu analisis korelasi. Hal ini disebabkan validitas empiris mencari hubungan antara skor tes dengan suatu kriteria tertentu yang merupakan suatu tolak ukur diluar tes yang bersangkutan. Namun, kriteria itu harus relevan dengan apa yang diukur. Validitas ini biasa disebut dengn Validitas yang dihubungkan dengan kriteria ( citerion-related validity ) atau validitas statistik ( statistical validity ). Ada tiga macam validitas empiris, yaitu :
a.       Validitas prediktif (predictive validity)
b.      Validitas kongruen (concurrent validity)
c.       Validitas sejenis ( congruent validity)[5]   
Validitas prediktif adalah jika kriteria standar yang digunakan adalah untuk meramalkan prestasi belajar murid masa yang akan datang. Dengan kata lain, validitas ini bermaksud untuk melihat hingga mana suatu tes dapat memperkirakan perilaku peserta didik pada masa yang akan datang. Sedangkan, validitas kongruen adalah jika kriteria standarnya berlainan. Misalnya, skor tes dalam mata pelajaran Bahsa Indonesia dikorelasikan dengan skor tes Bahasa Inggris. Sebaliknya, jika kriteria standarnya sejenis, maka validitas tersebut disebut validitas sejenis. Misalnya, Bahasa Indonesia dengan Bahasa Indonesia.[6]
Sehubungan dengan kriteria khusus, Anastasi dalam Conny Semiawan Stamboel (1986), mengemukakan ada delapan kriteria sebagai bahan bandingan untuk merumuskan apa yang hendak diselidiki oleh suatu tes, yaitu :
a.       Differensiasi umur
b.      Kemajuan akademis
c.       Kriteria dalam pelaksanaan latihan khusus
d.      Kriteria dalam pelaksanaan kerja
e.       Penilaian
f.       Kelompok yang dipertentangkan
g.      Korelasi dengan tes lain
h.      Konsistensi internal[7]
4.        Validitas konstruk
Konstruk adalah konsep yang dapat diobservasi (observable) dan dapat diukur (measureble). Validitas konstruk berkenaan dengan pertanyaan hingga mana suatu tes betul-betul dapat mengobservasi dan mengukur fungsi psikologis yang merupakan deskripsi perilaku perserta didik yang akan diukur oleh tes tersebut. validitas konstruk banyak dikenal dan digunakan dalam tes-tes psikologi untuk mengukur gejala perilaku yang abstrak, seperti kesetiakawanan, kematangan emosi, sikap, motivasi, minat, dan sebagainya.[8]
Untuk menguji validitas konstruk dapat dilakukan dengan berbagai sumber, antara lain validitas isi, validitas prediktif, dan validitas kongkuren. Analisis statistika yang digunakan dalam validitas konstruk antara lain dengan analisis faktor (factor analysis), sehingga dapat diketahui :
a.       Aspek-aspek apa saja yang diukur oleh setiap butir soal
b.      Berapa besar suatu butir soal berisi faktor-faktor tertentu
c.       Faktor-faktor apa yang diukur oleh suatu butir soal[9]

5.        Validitas faktor
Dalam penilian hasil belajar sering digunakan skala pengukuran tentang suatu variabel yang terdiri atas faktor. Faktor-faktor tersebut diperoleh berdasarkan dimensi/indikator dari variabel yang diukur sesuai dengan apa yang terungkap dalam konstruksi teoritisnya. Meskipun variabel terdiri atas beberapa faktor, tetapi prinsip homogenitas untuk keseluruhan faktor harus tetap dipertahankan sehingga tidak terjadi tumpang tindih antara satu faktor dengan faktor yang lain. Dengan demikian, kriterium yang digunakan dalam validitas faktor ini diketahui dengan menghitung homogenitas skor setiap faktor dengan total skor, dan antara skor dari faktor yang satu dengan skor faktor yang lain.[10]
B.     Reliabilitas
Reabilitas adalah tingkat atau derajat konsistensi dari suatu instrumen. Reabilitas tes berkenaan dengan pertanyaan, apakah suatu tes teliti dan dapat dipercaya sesuai dengan kriteria yag telah ditetapkan. Suatu tes dapat dikatakan reliabel jika selalu memberikan hasil yang sama bila diteskan pada kelompok yang sama pada waktu atau kesempatan yang berbeda. Kerlinger (1986) mengemukakan “reabilitas dapat diukur dari tiga kriteria, yaitu stability, dependability, dan predictability.” Dimana stability menunjukkan keajegan suatu tes dalam mengukur gejala yang sama pada waktu yang berbeda. Dependability menunjukkan kemampuan suatu tes atau seberapa jauh tes dapat diandalkan. Predictability menunjukkan kemampuan tes untuk meramalkan hasil pada pengukuran gejala selanjutnya. Untuk meningkatkan reabilitas dapat dilakukan dengan memperbanyak butir soal.[11]
Selanjutnya, Grounlund (1985) mengemukakan ada empat faktor yang dapat mempengaruhi reabilitas, yaitu “panjang tes, sebaran skor, tingkat kesukara, dan objektivitas.” Konsep reabilitas mendasari kesalahn pengukuran yang mungkin terjadi pada suatu proses pengukuran atau pada nilai tunggal tertentu, sehingga menimbulkan perubahan pada susunan kelompoknya (errror of measurement).[12]
C.    Kepraktisan
Kepraktisan merupakan syarat suatu tes standar. Kebanyakan orang membuat tes hanya untuk kepentingan dirinya sendiri, tidak berpikir untuk orang lain. akibatnya, ketika tes tersebut digunakan orang lain, maka orang tersebut akan merasa kesulitan.kepraktisan mengandung arti kemudahan suatu tes, baik dalam mempersiapkan, menggunakan, mengolah dan menafsirkan, maupun mengadministrasikannya. Dimyati dan Mudjiono (1994) mengemukakan faktor-faktor yang mempengaruhi kepraktisan instrumen evaluasi meliputi “kemudahan mengadministrasi, waktu yang disediakan untuk mencarakan evaluasi, kemudahan menskor, kemudahan interpretasi dan aplikasi, tersedianya bentuk instrumen evaluasi yang ekuivalen atau sebanding”[13]

D.    Objektifitas
Objektifitas disini menunjukkan skor tes kemampuan yang sama antara peserta didik yang satu dengan peserta didik lainnya. Peserta didik memperoleh hasil yang sama dalam mengerjakan suatu tes. Jika peserta didik memiliki tingkat kemampuan yang sama, maka akan memperoleh hasil tes yang sama pada saat mengerjakan tes yang sama. Objektifitas prosedur tes yang tinggi akan memperoleh reliabilitas hasil tes yang tidak dipengaruhi oleh prosedur penskoran. Konsep reliabilitas mendasari kesalahan pengukuran yang mungkin terjadi pada suatu proses pengukuran atau pada nilai tunggal tertentu, sehingga menimbulkan perubahan pada susunan kelompoknya (error of measurement). Misalnya, guru mengetes peserta didik dengan instrumen tertentu dan mendapat nilai 70. Kemudian pada kesempatan yang berbeda dengan instrumen yang sama, guru melakukan tes kembali, ternyata peserta didik tersebut mendapat nilai 75. Artinya, tes tersebut tidak reliabel, karena terjadi kesalahan pengukuran. Tes yang reliabel adalah apabila koefisien reliabilitasnya tinggi dan kesalahan baku pengukurannya (standard error of measurement) rendah.[14]
E.     Analisis Kualitas Butir Soal
1.      Tingkat Kesukaran Soal (difficulty index)
Perhitungan tingkat kesukaran soal adalah pengukuran seberapa besar derajat kesukaran suatu soal. Jika suatu soal memiliki tingkat kesukaran seimbang, maka dapat dikatakan bahwa soal tersebut baik. Suatu soal tes hendaknya tidak terlalu sukar dan tidak pula terlalu mudah.[15]
a.       Menghitung tingkat kesukaran soal bentuk objektif
TK =
Keterangan :
WL      : jumlah peserta didik yang menjawab salah dari kelompok bawah
WH     : jumlah peserta didik yang menjawab salah dari kelompok atas
nL        : jumlah kelompok bawah
nH       : jumlah kelompok atas[16]
b.      Menghitung tingkat kesukaran untuk soal bentuk uraian
Menghitung tingkat kesukaran soal bentuk uraian adalah dengan mengitung persentase peserta didik yang gagal menjawab benar atau di bawah batas lulus.[17]
2.      Daya Pembeda (discriminating power)
Perhitungan daya pembeda adalah pengukuran sejauh mana suatu butir soal mampu membedakan peserta didik yang sudah menguasai kompetensi dengan peserta didik yang belum atau kurang menguasai pembeda suatu butir soal, semakin mampu butir soal tersebut membedakan antara peserta didik yang menguasai kompetensi mengenai peserta didik yang kurang menguasai komptensi. Untuk menghitung daya pembeda setiap butir soal dapat menggunakan rumus sebagai berikut :
                                                DP :
      Keterangan :
      DP             : daya pembeda
      WL            : jumlah peserta didik yang gagal dari kelompok bawah
     WH            : jumlas peserta yang gagal dari kelompok atas
      n                : 27% x N[18]
F.     Analisis Pengecoh
Pada soal bentuk pilihan ganda ada alternatif jawaban (opsi) yang merupakan pengecoh. Butir soal yang baik, pengecohnya akan dipilih secara merata oleh peserta didik yang menjawab soal salah. Sebaliknya, butir soal yang kurang baik, pengecohnya akan dipilih secara tidak merata.
Pengecoh dianggap baik bila jumlah peserta didik yang memilih pengecoh itu sama atau mendekati jumlah ideal. Indeks pengecoh dihitung dengan rumus :
IP =  x 100%
Keterangan :
IP        : indeks pengecoh
P          : jumlah peserta didik yang memilih pengecoh
N         : jumlah peserta didik yang mengikuti tes
B         : jumlah peserta didik yang menjawab benar pada setiap soal\
n          : jumlah alternatif jawaban (opsi)
1          : bilangan tetap
Catatan :
Jika semua peserta didik menjawab benar pada butir soal tertentu (sesuai kunci jawaban), maka IP = 0 yang berarti soal tersebut jelek. Dengan demikian, pengecoh tidak berfungsi.[19]
G.    Analisis Homogenitas Soal
Homogen tidaknya butir soal diketahui dengan menghitung koefisien korelasi antara skor tiap butir dengan skor total. Perhitungan dilakukan sebanyak butir soal dalam tes yang bersangkutan. Jika jumlah soal ada 100, maka perhitungan koefisien korelasi sebanyak 100 kali. Skor setiap butir soal adalah 1 atau 0, sedangkan skor total tiap peserta didik bervariasi. Salah satu tekhnik korelasi yang dapat digunakan adalah korelasi product-moment atau korelasi point biserial. Butir soal dikatakan homogen, apabila koefisien korelasinya sama atau di atas batas signifikan (harga kritik korelasi). Sebaliknya, butir soal dikatakn tidak homogen, jika koefisien korelasinya negatif atau lebih kecil dari batas signifikan. Butir soal yang tidak homogen kemungkinan besar mengukur aspek lain di luar materi/bahan yang diajarkan, karena tidak sesuai dengan kompetendi yang telah ditetapkan. Butir soal yang demikian sebaiknya direvisi atau dibuang.[20]

H.    Efektivitas Fungsi Opsi
Setelah tingkat kesukaran soal, daya pembeda, homogenitas dan analisis pengecoh dihitung, selanjutnya perlu diketahui pula apakah suatu opsi (alternatif jawaban) dari setiap soal berfungsi secara efektif atau tidak. Untuk itu, dapat digunakan langkah-langkah sebagai berikut :
1.      Menentukan jumlah peserta didik (N)
2.      Menentukan jumlah sampel (n), baik untuk kelompok atas maupun kelompk bawah yaitu 27% x N
3.      Membuat tabel pengujian efektifitas opsi
4.      Menghitung jumlah alternatif jawaban yang dipilih perserta didik, baik untuk kelompok atas maupun kelompok bawah.
5.      Menentukan efektivitas fungsi opsi dengan kriteria:
a.       Opsi Kunci
1)        Jumlah pemilih kelompok atas dan bawah antara 25% - 75%.
2)        Jumlah pemilih kelompok atas harus lebih banyak dari jumlah pemilih kelompok bawah.
b.      Opsi Pengecoh
1)      Jumlah pemilih kelompok atas dan bawah tidak kurang dari 25%.
2)      Jumlah pemilih kelompok bawah harus lebih besar daripada kelompok atas. [21]

BAB III
PENUTUP
A.    Kesimpulan
Analisis tes dan butir soal merupakan suatu tahap yang harus ditempuh untuk mengetahui derajat kualitas suatu tes, baik tes secara keseluruhan maupun butir soal yang menjadi bagian dari tes tersebut. Suatuu instrument dapat dikatakan valid apabila benar-benar mampu mengukur apa yang hendak diukur dengan tepat. Reliabilitas merupakan derajat konsistensi suatu instrument. Suatu tes dapat dikatakan reliable apabila selalu memberikan hasil yang sama bila diteskan pada kelompok yang sama pada kesempatan yang berbeda. Hal lain yang perlu diperhatikan dalam menganalisis tes adalah kepraktisan tes tersebut, dimana kepraktisan berarti kemudahan baik dalam hal persiapan, penggunana, pengolahan, penafsiran, maupun pengadministrasian.
Analisis butir soal dilakukan dngan melakukan perhitungan kesukaran dan daya pembeda. Analisis lain yang dibutuhkan untuk memastikan kualitas tes dan butir soal adalah analisis pengecoh, analisis homogenitas, dan analisis efektifitas fungsi opsi.
B.     Saran
Saran yang dapat penulis katakan yaitu mari kita mengoreksi akan kekurangan-kekurangan diri dan berusaha untuk memperbaikinya karena makalah ini tak jauh dari sempurna jadi penulis akan menerima saran atau kritikan dari pembaca.

DAFTAR PUSTAKA
Alita. 2012. Analisi Kualitas Tes dan Butir Soal. Diakses online : http://re-alitha.blogspot.co.id (di unduh 25 November 2015)
Karneli, Yeni. 1998. Bimbingan Karir Sebagai Upaya Membantu Kesiapan Siswa DalamMemasuki Dunia Kerja.
Sukardi, Dewa Ketut. 1987. Bimbingan Karir di Sekolah-Sekolah. Jakarta: Balai Pustaka
Zainal Arifin. 2012. Evaluasi Pembelajaran. Jakarta: PT Raja Grafindo Persada




[1]  Zainal Arifin “Evaluasi Pembelajaran”(Jakarta: PT RajaGrafindo Persada, 2012) hal. 314
[2] Karneli, Yeni “Bimbingan Karir Sebagai Upaya Membantu Kesiapan Siswa”(Jakarta: PT Rineka Cipta, 2013) hal. 29
[3] Ibid.
[4]Ibid.
[5]  Ibid.
[6]  Zainal Arifin “Evaluasi Pembelajaran”(Jakarta: PT Raja Grafindo Persada, 2012) hal 316
[7] Ibid., 320
[8] Ibid
[9] Ibid.
[10]  Ibid.
[11] Karneli, Yeni “Bimbingan Karir Sebagai Upaya Membantu Kesiapan Siswa”(Jakarta: PT Rineka Cipta, 2013) hal 32
[12]  Ibid
[13] Karneli, Yeni “Bimbingan Karir Sebagai Upaya Membantu Kesiapan Siswa”(Jakarta: PT Rineka Cipta, 2013) hal 36
[14]  Ibid,. h.40
[15] Karneli, Yeni “Bimbingan Karir Sebagai Upaya Membantu Kesiapan Siswa”(Jakarta: PT Rineka Cipta, 2013) hal 32
[16] http://re-alitha.blogspot.co.id
[17] http://re-alitha.blogspot.co.id
[18]  Karneli, Yeni “Bimbingan Karir Sebagai Upaya Membantu Kesiapan Siswa”(Jakarta: PT Rineka Cipta, 2013) hal 32
[19] Ibid.
[20] Sukardi, Dewa Ketut Bimbingan Karir di Sekolah-Sekolah”.(Jakarta: Balai Pustaka 2012) hal 83
[21]  Ibid.