Teori Ujian Klasikal CTT Vs Teori Respon Item

GGGB6333
TEORI DALAM PENGUKURAN&PENILAIAN

FAKULTI PENDIDIKAN
UNIVERSITI KEBANGSAAN MALAYSIA
TEORI UJIAN KLASIKAL (CTT)

VS
TEORI RESPON ITEM (IRT)
NAMA AHLI KUMPULAN:
WAN AZHAN BIN WAN YAACOB
P66540
WAN RAZANA BINTI WAN MUSA
P66544
ERNIE NOOR FAIZAH BINTI NAIM
P67594
NORHIDAYAH BINTI ADDENAN
P69065
JAZAN BIN MOHD NOR
P59407
SOALAN 1
a) Bincang dan bandingkan Teori Ujian Klasikal
(CTT) vs Teori Respon Item (IRT).
b) Limitasi CTT
c) Kelebihan IRT berbanding CTT
RANGKA PEMBENTANGAN
BIL
TOPIK
SUBTOPIK
Pengenalan
i) Teori CTT
ii) Teori IRT
Perbandingan
i) Teori CTT
ii) Teori IRT
Limitasi
i) Teori CTT
ii) Teori IRT
Kelebihan
i) Teori CTT
ii) Teori IRT
PENGENALAN
TEORI UJIAN KLASIK /

CLASSICAL TEST THEORY (CTT)
Teori pengujian awal diperkenalkan oleh Frederick

Lord berdasarkan Teori Guilford pd 1903:
Kebolehan seseorang stabil sekurang-kurangnya
dalam satu tempoh tertentu
Boleh diukur dengan ujian
Kebolehan diukur berdasarkan jumlah skor yang
diperoleh daripada satu ujian atau bilangan item
yang dijawab betul daripada satu set item ujian
Spearman (1903) dalam Teori Ralat Pengukuran:
X o XT
skor yang kita beri kepada calon dipanggil skor
dicerap (observed score) dan bukan skor sebenar
(true score) yang menggambarkan kebolehan
atau pencapaian sebenar calon
Skor yang dicerap daripada sesuatu ujian
mengandungi ralat (Error)
Ralat di dalam sesuatu skor ujian tidak
bergantung (independent) kepada skor sebenar
TEORI UJIAN KLASIK /

CLASSICAL TEST THEORY
(CTT)
CTT mengguna dua statistik item: kesukaran dan
diskriminasi item - (Sample Dependent)
Kebolehpercayaan (reliability) didefinisikan dalam

bentuk atau ujian selari yang dikatakan
mempunyai kadaran pengukuran yang skoran
sebenar yang sama dan mempunyai ralat varians
yang sama.
TEORI RESPON ITEM / ITEM

RESPONSE THEORY (IRT)
Kebolehan diukur berdasarkan kebarangkalian menjawab

betul satu item dalam ujian
IRT ialah satu model matematik yang menetapkan hubungan
antara prestasi ujian yang boleh dilihat dan trait atau
kebolehan yang tidak nampak
Hubungan antara kuantiti yang nampak dan tak nampak itu
digambarkan oleh suatu fungsi matematik
Bentuk perhubungan menentukan Perbezaan model IRT
Contoh: model ogif normal, model logistik (1,2,3 PL), model
norma-ogive, model graded-response. model nominal
response, model continuous response(Nabeel & Chin, 2013)
TEORI RESPON ITEM / ITEM

RESPONSE THEORY (IRT)
Model IRT menentukan hubungan antara pemboleh ubah

tak ketara (selalunya dikonsepsikan sebagai kebolehan
calon] dan kebarangkalian calon menjawab betul sesuatu
item ujian
Model-model IRT kesemuanya menganggap satu

kebolehan tunggal bagi calon-calon (ditanda sebagai )
tetapi berubah ciri-ciri (parameters) mereka bagi item
berlainan
Model IRT berlainan menentukan perbezaan perhubungan

parameter
Contoh: Model Logistik 1-, 2- atau 3-parameter
MODEL RASCH (1-PARAMETER

LOGISTIC)
Dalam semua model IRT, Model Rasch paling sedikit

ramuannya untuk menentukan apa terjadi apabila seorang
calon mencuba suatu item ujian
Hanya satu parameter kebolehan (), untuk setiap calon

dan satu parameter , kesukaran item (b) untuk setiap item
(Model Satu Parameter) (Bhasah, 2003)
Apabila ditadbirkan, hasil ujian ialah interaksi antara

parameter calon dengan parameter item ujian
MODEL RESPONSE ITEM
Model IRT termudah melibatkan

hanya satu parameter: kesukaran
item
Response x berlaku apabila

calon mencuba untuk
menjawab item
Oleh itu x dilihat sebagai

keputusan interaksi antara
kebolehan calon & kesukaran
item
Kebarangkalian respons ialah

perbezaan antara ukuran
kebolehan calon () dan ukuran
kesukaran item ()
-4.0
-3.0
-2.0
-1.0
0.0
+1.0
+2.0
+3.0
+4.0
__eL__
1 + eL
0.018
0.047
0.119
0.269
0.500
0.731
0.881
0.953
x( - )
0.982
Banyak model matematik

berbeza diguna untuk
menggambarkan IRC
(Bhasah, 2003)
Model logistic diwakili
oleh:
Model Ogif Normal

diwakili oleh
Jelas, L boleh dinyatakan sebagai fungsi perbezaan kebolehan

calon dan kesukaran item: ( - )
Model IRT 1-PL

Model IRT memberikan kebarangkalian menjawab betul
suatu item atau soalan dalam sebutan interaksi antara
kebolehan calon dengan parameter item
Model IRT paling mudah menggabungkan hanya 2 element:

kebolehan calon (ditanda oleh ) dan satu parameter iaitu
kesukaran item (ditanda oleh b)
pemalar, 1.7 ialah faktor skala
Dikenali sebagai Model Satu Parameter Logistik (1-PL)
Model ini pertama diperkenal oleh Georg Rasch
P()
ialah kebarangkalian seseorang calon dengan

proficiency atau kebolehan merespons betul suatu item
beraras kesukaran b
Model IRT 2-PL & 3-PL

Model yang membenarkan parameter a
dan b berubah untuk memerihalkan
item dinamakan model logistik 2
parameter.
Model ini digunakan untuk mewakili
skala sikap (attitude scales) dan
sesetengah ujian pencapaian di mana
tekaan (guessing) dianggap tiada.
Parameter c digunakan untuk
menggambarkan tekaan dalam item
aneka pilihan.
Model 3 parameter biasa digunakan
untuk mewakili ujian kognitif.
PERBANDINGAN
CTT & IRT
PERBANDINGAN CTT & IRT

CTT
Model
Linear
IRT
Tak Linear
PERBANDINGAN CTT
DAN IRT
X=T+E
Lemah (mudah untuk

memenuhi keperluan data)
Peringkat ujian
Mempunyai kekuatan (lebih sukar

untuk memenuhi keperluan data ujiankompleks)
Unidimensi (satu ciri terpendam shj
diukur)
Local independence (apabila ciri
terpendam yang diukur tetap
(constant), maka respons pelajar
terhadap mana-mana pasangan item
adalah
bebas
Peringkat
Itemstatistik)

CTT
Ralat
pengukuran
Hubungan
keupayaan item
Statistik item
Keupayaan
Invarian bagi
item dan
individu
Saiz sampel
Ralat= X-T
Tidak dinyatakan
p, r
p = indeks kesukaran
r = indeks diskriminasi
(korelasi skor item dengan
skor ujian)
Skor ujian (atau anggaran
skor sebenar dilaporkan
pada skala skor ujian)
Tiada parameter item dan
individu bergantung pd
sampel
Secara umum di antara 200
ke 500
IRT
Ralat= Respon Pemerhatian

Respon yang diramalkan
Item Characteristic Curve (ICC
a,b,c (bagi model 3 parameter)
a = parameter diskriminasi
b = parameter kesukaran
c = parameter tekaan
Keupayaan skor dilaporkan
pada skala - ke +
Ada- parameter item dan
individu adalah bebas @ tidak
bergantung pd sampel
Bergantung pada model IRT
yang digunakan tetapi
umumnya memerlukan sampel
yang besar (>500)
IRT CTT
BerasaskanModel
Ketidakbergantunganparameter
item
Ketidakbergantunganparameter
kebolehan
Ralatpiawaibersyarat
Anggarankebolehansebenar
Copyright Educational Testing Service, 2004. All rights reserved.
X
X
X
X
X
19
ITEM CHARACTERISTIC
CURVE
1 .0
0 .9
0 .8
P r o b a b ility
0 .7
0 .6
0 .5
I te m 1 : b = 0 .0 , a = 1 .0 , c = 0 .2
0 .4
0 .3
0 .2
0 .1
0 .0
- 4 .0
- 3 .5
- 3 .0
- 2 .5
- 2 .0
- 1 .5
- 1 .0
- 0 .5
0 .0
0 .5
1 .0
1 .5
2 .0
2 .5
3 .0
3 .5
4 .0
A b ility
20
LIMITASI CTT
1. STATISTIK CTT:
BERGANTUNG-KUMPULAN
Purata aras kesukaran & julat skor kebolehan calon
mempengaruhi kedua-dua statistik itu. Contoh:
Nilai p lebih tinggi jika sampel calon mempunyai kebolehan

tinggi berbanding purata aras kebolehan calon dalam
populasi
Indeks diskriminasi item cenderung lebih tinggi apabila

mengguna sampel calon yang heterogeneous berbanding
sampel calon yang homogeneous
1. STATISTIK CTT:
BERGANTUNG-KUMPULAN
Heterogeneity memberi kesan yang besar kepada koefisien

korelasi
Oleh itu dua statistik item tadi hanya berguna dalam

memilih item dalam pembinaan ujian menggunakan sampel
yang menyamai populasi
Juga, kebolehpercayaan skor ujian berkadar langsung

dengan kepelbagaian skor ujian
2. BERGANTUNG-UJIAN
Dalam CTT, perbandingan calon-calon pada satu

pengukuran yang sama hanya boleh dibuat dengan
keadaan calon-calon itu diuji mengguna ujian yang sama
atau mengguna ujian selari
Kesahan ujian meningkat apabila kesukaran ujian

bersesuaian dengan aras kebolehan calon
Kebanyakan ujian dibina sesuai dengan calon-calon

berkebolehan sederhana; oleh itu ujian-ujian itu tidak
menyediakan anggaran yang tepat kebolehan calon tinggi
dan rendah
2. BERGANTUNG-UJIAN
Apabila beberapa ujian pelbagai bentuk yang mempunyai

aras kesukaran berbeza diguna, tugas untuk
membandingkan calon menjadi semakin sukar. Skor ujian
tidak lagi mencukupi.
Dua calon yang memperoleh 50% dalam dua ujian yang

berlainan kesukaran tidak boleh dianggap sama kebolehan
Adakah calon yang mendapat skor 60% dalam satu ujian

yang mudah, lebih tinggi kebolehannya daripada calon yang
mendapat skor 40% dalam ujian yang sukar?
- CTT tidak boleh menangani masalah ini dengan mudah
3. KEBOLEHPERCAYAAN
UJIAN
Dalam CTT, kebolehpercayaan ujian diperoleh melalui ujian

bentuk selari
Secara praktis, Ukuran selari sukar diperoleh
Skor calon tidak pernah sama dalam ujian yang ditadbir kali
kedua (e.g., mereka lupa, mendapat kemahiran baru,
motivasi dan anxiety berubah, etc.)
4. MERAMAL PRESTASI
CALON
CTT tidak dapat menentukan prestasi calon menggunakan

satu item ujian
Anggaran kebarangkalian seorang calon dapat menjawab

betul suatu item boleh diguna untuk memadankannya
dengan kebolehan calon itu
Maklumat ini berguna kepada pembina ujian yang ingin

meramalkan ciri-ciri skor ujian dalam satu atau lebih
populasi calon atau untuk mereka bentuk ujian-ujian yang
mempunyai ciri-ciri tertentu untuk satu populasi calon
(Hambleton et al., 1991)
CTT & VARIANCE RALAT
CTT menganggap variance ralat pengukuran sama bagi semua

calon (ralat tidak bergantung kepada calon)
(sesetengah calon menunjukkan prestasi yang lebih konsisten pada
sesuatu tugasan berbanding calon yang lain; kekonsistenan
berubah mengikut kebolehan)
Oleh itu, prestasi calon berkebolehan tinggi dalam beberapa bentuk

ujian selari boleh jadi lebih konsisten daripada calon berkebolehan
sederhana
Apa yang diperlukan ialah model yang boleh menyediakan informasi

tentang kejituan skor ujian (anggaran kebolehan), informasi spesifik
skor ujian (anggaran kebolehan) dan yang bebas berubah daripada
satu skor ujian (anggaran kebolehan) kepada skor ujian yang lain
KELEBIHAN IRT
BERBANDING CTT
KELEBIHAN IRT BERBANDING

CTT
Parameter item yang bebas daripada sampel di

mana data diperoleh (kesukaran dan
diskriminasi )
Parameter kebolehan tidak bergantung kepada
item tertentu dalam ujian
IRT boleh menilai keberkesanan ujian bagi tahap
kebolehan yang berlainan
IRT boleh mengukur kebolehan kumpulan orang
yang berbeza kebolehan berdasarkan satu skala
yang sama
KELEBIHAN IRT BERBANDING

CTT
Set ujian yang baru boleh dibina dan dikaji tanpa
perlu ditadbir dahulu
IRT menyediakan kerangka penyelesaian bagi
masalah pengujian
IRT digunakan untuk mengenal pasti ujian yang
mengandungi item-item yang berat sebelah (DIF)
RUJUKAN
Hambleton, R.K. & Jones, R. W. 1993. Comparison of classical

test theory and item response theory and their applications to
test development. educational measurement issu and practice
8: 253-262
Crocker, L. & Algina, J. 1997. Introduction to classical
andmodern test theory. Harcourt: Barace College Publishers.
Xitao. 1998. Item Response Theory and Classical Test Theory:
An empirical comparison of thei item/person statistics. Journal
Educational and Psychological Measurement. June 1998 V58 p
357 (25). Gale Group.
Siti Rahayah Ariffin. 2008. Inovasi dalam pengukuran dan
penilaian pendidikan. Fakulti Pendidikan UKM.
Nabeel Abedalaziz & Chin Hai Leng. 2013. The Relationship
between CTT and IRT Approaches in Analyzing Item
Characteristics The Malaysian Online Journal of Educational
Science Volume 1, Issue 1 m/s 64-70

Teori Ujian Klasikal CTT Vs Teori Respon Item

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Teori Ujian Klasikal CTT Vs Teori Respon Item

Caricato da

Copyright:

Formati disponibili

GGGB6333

TEORI DALAM PENGUKURAN&PENILAIAN

TEORI UJIAN KLASIKAL (CTT)

WAN AZHAN BIN WAN YAACOB

WAN RAZANA BINTI WAN MUSA

ERNIE NOOR FAIZAH BINTI NAIM

NORHIDAYAH BINTI ADDENAN

JAZAN BIN MOHD NOR

TEORI UJIAN KLASIK /

Teori pengujian awal diperkenalkan oleh Frederick

Spearman (1903) dalam Teori Ralat Pengukuran:

TEORI UJIAN KLASIK /

Kebolehpercayaan (reliability) didefinisikan dalam

TEORI RESPON ITEM / ITEM

Kebolehan diukur berdasarkan kebarangkalian menjawab

TEORI RESPON ITEM / ITEM

Model IRT menentukan hubungan antara pemboleh ubah

Model-model IRT kesemuanya menganggap satu

Model IRT berlainan menentukan perbezaan perhubungan

MODEL RASCH (1-PARAMETER

Dalam semua model IRT, Model Rasch paling sedikit

Hanya satu parameter kebolehan (), untuk setiap calon

Apabila ditadbirkan, hasil ujian ialah interaksi antara

MODEL RESPONSE ITEM

Model IRT termudah melibatkan

Response x berlaku apabila

Oleh itu x dilihat sebagai

Kebarangkalian respons ialah

Banyak model matematik

Model Ogif Normal

Jelas, L boleh dinyatakan sebagai fungsi perbezaan kebolehan

Model IRT 1-PL

Model IRT paling mudah menggabungkan hanya 2 element:

pemalar, 1.7 ialah faktor skala

Dikenali sebagai Model Satu Parameter Logistik (1-PL)

Model ini pertama diperkenal oleh Georg Rasch

ialah kebarangkalian seseorang calon dengan

Model IRT 2-PL & 3-PL

PERBANDINGAN CTT & IRT

Lemah (mudah untuk

Mempunyai kekuatan (lebih sukar

PERBANDINGAN CTT & IRT

Ralat= Respon Pemerhatian

PERBANDINGAN CTT & IRT

Copyright Educational Testing Service, 2004. All rights reserved.

Nilai p lebih tinggi jika sampel calon mempunyai kebolehan

Indeks diskriminasi item cenderung lebih tinggi apabila

Heterogeneity memberi kesan yang besar kepada koefisien

Oleh itu dua statistik item tadi hanya berguna dalam

Juga, kebolehpercayaan skor ujian berkadar langsung

Dalam CTT, perbandingan calon-calon pada satu

Kesahan ujian meningkat apabila kesukaran ujian

Kebanyakan ujian dibina sesuai dengan calon-calon

Apabila beberapa ujian pelbagai bentuk yang mempunyai

Dua calon yang memperoleh 50% dalam dua ujian yang

Adakah calon yang mendapat skor 60% dalam satu ujian

Dalam CTT, kebolehpercayaan ujian diperoleh melalui ujian

Secara praktis, Ukuran selari sukar diperoleh

CTT tidak dapat menentukan prestasi calon menggunakan

Anggaran kebarangkalian seorang calon dapat menjawab

Maklumat ini berguna kepada pembina ujian yang ingin

CTT & VARIANCE RALAT

CTT menganggap variance ralat pengukuran sama bagi semua