Sei sulla pagina 1di 32

GGGB6333

TEORI DALAM PENGUKURAN&PENILAIAN


FAKULTI PENDIDIKAN
UNIVERSITI KEBANGSAAN MALAYSIA

TEORI UJIAN KLASIKAL (CTT)


VS
TEORI RESPON ITEM (IRT)
NAMA AHLI KUMPULAN:

WAN AZHAN BIN WAN YAACOB

P66540

WAN RAZANA BINTI WAN MUSA

P66544

ERNIE NOOR FAIZAH BINTI NAIM

P67594

NORHIDAYAH BINTI ADDENAN

P69065

JAZAN BIN MOHD NOR

P59407

SOALAN 1
a) Bincang dan bandingkan Teori Ujian Klasikal
(CTT) vs Teori Respon Item (IRT).
b) Limitasi CTT
c) Kelebihan IRT berbanding CTT

RANGKA PEMBENTANGAN
BIL

TOPIK

SUBTOPIK

Pengenalan

i) Teori CTT
ii) Teori IRT

Perbandingan

i) Teori CTT
ii) Teori IRT

Limitasi

i) Teori CTT
ii) Teori IRT

Kelebihan

i) Teori CTT
ii) Teori IRT

PENGENALAN

TEORI UJIAN KLASIK /


CLASSICAL TEST THEORY (CTT)

Teori pengujian awal diperkenalkan oleh Frederick


Lord berdasarkan Teori Guilford pd 1903:
Kebolehan seseorang stabil sekurang-kurangnya
dalam satu tempoh tertentu
Boleh diukur dengan ujian
Kebolehan diukur berdasarkan jumlah skor yang
diperoleh daripada satu ujian atau bilangan item
yang dijawab betul daripada satu set item ujian

Spearman (1903) dalam Teori Ralat Pengukuran:

X o XT
skor yang kita beri kepada calon dipanggil skor
dicerap (observed score) dan bukan skor sebenar
(true score) yang menggambarkan kebolehan
atau pencapaian sebenar calon
Skor yang dicerap daripada sesuatu ujian
mengandungi ralat (Error)
Ralat di dalam sesuatu skor ujian tidak
bergantung (independent) kepada skor sebenar

TEORI UJIAN KLASIK /


CLASSICAL TEST THEORY
(CTT)
CTT mengguna dua statistik item: kesukaran dan
diskriminasi item - (Sample Dependent)

Kebolehpercayaan (reliability) didefinisikan dalam


bentuk atau ujian selari yang dikatakan
mempunyai kadaran pengukuran yang skoran
sebenar yang sama dan mempunyai ralat varians
yang sama.

TEORI RESPON ITEM / ITEM


RESPONSE THEORY (IRT)

Kebolehan diukur berdasarkan kebarangkalian menjawab


betul satu item dalam ujian
IRT ialah satu model matematik yang menetapkan hubungan
antara prestasi ujian yang boleh dilihat dan trait atau
kebolehan yang tidak nampak
Hubungan antara kuantiti yang nampak dan tak nampak itu
digambarkan oleh suatu fungsi matematik
Bentuk perhubungan menentukan Perbezaan model IRT
Contoh: model ogif normal, model logistik (1,2,3 PL), model
norma-ogive, model graded-response. model nominal
response, model continuous response(Nabeel & Chin, 2013)

TEORI RESPON ITEM / ITEM


RESPONSE THEORY (IRT)

Model IRT menentukan hubungan antara pemboleh ubah


tak ketara (selalunya dikonsepsikan sebagai kebolehan
calon] dan kebarangkalian calon menjawab betul sesuatu
item ujian

Model-model IRT kesemuanya menganggap satu


kebolehan tunggal bagi calon-calon (ditanda sebagai )
tetapi berubah ciri-ciri (parameters) mereka bagi item
berlainan

Model IRT berlainan menentukan perbezaan perhubungan


parameter
Contoh: Model Logistik 1-, 2- atau 3-parameter

MODEL RASCH (1-PARAMETER


LOGISTIC)

Dalam semua model IRT, Model Rasch paling sedikit


ramuannya untuk menentukan apa terjadi apabila seorang
calon mencuba suatu item ujian

Hanya satu parameter kebolehan (), untuk setiap calon


dan satu parameter , kesukaran item (b) untuk setiap item
(Model Satu Parameter) (Bhasah, 2003)

Apabila ditadbirkan, hasil ujian ialah interaksi antara


parameter calon dengan parameter item ujian

MODEL RESPONSE ITEM

Model IRT termudah melibatkan


hanya satu parameter: kesukaran
item

Response x berlaku apabila


calon mencuba untuk
menjawab item

Oleh itu x dilihat sebagai


keputusan interaksi antara
kebolehan calon & kesukaran
item

Kebarangkalian respons ialah


perbezaan antara ukuran
kebolehan calon () dan ukuran
kesukaran item ()

-4.0
-3.0
-2.0
-1.0
0.0
+1.0
+2.0
+3.0
+4.0

__eL__
1 + eL
0.018
0.047
0.119
0.269
0.500
0.731
0.881
0.953
x( - )
0.982

Banyak model matematik


berbeza diguna untuk
menggambarkan IRC
(Bhasah, 2003)
Model logistic diwakili
oleh:

Model Ogif Normal


diwakili oleh

Jelas, L boleh dinyatakan sebagai fungsi perbezaan kebolehan


calon dan kesukaran item: ( - )

Model IRT 1-PL


Model IRT memberikan kebarangkalian menjawab betul
suatu item atau soalan dalam sebutan interaksi antara
kebolehan calon dengan parameter item

Model IRT paling mudah menggabungkan hanya 2 element:


kebolehan calon (ditanda oleh ) dan satu parameter iaitu
kesukaran item (ditanda oleh b)

pemalar, 1.7 ialah faktor skala

Dikenali sebagai Model Satu Parameter Logistik (1-PL)

Model ini pertama diperkenal oleh Georg Rasch

P()

ialah kebarangkalian seseorang calon dengan


proficiency atau kebolehan merespons betul suatu item
beraras kesukaran b

Model IRT 2-PL & 3-PL


Model yang membenarkan parameter a
dan b berubah untuk memerihalkan
item dinamakan model logistik 2
parameter.
Model ini digunakan untuk mewakili
skala sikap (attitude scales) dan
sesetengah ujian pencapaian di mana
tekaan (guessing) dianggap tiada.
Parameter c digunakan untuk
menggambarkan tekaan dalam item
aneka pilihan.
Model 3 parameter biasa digunakan
untuk mewakili ujian kognitif.

PERBANDINGAN
CTT & IRT

PERBANDINGAN CTT & IRT


CTT
Model

Linear

IRT
Tak Linear

PERBANDINGAN CTT
DAN IRT
X=T+E

Lemah (mudah untuk


memenuhi keperluan data)

Peringkat ujian

Mempunyai kekuatan (lebih sukar


untuk memenuhi keperluan data ujiankompleks)
Unidimensi (satu ciri terpendam shj
diukur)
Local independence (apabila ciri
terpendam yang diukur tetap
(constant), maka respons pelajar
terhadap mana-mana pasangan item
adalah
bebas
Peringkat
Itemstatistik)

PERBANDINGAN CTT & IRT


CTT

Ralat
pengukuran
Hubungan
keupayaan item
Statistik item

Keupayaan

Invarian bagi
item dan
individu
Saiz sampel

Ralat= X-T
Tidak dinyatakan
p, r
p = indeks kesukaran
r = indeks diskriminasi
(korelasi skor item dengan
skor ujian)
Skor ujian (atau anggaran
skor sebenar dilaporkan
pada skala skor ujian)
Tiada parameter item dan
individu bergantung pd
sampel
Secara umum di antara 200
ke 500

IRT

Ralat= Respon Pemerhatian


Respon yang diramalkan
Item Characteristic Curve (ICC
a,b,c (bagi model 3 parameter)
a = parameter diskriminasi
b = parameter kesukaran
c = parameter tekaan
Keupayaan skor dilaporkan
pada skala - ke +
Ada- parameter item dan
individu adalah bebas @ tidak
bergantung pd sampel
Bergantung pada model IRT
yang digunakan tetapi
umumnya memerlukan sampel
yang besar (>500)

PERBANDINGAN CTT & IRT

IRT CTT
BerasaskanModel
Ketidakbergantunganparameter
item
Ketidakbergantunganparameter
kebolehan
Ralatpiawaibersyarat
Anggarankebolehansebenar

Copyright Educational Testing Service, 2004. All rights reserved.

X
X
X
X
X
19

ITEM CHARACTERISTIC
CURVE
1 .0
0 .9

0 .8

P r o b a b ility

0 .7
0 .6
0 .5

I te m 1 : b = 0 .0 , a = 1 .0 , c = 0 .2

0 .4
0 .3
0 .2

0 .1

0 .0
- 4 .0

- 3 .5

- 3 .0

- 2 .5

- 2 .0

- 1 .5

- 1 .0

- 0 .5

0 .0

0 .5

1 .0

1 .5

2 .0

2 .5

3 .0

3 .5

4 .0

A b ility

20

LIMITASI CTT

1. STATISTIK CTT:
BERGANTUNG-KUMPULAN
Purata aras kesukaran & julat skor kebolehan calon
mempengaruhi kedua-dua statistik itu. Contoh:

Nilai p lebih tinggi jika sampel calon mempunyai kebolehan


tinggi berbanding purata aras kebolehan calon dalam
populasi

Indeks diskriminasi item cenderung lebih tinggi apabila


mengguna sampel calon yang heterogeneous berbanding
sampel calon yang homogeneous

1. STATISTIK CTT:
BERGANTUNG-KUMPULAN

Heterogeneity memberi kesan yang besar kepada koefisien


korelasi

Oleh itu dua statistik item tadi hanya berguna dalam


memilih item dalam pembinaan ujian menggunakan sampel
yang menyamai populasi

Juga, kebolehpercayaan skor ujian berkadar langsung


dengan kepelbagaian skor ujian

2. BERGANTUNG-UJIAN

Dalam CTT, perbandingan calon-calon pada satu


pengukuran yang sama hanya boleh dibuat dengan
keadaan calon-calon itu diuji mengguna ujian yang sama
atau mengguna ujian selari

Kesahan ujian meningkat apabila kesukaran ujian


bersesuaian dengan aras kebolehan calon

Kebanyakan ujian dibina sesuai dengan calon-calon


berkebolehan sederhana; oleh itu ujian-ujian itu tidak
menyediakan anggaran yang tepat kebolehan calon tinggi
dan rendah

2. BERGANTUNG-UJIAN

Apabila beberapa ujian pelbagai bentuk yang mempunyai


aras kesukaran berbeza diguna, tugas untuk
membandingkan calon menjadi semakin sukar. Skor ujian
tidak lagi mencukupi.

Dua calon yang memperoleh 50% dalam dua ujian yang


berlainan kesukaran tidak boleh dianggap sama kebolehan

Adakah calon yang mendapat skor 60% dalam satu ujian


yang mudah, lebih tinggi kebolehannya daripada calon yang
mendapat skor 40% dalam ujian yang sukar?
- CTT tidak boleh menangani masalah ini dengan mudah

3. KEBOLEHPERCAYAAN
UJIAN

Dalam CTT, kebolehpercayaan ujian diperoleh melalui ujian


bentuk selari

Secara praktis, Ukuran selari sukar diperoleh

Skor calon tidak pernah sama dalam ujian yang ditadbir kali
kedua (e.g., mereka lupa, mendapat kemahiran baru,
motivasi dan anxiety berubah, etc.)

4. MERAMAL PRESTASI
CALON

CTT tidak dapat menentukan prestasi calon menggunakan


satu item ujian

Anggaran kebarangkalian seorang calon dapat menjawab


betul suatu item boleh diguna untuk memadankannya
dengan kebolehan calon itu

Maklumat ini berguna kepada pembina ujian yang ingin


meramalkan ciri-ciri skor ujian dalam satu atau lebih
populasi calon atau untuk mereka bentuk ujian-ujian yang
mempunyai ciri-ciri tertentu untuk satu populasi calon
(Hambleton et al., 1991)

CTT & VARIANCE RALAT

CTT menganggap variance ralat pengukuran sama bagi semua


calon (ralat tidak bergantung kepada calon)
(sesetengah calon menunjukkan prestasi yang lebih konsisten pada
sesuatu tugasan berbanding calon yang lain; kekonsistenan
berubah mengikut kebolehan)

Oleh itu, prestasi calon berkebolehan tinggi dalam beberapa bentuk


ujian selari boleh jadi lebih konsisten daripada calon berkebolehan
sederhana

Apa yang diperlukan ialah model yang boleh menyediakan informasi


tentang kejituan skor ujian (anggaran kebolehan), informasi spesifik
skor ujian (anggaran kebolehan) dan yang bebas berubah daripada
satu skor ujian (anggaran kebolehan) kepada skor ujian yang lain

KELEBIHAN IRT
BERBANDING CTT

KELEBIHAN IRT BERBANDING


CTT

Parameter item yang bebas daripada sampel di


mana data diperoleh (kesukaran dan
diskriminasi )
Parameter kebolehan tidak bergantung kepada
item tertentu dalam ujian
IRT boleh menilai keberkesanan ujian bagi tahap
kebolehan yang berlainan
IRT boleh mengukur kebolehan kumpulan orang
yang berbeza kebolehan berdasarkan satu skala
yang sama

KELEBIHAN IRT BERBANDING


CTT
Set ujian yang baru boleh dibina dan dikaji tanpa
perlu ditadbir dahulu
IRT menyediakan kerangka penyelesaian bagi
masalah pengujian
IRT digunakan untuk mengenal pasti ujian yang
mengandungi item-item yang berat sebelah (DIF)

RUJUKAN

Hambleton, R.K. & Jones, R. W. 1993. Comparison of classical


test theory and item response theory and their applications to
test development. educational measurement issu and practice
8: 253-262
Crocker, L. & Algina, J. 1997. Introduction to classical
andmodern test theory. Harcourt: Barace College Publishers.
Xitao. 1998. Item Response Theory and Classical Test Theory:
An empirical comparison of thei item/person statistics. Journal
Educational and Psychological Measurement. June 1998 V58 p
357 (25). Gale Group.
Siti Rahayah Ariffin. 2008. Inovasi dalam pengukuran dan
penilaian pendidikan. Fakulti Pendidikan UKM.
Nabeel Abedalaziz & Chin Hai Leng. 2013. The Relationship
between CTT and IRT Approaches in Analyzing Item
Characteristics The Malaysian Online Journal of Educational
Science Volume 1, Issue 1 m/s 64-70