Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Per validità si intende la capacità del test o del questionario di riflettere il costrutto per il
quale è stato concepito.
1. validità di contenuto;
2. validità di costrutto;
3. validità orientata al criterio (predittiva o concorrente);
4. validità convergente;
5. validità divergente;
6. validità di forma;
7. validità esterna.
La validità di contenuto si riferisce alla popolazione a partire dalla
quale sono stati selezionati gli item del reattivo. Gli item finali che vanno
a comporre un test od un questionario rappresentano un campione
dell’intera popolazione di item che possono fungere da validi indicatori
del costrutto psicologico indagato. Se il campione finale di item è stato
estratto da tale popolazione, allora la validità del test è garantita.
Il primo passo per costruire un test valido ed attendibile è la corretta selezione degli
item i quali, oltre ad essere semplici e chiari, devono anche garantire la validità del test.
La selezione degli item è un procedimento complesso.
2 2
Indichiamo con sv la varianza del test di partenza e con s2v la varianza del test
raddoppiato.
Possiamo considerare il test raddoppiato come l’unione di due test di partenza. Per cui
dato che e
allora
la varianza del test raddoppiato è 4 volte la varianza del test di partenza. In generale, se
allunghiamo di m volte il test di partenza, allora
per cui il mio test deve avere almeno 33 item per raggiungere un’attendibilità pari
a 0,75.
Supponiamo di avere un test di partenza con 20 item e attendibilità 0,60.
Per prima cosa, si eliminano gli item che hanno indici di fedeltà quasi
nulli, ossia gli item per cui r T sj ' 0 .
j
A parità di indici di fedeltà, si eliminano gli item con varianza più alta. Gli item 3 e 7
hanno valori di r Tj sj simili (0,553 e 0,518, rispettivamente) ma l’item 7 ha varianza
più elevata, per cui viene eliminato.
A parità di varianza, si eliminano gli item con indici di fedeltà più bassi. Gli item 2 e 3
hanno varianze simili (0,889 e 0,917, rispettivamente) ma l’item 3 ha un più basso
indice di fedeltà, per cui viene eliminato.
Alla fine del processo, gli item selezionati sono: 1, 2, 6, 8, 9 e 10.
Eliminando gli item 3, 4, 5 e 7, il test è migliorato?
α di Cronbach:
Essa non si basa su una procedura statistica, ma su un modello matematico (la funzione
logistica).
La IRT risponde ad esigenze degli psicometristi che la Teoria Classica dei Test non
riesce a soddisfare.
Invece della funzione di densità normale si preferisce associare ad ogni item la CRL, in
quanto semplifica di molto il calcolo dei parametri.
Si ipotizza che il soggetto possa indovinare per caso la risposta corretta all’item.
ci è il parametro che indica la probabilità di risposta giusta data per caso.
Il modello con due parametri:
Se varia α:
Se varia β:
Nel modello con 1 parametro varia solo il parametro β.
Maggiore è il numero di parametri del modello, maggiore deve essere il campione dei
soggetti con cui validare il test (almeno 50 soggetti per il modello con 1 parametro;
almeno 100 per i modello con due o tre parametri).
Se gli item prevedono risposte a più livelli (es. scala Likert) aumenta il numero di
parametri β. In questo caso, il parametro β indica i confini tra i livelli.
Parametro di abilità
Parametro di difficoltà
Applicazioni della IRT
Costruzione e validazione di test: l’IRT consente di validare il test in quanto permette di
valutare, per ciascun item, il livello di difficoltà, la capacità discriminativa e la possibilità di un
successo dovuto a fattori casuali. Questo tipo di analisi item per item permette una migliore
selezione degli indicatori del reattivo. L’IRT consente anche il confronto tra versioni diverse
dello stesso test grazie alla misura della capacità informativa del test. Il test ha la massima
capacità informativa se consente di discriminare i soggetti in corrispondenza di un livello
intermedio di abilità. Software per IRT: BILOG, MULTILOG, PARSCALE, WINSTEPS,
Xcalibre, RUMM, R (ltm, TAM, mirt, catR).
L’IRT consente l’applicazione del CAT (Computerized Adaptive Testing). Il CAT è una
procedura che consente la somministrazione computerizzata dei test ai soggetti. Il vantaggio
principale è che la somministrazione del test viene adattata alle capacità del soggetto. In altri
termini, la difficoltà dell’esame viene adeguata alle capacità e competenze del soggetto,
consentendo una maggiore precisione della misura del suo livello di abilità. Il CAT si applica
utilizzando appositi programmi che selezionano tra un pool di item quelli più idonei in base
alla risposte date dal soggetto. Man mano che il soggetto risponde il programma aumenta la
difficoltà delle prove, fino a quando non si raggiunge un livello della prestazione considerato
ottimale (in base ad un criterio di terminazione). Sostanzialmente il criterio può essere del tipo
passa o sbaglia (se interessa selezionare i soggetti migliori) oppure può basarsi su una misura
precisa dell’abilità del soggetto (stabilendo una soglia minima di errore). Negli Stati Uniti il
CAT è usato nel GMAT (Graduate Management Admission Council) per la selezione di
studenti nei corsi di economia a finanza.