Sei sulla pagina 1di 30

Validità dei reattivi

Per validità si intende la capacità del test o del questionario di riflettere il costrutto per il
quale è stato concepito.

1. validità di contenuto;
2. validità di costrutto;
3. validità orientata al criterio (predittiva o concorrente);
4. validità convergente;
5. validità divergente;
6. validità di forma;
7. validità esterna.
La validità di contenuto si riferisce alla popolazione a partire dalla
quale sono stati selezionati gli item del reattivo. Gli item finali che vanno
a comporre un test od un questionario rappresentano un campione
dell’intera popolazione di item che possono fungere da validi indicatori
del costrutto psicologico indagato. Se il campione finale di item è stato
estratto da tale popolazione, allora la validità del test è garantita.

La validità di costrutto riguarda la definizione operativa delle proprietà


del costrutto misurato tramite il reattivo. Definire operativamente un
costrutto psicologico significa tradurlo in eventi comportamentali specifici.
Un ricercatore, infatti, non potrebbe lavorare direttamente su concetti
quali quello di “attenzione”, “stile comunicativo”, “ritmo di acquisizione
del linguaggio”, poiché essi sono costrutti teorici. Per poter lavorare su
di essi, il ricercatore deve fornirne una definizione operazionale: tale
passaggio è detto operazionalizzazione e consiste, appunto, nel trasformare i
concetti teorici in variabili operative osservabili e misurabili.
La validità orientata al criterio può essere definita come il grado di
corrispondenza tra una misura ed un criterio di riferimento. Essa si basa
sul concetto che un test volto alla rilevazione di uno specifico costrutto,
per poter essere considerato valido, debba risultare in relazione con
altre misure, o indici, del medesimo costrutto.

la validità concorrente: criterio e predittore sono


rilevati contemporanemante.

la validità predittiva: criteri e predittore sono


rilevati successivamente.

La validità divergente indica il grado di disaccordo tra due o più misure di


costrutti diversi.
La validità di forma implica che il ricercatore, nell’atto di somministrare uno
specifico test, presenti lo strumento in modo tale (ad esempio, le istruzioni
devono essere scritte in modo comprensibile, gli item devono essere stampati
in modo ordinato, le pagine devono essere messe in ordine e così via) da
stimolare il più possibile le persone alla collaborazione.

la validità esterna riguarda l’applicabilità del reattivo in contesti


temporali e spaziali diversi.
Criteri da seguire per costruire un test dotato di validità:

• identificare i comportamenti o le risposte osservabili che meglio rappresentano


il costrutto in esame e ricorrere al parere di giudici esperti per
verificare la connessione tra item e costrutto esaminato dal reattivo;
• assicurarsi che nessun altro fattore/i o costrutto/i, oltre quello/i indagato/i,
possa influenzare il processo di risposta al reattivo, in modo da
escludere spiegazioni alternative dei punteggi ottenuti;
• adattare gli item del reattivo alle variazioni contestuali e temporali;
• assicurarsi che il punteggio cui il reattivo dà luogo possa essere sottoposto
ad elaborazioni statistiche;
• se si prevede una possibile relazione tra i costrutti indagati da due o
più reattivi, assicurarsi che il reattivo di cui si vuole verificare la validità
sia in grado di prevedere i punteggi di altri reattivi la cui validità
nel misurare un determinato costrutto sia già stata verificata. Se, al
contrario, si prevede indipendenza tra i costrutti indagati da due o più
reattivi, verificare che non ci sia correlazione tra i punteggi cui essi
danno adito;
• assicurarsi che il reattivo abbia una buona forma e sia presentato in
modo tale da indurre i soggetti alla collaborazione.
Tecniche di campionamento per validare i test

Il campionamento randomizzato consiste nella selezione casuale di un certo numero


di soggetti a partire da una specifica popolazione.

Il campionamento stratificato (o bilanciato) prevede che gli individui che andranno a


formare il campione, siano estratti dalla popolazione in modo da presentare in misura
equivalente determinate caratteristiche, che si suppone possano influenzare il punteggio
del singolo al reattivo.
Come costruire un nuovo test?

Il primo passo per costruire un test valido ed attendibile è la corretta selezione degli
item i quali, oltre ad essere semplici e chiari, devono anche garantire la validità del test.
La selezione degli item è un procedimento complesso.

1. non usare termini ambigui


2. non usare termini troppo difficili o desueti
3. non usare proposizioni con forme grammaticali complesse
4. mantenere una forma di risposta uniforme per gli item

La questione più pregnante che lo studioso deve affrontare riguarda, comunque, la


validità di contenuto degli item che vanno a formare il nuovo test, ossia il fatto che essi
effettivamente misurino il costrutto che il test si propone di rilevare. Un modo efficace
per affrontare questo problema consiste nel predisporre una lista composta da numerosi
item, ognuno considerato come indice della dimensione psichica d’interesse, e poi farla
valutare a dei giudici esperti del settore.
Quanti item deve avere un reattivo per essere valido?

2 2
Indichiamo con sv la varianza del test di partenza e con s2v la varianza del test
raddoppiato.
Possiamo considerare il test raddoppiato come l’unione di due test di partenza. Per cui

dato che e

allora

la varianza del test raddoppiato è 4 volte la varianza del test di partenza. In generale, se
allunghiamo di m volte il test di partenza, allora

Per la varianza d’errore e dato che allora


Aumentando la lunghezza del test di m volte, la varianza dei punteggi veri aumenta in
progressione geometrica (m2 volte), mentre la varianza dell’errore di misura aumenta in
progressione aritmetica (m volte).

Se si aumenta la lunghezza del reattivo, aumenta la sua attendibilità, indipendentemente


dalle dimensioni dell’errore casuale. Quindi, è buona norma aumentare la lunghezza del
reattivo, laddove sia possibile, tenendo in ogni caso presente che il test deve poter
essere eseguito in tempi ragionevolmente limitati, per cui non può essere composto da
un numero troppo elevato di item.

Una variante della formula profetica di Spearman-Brown consente di determinare la


lunghezza ottimale del test.
Partendo dalla formula originaria ed eseguendo tutta una serie di passaggi algebrici

alla fine otteniamo

questa formula ci consente di stabilire la lunghezza ottimale del test determinando il


numero m di volte con cui possiamo allungare il test.
Esempio:

test con 15 item e attendibilità pari a

Obiettivo: allungare il test in modo da avere un’attendibilità pari a 0,75.

moltiplico 2,172 per 15 e ottengo

per cui il mio test deve avere almeno 33 item per raggiungere un’attendibilità pari
a 0,75.
Supponiamo di avere un test di partenza con 20 item e attendibilità 0,60.

È necessario in giusto equilibrio tra attendibilità desiderata e lunghezza del test.

La tabella ci fa capire che per raggiungere un’attendibilità pari a 0,75 è necessario


raddoppiare la lunghezza del test, mentre per raggiungere un’attendibilità pari a 0,90
occorre sestuplicare la lunghezza del test.

I valori di 0,75 o di 0,80 sembrano rappresentare un buon compromesso tra l’elevata


attendibilità del test e una lunghezza tale da non affaticare eccessivamente il soggetto.
Possiamo, viceversa, decidere di ridurre la lunghezza del test.

La tabella seguente mostra cosa succede all’attendibilità se da un test di partenza con 80


item e con attendibilità pari a 0,60 si decide di dimezzare, ridurre a un terzo, a un quarto
e così via la lunghezza del reattivo. In questo caso, si usa la formula originaria di
Spearman-Brown.
La selezione degli item

Un’altra importante questione da affrontare nella costruzione di un nuovo test è quella


relativa alla individuazione di item che siano il più possibile attendibili.

Supponiamo di aver somministrato un test composto da 10 item ad un campione di 6


soggetti. I risultati sono punteggi su scala Likert da 1 a 5.
Sappiamo che la deviazione standard del test, sT coincide con la somma degli indici di
fedeltà degli item, ossia con la somma dei prodotti delle correlazioni item-test ( r Tj ) per
la deviazione standard dei singoli item ( sj ).
Procedura di selezione:

Per prima cosa, si eliminano gli item che hanno indici di fedeltà quasi
nulli, ossia gli item per cui r T sj ' 0 .
j

Gli item 4 e 5 possono essere eliminati in quanto i rispettivi indici di


fedeltà sono -0,025 e -0,045.

A parità di indici di fedeltà, si eliminano gli item con varianza più alta. Gli item 3 e 7
hanno valori di r Tj sj simili (0,553 e 0,518, rispettivamente) ma l’item 7 ha varianza
più elevata, per cui viene eliminato.

A parità di varianza, si eliminano gli item con indici di fedeltà più bassi. Gli item 2 e 3
hanno varianze simili (0,889 e 0,917, rispettivamente) ma l’item 3 ha un più basso
indice di fedeltà, per cui viene eliminato.
Alla fine del processo, gli item selezionati sono: 1, 2, 6, 8, 9 e 10.
Eliminando gli item 3, 4, 5 e 7, il test è migliorato?

Varianza del test intero:


s2T = (0; 304 + 0; 816 + 0; 224 + 0; 961 + 1; 225 + 1; 050) 2 = 20; 973

Somma delle varianze dei singoli item:


P 2
sj = 0; 472 + 0; 889 + 1; 250 + 1; 139 + 1; 667 + 1; 472 = 6; 889

α di Cronbach:

Siamo passato da un’attendibilità di 0,68 a un’attendibilità di 0,806. Quindi, il test


è migliorato.
Item Response Theory (IRT)

La IRT è una procedura diversa per la selezione degli item di un test.

Essa non si basa su una procedura statistica, ma su un modello matematico (la funzione
logistica).

La IRT risponde ad esigenze degli psicometristi che la Teoria Classica dei Test non
riesce a soddisfare.

In particolare, non dovrebbe contare il punteggio complessivo al test, ma la risposta dei


soggetti a ciascun singolo item.
La curva caratteristica dell’item (CCI)

La CCI è la funzione di probabilità della risposte corrette ( Pi (µ) ) o sbagliate all’item


( Qi (µ) ).

Essa dipende da tre parametri:


1. β (parametri di locazione o difficoltà dell’item) che varia a seconda della
difficoltà dell’item;
2. α (parametro di scala) che indica la capacità discriminativa dell’item:
3. θ (parametri di abilità) che indica il livello del tratto psicologico latente nel
soggetto.
La curva di regressione logistica (CRL)

Invece della funzione di densità normale si preferisce associare ad ogni item la CRL, in
quanto semplifica di molto il calcolo dei parametri.

Esistono tre modelli di CRL:


1. il modello con 3 parametri
2. il modello con 2 parametri
3. il modello con 1 parametro (modello di Rasch)
Il modello con tre parametri:

Si ipotizza che il soggetto possa indovinare per caso la risposta corretta all’item.
ci è il parametro che indica la probabilità di risposta giusta data per caso.
Il modello con due parametri:

In tale modello esistono solo i parametri α e β

Se varia α:

Se varia β:
Nel modello con 1 parametro varia solo il parametro β.

Maggiore è il numero di parametri del modello maggiore è la complessità dei calcoli.

Maggiore è il numero di parametri del modello, maggiore deve essere il campione dei
soggetti con cui validare il test (almeno 50 soggetti per il modello con 1 parametro;
almeno 100 per i modello con due o tre parametri).

Se gli item prevedono risposte a più livelli (es. scala Likert) aumenta il numero di
parametri β. In questo caso, il parametro β indica i confini tra i livelli.

È possibile ordinare gli item in base al livello di difficoltà, capacità discriminativa e i


soggetti in base al livello di abilità. In questo modo possiamo selezionare sia gli item
che i soggetti.
La probabilità di ottenere un punteggio rj è:

Ad esempio, la probabilità di ottenere un punteggio pari a 2 è:

Parametro di abilità
Parametro di difficoltà
Applicazioni della IRT
Costruzione e validazione di test: l’IRT consente di validare il test in quanto permette di
valutare, per ciascun item, il livello di difficoltà, la capacità discriminativa e la possibilità di un
successo dovuto a fattori casuali. Questo tipo di analisi item per item permette una migliore
selezione degli indicatori del reattivo. L’IRT consente anche il confronto tra versioni diverse
dello stesso test grazie alla misura della capacità informativa del test. Il test ha la massima
capacità informativa se consente di discriminare i soggetti in corrispondenza di un livello
intermedio di abilità. Software per IRT: BILOG, MULTILOG, PARSCALE, WINSTEPS,
Xcalibre, RUMM, R (ltm, TAM, mirt, catR).

L’IRT consente l’applicazione del CAT (Computerized Adaptive Testing). Il CAT è una
procedura che consente la somministrazione computerizzata dei test ai soggetti. Il vantaggio
principale è che la somministrazione del test viene adattata alle capacità del soggetto. In altri
termini, la difficoltà dell’esame viene adeguata alle capacità e competenze del soggetto,
consentendo una maggiore precisione della misura del suo livello di abilità. Il CAT si applica
utilizzando appositi programmi che selezionano tra un pool di item quelli più idonei in base
alla risposte date dal soggetto. Man mano che il soggetto risponde il programma aumenta la
difficoltà delle prove, fino a quando non si raggiunge un livello della prestazione considerato
ottimale (in base ad un criterio di terminazione). Sostanzialmente il criterio può essere del tipo
passa o sbaglia (se interessa selezionare i soggetti migliori) oppure può basarsi su una misura
precisa dell’abilità del soggetto (stabilendo una soglia minima di errore). Negli Stati Uniti il
CAT è usato nel GMAT (Graduate Management Admission Council) per la selezione di
studenti nei corsi di economia a finanza.

Potrebbero piacerti anche