Sei sulla pagina 1di 22

TEORIE E TECNICHE DEI TEST

I test psicologici sono uno strumento che consentono una misurazione indiretta di costrutti e proprietà non
misurabili direttamente, ovvero di fare una quantificazione; tale misura avviene per deduzione attraverso
dai comportamenti osservabili.

La costruzione di un test si articola su tre livelli:

- definizione del costrutto, ovvero della caratteristica psicologica da misurare,


- scelta degli indicatori comportamentali in grado di rilevare la presenza del costrutto,
- messa a punto di item, ovvero domande o compiti che consentano di ottenere una misura del
costrutto attraverso i suoi indicatori.

Costrutto: concetto astratto non osservabile (per questo motivo è detto anche “variabile latente”) che
descrive un aspetto della vita psichica e derivato da una teoria che ne offra una definizione teorica (per
esempio io misurerò che cos’è l’intelligenza in base a come io la definisco).

Indicatore: espressioni osservabili del costrutto (per questo motivo è detto anche “variabile manifesta”)
definiti in base a una regola di corrispondenza (definizione operativa) tra aspetti teorici e manifestazioni
empiriche, ovvero tra il costrutto e gli indicatori (anche se non ci potrà mai essere una corrispondenza
perfetta ed esaustiva tra di essi).

Item: elemento minimale di un test che consente di ottenere una misurazione dell’indicatore del costrutto.
I vari item di un test possono misurare indicatori diversi (che fanno riferimento a un certo costrutto) e
anche gli item non sono esaustivi degli aspetti del costrutto.

Test: Situazione standardizzata in cui il comportamento di una persona viene campionato, osservato e
descritto, producendo una misura oggettiva e standardizzata.

I test sono dunque standardizzati, ovvero i vari item sono ritenuti salienti per la misura del costrutto in
esame e vengono presentati sempre uguali e allo stesso modo; non a caso insieme ai test vengono fornite
delle istruzioni che spiegano le modalità di presentazione.

Le risposte non sono esaustive del costrutto che viene misurato, ma costituiscono un campione
dell’espressione comportamentale. Tali risposte sono poi codificate in modo oggettivo tramite una
procedura di scoring che le trasforma in un punteggio - ovvero la quantificazione di un costrutto – che può
essere poi interpretato secondo delle norme.

Dunque stimoli (item), istruzioni, procedura di scoring e norme di valutazioni rimangono sempre uguali, in
modo per avere una misurazione oggettiva e standardizzata.

Attenzione che le norme sono i criteri per interpretare i risultati mentre le istruzioni sono le modalità di
somministrazione.
TIPI DI TEST

- Test cognitivi
o Test di massima performance
Test in cui devo dare il massimo delle mie capacità; sono test che generalmente misurano
qualità. In genere c’è una risposta giusta o migliore e una o più sbagliate.
 Test di livello
Prove cognitive di varia natura (per es. memoria, intelligenza, ecc.).
 Test attitudinali
Prove cognitive selezionate in modo da valutare l’attitudine a una mansione
lavorativa o a un percorso formativo.
 Test di rendimento o di profitto
Prove per valutare le competenze acquisite dopo un percorso di formazione o di
lavoro.

- Test non cognitivi o di performance tipica


Misurano le caratteristiche stabili nel tempo.
o Test di personalità
Misurano le caratteristiche psichiche e comportamentali che rimangono stabili (non ci sono
ovviamente risposte giuste o sbagliate).
 Test di personalità proiettivo
Test in cui viene presentato uno stimolo ambiguo che deve essere interpretato (per
es. le macchie di Rorschach). Il problema dei test proiettivi è che è difficile riuscire
ad essere oggettivi.
 Test di personalità non proiettivo
Test costituito da item su cui si deve dare un punteggio, fare una scelta, ecc.
o Test di atteggiamento
Colgono valutazioni e giudizi su un certo argomento.
o Test della sfera affettiva, sociale, percezione di sé, motivazione, ecc.

I test vengono usati per vari motivi; tra i principali troviamo

- classificazione: per vedere se una persona ha o non ha certe caratteristiche (selezione, screening o
potenziale rischio per una malattia psicologica, certificazione di disturbi, perizie forensi, ecc.);
- diagnosi: per diagnosticare un disturbo;
- intervento: per fare una valutazione pre-post e verificare l’efficacia di un trattamento.
-

Test taker: chi compila il test. (sic)


Test user; chi somministra il test. (sic)
TIPI DI ITEM

Test cognitivi:

- domande aperte (intese sia come domande aperte sia come compiti da eseguire)
“Qual è la capitale della Francia?”
“Che cos’è un cucchiaio?”
“Guarda questa figura e dimmi che cosa manca.” (per esempio nel disegno di un volto manca il naso)
“Metti i cubi insieme in modo da riprodurre questa figura.”
“Disegna un orologio che indichi le 17.”
- domande chiuse (scelta binaria giusto-sbagliato o scelta multipla giusto-distrattori)

Test non cognitivi

- self-report: la persona di autodescrive rispondendo se un certo item del test la descrive, se è


d’accordo con una certa affermazione, ecc. (attraverso una scelta binaria si-no oppure una scala a
scelta multipla di tipo Likert in cui non c’è una risposta giusta o migliore). Il modo migliore per
indagare certi aspetti psicologici è quello di chiedere direttamente.

AUTO E ETEROSOMMINISTRAZIONE

Un test può essere autosomministrato o eterosomministrato; per i test non cognitivi questi possono
essere compilati anche dai genitori per i bambini, da un partner per l’altro, dal caregiver per l’anziano.

Alcuni test devono essere necessariamente eterosomministrati perché ci vuole una persona che presenti le
prove e le gestisca; inoltre in alcuni casi il somministratore deve anche gestire la prova, per esempio
aiutando se ci sono delle difficoltà, rassicurando, decidendo di fare una pausa, ecc.

Alcuni test invece possono essere anche autosomministrati. In certi casi è preferibile comunque
l’eterosomministrazione, per esempio con anziani e bambini che possono avere difficoltà – anche piccole –
di lettura, ridotte capacità attentive (nei bambini), stanchezza o sfiducia (negli anziani), limitazioni visive,
basso livello di scolarità, ecc.

Ma se l’autosomministrazione è possibile essa è preferibile perché ha costi ridotti (possono essere fatti
online), consente l’anonimato, perché si può fare una somministrazione collettiva; ovviamente si ha meno
controllo sulle risposte, ma in genere si tende a preferire questa opzione se possibile.

A volte – per selezione personale, per una prima diagnosi – si può fare una prima autosomministrazione e
poi una eterosomministrazione di un altro test per una diagnosi più precisa.
LE RISPOSTE

Nei test non cognitivi possono essere messi in atto dei response bias (distorsioni della risposta) quali

- response set, quando non voglio – volontariamente o involontariamente – non rivelare alcuni
particolari personali,
o desiderabilità sociale (tendenza a volersi presentare bene o ad adeguarsi alle norme
sociali)
o inganno (tendenza a modificare e distorcere la realtà, spesso per un obiettivo – per
esempio avere o mantenere un posto di lavoro -, anche se per esempio gli adolescenti
possono anche descriversi in modo peggiore rispetto a come sono realmente)
- response style, adottare un certo stile di risposta a prescindere dalla risposta che si vuole dare,
o acquiescenza/dissenso (tendenza a essere sempre d’accordo o in disaccordo a prescindere
dal contenuto)
o midpoint / etreme point responding (tendenza a scegliere sempre il punto centrale - per
non dare un giudizio, per indecisione - o quelli estremi)
o contraddizioni e incongruenze (rispondere a prescindere dal contenuto, anche adottando
stili di risposta, per esempio di extreme point responding).

Per contrastare i response bias si può lavorare sia durante la costruzione del test per esempio evitando le
scale Likert a passi dispari, mettendo alcuni item “in positivo” e altri “in negativo” oppure uno in un modo e
l’altro “reverse” (la stessa domanda ma posta in due modi opposti), inserire degli item di riempimento
(“filler”) per non fare capire le finalità del test e per capire se si sta adottando un response style perché si
risponde allo stesso modo anche alle domande neutre.

Anche l’anonimato aiuta anche se non sempre è possibile (per esempio un paziente che risponde a un test
somministrato da un terapeuta, un test di ammissione) e a volte non serve.

Nel momento dello scoring possiamo fare caso a incongruenze e a pattern di risposta; alcuni test
prevedono inoltre delle scale al loro interno che sono in grado di identificare queste tendenze (scale lie).
I TEST COGNITIVI

Intelligenza: abilità di acquisire e manipolare informazioni apprendendo dall’esperienza in modo efficace.

Ci sono due grandi teorie riguardanti l’intelligenza:

- teorie monodimensionali (Spearman, 1904)


Secondo la teoria di Spearman l’intelligenza può essere sintetizzata da un unico aspetto
– il fattore g – che si riferisce soprattutto alla capacità di trovare soluzioni a compiti, cogliere
relazioni, imparare dall’esperienza. Il fattore g non è legato al linguaggio.
Questo modello sarà misurato da test che si basano soprattutto sugli aspetti logici, come le Matrici
Progressive di Raven.
- teorie multidimensionali (Cattel, 1987)
Oltre a un fattore generale – detto “intelligenza fluida” – esistono anche le varie capacità specifiche
– l’“intelligenza cristallizzata” - relative a tutto ciò che ha a che fare con le competenze, il
linguaggio e le conoscenze acquisite durante lo sviluppo e tutti questi aspetti interagiscono tra loro.
In queste teorie il linguaggio fa parte delle competenze relative all’intelligenza.
Un approccio teorico di questo tipo utilizzerà test multidimensionali, come le scale Wechsler.

Le Matrici Progressive di Raven

Sono un test che misura il fattore g; sono culture-free in quanto non implicano la conoscenza di una lingua
e non sono relative a una specifica cultura (per esempio nelle Scale Wechsler si trovano domande come
“Qual è la capitale della Francia?”).

Esistono varie versioni delle Matrici Progressive:

- Matrici Progressive Colorate (CPM; Raven, 1958) per bambini fino agli 11 anni e per gli anziani,
- Matrici Progressive Standard (SPM; Raven, 1941) per bambini dagli 11 anni e per gli adulti,
- Matrici Progressive Avanzate (APM; Raven, 1962) per adulti con buon livello di scolarità e se le SPM
risultano troppo semplici (se sono troppo difficili si può tornare alle SPM). Si è visto infatti che, a
causa del miglioramento dell’istruzione e del livello culturale generale (effetto Flynn1), le SPM
erano troppo semplici.

1
L'effetto Flynn consiste nell'aumento nel valore del quoziente intellettivo medio della popolazione nel corso degli
anni. Alcuni studi recenti hanno notato come in alcuni paesi sviluppati questa tendenza si stia invertendo, mentre la
tendenza positiva sembra continuare nei paesi dove il QI medio della popolazione nazionale è più basso.
Le Scale Wechsler

Sono un test molto articolato perché misurano sia l’intelligenza fluida sia quella cristallizzata (prove sulle
conoscenze, prove operative, prove linguistiche, ecc.). Non a caso l

Il MoCA è molto più semplice e di veloce somministrazione ma si basa sugli stessi principi delle Scale
Wechsler (anche se il MoCA non è un test di intelligenza).

Le prove si dividono in due aree:

- performance: capacità di organizzazione percettiva e costruttiva,


- verbale: capacità di comprendere e apprendere materiale verbale.

Esistono varie versioni delle Scale Wechsler:

- WPPSI (età prescolare, 4-7 anni)


- WISC (età scolare, 6-16 anni)
- WAIS (adulti)

Alla fine le Scale Wechsler permettono di ottenere tre misure di quoziente intellettivo:

- QI di performance: indicazione complessiva dell’efficienza dell’organizzazione e nell’elaborazione di


stimoli non verbali,
- QI verbale: indicazione complessiva delle capacità di comprensione e apprendimento di materiale
verbale,
- QI totale: sintetizza i due indicatori.

MoCA – Montreal Cognitive Assessment

Non è un test di intelligenza, ma un test che misura il funzionamento cognitivo generale valutando diversi
domini cognitivi (memoria, linguaggio, calcolo, ecc.); viene usato con persone anziane dai 60 anni in su.

Consente di evidenziare un deterioramento cognitivo lieve e di cogliere eventuali difficoltà (da


approfondire poi successivamente con altri test psicometrici o medici).

È estremamente diffuso (tanto che è tradotto in trentasei lingue o dialetti).


I TEST NON COGNITIVI E DI PERSONALITÀ

Personalità: insieme delle caratteristiche psichiche stabili (tratti) e delle modalità comportamentali che
definiscono l’individuo nella molteplicità dei contesti in cui si trova ad agire.

Le principali teorie sulla personalità sono

- le teorie psicodinamiche (Freud, Jung)


o test proiettivi
 Test delle macchie di Rorschach (1921)
- i sistemi empirico-intuitivi (Hathaway)
o test impiegati soprattutto in caso di patologia anche a scopo di diagnosi
 Minnesota Multiphasic Personality – MMPI (1989)
Questo test – oggi alla versione MMPI-2-RF, reduced text – esamina varie scale, tra
cui anche una “scala lie” perché essendo un test self-report le risposte possono
essere modificate di proposito.
 State-Trait Anxiety Inventory - STAI
- teorie incentrate sui tratti (Allport, Cattel, Eysenecxk) e la teoria dei Big Five (Goldberg, Norman)
o test impiegati soprattutto in situazioni non patologiche
 Sixteen personality factor – 16PF (Cattel, 1961)
Esamina i sedici tratti di personalità trovati da Cattel.
 Neo Personality Inventory – NEO-PI (Costa & McRae, 2008)
 Big Five Questionnaire BFQ (Caprara et al., 2008)
Indaga i cinque elementi che comporrebbero la personalità: Coscienziosità,
Amicalità, Nevroticismo, Apertura mentale, Estroversione.
 HEXACO Personality Inventory – HEXACO-PI (Ashton & Lee, 2007)
Oltre ai tratti precedenti – pur con delle modifiche – è stato aggiunto il tratto
dell’onestà/umiltà che secondo gli autori è significativo e distinto dagli altri tratti.

Come si definiscono i vari aspetti della personalità?

Si usa un approccio lessicale e all’ipotesi della sedimentazione: vengono esaminati i termini che nel
linguaggio descrivono le differenze individuali nella personalità e vengono raggruppati in caratteristiche.
Tali termini – e di conseguenza tali caratteristiche – sono comuni in tutte le lingue.
L’HEXACO

- H: honesty/humilty (onestà/umiltà)
- E: emotionality (emotività)
- X: eXtraversion (estroversione)
- A: agreeableness (gentilezza)
- C: conscientiousness (coscienziosità)
- O: openness to experience (apertura all’esperienza)

Una volta calcolati tutti i punteggi questi vanno normalizzati secondo la media e la deviazione standard
della popolazione di riferimento in modo da vedere quali valori si allontanano significamente (>±1ds) dalla
media.

Alla fine avremo un profilo di personalità, ovvero quei tratti stabili che ci caratterizzano.

Possiamo trasformare i punti z in punti T in modo da poterli leggere come se fossero percentili (dato che il
valore medio è 50).

Infine posso fare un confronto normativo, confrontando i vari valori rispetto a quelli medi della
popolazione, e un confronto ipsativo, confrontando i vari valori tra loro.

Oggi esistono varie versioni del test, compresa una versione con sole sessanta domande (HEXACO-60) che è
meno approfondito ma permette una somministrazione molto veloce (non presenta item filler).

Il Time Perspective Inventory

Il Time Perspective Inventory di Zimbardo è basato sul fatto che noi improntiamo il nostro agire in base alla
nostra prospettiva temporale verso le tre dimensioni del tempo - passato, presente e futuro – ognuna
divisa in due orientamenti.

Avremo quindi sei componenti esaminate attraverso 61 item su scala Likert a 5 passi:

- passato negativo,
- passato positivo,
- presente fatalista,
- presente edonista,
- futuro,
- futuro trascendentale.

Il profilo ideale è quello che ha valori bassi relativi al passato negativo e al presente fatalista, dei buoni
valori nel passato positivo, nel presente edonista e anche nel futuro.
LE NORME E LA NORMATIVITÀ

Norme: regole per interpretare un certo punteggio.

Normatività: un test deve consentire di confrontare un individuo rispetto alla popolazione di riferimento.

Per costruire queste norme si parte da un campione normativo (o di taratura), un campione


rappresentativo della popolazione alla quale mi sto riferendo (età, genere, scolarità, area geografica, ecc.) e
che sia di ampiezza adeguata. Successivamente viene somministrato il test ai soggetti del campione e poi
elaborare statisticamente i risultati. Vengono calcolati media, mediana, percentili e deviazione standard.
Tali statistiche vengono poi standardizzate (in punti z o in ranghi percentili).

Molti costrutti si distribuiscono con un andamento che tende ad approssimarsi a una curva normale, anche
se ci sono costrutti che si distribuiscono secondo una curva asimmetrica positiva (per esempio il gioco
d’azzardo patologico in cui la maggior parte della popolazione ha punteggi bassi – non ha questo disturbo -
e solo pochi hanno valori alti) oppure secondo una curva asimmetrica negativa (per esempio i test sulla
capacità di lettura, in cui la maggior parte dei bambini riesce a superare il test).

La distribuzione è importante perché per esempio un punteggio abbastanza alto o basso potrebbe essere
nella norma (ovvero vicino alla media).

I punti z

Se la distribuzione è simmetrica useremo i punti z ovvero i valori che standardizzano i punteggi secondo
una distribuzione normale standardizzata con M=0 e DS=1.

Trasformando i valori x in valori x esprimiamo tali valori come distanze dalla media M usando come unità di
misura la deviazione standard s. In questo modo posso confrontare medie diverse.

x−M
z=
s

Sui punti z si possono fare poi altre trasformazioni su scale con medie e deviazioni standard arbitrarie,
come la scala T della personalità o la scala del QI per l’intelligenza.

Scala M s Trasformazione
T 50 10 Y = 50 + 10z
QI 100 15 Y = 100 + 15z

Una volta calcolati i vari valori si può fare

- un confronto normativo (per ogni scala rispetto al valore normativo, per vedere quale tratto si
distingue particolarmente dalla media)
- un confronto ipsativo (tra le diverse scale per lo stesso individuo rispetto ai valori normativi per
vedere quali punteggi sono più diversi tra di loro)

QI di deviazione

Il QI di deviazione è un punteggio messo a punto da Wechsler per confrontare la performance ottenuta da


un soggetto con quella della popolazione di riferimento; questo significa che i valori di media e deviazione
standard variano per esempio in base all’età.

Il punteggio ottenuto a un test deve dunque essere standardizzato in base a specifici valori di media e
deviazione standard e poi si calcola il QI con la solita formula Y = 100 + 15z. In questo modo è possibile
confrontare punteggi di soggetti diversi e con età diverse.

Per esempio se un soggetto di una certa età ha ottenuto 10 al test e i dati normativi per la sua età sono
M=15 e s=15, per calcolare il QI dovremo procedere in questo modo:

m−M 10−15
calcolo z= = =−1 e poi trovo il QI =100+15 z=100+15∗−1=85
s 5

I percentili

Se la distribuzione non è assimilabile a una normale (ma è una normale asimmetrica o una qualsiasi altra
distribuzione) io posso calcolare comunque i percentili.

Il rango percentile (o percentile) è quel valore che indica la porzione del campione normativo che ha
ottenuto un risultato inferiore a un ceto punteggio. Per esempio un punteggio che corrisponde al 15°
percentile significa che il 15% della popolazione ha preso un punteggio pari o uguale (e di conseguenza
l’85% ha preso invece un punteggio superiore).

I percentili sono utili perché, come i punti z, consentono di confrontare i punteggi di un test di persone per
esempio di età diversa; spesso nei test va trovato il percentile incrociando il risultato con l’età (uno stesso
risultato può essere buono per un bambino ma basso per un adulto).

Per calcolare il rango percentile di una certa frequenza si usa la formula

Pe rcentile=
( f + )
f
c
2
×100
n

(dove f è la frequenza di un certo risultato x


e fc è la frequenza cumulata immediatamente inferiore a quella relativa a un certo risultato x)
NORME E REGRESSIONE

Alcuni test prevedono che il punteggio venga corretto per controllare l’effetto di alcune variabili che
possono influire sul punteggio (età, genere, ecc.).

Se per esempio a un test più l’età dei bambini aumenta e più aumenta anche la capacità che devo misurare,
per esempio potrei togliere una qualità ai più grandi (per correggere il loro vantaggio) oppure aggiungere
una quantità ai più piccoli (per correggere il loro svantaggio).

Per definire tali norme basate sulla regressione viene fatta un’analisi della regressione che tenga conto dei
punteggi del test e dell’effetto di queste variabili.

La regressione lineare esamina la relazione lineare tra una o più variabili esplicative dette predittori (le X,
nel nostro caso l’età, il genere, ecc.) e una variabile criterio (la Y, il punteggio al test) trovando l’equazione
lineare che lega Y a X; il valore che rappresenta la relazione tra X e Y è il coefficiente di regressione.
CATEGORIE E SOGLIE

Una volta che si è ottenuto un punteggio a un test, questo deve essere letto o in base a categorie o a soglie;
esse sono definite dalla teoria e dalle tecniche di analisi e costituiscono le indicazioni per interpretare il
costrutto misurato.

Le categorie sono fasce di punteggio che corrispondono a livelli diversi del costrutto in esame. Esse
possono essere definite o in base alla distanza dalla media (in deviazioni standard) o in base ai percentili. Di
ogni categoria il test indica le caratteristiche in base alla teoria che ne sta alla base.

La soglia (o cut-off) è un punteggio al di sotto o al di sopra del quale il costrutto in esame varia in maniera
significativa. In questo caso esistono due sole categorie – come presenta/assenza, sufficiente/insufficiente,
normale/patologico. In genere il cut-off è collocato nella coda della distribuzione. È un criterio spesso usato
nei test di screening.

Alcuni test – come il MoCA – hanno sia una soglia sia delle categorie.

Dato che la definizione della soglia è discriminante – non essendoci delle fasce -, essa deve essere molto
accurata; per questo motivo il test deve essere sensibile e specifico.

La sensibilità è la capacità del test di identificare un disturbo quando c’è.

L’errore in questo caso è il falso negativo (o omissione), ovvero una persona che è malata ma che non
viene identificata come tale dal test.

Il valore di sensibilità viene calcolato in questo modo:

veri positivi
Sensibilità=
veri positivi+ falsi negativi

La specificità è la capacità del test di identificare l’assenza del disturbo quando non c’è.

L’errore in questo caso è il falso positivo (o falso allarme), ovvero una persona che non è malata ma che
viene invece identificata come tale dal test.

Il valore di specificità viene calcolato in questo modo:

veri negativi
Specificità=
veri negativi+ falsi positivi
- Per calcolare il numero dei veri positivi e negativi e dei relativi errori si utilizzano campioni di cui si
sa già se presentano un certo disturbo, si somministra il test e si cerca il valore di soglia che riesce a
cogliere al meglio la realtà da misurare.

Alla fine avrò dunque un valore di sensibilità e di specificità (che sarà sempre inferiore a 1 e esprimibile sia
in numero - 0.xx - che in percentuale - xx%).

Sensibilità e specificità sono in relazione tra di loro; in base alla soglia l’una aumenta e l’altra diminuisce e
viceversa. È dunque impossibile eliminare completamente una parte di errore nei test.

Alcuni test non hanno una taratura; per esempio nei test non diagnostici (per esempio test che vogliono
misurare la frequenza di un comportamento) oppure test a scopi di ricerca (in cui si vuole vedere una
relazione tra due costrutti ma non fare una diagnosi).
PROPRIETÀ PSICOMETRICHE DEI TEST – L’ATTENDIBILITÀ (O AFFIDABILITÀ)

Lo studio delle proprietà psicometriche di un test permette di capire se il test misura ciò che dice di
misurare – ovvero il costrutto – e lo fa in modo preciso attraverso i suoi indicatori – gli item.

La Teoria classica dei test (TCT, Spearman, 1904)

La teoria classica dei test afferma che ogni volta che facciamo una misurazione essa sarà costituita dalla
misura vera più una certa parte di errore.

X =V + E

Essa si basa su tre assunzioni.

- Assunzione I: la media degli errori per una serie di misurazioni che tende a infinito è uguale a 0.
- Assunzione II: i punteggi veri e gli errori di misurazione sono tra loro indipendente (ovvero posso
misurare un valore elevato con un errore piccolo oppure grande).
- Assunzione III: gli errori di misurazione in somministrazioni indipendenti sono indipendenti (ovvero
l’errore non è lo stesso da una rilevazione all’altra).

Queste assunzioni tendono a concettualizzare che cosa si intenda per attendibilità del test perché in base a
queste assunzioni possiamo stimare quale sia effettivamente la parte vera della misurazione.

L’errore

Ogni misura porta con sé una parte di errore che può essere sistematico o casuale.

- L’errore sistematico (o non casuale) va sempre nella stessa direzione e riguarda la


somministrazione stessa del test; tale errore può essere individuato e corretto.
Può essere dovuto all’intervistatore (per esempio fornire delle indicazioni sbagliate o fare errori
nello scoring), all’intervistato (per esempio un soggetto può avere ansia o un limite cognitivo
oppure mettere in atto delle distorsioni nelle risposte), allo strumento (per esempio errori lessicali)
e alla situazione (ambiente non idoneo).
- L’errore casuale invece è variabile, non può essere identificato ed evitato.

L’errore casuale è responsabile dell’imprecisione del punteggio del test che deve dunque essere definito in
modo da contenere l’entità dell’errore.

Attraverso un’analisi statistica noi possiamo contenere e quantificare l’errore casuale per definire
l’attendibilità di un test

Per contenere l’errore casuale in un test possiamo aumentare le misure di una certa caratteristica con un
numero maggiore di item.
Per quantificare l’errore casuale in un test possiamo aumentare le somministrazioni di uno stesso test (per
esempio somministrandolo a persone diverse o somministrandolo più volte a distanza di tempo).

L’attendibilità (o affidabilità o reliability)

L’attendibilità è la proprietà psicometrica del test che riguarda la precisione con cui il test misura un
costrutto (a fronte dell’errore di misurazione).

Dato che la parte di errore è indipendente dalla misurazione, se i risultati correlano allora vuol dire che è la
parte vera a correlare.

Avremo dunque che, se X =V + E , allora


2 2 2
σ X =σ V + σ E

in cui è auspicabile che la varianza vera sia grande, mentre quella di errore sia piccola e questo mi assicura
che il test sia attendibile.

A partire dalla varianza dei punteggi occorre dunque capire quanto sia la componente di varianza vera
rispetto alla varianza di errore e calcolare il coefficiente di attendibilità.

Il coefficiente di attendibilità rtt è la misura dell’attendibilità di un test, ovvero quanto un test riesce a
ridurre l’errore.
2 2
σV σV
r tt = 2
= 2 2
σX σV + σ E

Il suo valore va da 0 a 1 e più l’errore è piccolo e più tale valore si avvicina a 1:

L’attendibilità viene misurata facendo una correlazione tra più misurazioni, potendo osservare così la
correlazione per quanto riguarda la parte vera della misurazione (in quanto la parte di errore è
indipendente dalla misurazione per assunzione generale).

Per ottenere questa correlazione posso fare diversi tipi di misurazioni ripetute:

- posso aggiungere item relativi al costrutto che voglio misurare (coerenza interna),
- posso usare versioni parallele dello stesso strumento (split-half: un test viene diviso casualmente in
due parti e poi si confrontano i risultati. Attualmente poco usato.),
- posso usare lo stesso strumento in tempi diversi (stabilità temporale o test-retest),
- posso fare somministrare lo stesso test a più somministratori (accordo tra valutatori: più persone
somministrano lo stesso test e si vede se c’è un accordo tra le diverse somministrazioni).
Misurazione dell’attendibilità - La coerenza interna

Il modo più utilizzato per misurare l’attendibilità è quello che si basa sulla coerenza interna.

Essa pone l’attenzione sui singoli item: aggiungendo item io è come se misurassi più volte lo stesso costrutto in
modo da avere un risultato medio più accurato (dato che gli errori non correlano tra loro). Questo non significa
che aumenti la reale attendibilità del test, ma che aumenta la coerenza interna dei risultati.

Tuttavia si deve cercare di mantenere il numero degli item il più basso possibile – a parità di coerenza e
precisione – senza aggiungere item solo per aumentare artificiosamente la coerenza interna. Per questo
motivo è preferibile un test con un’attendibilità magari leggermente più bassa ma con poche domanade
rispetto a uno con un’attendibilità altissima ma composto da centinaia domande.

L’Alfa di Cronbach e l’Omega di McDonald

L’Alfa di Cronbach e l’Omega di McDonald sono gli indici di attendibilità più usati per misurare la coerenza
interna.

I criteri EFPA2 per i valori dell’alfa di Cronbach sono così definiti in base al livello di coerenza:

- <.70: insufficiente,
- tra .70 e .80: adeguata,
- tra .80 e .90: buona,
- >.90: eccellente.

Attraverso questi indici è possibile anche calcolare sia la coerenza interna generale del test ma anche
quanto ogni item contribuisca al risultato del test. Quando il test si compone di scale e sotto scale, gli indici
di attendibilità vengono riportati relativamente a ogni scala, non solo relativamente al totale del test.

A volte inoltre si può misurare la coerenza interna di un test su popolazioni diverse (studenti, adulti, ecc.)

Per fare questo posso fare due cose:


- vedere quanto un certo item correla col
risultato totale del test (se correla molto
vuol dire che il risultato di quell’item va
nella stessa direzione del test): un valore
sufficiente dell’indice di correlazione di ogni
item è che esso sia >.30;
- somministrare il test escludendo quell’item
specifico e vedere se l’alfa o l’omega
aumentano o diminuiscono (se togliendo
l’item il valore di questi indici diminuisce, vuol
dire che quell’item contribuisce alla coerenza
interna e dunque va lasciato; se invece
togliendolo la coerenza interna aumenta ,
vuol dire che quell’item faceva diminuire la
2
European Federation of Psychologists' Associations.
coerenza interna e dunque va tolto).

Gli item filler dovrebbero mostrare un indice di correlazione basso e un alfa di Cronbach che aumenta se
l’item è escluso; tuttavia non vengono considerati in questo tipo di analisi.

Misurazione dell’attendibilità – Stabilità temporale – Test-retest

Un altro modo per misurare l’attendibilità è quello di misurare la stabilità temporale tramite una procedura
di test-retest allo stesso campione in tempi diversi.

Viene dunque correlato il punteggio di due somministrazioni a distanza di tempo (in genere tre o quattro
settimane ed eventualmente un secondo retest successivo) e se tale indice di correlazione è significativo
allora posso dire che il test è attendibile perché gli errori sono indipendenti (gli errori che posso fare in una
somministrazione non saranno quelli che potrò fare in un’altra).

La coerenza interna si basa dunque sugli item, mentre la stabilità temporale lavora sul totale.

Anche in questo caso, se sono presenti più scale, ogni scala deve essere analizzata a parte.

Attenzione che la stabilità temporale non significa che l’attendibilità sia stabile nel tempo, ma
semplicemente che il test è attendibile.
PROPRIETÀ PSICOMETRICHE DEI TEST – LA VALIDITÀ

La validità di un test è la proprietà psicometrica che indica quanto un test misura effettivamente il
costrutto in esame.

Stabilire la validità del test significa fornire prove empiriche che supportano l’interpretazione dei punteggi
del test come misura del costrutto in esame.

Esistono tre tipi di validità:

- validità di contenuto
- validità di costrutto
o interna (fattoriale)
o esterna
 convergente
 discriminante
- validità di criterio
o concorrente
o predittiva

Attenzione che attendibilità e validità sono due aspetti distinti e un test che è attendibile non è
necessariamente anche valido; per esempio un test può essere attendibile, ovvero essere molto preciso,
ma può mancare di validità di costrutto, per esempio perché i risultati correlano con quelli di altri tipi di test
non collegati al costrutto in esame.

L’attendibilità riguarda la precisione; la validità riguarda invece l’efficacia nel misurare effettivamente un
certo costrutto.

Quindi è più importante la validità perché un test deve effettivamente misurare un certo costrutto; solo
dopo si cercherà di fare in modo che sia anche preciso.

Validità di contenuto

La validità di contenuto riguarda il grado con cui gli item del test costituiscono un campione
rappresentativo degli indicatori comportamentali del costrutto che si vuole misurare

Se un test ha validità di contenuto vuol dire che il costrutto che si vuole misurare è stato tradotto in una
buona definizione operativa, che gli indicatori comportamentali sono stati tradotti in modo adeguato in
item e che quindi, attraverso essi, è possibile rappresentare bene il costrutto.
Per stabilire la validità di contenuto non vengono fatte analisi statistiche, ma il test viene validato attraverso
il giudizio di esperti che controllano se sono stati inclusi gli aspetti fondamentali del costrutto e se sono stati
esclusi aspetti non necessari.

Validità di costrutto

La validità di costrutto riguarda il grado in cui il test misura adeguatamente il costrutto che intende
misurare.

Si divide in validità interna, ovvero il fatto che il test misuri adeguatamente il costrutto e le sue dimensioni,
e validità esterna, ovvero che il test misuri proprio quel costrutto e non altri.

La validità interna riguarda il fatto che il test misuri lo stesso numero di dimensioni che è stato previsto dal
costrutto che è alla base. È detta anche “fattoriale” perché collegata alle dimensioni che un test può
misurare, dette “fattori”.

Per misurare la validità interna si analizza la dimensionalità del test attraverso un’analisi fattoriale che
verifichi quante dimensioni vengono misurate dal test in base al costrutto; se il mio costrutto – e di
conseguenza il test – vuole misurare sei dimensioni, queste dovranno emergere nell’analisi fattoriale.

L’analisi fattoriale vuole ritrovare il costrutto nelle sue dimensioni partendo dalle risposte al test. Per fare
questo si osserva se ci sono covariazioni in un insieme di variabili (le risposte agli item) riconducendole a
una variabile latente e alle sue dimensioni (il costrutto che si sta misuranto) e che dunque è la causa delle
risposte. Per esempio posso vedere che le risposte variano tutte insieme e dunque presupporre che siano
causate da un unico fattore oppure vedere che ci sono due gruppi di risposte che variano insieme e indurre
che ci siano due fattori (ovvero che il costrutto che si sta misurando abbia due dimensioni); a quel punto
vedo se il numero di fattori che è emerso dalle risposte corrisponde a quello stabilito dal costrutto.

La validità esterna riguarda invece il fatto che il test misuri effettivamente quel costrutto e non altri. Si
divide in validità convergente e validità discriminante.

La validità di costrutto convergente indica che la misura di un costrutto ottenuta con il test converge con
misure ottenute con altri test su costrutti simili (per esempio l’intelligenza misurata con le Matrici
Progressive e con le Scale Wechsler).

La validità di costrutto discriminante indica che la misura di un costrutto ottenuta con il test si differenzia
da misure ottenute con altri test su altri costrutti (per esempio un test sull’intelligenza e uno
sull’ottimismo).

Tali validità vengono misurate attraverso il coefficiente di correlazione che deve essere alta nel primo caso
e bassa nel secondo.

I valori di riferimento EFPA per la validità di costrutto convergente sono i seguenti:

- <.55: inadeguata,
- tra .55 e .64: adeguata,
- tra .65 e .75: buona,
- >.75: eccellente.

Per quanto riguarda invece la validità di costrutto discriminante essa non si interpreta in base a criteri fissi
perché dipende con quali altri costrutti ci si confronta (comunque si cerca di stare sotto a .30-40).

Validità di criterio

La validità di criterio è un tipo di validità esterna in cui la validità di un test viene valutata in base a un
criterio - un costrutto esterno ritenuto teoricamente connesso col costrutto misurato dal test – che ci si
aspetta correli con i risultati del test.

Per esempio io sto misurando l’intelligenza. Presuppongo, anche in base alla letteratura e a ricerche
precedenti che l’intelligenza correli con la realizzazione lavorativa; se trovo un alto valore di correlazione
tra i risultati del test e la misurazione della realizzazione lavorativa, posso pensare che il test sta
effettivamente misurando l’intelligenza.

La validità di criterio può essere di due tipi e non riguarda i criteri usati ma è esclusivamente procedurale:

- validità concorrente: i test per rilevare i valori del test da validare e quelli relativi al test usato per il
criterio vengono somministrati contemporaneamente,
- validità predittiva: i test per rilevare i valori del test da validare e quelli relativi al test usato per il
criterio vengono somministrati a distanza di tempo.

I valori di riferimento EFPA per la validità di criterio sono i seguenti:

- tra .20 e .34: adeguata,


- tra .35 e .50: buona,
- >.50: eccellente.
STIME

Conoscendo l’attendibilità del test è possibile stimare il punteggio vero di un test depurando un punteggio
osservato della parte di errore casuale.

Stima puntuale

Possiamo calcolare la stima del punteggio vero relativo a un certo punteggio e conoscendo un qualsiasi
indice di attendibilità attraverso questa formula:

V =M x + r tt (C−M x )

(dove V è il vero punteggio,


MX è la media dei punteggi di un test e
rtt è l’indice di attendibilità)

Stima intervallare

La stima intervallare definisce un intervallo – detto intervallo di fiducia – entro quale posso dire con un
determinato livello di fiducia (90, 95, 99%) che ricada il punteggio vero; gli estremi inferiore e superiore di
questo intervallo sono detti limiti di fiducia.

Tanto più il livello di fiducia sarà alto (ovvero sarò sicuro che il punteggio ricada dentro certi valori) tanto
più l’intervallo di fiducia sarà ampio (e quindi poco informativo); quindi questi due aspetti devono essere
bilanciati.

Per fare la stima intervallare devo conoscere l’errore standard di misurazione σe, ovvero l’oscillazione dei
punteggi osservabili rispetto al punteggio vero (ovvero la deviazione standard degli X attorno a V).

Tanto maggiore è la variabilità e tanto più le misure del test sono soggette a errore.

σ e =s X √ 1−r tt

(dove σe è l’errore standard di misurazione,


sX è deviazione standard dei punteggi di un test e
rtt è l’indice di attendibilità)
A questo punto posso definire l’intervallo di fiducia.

In base al livello di fiducia α posso calcolare zα/2 (in quanto prenderò come riferimento entrambe le code
della distribuzione); se per esempio scelgo un livello di confidenza del 95%, avrò α = 0.05 e quindi α/2 =
0.025, che corrisponde a un punto z = ±1.96.

X −z α/ 2 × σ e < V < X + z α /2 × σ e

(dove X è il punteggio osservato,


zα dipende dal livello di fiducia scelto e
σe è l’errore standard di misurazione)

e quindi

L ,l=X ± z α /2 × s X √ 1−r tt

Una volta calcolati i limiti potremo affermare che, in base a un certo punteggio ottenuto, il punteggio vero
ricade con una probabilità del xx% entro i valori di l e L.

Potrebbero piacerti anche