Appunti Di Psicometria
Appunti Di Psicometria
INTRODUZIONE
La Psicometria studia come misurare la mente. Essa è un’esigenza della psicologia che ha l’intento di asse-
gnare numeri a individui in maniera sistematica e replicabile.
La motivazione è sia scientifica che applicativa. Scientifica perché serve conoscere e studiare la psicologia
umana, mentre è applicativa perché ha fini pratici come la misurazione di un fenomeno reale.
Ciò che viene misurato in psicometria è il costrutto, un’entità teorica sintesi di specifici indicatori comporta-
mentali non osservabile direttamente. A tal proposito, per la misurazione del costrutto si usano determinati
indicatori, cioè il comportamento.
I costrutti quindi sottendono i comportamenti osservabili e sono
anche chiamati variabili latenti (o anche proprietà latenti). Le ma-
nifestazioni dei costrutti vengono misurate tramite le scale, degli
strumenti particolari (termometro, bilancia) che misurano quantità
variabili di una stessa entità e li collocano all’interno di un conti-
nuo omogeneo. La fonte di variabilità nelle scale è proprio l’indi-
viduo che d’altronde è l’unità di ricerca.
Non tutte le variabili misurabili in un individuo sono però latenti
(ansia, intelligenza). Per esempio, il genere sessuale e l’età sono
osservabili e facilmente ottenibili. In questo caso non è necessaria
una scala.
Un esempio di scala è il test psicologico il quale presuppone che una variabile latente sia in relazione causale
con degli item i quali sono espressione di comportamenti.
Naturalmente, nel processo di collegamento degli item ai comportamenti si commetteranno degli errori. Il più
conosciuto è quello della variabile interveniente, una variabile terza la quale determina un comportamento
in particolare ma che noi siamo portati a ricondurre alla variabile latente che invece era oggetto della nostra
misurazione.
In ogni caso, per la misurazione quindi abbiamo a che fare con tre
elementi distinti:
- Il sistema empirico (SE): il sistema che noi vediamo
nella realtà;
- Il sistema numerico (SN): tendenzialmente astratto, è
quello da misurare che può essere in relazione con quello
empirico attraverso una regola (una misurazione);
- Una regola (o funzione): che consente di attribuire dei
numeri agli elementi del sistema empirico;
Per cui, misurare vuol dire rappresentare un sistema empirico SE,
nel quale è stato definito un sistema di relazioni tra i suoi elementi,
tramite un sistema numero SN.
Per esempio: se esiste una relazione nel SE per cui b è più alto di a (bRa) allora sarà anche valido dire che la
funzione di b sarà maggiore della funzione di a [f(a)Sf(b)] essendo f(a) e f(b) le rappresentazioni di a e b nel
SN.
Le regole di corrispondenza cambiano in base alle variabili. Infatti, vi sono diversi livelli di misurazione di
scale ordinate gerarchicamente secondo un grado crescente di complessità, dove ogni nuova scala di misura-
zione incorpora a suo interno le proprietà della precedente:
- Nominale: definisce più categorie qualitative (genere, colore degli occhi, città) che possono essere
confrontate solo in termini di uguaglianza-differenza (Tante variabili che hanno delle caratteristiche
comuni determinano una categoria (maschio o femmina).
1
- Ordinale: oltre a categorizzare, queste scale permettono relazioni di ordine rispetto al grado di una
caratteristica dell’entità misurata (scale di valutazione come per niente d’accordo, poco d’accordo,
molto d’accordo, completamente d’accordo).;
- Intervalli equivalenti: è una scala propriamente detta. Infatti, qui si aggiunge la possibilità di definire
un’unità di misura e l’origine della misurazione le quali però non sono assolute ma convenzionali. Ciò
significa che possiamo solo calcolare la differenza tra due gradi di valutazioni ma non il rapporto in
quanto non esiste un livello 0 di gradimento. Infine, qui oltre a comprendere il grado di maggioranza
è possibile stabilire la quantità di una misura.
- Rapporti equivalenti: definisce uno zero assoluto (un punto d’inizio della scala), dove zero implica
che l’attributo ha quantità nulla. Anche qui l’unità di misura è convenzionale ed è possibile interpretare
dei rapporti tra valori (peso, età, altezza). Tutte le operazioni sono possibili.
Ogni scala definisce poi le operazioni matematiche e le statistiche ammissibili. Ecco perché si parla di signi-
ficanza: ovvero l’ammissibilità di una statistica rispetto alla scala di misurazione della variabile (non ha senso
calcolare la media su una scala nominale). Può essere assoluta se non varia dal passaggio da una scala a un’altra
o relative se è il contrario.
SCALING
Lo scaling è un’operazione di attribuzione di numeri a delle entità secondo una regola attraverso i quali si
possono posizionare i soggetti all’interno di un continuum psicologico omogeneo (ansia, aggressività, estro-
versione). Ogni scaling implica la costruzione di una scala.
Ci sono vari tipi di scaling secondo Giampaglia:
- Gli approcci centrati sul soggetto (differenze legate all’individuo): Scala Likert;
- Gli approcci centrati sugli stimoli (differenze tra stimoli): Confronto a coppie di Thurstone;
- Gli approcci centrati sulle risposte (differenze nella quantità di caratteristica presente sia negli stimoli
sia nei soggetti): Scale di Rasch.
Gli item, in base alla loro dimensionalità, ovvero al fatto che essi si riferiscano al medesimo costrutto (dimen-
sione) o a più costrutti, sono detti unidimensionali e multidimensionali.
Il processo di scaling si articola in tre fasi:
- La semplice registrazione delle osservazioni
- L’inferenza sulle osservazioni che porta alla creazione di dati
- La scelta del modello di scaling
Proprio per questo, è importante operare una distinzione tra osservazione e dati:
- Osservazione: si intende la semplice registrazione di indici comportamentali
- Dati: una delle possibili interpretazioni delle osservazioni.
I dati possono essere differenti tra loro. Infatti, vi sono:
- Dati relativi a scelte di preferenza: il soggetto deve ordinare degli stimoli rispetto a una certa pro-
prietà;
- Dati riferiti a stimoli singoli: il soggetto valuta separatamente determinati stimoli rispetto a una certa
proprietà;
- Dati riguardanti confronto tra stimoli: presentati una coppia di oggetti, il soggetto deve scegliere
quale di questi possiede in misura maggiore la caratteristica oggetto di studio;
- Dati di similarità: presentati degli oggetti estratti da un insieme, il soggetto deve decidere la somi-
glianza tra gli oggetti che la formano.
Rispetto l’errore, invece, vi sono due modelli d’interpretazione:
- Modelli deterministici: in cui si pensa che l’errore sia non casuale;
- Modelli stocastici: l’errore è casuale;
LE SCALE
Le scale (inventory, questionari, test) sono normalmente costituite da una serie di affermazioni, elementi mi-
nimali, gli item, rispetto a cui il soggetto è invitato a esprimere un’opinione o una preferenza.
In base agli item si possono distinguere:
2
- Test di comportamento tipico: in cui non ci sono risposte corrette;
- Test di tipica performance: non ci sono risposte corrette;
- Test di massima performance: prevedono più alternative di risposta delle quali solo una è quella
corretta.
I risultati degli item vengono poi combinati in maniera additiva (solo se unidimensionali), ovvero sommandoli.
L’assunto di fondo è che la proprietà sia interpretabile come un continuum sul quale ogni individuo può essere
collocato in una determinata posizione in base al proprio punteggio, ottenuto attraverso gli item. Della pro-
prietà possiamo misurare due aspetti:
- La direzione (se favorevole o sfavorevole)
- Il grado (l’intensità del favore o dello sfavore)
Ora, ogni scala è costituita da un insieme di indicatori. A ogni indicatore corrispondono una serie di item i
quali permettono di rilevare aspetti della variabile latente attraverso le scelte del soggetto rispondente (cioè in
base al suo comportamento). Gli item sono raggruppati in gruppi, le batterie, che insistono su una o più pro-
prietà latenti. Una batteria genera un punteggio (o score) che stabilisce il grado e la direzione di una proprietà
per un soggetto.
Per cui, è fondamentale per la costruzione di una scala decidere il tipo di risposte, ovvero le alternative fornite
al soggetto per la risposta. Il processo di decisione del tipo di risposta (non della domanda) si chiama anco-
raggio e varia in relazione all’uso di parole o numeri:
- Ancoraggio semantico: disapprovo fortemente…
- Ancoraggio numerico: la matematica è noiosa 1, 2 o …
Lo scaling di per sè non ha delle unità di misura. Pertanto, assumiamo che si possano attribuire dei valori
numerici agli item, dalla cui somma si avrà poi il punteggio.
Tuttavia, per attribuire proprietà numeriche, bisogna rispettare alcuni vincoli:
la funzione f: SE SN deve essere iniettiva e monotona
- Iniettiva: Data y= f(x) a ogni x corrisponde un solo y, in modo tale che se x1 ≠ x2
allora f(x1) ≠ f(x2) (non c’è ambiguità tra x e la sua funzione)
- Monotona: Se, per ogni x1 ≤ x2 allora f(x1) ≤ f(x2) (conserva e permette l’ordinamento)
In tal modo, l’unità di misura può essere replicabile e non soggettiva tenendo conto che le categorie devono
avere una bassa autonomia semantica, ovvero il rapporto che ogni categoria della variabile ha con le altre
della stessa variabile. Per cui, ogni categoria, in quanto indipendente, può essere interpretata completamente
senza dover fare ricorso alle altre categorie (come maschio o femmina).
Invece, se si parla di modalità a parziale autonomia semantica, si riferisce a tutte quelle tipologie di risposta
che di per sé non sono interpretabili completamente ma dipendono dalla declinazione delle altre opzioni, le
quali ci permettono di comprendere effettivamente il valore della nostra risposta. L’esempio classico sono le
scale Likert (per niente d’accordo, poco d’accordo, molto d’accordo, completamente d’accordo)
Infine, ci sono le scale a bassa autonomia semantica, come il
differenziale semantico, in cui il soggetto intervistato colloca la sua
posizione all’interno del continuum definito dai due estremi dotati di
significato.
L’unità di misura della scala è soggettiva e i dati generati da queste scale vengono trattati come se fossero
variabili cardinali.
Inoltre, le variabili si possono dividere:
- Variabili categoriali ordinali, ovvero composte da caratteristiche ordinabili (possono anche essere
non ordinabili ma non sono mai cardinali);
- Variabili cardinali: le modalità hanno un valore numerico assegnato, come l’età;
- Variabili quasi cardinali: la valutazione viene codificata mediante un processo di rappresentazione
numerica come la scala Likert e il differenziale semantico e trattate poi come cardinali.
Queste sono poi le fasi nelle quali si articola il processo di costruzione di un test psicologico:
3
SCALA DI THURSTONE
Il presupposto di base secondo Thurstone è che se un soggetto può discriminare e ordinare stimoli fisici sulla
base della sua percezione, potrà anche ordinare anche affermazioni sulla base del proprio favore o sfavore.
L’obiettivo di misura però non è quello di misurare il comportamento, ma misurare l’atteggiamento in forma
di opinioni inserito all’interno di un continuum in ordine di favorevolezza.
Il primo metodo da lui proposto fu quello del confronto fra coppie di item: due item vengono presentati ad
alcuni giudici (soggetti del test) che dovranno valutare quale dei due sia maggiore dell’altro (uccidere > ru-
bare). Si raggruppano poi queste valutazioni in una tabella e da questa partirà la costruzione della scala. Questa
avviene attraverso l’uso delle frequenze relative di risposta che, trasformate in punti z di una curva normale,
permettono di stabilire le distanze tra gli item
𝑋𝑋−𝑥𝑥𝑥
z=
𝑠𝑠
Gli item in questo caso sono ordinati in base alle frequenze di risposte.
Un altro metodo che propone Thurstone è il metodo degli intervalli apparentemente uguali. In questo caso
si genera un gran numero di item e si richiede una valutazione non in base al fatto che si sia d’accordo o meno
ma se il significato della frase sia a favore o a sfavore dell’argomento. Si delinea così un continuum sulla base
delle frequenze di risposta diviso in 10 segmenti, ognuno con un punteggio monotonico che va da 1 a 10 con
estremi favorevole e sfavorevole. A questo punto si calcola la mediana dei punteggi assegnati dai giudici e un
indice di variabilità. Successivamente, si scelgono gli item con variabilità piccola, cioè quelli per cui c’è con-
cordanza di giudizio da parte dei giudici.
SCALA DI GUTTMAN
La scala di Guttman è composta da item selezionati in modo tale che se un soggetto supera, o risponde affer-
mativamente a un item, avrà superato o avrà risposto affermativamente anche a quelli precedenti.
Questa scala, detta scalogramma, è cumulativa a differenza di quella Likert che è additiva; ciò significa che
gli elementi sono scalabili un senso crescente e decrescente all’interno di un continuum dove gli item si collo-
cano.
4
Un esempio è la scala della distanza sociale di Bo-
gardus:
Solo due categorie estreme sono dotate di significato e il soggetto intervistato colloca la sua posizione all’in-
terno del continuum definito dai due estremi. L’unità di misura non è univoca, ma soggettiva.
Vi è poi il differenziale semantico: una tecnica di rilevazione dei significati che determinati concetti assu-
mono per gli intervistati. Si basa sulle associazioni che un soggetto instaura tra ciascun concetto e una serie di
aggettivi contrapposti, separati da una scala graduata, su cui i soggetti devono indicare a quale dei due estremi
si avvicina.
Poiché Osgood ha ideato questo strumento al fine di rilevare la reazione emotiva rispetto a un determinato
oggetto, le coppie di aggettivi erano state pensate per rilevare 3 principali dimensioni:
- Valutazione: buono/cattivo, utile/inutile
- Potenza: grande/piccolo, potente/impotente
- Attività: veloce/lento, vivo/morto
Per la creazione di un differenziale semantico si deve:
- Indicare l’oggetto rispetto a cui si intende rilevare la reazione, seguito da coppie di aggettivi
- Gli aggettivi devono essere disposti in maniera casuale (ovvero non tutti i positivi a sx e i negativi a
dx)
- Le coppie di aggettivi possono non essere le stesse di Osgood ma rimodulate in base alle esigenze del
ricercatore
- La risposta deve essere indicata velocemente, senza troppe riflessioni da parte dell’intervistato
A volte le coppie di aggettivi possono sembrare apparentemente estranee al concetto in esame ma in realtà
permettono comunque di comprendere come tale oggetto viene percepito dal rispondente. Inoltre, usando degli
aggettivi già prefissati si riduce anche un bias sempre presente, ovvero quello della desiderabilità sociale.
I soggetti dovranno indicare su una scala graduata a quale dei due poli il concetto in esame si avvicina. La
misurazione avviene lungo la gradazione discreta tra le coppie bipolari di aggettivi contrapposti, e i risultati
del campione vengono poi aggregati.
5
SCALA LIKERT
La scala è costruita sulla base di un insieme di item a cui il soggetto è invitato a rispondere ad alcune afferma-
zioni (giudizi), esprimendo il proprio accordo o disaccordo sulla base di una griglia di valutazione a 5,7 o più
punti (anche pari).
Il modello si basa sull’assunzione che esista una funzione monotona tra item e la proprietà latente che si vuole
misurare. Inoltre, la scala deve essere unidimensionale, cioè gli item devono misurare tutti lo stesso atteggia-
mento.
Per ciascun soggetto viene calcolato il punteggio complessivo: somma dei punteggi riportati in ogni singolo
item (è importante il verso degli item).
Gli item si scelgono sulla base di varie analisi: si eliminano quelli che hanno una bassa correlazione con il
totale di tutti gli item (correlazione item-totale) in quanto non misurerebbero lo stesso costrutto degli altri
item. Per ogni item si prendono le medie dei giudici nelle prime posizioni e nelle ultime posizioni dell’ordina-
mento (si considerano i giudici che hanno dato valori molto alti e molto bassi). Si applica t-test per stimare la
discriminazione (se si ha un alto valore, si ha anche una buona discriminazione).
Funzionamento: immaginiamo di avere una batteria di 10 items che rilevano l’atteggiamento di un soggetto
rispetto agli immigrati e che la metà degli item esprimano un giudizio positivo e l’altra metà un giudizio ne-
gativo.
Poiché ad ogni categoria di risposta è associati un valore (da 1 a 5 nel caso della scala 5), si trasformano in
negativi i valori riferiti agli items che esprimono un giudizio negativo rispetto agli immigrati. Il punteggio
finale totalizzato dal soggetto dovrà essere valutato entro una scala che va da +20 a -20: il massimo favore è
dato dalle risposte molto d’accordo (+5+5+5+5+5 congiuntamente al massimo disaccordo verso le frasi nega-
tive (+1+1+1+1+1). Quindi 25-20=20 (idem per il calcolo del massimo disaccordo).
La scala Likert è soggetta a distorsioni, tra cui:
- Response set: la tendenza a rispondere in maniera meccanica (sempre 5)
- Acquiescenza: la tendenza a dirsi sempre d’accordo (sempre in maniera positiva)
- Reazione dell’oggetto: l’intervistato reagisce a un solo oggetto cognitivo e non al significato com-
plessivo della stessa
- Curvilinearità: si ha quando un item è disapprovato sia da chi ha un atteggiamento positivo/favore-
vole, sia da chi ha l’atteggiamento opposto: si ha equivalenza numerica ma non equivalenza sostan-
ziale.
6
atteso rappresenterà il punteggio vero della distribuzione di probabilità associata ai punteggi osservati: E(X)
= V (E() è l’operatore di valore atteso).
Inoltre, poiché gli errori si distribuiscono in maniera simmetrica in eccesso o in difetto la distribuzione di
probabilità non può che assumere una forma normale (avremo un numero equo di misurazioni al di sopra e al
di sotto del valore vero). Infatti, per il teorema limite centrale: la distribuzione della somma (o media) di un
numero elevato di variabili casuali indipendenti e identicamente distribuite tende a distribuirsi come una di-
stribuzione normale, indipendentemente dalla distribuzione delle singole variabili.
Conseguenze:
Da X = V + E essendo V = E(X) segue che V, il punteggio vero, rappresenti la parte attendibile del punteggio,
cioè la parte che ci interessa scoprire in quanto il valore atteso corrisponde al valore vero del punteggio.
Il punteggio vero, pertanto, ci si aspetta rimanga fisso per ogni soggetto in quanto a farlo variare sono gli errori
i quali si distribuiscono in maniera casuale e simmetrica in eccesso o in difetto. Per cui, poiché in una serie
infinita di misurazioni la media di tutti i punteggi osservati è rappresentata dal punteggio vero, l’errore di
misura scompare, e quindi la media degli errori casuali è nulla per infinite misurazioni. A questo punto, il
valore atteso degli errori è 0. E(E)=0 (la media degli errori di infinite misurazioni).
Partendo da X= V + E e sapendo che E(X)=V si ottiene che E= X -V e che il punteggio V è una costante per
ogni singolo soggetto e quindi per la proprietà della media E(V)= V, si ha che E(E)= E(X-V)= E(X) -
E(V)= V – V= 0. Se questo non accade l’errore non è casuale.
Inoltre, essendo l’errore casuale e quindi non dipendente né dal punteggio vero né da un altro punteggio d’er-
rore, per cui appunto non costante, si potrà affermare che la covarianza tra punteggio vero ed errore è nulla:
𝜎𝜎𝑉𝑉𝑉𝑉 = 0
E che la covarianza tra due distribuzioni di errore è nulla 𝜎𝜎𝐸𝐸𝑥𝑥𝐸𝐸𝑦𝑦 = 0, ovvero anche gli errori di diverse misu-
razioni rispetto ai punteggi veri non potranno covariare in quanto si distribuiscono in maniera casuale rispetto
al punteggio vero, diversamente sarebbe se l’errore fosse sistematico poiché si osserverebbe una covariazione
introducendo anche dei bias.
I punteggi differiscono tra soggetti, non soltanto per l’errore di misurazione E, ma anche e soprattutto per le
differenze individuali, che si riflettono nelle differenze tra i punteggi osservati che non dipendono dall’errore
di misurazione. I punteggi veri ottenibili per ogni individuo risultano uguali solo nel caso banale in cui il
costrutto oggetto di studio non ha variabilità.
Somministrando N test paralleli agli stessi soggetti, si può assumere che le medie dei punteggi dei soggetti
calcolate su ogni test siano uguali tra loro:
E(X1 ) = E(X2 ) = …. = E(XN )
dove E(X1 ), per esempio, rappresenta la media dei punteggi sugli n soggetti al primo test.
Inoltre, queste medie coincidono con la media dei punteggi veri: E(X1 ) = …=E(XN ) = E(V)
Come conseguenza, le medie di tutti gli errori sono uguali a zero E(E1 ) = E(E2 )… E(EN )= 0
A partire dalle assunzioni sul punteggio osservato è possibile definire i concetti di:
- Attendibilità: precisione di uno strumento di misura (test psicometrico)
- Validità: esattezza (correttezza) di uno strumento di misura (test psicometrico, misurazione di una
variabile psicologica)
ATTENDIBILITA’
L’attendibilità è una proprietà di una scala e misura il grado di coerenza e di stabilità di un test (o anche il
grado di precisione con una scala misura un certo attributo psicologico.
Se riscriviamo l’equazione fondamentale X= V + E in termini di varianza otteniamo: 𝜎𝜎𝑋𝑋2 = 𝜎𝜎𝑉𝑉2 + 𝜎𝜎𝐸𝐸2
7
2 2
𝜎𝜎𝑉𝑉 𝜎𝜎𝐸𝐸
l’attendibilità viene ad essere 𝑟𝑟𝑡𝑡𝑡𝑡 = da cui si può anche ottenere 𝑟𝑟𝑡𝑡𝑡𝑡 = 1 − dividendo per la varianza
𝜎𝜎𝑥𝑥2 𝜎𝜎𝑥𝑥2
del punteggio totale.ϕξ
L’attendibilità sarà più alta più il valore della varianza del punteggio vero sarà vicino a quello del punteggio
totale, e quindi il test sarà più attendibile. Inoltre, dalla seconda formula comprendiamo come attendibilità ed
errore siano inversamente proporzionali, ovvero più sarà basso l’errore e più il test sarà attendibile.
La media degli errori di misurazione è uguale a 0. Gli errori casuali tendono ad annullarsi all’aumentare del
numero di misurazioni. Più misure facciamo, più precisa sarà la misurazione.
L’errore di misurazione è una variabile aleatoria, distribuita normalmente. Ciò significa che ci si aspetta tanti
piccoli errori, vicini allo zero, e pochi errori di una certa entità.
I punteggi veri e gli errori di misurazione sono tra loro indipendenti. Gli errori di misurazione compiuti in due
somministrazioni indipendenti sono fra loro indipendenti.
Ora, l’attendibilità si riferisce alla coerenza tra manifestazioni apparentemente diverse dello stesso costrutto e
si comprende come sia possibile ricavare il coefficiente di attendibilità considerando la correlazione tra i
punteggi osservati X e X’ in due test paralleli (ovvero test che misurano lo stesso costrutto nello stesso
modo) assumendo che: E(X) = E(X’), 𝜎𝜎𝑋𝑋2 = 𝜎𝜎𝑋𝑋2′ e che 𝜎𝜎𝑒𝑒2 = 𝜎𝜎𝑒𝑒′
2
nei due test.
𝜎𝜎𝑋𝑋𝑋𝑋′ 𝜎𝜎𝑣𝑣2
ha 𝑟𝑟𝑋𝑋𝑋𝑋′ = = 2 = 𝑟𝑟𝑡𝑡𝑡𝑡
2 𝜎𝜎2 𝜎𝜎𝑋𝑋
�𝜎𝜎𝑋𝑋 𝑋𝑋′
Ecco perché l’attendibilità come simbolo “rtt”, ovvero r come correlazione e t come test (con sé stesso, in
quanto parallelo).
Essendo praticamente impossibile separare la varianza vera dalla varianza vera, questa formula viene a essere
impraticabile. Infatti, a tal proposito, si usano dei metodi empirici di stima dell’attendibilità:
- Metodo delle forme parallele: Si somministrano due versioni equivalenti del test (stessa media e
stessa deviazione standard) e si calcola la correlazione tra i punteggi che sarà rtt;
- Metodo del Test-Retest: studia l’attendibilità intesa come stabilità temporale. Infatti, si somministra
il test al tempo T1 e al tempo T2 e si calcola la correlazione tra i punteggi;
- Metodo dello Split-Half: si somministra il test in un unico tempo. Si divide il test a metà (come item
pari e dispari) e si considerano le due metà come forme parallele (stessa media e stessa deviazione
standard). Quindi si calcola la correlazione;
- Metodo della Coerenza Interna: È il metodo più utilizzato e si basa sul grado d’accordo tra più
misure dello stesso costrutto teorico (cioè gli item che compongono il test), ottenute in una stessa
somministrazione. Per l’utilizzo di questo metodo è indispensabile calcolare l’alfa di Cronbach. Af-
finché ci sia una buona coerenza interna è necessario che gli item siano adeguatamente correlati fra
loro ma ciò è plausibile perché dovrebbero misurare lo stesso costrutto. In questo caso, l’attendibilità
misura il grado di interscambiabilità degli item della scala poiché essendo il test attendibile gli item
sono perfettamente uguali.
(N.B. da questi metodi posso avere coefficienti di attendibilità diversi poiché metodi diversi fotogra-
fano diverse sfaccettature dell’attendibilità)
Esistono vari modi per calcolare la coerenza interna di una scala, uno tra questi è il coefficiente di
Kuder-Richardson per item dicotomici che si fonda sul rapporto tra la somma delle varianze degli
item e la varianza totale del test. All’aumentare della correlazione tra gli item aumenta la varianza
totale del test e il coefficiente KR20 si avvicina a 1 (è 20 perché ne hanno fatti diversi).
in cui:
- pi è la proporzione di risposte esatte (il reciproco 1- pi è la proporzione di risposte errate)
- k il numero degli item
- pi (1- pi) è la varianza
8
Se invece si vuole utilizzare KR20 non per item dicotomici ma anche per item misurati a livello di intervalli
equivalenti si usa l’α di Cronbach (una generalizzazione di
KR20):
ovvero la somma della varianza degli item fratto la varianza
totale.
Maggiore è la varianza totale rispetto alla somma delle varianze degli item, maggiore è la coerenza interna.
Nella prassi l’α di Cronbach si valuta nel modo seguente:
- <.60 inadeguato
- .60- .70 sufficiente
- .70-.80 discreto
- .80-.90 buono
- >.90 ottimo
Essendo il test psicometrico una serie di misurazioni coerenti di uno stesso costretto, l’attendibilità è forte-
mente determinata dalla lunghezza del test. Per cui, nella TCT la lunghezza del test migliora l’attendibilità in
quanto avendo test più lunghi abbiamo maggiori misurazioni e quindi un miglior modo di determinare la media
e di eliminare gli errori.
È possibile calcolare il coefficiente di attendibilità ipotetico che si otterrebbe se si allungasse un test di k item
utilizzando la formula di Spearman-Brown, ovvero:
dove:
- p*xx’ è l’attendibilità ipotetica
- n il rapporto tra il numero di item nella versione ipotetica e il numero di item nella versione esistente
- pxx’ l’attendibilità della versione esistente
La formula inversa può essere utilizzata per stimare il numero item necessari per raggiungere un livello di
attendibilità prescelto, ovvero:
È inoltre possibile dimostrare che la deviazione standard totale è uguale alla somma dei prodotti delle devia-
zioni standard degli item per la correlazione tra l’item ed il punteggio totale:
9
TEST-RETEST
L’attendibilità test-retest prevede la somministrazione dello stesso test al medesimo gruppo di soggetti dopo
un intervallo prestabilito di tempo (non più ampio di 6 mesi, specie per i bambini, e a seconda della variabile
misurata), e valuta soprattutto la dimensione della stabilità nel tempo dei punteggi e il coefficiente di corre-
lazione tra le due distribuzioni di punteggi ci dà la misura del coefficiente di affidabilità del test. Questo
coefficiente è però interpretabile se si assume che il concetto misurato non si modifichi nel tempo.
Il coefficiente test-retest si riduce all’aumentare del tempo trascorso fra le rilevazioni. Questo perché è irrisorio
pensare che la caratteristica in esame non si modifichi col tempo e rimanga stabile, soprattutto per esempio
nell’infanzia. Ecco perché si parla di tue tipologie di stabilità:
- Stabilità a breve termine: per i costrutti per cui alcuni fattori (es. tendenza a ricordare le domande) non
influenzano il risultato
- Stabilità a lungo termine: per i costrutti per i quali crescita, apprendimento non hanno effetto sul risul-
tato
10
Per dividere il test in due parti confrontabili si possono assegnare casualmente gli item alla prima e alla seconda
parte o, ed è questa la modalità più comune, si può dividere il test in item pari e dispari (attendibilità pari-
dispari).
Come sappiamo, l’attendibilità dipende dalla lunghezza del test e la correlazione split-half è una sottostima
dell’attendibilità. La divisione del test a metà ne dimezza la lunghezza. Esiste un metodo che permette di
correggere tale sottostima.
In cui rAB (A e B sono le due parti in cui dividiamo il test) è la r di Pearson e rntt sta
per l’attendibilità corretta (l’attendibilità considerando che il test è stato diviso in n
parti).
𝜎𝜎𝑑𝑑2
Ma si usa anche la formula di Rulon in cui è 𝑟𝑟𝑡𝑡𝑡𝑡 = 1 − la varianza delle differenze 𝜎𝜎𝑑𝑑2 tra i punteggi delle
𝜎𝜎𝑥𝑥2
due metà e è 𝜎𝜎𝑥𝑥2 la varianza di tutti i punteggi.
Formula di Guttman:
11
CLASSIFICAZIONE DEI TEST
I test vengono classificati in base agli stimoli, che possono essere non stardadizzati o standardizzati, e in base
alla situazione, che si distingue in controllata e non controllata.
Dall’incrocio di questi due fattori si ottiene:
I test psicologici possono essere definiti in base all’ area che
si propongono di misurare:
- Test cognitivi: test di intelligenza, attitudine e profitto,
memoria e linguaggio. Ha item di tipo:
o Ad esclusione;
o A sequenza;
o Vocabolario;
o Analogici;
o Abilità spaziale.
- Test non cognitivi: test di personalità (a loro volta in test non proiettivi e proiettivi) e scale di atteg-
giamento. Ha item di tipo:
o Dicotomici: prevedono risposte vero-falso/sì-no;
o Tricotomici: vero-incerto-falso/sì-no-non so/di solito-qualche volta-mai;
o A risposta libera;
o Con scala di valutazione.
In base al materiale usato:
- Carta e matita;
- Strumentali: prevedono l’uso di strumenti e non la compilazione carta e matita.
12
GLI STRUMENTI DI MISURA
In psicologia ci sono vari test psicologici che si possono utilizzare:
- Interviste;
- Questionari;
- Scale di misura degli atteggiamenti;
- Protocolli di osservazione.
I test e i questionari sono tra gli strumenti più utilizzati e spesso si presentano con una forma grafica simile.
Tuttavia, questi non sono sinonimi in quanto obiettivi, fasi di costruzione e metodologie di analisi dei dati sono
diversi. Le differenze in particolare sono:
- I test sono standardizzati: l’aspetto che distingue i test è l’esistenza di un valore normativo, cioè un
valore che sarà termine di confronto per le successive rilevazioni. Infatti, un test deve essere valido
(misurare esattamente ciò che si propone), attendibile o affidabile (cioè rilevare misurare costanti nel
tempo) e sensibile (in grado di discriminare fra gli individui o fra diversi livelli di sviluppo e appren-
dimento dello stesso individuo);
- Questionari: consistono in un insieme di domande riguardanti atteggiamenti, stili di vita, comporta-
menti e credenze. Particolare attenzione è posta sulle possibili forme di distorsione (desiderabilità so-
ciale: tendenza a scegliere i contenuti più graditi alla società; acquiescenza: rispondere in modo da far
piacere all’intervistatore; response set: tendenza a prendere posizioni estreme o posizioni centrali).
Per quanto riguarda gli obiettivi:
- I test sono intenzionati a misurare un tratto individuale, una capacità, etc. e nella valutazione si tiene
conto delle risposte che altri soggetti hanno dato alle stesse domande. Può avere anche funzione dia-
gnostica;
- I questionari invece hanno come obiettivo l’analisi di un fenomeno collettivo di una popolazione e non
ha la pretesa di analizzare le caratteristiche individuali di un singolo.
Validazione:
- Un test è validato: rispondenti e domande subiscono un processo di selezione al fine di creare dei
valori di riferimento dopo molte prove;
- Un questionario può essere usato anche una volta per tutte e non subisce un processo di validazione
vero e proprio, ma solo una verifica su un piccolo numero di soggetti (pre-test).
In questo senso:
- Caratteristiche: i test riguardano un numero limitato di dimensioni mentre il questionario si estende a
molteplici aspetti dell’oggetto di studio.
- Uso: un test è utilizzato anche da chi non l’ha costruito, mentre il questionario è spesso costruito ad
hoc per un’indagine dallo stesso gruppo che lo utilizzerà.
Il confronto tramite statistiche:
- Nei test la statistica è fondamentale nella creazione dello strumento, mentre resta implicita quando si
utilizza;
- Col questionario, la statistica interviene invece al momento della scelta del campione e nell’analisi dei
dati.
Per quanto riguarda il percorso che porta alla creazione di uno strumento:
- Con un test le fasi principali sono: costruzione della batteria di item; scelta del campione di riferi-
mento; somministrazione; calcolo dei punteggi normativi; stesura modalità di utilizzo; commercializ-
zazione;
- Per il questionario: progettazione di un’indagine; costruzione questionario; scelta del campione; co-
struzione matrice dati (in base alle risposte); analisi statistica dei dati; rapporto finale.
13
zata di un campione di comportamento avvalendosi di metodi di “somministrazione” e interpretazione accura-
tamente standardizzati. Attraverso il comportamento, si valutano tutti gli aspetti del funzionamento dell’indi-
viduo, inclusi anche tratti di personalità, atteggiamenti e motivazioni. L’interpretazione è poi basata sulla com-
parazione tra le risposte del soggetto e i punteggi standardizzati previsti per ogni risposta del test stesso.
Per situazione standardizzata s’intende una situazione in cui tutto rimane costante, tranne il variare delle rea-
zioni individuali; mentre per misura s’intende il prodotto dell’applicazione di regole per classificare o asse-
gnare numeri a degli oggetti in maniera tale che il numero rappresenti la quantità degli attributi o il grado in
cui una qualità è presente. Una misura può essere:
- Oggettiva: cioè replicabile;
- Standardizzata: s’intende che il singolo dato empirico sia ricondotto a un sistema di riferimento più
generale.
Si usa l’espressione campione di comportamento perché un test si basa essenzialmente sulla selezione (cam-
pionatura) di alcuni comportamenti fra quelli che costituiscono il repertorio comportamentale complessivo di
una persona. Infatti, i comportamenti (risposte) elicitati dal test devono essere rappresentativi dei comporta-
menti che potrebbero osservarsi al di fuori della situazione testistica.
Un test può essere presentato in vari modi: come batterie di prove, un elenco di item, un profilo, un questiona-
rio, un’intervista, una scala, una successione di stimoli proiettivi, ma deve presente alcune caratteristiche im-
prescindibili:
- Standardizzazione: La somministrazione del test deve avvenire con procedure uniformi, ossia con le
stesse modalità (materiali, limiti di tempo, frasi da utilizzare, assegnazione del punteggio) per tutti i
soggetti testati. La standardizzazione prevede anche la definizione di procedure di scoring (cioè di
calcolo dei punteggi) uniformi e la determinazione delle norme statistiche, senza le quali non si po-
trebbe attribuire un punteggio: i punti grezzi ottenuti da un soggetto vengono confrontati con quelli
ottenuti da un campione di soggetti (convertiti in punteggi standard o in centili), potendo così verificare
se la sua prestazione rientri o meno nella norma statistica.
- Validità
- Attendibilità
Se vogliamo mettere in evidenza le ipotizzate differenze fra soggetti con un certo grado di oggettività, dob-
biamo far variare solo le caratteristiche dei soggetti, mantenendo costante tutto il resto. Per garantire questa
costanza deve essere costante la situazione stimolo, ovvero quella situazione che sarebbe in grado di suscitare,
produrre reazioni o risposte individuali. Dato che la situazione stimolo, uguale per tutti, provoca delle reazioni,
essa è a volte anche chiamata definita situazione reattivo. Se invece si fa riferimento a quanto la situazione è
usata come prova, esame, può essere definita situazione test.
I test, in quanto veri e propri strumenti di misura, devono poi rispettare alcune specifiche condizioni:
- La variabile oggetto di misurazione deve essere individuata e circoscritta;
- Il costrutto va chiaramente definito su basi teoriche, verificando poi che il test misuri realmente quel
costrutto e non altro);
- Vanno elaborate regole per la quantificazione dei risultati (chiarire la quantità di un attributo presente
in un soggetto o il grado di somiglianza tra il soggetto e il tipo ideale e standardizzare le misure, in
modo che il significato di un numero sia costante indipendentemente dalle circostanze in cui avviene
la misurazione). Quest’ultima deve tener conto di alcune problematiche:
o Le ipotesi sulla distribuzione delle risposte di un singolo item in riferimento alla distribuzione
generale della caratteristica psicologica misurata;
o Le ipotesi sulla distribuzione della caratteristica psicologica nella popolazione;
o L’identificazione di un punto di riferimento a cui ancorare la scala numerica.
La quantificazione delle risposte ai singoli item è detta scaling, procedimento che designa la disposi-
zione dei tipi di risposta lungo una scala d’intensità, ossia l’assegnazione di un numero a ciascuno dei
livelli qualitativi ritenuti rilevanti.
Il campione normativo: viene detto campione normativo il gruppo di soggetti le cui risposte al test vengono
prese come termine di riferimento per valutare le risposte di qualsiasi altro soggetto che successivamente venga
14
sottoposto a quel test. Il campione normativo deve essere reperito con metodi che garantiscono la sua rappre-
sentatività, ad esempio il campionamento casuale. Può essere utile per un campione normativo evidenziare le
distinzioni fra sub-campioni (es. maschi/femmine), ecco perché si può scegliere di estrarre invece un campione
casuale stratificato, in cui identificano gli strati di popolazione che interessa considerare distintamente e da
ciascuno di essi si estrae un campione casuale semplice). Ciò è fondamentale, perché se si sbaglia popolazione
si sbaglia anche la misurazione.
Un problema basilare nell’estrazione di un campione è quello relativo alla sua ampiezza. In particolare, rispetto
alla numerosità del campione, si assume che il numero minimo di soggetti su cui basare una campionatura
normativa sia pari a 300. Inoltre, è di uguale importanza anche l’eterogeneità dello stesso, in termini spazio-
temporali e quindi: geografici, socioculturali e fascia d’età.
- Scala in punti T: ha media = 50 e s = 10. Varia tra 0 e 100 e non prevede valori negativi. T=
50 + 10z;
- Scala stanine (standard nine): ha media = 5 e s = 2. Stanine = 5 + 2z;
- Scala sten (standard ten): ha media = 5.5 + 2z. Sten = 5.5 + 2z;
- Punteggio QI: media = 100 e s = 15.
Possiamo anche usare il rango percentile di un punteggio X. RP(x) può essere definito come la percentuale
di dati che assumono valore minore o uguale a X. È una standardizzazione che si basa sulle posizioni dei
soggetti nella distribuzione dei punteggi. Se un soggetto ha un punteggio Xi, dire che ha RP(Xi)=45 significa
che nella distribuzione ordinata dei dati il punteggio Xi lascia alla sua sinistra il 45% dei dati della distribuzione.
Il percentile e il rango percentile non sono sinonimi però, in quanto:
- Il percentile è un valore;
- Il rango percentile è una posizione associata a una percentuale.
Dalla formulazione dell’equazione fondamentale della TCT in termine di attendibilità si ottiene che questa sia
2
𝜎𝜎𝐸𝐸
𝑟𝑟𝑡𝑡𝑡𝑡 = 1 − . Segue, a questo punto, che la varianza di errore è: 𝜎𝜎𝐸𝐸2 = 𝜎𝜎𝑋𝑋2 (1 − 𝑟𝑟𝑡𝑡𝑡𝑡 )
𝜎𝜎𝑥𝑥2
Mettendo sotto radice questa quantità si ottiene la deviazione standard (√𝑣𝑣𝑣𝑣𝑣𝑣), ovvero l’errore standard di
misurazione: 𝜎𝜎𝐸𝐸 = 𝜎𝜎𝑋𝑋 �(1 − 𝑟𝑟𝑡𝑡𝑡𝑡 ) (portando fuori 𝜎𝜎𝑋𝑋2 )
(L’utilizzo dell’attendibilità è necessario in quanto se dicessimo che la deviazione standard sia l’errore stan-
dard di misurazione non terremo conto di tutti gli errori, e a tal fine è necessario modificare lo scarto aggiun-
gendo quel valore che rappresenta l’errore di misurazione, appunto l’attendibilità).
Ex: Sia l’attendibilità di un test 0.90 e la deviazione standard uguale a 15, l’errore standard sarà:
𝜎𝜎𝐸𝐸 = 15�(1 − 0.90) = 4.74
Una volta conosciuto l’errore standard di misurazione di un test, è possibile calcolare l’intervallo di fiducia al
cui interno ricadrebbe il punteggio vero V nel caso in cui il soggetto ripetesse infinite volte il test a partire dal
punteggio osservato.
INTERVALLO DI FIDUCIA
L’intervallo di fiducia è un range di punteggi osservati al cui interno è probabile ricada il punteggio
vero. È possibile calcolare questa probabilità tramite l’errore standard di misurazione in quanto se ciò che fa
spostare X da V è l’errore, il parametro fondamentale che determina questo spostamento è la deviazione stan-
dard di questo errore, cioè appunto l’errore standard di misurazione.
Presupponendo un range in cui punteggio osservato coincida con il punteggio vero, la sua probabilità sarebbe
uguale a: P (X – V = 0). Rappresentando questo intervallo con una gaussiana (quindi interpretandola in termini
di distribuzione di frequenze) potremo stabilire la probabilità tramite una grandezza:
𝑃𝑃(𝑋𝑋 − 𝑉𝑉 = 0) = 1 − 𝛼𝛼 *
Questo praticamente significa misurare la distanza che c’è tra X e V e decidere sulla base di un α (un errore di
inferenza di cui è accettata la presenza) che X e V possano essere uguali. Graficamente ciò si tradurrà in un’area
della curva la quale non sarà altro che lo scarto tra il punteggio osservato e il punteggio vero e all’interno del
quale si troverà V.
16
Pertanto, possiamo riscrivere P (X – V = 0) = 1 – α in termini di valore del limite inferiore e superiore della
curva (formula inversa di z e inversa della standardizzazione per la quale z si moltiplica per l’errore standard
e che ci permette di portare il punteggio z critico in termini di punteggio del nostro test):
𝑃𝑃(𝑋𝑋𝑖𝑖𝑖𝑖𝑖𝑖 ≤ 𝑉𝑉 ≤ 𝑋𝑋𝑠𝑠𝑠𝑠𝑠𝑠 ) = 1 − 𝛼𝛼
𝑋𝑋𝑠𝑠𝑠𝑠𝑠𝑠 = 𝑋𝑋 + 𝑧𝑧1−(𝛼𝛼)𝜎𝜎𝐸𝐸
2
𝑋𝑋𝑖𝑖𝑖𝑖𝑖𝑖 = 𝑋𝑋 − 𝑧𝑧1−(𝛼𝛼)𝜎𝜎𝐸𝐸
2
Ex: Immaginiamo un soggetto che abbia ottenuto in un test il cui errore standard è 4.74 un punteggio X=
108. Quale sarà un intervallo di fiducia del 95%?
𝛼𝛼 = 0.05
𝑧𝑧1−(𝛼𝛼) = 1.96
2
108 − 1.96 × 4.74 ≤ 𝑉𝑉 ≤ 108 + 1.96 × 4.74
98.7 ≤ 𝑉𝑉 ≤ 117.3
Immaginiamo un soggetto che abbia ottenuto in un test il cui errore standard è 4.74 un punteggio X = 108.
Quale sarà un intervallo di fiducia del 99%?
𝛼𝛼 = 0.01
𝑧𝑧1−(𝛼𝛼) = 2.58
2
108 − 2.58 × 4.74 ≤ 𝑉𝑉 ≤ 108 + 2.58 × 4.74
95.8 ≤ 𝑉𝑉 ≤ 120.2
Più il test sarà preciso, più l’intervallo di fiducia sarà basso. Più l’attendibilità sarà bassa, più l’intervallo di
fiducia sarà ampio.
17
Avendo solo XA e XB, bisogna stimare la differenza tra i due punteggi veri a partire dalla differenza tra i due
punteggi osservati. Tuttavia, i casi possibili sono molteplici, in quanto XA e XB possono essere anche molto più
distanti dai punteggi veri.
Immaginiamo dun-
que di avere 2 soggetti A e B sottoposti allo stesso test, con rtt = 0.92 e deviazione standard uguale a 12. XA =
102 e XB = 96. Dobbiamo verificare delle ipotesi statistiche:
• H 0 : VA = Vb
• H1 : VA ≠ Vb (si fanno ipotesi su V e non X)
18
La stessa cosa può essere fatta se si vuole stimare le differenze tra i punteggi di uno stesso soggetto a due test
differenti. Per prima cosa dobbiamo calcolare la differenza degli errori, cioè 𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 = 𝜎𝜎𝐸𝐸𝐸𝐸 −𝐸𝐸𝐸𝐸 , tuttavia essendo
2
due test diversi la varianza della componente dell’errore del test A sarà diversa da quella del test B, cioè 𝜎𝜎𝐸𝐸𝐸𝐸 ≠
2 2 2
𝜎𝜎𝐸𝐸𝐸𝐸 per cui 𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 = �𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 = �𝜎𝜎𝐸𝐸𝐸𝐸−𝐸𝐸𝐸𝐸 = �𝜎𝜎 2 𝐸𝐸𝐸𝐸 + 𝜎𝜎 2 𝐸𝐸𝐸𝐸 (covarianza nulla).
Quindi, esemplificando, abbiamo un soggetto sottoposto a due test, con rttA = 0.94, rttB = 0.86 e deviazioni
standard uguale a 15 e a 12 e con XA = 108 e XB = 94. Dobbiamo verificare delle ipotesi statistiche:
- H0 : VA = Vb
- H 1 : VA ≠ Vb
(possiamo fare verifiche bidirezionali (vedere l’uguaglianza e la diversità), ma anche monodirezionali
(se una è maggiore di un’altra), pertanto specifico l’alfa solo da una parte in quando monodirezionale
o unilaterale dx o sx, pertanto l’alfa non dovrà essere diviso in due parti e sarà solo da una parte della
curva e quindi il valore critico con cui confrontiamo, in questo caso, 𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 ).
Se i due test hanno poi stessa varianza (𝜎𝜎𝐴𝐴2 = 𝜎𝜎𝐵𝐵2 = 𝜎𝜎𝑋𝑋2 ) e attendibilità (rttA = rttB = rtt), la formula diventa:
2
𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 = 𝜎𝜎𝑋𝑋2 ∗ 2(1 − 𝑟𝑟𝑡𝑡𝑡𝑡).
VALIDITA’
Insieme all’attendibilità, la validità è l’altra dimensione fondamentale nello studio dei test psicometrici e si
riferisce al grado di accuratezza con cui uno strumento misura effettivamente ciò che si propone di misurare,
a differenza dell’attendibilità che misura invece la precisione, quanto bene ho misurato…(validità e attendibi-
lità non sono correlate).
L’errore sistematico riduce la validità della misura.
VALIDITA’ VS ATTENDIBILITA’
19
Si può affermare, per semplicità, che l’attendibilità
misura la struttura di una scala psicometrica, cioè le
sue caratteristiche formali, del modo in cui misura un
costrutto psicologico; la validità è invece un tipo di
misurazione dell’efficacia di una scala psicometrica
nell’essere capace di misurare il contenuto del test,
cioè quello che si vuole misurare e non il modo in cui
riusciamo a farlo.
TIPI DI VALIDITA’
Metodi qualitativi:
validità di facciata
e contenuto
Metodi quantita-
tivi: validità di cri-
terio e di co-
strutto
VALIDITÀ DI CRITERIO
Riguarda la relazione che il test presenta con una o più misure o osservazioni (criterio, non è il risultato di uno
scaling) esterne al costrutto del test, con le quali viene ipotizzata tale relazione associata allo stesso criterio
(confronto tra il costrutto personalità e il criterio performance accademica, quest’ultima condensa solo risultati
e non è rappresentativa di nessun costrutto, a meno che non ci sia una teoria che mi dimostri che ci sia una
relazione o una causalità). Per cui si basa su ipotesi teoriche ed è misurabile attraverso un coefficiente di
correlazione o regressione, in base a quello che si vuole misurare. Infatti, la validità di criterio si può intendere
in due modi:
- Predittiva: Riguarda la rilevazione dei punteggi ad un test in momenti successivi ed una loro correla-
zione. Un elevato coefficiente di correlazione indicherà una buona capacità del test di previsione dei
20
comportamenti (regressione, è possibile individuare una causalità determinare una variabile indipen-
dente e dipendente e ci permette di predire in anticipo una determinata variabile);
- Concorrente: Riguarda la correlazione tra i punteggi ottenuti sia ad un test che ad un criterio in una
popolazione specifica e predeterminata. Un elevato coefficiente di correlazione indica una buona ca-
pacità del test di predire comportamenti simile a quella di altre fonti di valutazione (correlazione). rtt
E’ possibile dimostrare che il massimo valore ottenibile per il coefficiente di validità è �𝑟𝑟𝑡𝑡𝑡𝑡 .
VALIDITA’ DI COSTRUTTO
Cerca di verificare se un punteggio a un test misura realmente il costrutto psicologico d’interesse (cioè, quanto
una data operazionalizzazione misura effettivamente il costrutto che si intende misurare) attraverso il confronto
con la misurazione dello stesso costrutto effettuata con un altro strumento. Per cui, in questo caso, l’importanza
non risiede nel rapporto tra costrutto e criterio, ma tra due costrutti. Anche in questo caso si utilizza la corre-
lazione come metodo statistico, ovvero si somministrano due test che si ipotizza in via teorica che misuri lo
stesso costrutto e si calcola la correlazione tra due punteggi. Quel valore sarà il coefficiente di attendibilità. Si
possono interpretare i risultati in due modi differenti: convergente (quando due scale che misurano lo stesso
costrutto presentano un alto valore di correlazione, è significativa se > .80) e discriminante (o divergente,
quando due scale psicometriche che in teoria non dovrebbero essere correlate forniscono una correlazione
molto bassa, < .20).
ATTENUAZIONE
Nello studio della validità di criterio e di costrutto, assume un’importanza rilevante un’applicazione dell’at-
tendibilità: il concetto di attenuazione. Partendo dall’assunzione che ogni misurazione contiene un errore, la
correlazione tra due costrutti sarà sempre maggiore di quella tra indicatori o misure in quanto solo quest’ultimi
sono affetti dall’errore di misurazione, per cui 𝑟𝑟𝑝𝑝𝑝𝑝 ≥ 𝑟𝑟𝑝𝑝′ 𝑞𝑞′ . Questo fenomeno è noto come attenuazione delle
correlazioni dovuta alla inattendibilità delle misure
(Path diagram: diagrammi che rappresentano la relazione tra variabili. I quadrati sono variabili osservabili,
le X, ovvero V + E, due variabili latenti, non osservabili direttamente, e rappresentate dai due cerchi. “p” e
“q” sono i punteggi veri, p’ e q’ sono i punteggi osservati ed e1 ed e2 sono gli errori. Delle frecce hanno una
sola testa, altre due. Le prime vuol dire che nell’esempio della regressione, possiamo comprendere il valore
di una variabile a partire da un’altra in quanto è dipendente (prezzo delle case dipende dai metri quadri), se
le frecce sono due si parla di correlazione. Ciò che ci dice l’attenuazione è che la correlazione che avremo
tra p’ e q’ non sarà mai uguale a quella di p e q in quanto i punteggi osservati presentano errori ed è quindi
corrotta dato che si aggiunge necessariamente una somma, ovvero quella di errore. Pertanto, sapendo che il
punteggio vero si ottiene come X - E allora si spiega la superiorità della correlazione tra due costrutti, in
quanto quella tra punteggi è attenuata dall’errore. Ecco perché per esempio se non c’è errore non c’è atte-
nuazione. Inoltre, l’attenuazione non riguarda variabili osservabili, come il voto di laurea, perché per defini-
zione non presenta errori, riguarda solo le variabili latenti).
Al fine di correggere l’attenuazione un modo da avere una stima della correlazione tra i due costrutti non
attenuta dall’errore di misurazione è possibile utilizzare l’attendibilità calcolata per le scale che vengono uti-
lizzate nell’acquisizione dei punteggi relativi alle osservazioni dei due costrutti (p e q).
21
𝑟𝑟𝑝𝑝′𝑞𝑞′
𝑟𝑟𝑝𝑝𝑝𝑝 = in cui 𝑟𝑟𝑝𝑝𝑝𝑝 è la correlazione corretta tra i due costrutti, 𝑟𝑟𝑝𝑝′𝑞𝑞′ la correlazione osservata e 𝑟𝑟𝑝𝑝′𝑝𝑝′
�𝑟𝑟𝑝𝑝′𝑝𝑝′𝑟𝑟𝑞𝑞′𝑞𝑞′
l’attendibilità del test p’ e 𝑟𝑟𝑞𝑞′𝑞𝑞′ l’attendibilità del test q’.
Nel caso di correlazione tra un criterio di un costrutto, sulla base dei valori di attendibilità, potremmo optare
per la correzione dell’attenuazione determinata da solo una delle due scale, la scala p o la scala (o misurazione)
q. Nel caso della performance, dato che non si può calcolare l’attendibilità su di esso, si può scegliere di farlo
direttamente sulla scala di misurazione che è in relazione con il criterio.
23
punteggi all’item specifico del gruppo A e B e li si sottopone a un test di verifica di uguaglianza delle diffe-
renze. Se il T test risultasse significativo, i punteggi dei due gruppi sarebbero significativamente diversi anche
non avendo un indice di stima e quindi che l’item in oggetto possiede una buona discriminatività.
ANALISI FATTORIALE
STORIA
Spearman, uno psicologo inglese, sviluppò le basi dell’Analisi Fattoriale (AF) all’inizio del 1900 per misu-
rare l’intelligenza in modo “obiettivo”. L’idea di base è che le correlazioni tra le risposte fornite a un set di test
di abilità siano descritte da un unico “fattore generale” di intelligenza.
24
- X è la matrice che mette in relazione i soggetti con i punteggi ottenuti dalle variabili (item) di dimen-
sioni n,k, in cui nelle righe ci sono i soggetti di studio e nelle colonne le risposte agli item che hanno
dato;
- S è la matrice che mette in relazione le diverse variabili, item (utilizzando i punteggi) in termini di
varianze e covarianze e che sono sia nelle righe che nelle colonne ci sono gli item. In particolare, negli
incroci di variabili diverse la covarianza, in quelli delle stesse variabili la varianza (che sarebbe co-
munque la covarianza, vd formula e relazione con correlazione di Bravais-Pearson). Per cui, la dia-
gonale formata da quei punti in cui si incrociano le stesse variabili divide la matrice in due parti sim-
metriche e pertanto basterà calcolare solo una parte e poi moltiplicare per due per ottenere l’intera
matrice (la moltiplicazione è commutativa):
X=S=
(tutto A con
tutto B, tutto A
con tutto C…)
In termini più formali: date p variabili manifeste osservate su n individui x1…xp nell’AF ciascuna delle p
variabili manifeste viene espressa come funzione lineare (retta) di q fattori “comuni” (con q < p), respon-
sabili della correlazione della specifica variabile manifesta con le altre variabili manifeste, ed un unico errore
di misura, responsabile della variabilità della variabile stessa (eliminati i fattori in comune con le altre varia-
bili). (x è un vettore, un insieme ordinato di numeri con una dimensione)
(i vari lambda * csi descrivono le diverse dimensioni di una stessa retta, e questo è anche un problema in
quanto il punteggio unico X non mi descrive i pesi differenti delle varie dimensioni (più nevroticismo, -aper-
tura a nuove esperienze, e viceversa poiché rimane uguale)
Le variabili osservabili (x...xp) (colonna) possono essere riscritte utilizzando dei fattori di saturazione
(lambda), dei fattori comuni (csi) e dei fattori unici (epsilon, l’errore). (y=2x, 2 = landa; x = csi; y =
25
variabile indipendente che calcolo tramite x, la variabile dipendente; per cui, la dimensione è quell’elemento
che varia e che modifica y, in questo caso x)
Fattore comune (csi) = variabile latente (non direttamente osservabile), inferito attraverso variabili osservate
e che ne determina la covariazione o correlazione. E’ chiamato così perché è un fattore uguale per tutte le
variabili (ha lo stesso pedice per tutte le variabili in colonna).
Factor Loading (lambda) = è un coefficiente di correlazione che mostra la forza della relazione tra ciascun
fattore comune con la corrispondente variabile manifesta (l’importanza, il peso di ogni variabile nel definire
un fattore). E’ un fattore individuale (specifico) che cambia per ogni variabile.
(Il modello dell’Af somiglia solo apparentemente a quello di regressione multipla, infatti q fattori non sono
osservabili (non abbiamo valori osservati su queste variabili): tutto ciò che giace a destra dell’equazione è
dunque incognito).
Lo scopo è quello di stimare i parametri che compongono la matrice
PATH DIAGRAM
Un modello di analisi fattoriale può essere rappresentato graficamente attraverso il path diagram che permette
di capire meglio le relazioni tra tutte le variabili latenti e manifeste (quali e quante sono), comprendendo anche
fattori di errori.
Vi sono due maniere differenti di usare la stessa applicazione del modello di analisi fattoriale:
- Analisi fattoriale esplorativa: ha l’obbiettivo di determinare se e in che modo le variabili manifeste
osservate sono legate ad uno o più fattori latenti. Le relazioni tra le variabili osservate e le variabili
latenti sono quindi sconosciute o incerte.
- Analisi fattoriale confermativa: ha come scopo quello di testare statisticamente le relazioni causali
esistenti tra le variabili manifeste e uno o più fattori latenti. Le relazioni tra le variabili manifeste e le
variabili latenti sono quindi note a priori sulla base di teorie o sulla base si esperimenti empirici.
26
tutto il problema sta nel ricostruire il punteggio osservato a partire da lambda, csi ed epsilon in cui il punteggio
di lambda ci dice quanto una dimensione è importante nel determinare un punteggio.
I parametri incogniti del modello fattoriale sono stimati minimizzando la «distanza» (differenza) tra la matrice
di var/cov S osservata e la matrice di var/cov Σ (stimata) riprodotta dai parametri del modello.
I valori stimati dei parametri in Σ (sigma) saranno tali che: S - Σ = min
L’obiettivo è, cioè, quello di stimare quei parametri che rendono la differenza tra le due matrici S e Σ la più
piccola possibile.
Pertanto, i metodi di stima dei parametri (lambda ed epsilon) del modello di AF cercano di ricostruire la matrice
di var/cov originaria S a partire dalla definizione di alcuni fattori comuni (VL) che spieghino nel miglior modo
possibile la struttura di varianza e covarianza osservata in S (per poi ridurre la dimensionalità: io ho una
matrice di dati originaria S, da questa riscrivo le covarianze e le varianze osservate in S usando i parametri
del modello (per poi ricostruire la matrice originaria), costruisco la matrice Σ, la quale mi permette, a diffe-
renza di S, di definire alcuni fattori comuni, ovvero VL, in maniera tale da ottenere q < p, rispettando i vincoli
in alto a sx nell’immagine e sempre con l’obiettivo che S e Σ siano quanto più simili possibili (più lo sono, più
i parametri permettono di ricostruire la matrice di cov/var S).
ϕ11 = var (ξ1) la varianza di csi (se la assumo come variabile standardizzata) è 1
27
qualunque funzione che riesca a misurare la distanza tra S e Σ. In particolare, rapporta la funzione di discre-
panza sul modello stimato (la percentuale di varianza e covarianza in S spiegata dalla matrice Σ) e la funzione
di discrepanza sul “modello nullo” in cui i parametri non svolgono alcun ruolo (tutti i parametri sono fissati a
0).
Regola di decisione: un modello è accettato se GFI > 0.9 (F più piccolo di Fnull). Non avendo informazioni
sulla distribuzione dell’andamento di queste F, l’unica cosa possibile è vedere il GFI in modo da aspettarci
valori alti.
∑(𝑆𝑆𝑆𝑆,𝑗𝑗−𝜎𝜎𝜎𝜎,𝑗𝑗)
Un altro indice è il “Root Mean Squared Error” RMSE = � (matrice S e matrice sigma) divisi
𝑘𝑘
per la variabile k = (p + q) * (p + q + 1). Media degli errori, ovvero gli scarti tra S e Σ. Parte da 0, quando S è
uguale a Σ.
Regola di decisione: valori bassi
COMUNALITA’ E SPECIFICITA’
Con l’AF, la varianza di una variabile viene scomposta in due parti:
- La comunalità: la varianza in comune con ciascuna variabile osservata. Questa è determinata da un
parametro, h2, ovvero il loading (lambda) * la varianza dei fattori comuni corrispondenti;
- Unicità: la varianza unica della variabile (spiegata dal fattore unico)
La comunalità è una proporzione che varia tra 0 e 1 (perché è una variabile standardizzata). Più h2 si avvicina
a 1, tanto più i fattori considerati saranno in grado di spiegare la (totalità della) varianza della variabile osser-
vata (quindi il presupposto è che ci siamo molta comunalità e poca unicità).
Una rappresentazione grafica del rapporto tra varianza comune e varianza spiegata è:
L’ACP è un metodo di statistica multivariata che ha l’obiettivo di ridurre la complessità presente in una matrice
di dati (come l’AF) in maniera tale da esprimere la sua struttura in un numero ridotto di dimensioni (metodo
di riduzione della dimensionalità), eliminando la ridondanza di informazioni nei dati.
Tuttavia, a differenza dell’AF che dispone di un modello fattoriale, l’ACP non si basa su un modello che
richiede una serie di assunzioni. Questa, infatti, individua delle particolari trasformazioni delle variabili osser-
vate, le componenti principali, le quali devono essere tra loro correlate e spiegano la variabilità
totale.
Qui la varianza totale viene suddivisa in
S=
varianza comune e varianza unica.
La variabilità totale (7.64 + 54.35
+ 6.32 + 617.84 = 686) è rappre-
sentata dalla diagonale delle va-
rianze della matrice S
La varianza totale può essere però anche rappresentata da altri valori, derivabili sempre da una matrice var/cov,
gli autovalori (rappresentano la varianza delle variabili latenti, cioè la varianza di csi, non csi stesso), in
quanto la somma di questi autovalori è uguale alla traccia della matrice S, cioè alla somma delle varianze
(variabilità totale) sulla sua diagonale. Si possono estrarre tanti autovalori quante sono le variabili in X.
Ciò è fondamentale, perché in base all’analisi degli autovalori e di alcuni elementi a loro affini, ovvero gli
autovettori (csi), è possibile ricostituire la matrice dei dati grazie alle componenti principali, nuovi sistemi di
riferimenti che cercano di rappresentare gli aspetti della variabilità di un set di dati
VALIDARE UN TEST
Operazionalizzazione: il costrutto deve essere definito in modo operativo, individuando comportamenti che
ci permettono di rilevare la presenza di una caratteristica psicologica in una persona.
Le dimensioni sono aspetti psicologici organizzati non osservabili che rappresentano ognuno una parte del
costrutto e che si collocano gerarchicamente tra i costrutti e gli indicatori.
(tremori, parlare in pubblico)
Te-
stare
un test
Quando in letteratura non esiste uno strumento che misuri il costrutto che si vuole misurare è possibile creare
uno strumento e avviare il processo di validazione seguendo accuratamente una serie di step:
30
Quando in letteratura esiste uno strumento che misuri il costrutto che si vuole misurare ma non è creato per il
contesto in esame e non è presente una versione adattata è possibile procedere alla validazione dello strumento
attraverso alcuni step:
1) Se lo strumento non è adattato alla lingua del contesto in cui deve essere somministrato (es., ita-
liano), il primo step è la traduzione degli item (es., metodo della Back-translation);
2) Testare la struttura fattoriale dello strumento: analisi fattoriale (es., analisi fattoriale esplorativa,
analisi delle componenti principali, analisi fattoriale confermativa);
3) Testare l’invarianza della struttura fattoriale (ad es., è valido per maschi e femmine? E’ valido per
adolescenti e giovani adulti?): attraverso tre tipi di invarianza: configurale, metrica e scalare.
4) A partire da uno strumento è possibile creare una versione breve, utilizzando solo alcune dimen-
sioni
(matrice di var/cov)
La diagonale non c’è in quanto composta da solo “1”. (azzurri fortemente correlate positivamente, gialle for-
temente correlate negativamente).
Possiamo ipotizzare ci siano due fattori latenti, F1 e F2, dato che i primi due autovalori hanno valori molto alti
e spiegano insieme quasi la maggior parte della varianza, l’87% (sono molto superiori a 1 e 1 è importante
poiché essendo le variabili standardizzate, la loro varianza è pari a 1. Per cui, se noi avessimo degli autovalori
che avessero come valore 1 significherebbe che essi non spiegherebbero più varianza della variabile stessa,
mentre invece l’obiettivo è proprio avere dei fattori che spiegano molta più varianza della singola variabile):
A ogni componente principale è
associata un autovalore il quale
spiega una parte di varianza. Per
esempio, l’autovalore 1, che è
uguale a 4,961 spiega il 49,
611% di varianza (i valori sono
standardizzati, cioè le varianze
delle diverse variabili sono poste
a 1) (la somma degli autovalori
è uguale a 10, come il numero di
fattori, cioè 10)
31
3) Scree-test di Cattell: spiega l’andamento della varianza spiegata in cui sull’asse delle ordinate ab-
biamo i valori degli autovalori, mentre sull’asse delle ascisse i fattori (10, come
nella tabella)
4) Teoria
Fatto ciò, i programmi per l’analisi fattoriale ci restituiscono la matrice fattoriale, ovvero una matrice di
loadings i quali ci rappresentano la correlazione tra una variabile osservata ed il fattore che però non ci permette
di capire quali sono i fattori che determinano il comportamento delle variabili, e quindi come associare i fattori
alle singole variabili.
Per fare questo, esiste il metodo della rotazione dei fattori il quale permette di ruotare gli assi fattoriali
(rotazione dei fattori) e di avvicinare o allontanare i fattori dai punteggi osservati in maniera da trovare la
struttura minima, ovvero quella struttura di fattori che meglio rappresentano i dati. Questo problema deriva
dal fatto che l’analisi fattoriale offre soluzioni infinite e solo attraverso la rotazione dei fattori si possono
trovare soluzioni che abbiano dei loading più marcati.
Ortogonale Obliqua
La rotazione (applicata alla matrice dei loadings) è un metodo per cambiare la disposizione degli assi di rife-
rimento nello spazio e di avvicinarli o meno rispetto i punti che rappresentano i dati. (Immagina di avere i due
assi, e di avere un punto al centro. Applicando una rotazione degli assi, massimizzo la distanza da uno e la
riduco da un altro e quindi potremmo calcolare meglio le distanze, ovvero i loadings. I due assi possono essere
intesi come i fattori. Questa non è poi una distorsione in quanto cambia il sistema di riferimento ma non la
posizione de punto). Ci sono differenti metodi:
- Metodi ortogonali: mantengono l’ortogonalità delle assi, per cui la rotazione degli assi fattoriali sep-
pure renda interpretabili le dimensioni latenti (o fattori) mantiene comunque l’indipendenza fra i fattori
(la differenza tra ortogonali e obliqui è che nei primi ciò che spiega un fattore non viene spiegato da
un altro fattore)
o Varimax: semplifica le righe: ogni variabile osservata è correlata massimamente con un fattore
e nulla con gli altri (è’ il metodo più utilizzato);
o Quartimax: semplifica le colonne: ogni colonna è massimamente correlata con tutte le variabili
osservate e poco con le restanti;
32
o Equamax: bilancia i due criteri precedenti.
- Metodi obliqui: permettono alle assi di violare la loro ortogonalità. Inoltre, la rotazione obliqua per-
mette un migliore adeguamento degli assi fattoriali alle variabili osservate ma il criterio di indipen-
denza statistica fra i fattori non è più osservato
o Promax: rende gli assi obliqui in funzione di una soluzione iniziale Varimax;
o Oblimin (obliquità minima): permette di fissare l’inclinazione degli assi e quindi le loro inter-
correlazioni.
Per cui, ciò che vediamo dopo l’applicazione della rotazione è possibile vedere quali fattori determinano (sog-
giace, è latente) il comportamento di alcune variabili.
Ciò ha permesso di verificare l’ipotesi secondo cui due fattori latenti spiegassero la varianza delle variabili.
AF E ATTENDIBILITA’
L’AF cerca di spiegare la varianza comune tra più osservazioni (item nel caso di test psicometrici).
La varianza del singolo item di un test è: 𝜎𝜎𝑖𝑖2 = 𝜆𝜆2𝑖𝑖 + 𝑣𝑣𝑣𝑣𝑣𝑣(𝑒𝑒𝑖𝑖 ) (l’attendibilità calcolata con l’α di Cronbach è
meno precisa di quella calcolata con ω in quanto quest’ultimo utilizza soltanto la varianza spiegata e non
tutta la varianza)
Attraverso l’AF è quindi possibile stimare l’omogeneità e i rapporti tra le varianze degli item e del test. In
particolare, rispetto alla TCT, l’AF permette di stimare la monodimensionalità (unico fattore, VL) di un test,
ovvero la stima del fatto che gli item misurino effettivamente la stessa variabile latente (come se venisse sti-
mata la coerenza interna del test). Ciò avviene attraverso…
Coefficiente (omega): ω = in cui λj sono i loadings dei fattori e ψj le unicità degli items.
Tuttavia, tutto ciò che abbiamo discusso fino a ora, valgono per matrici:
- Quadrate: il numero delle righe e delle colonne è il medesimo;
- Simmetriche: i valori al di sopra della diagonale e al di sotto sono uguali;
33
Qualora queste due caratteristiche non ci siano, si possono ottenere attraverso la matrice var/cov.
I Latent Trait Model cercano di andare oltre questo approccio e di studiare le caratteristiche latenti che pro-
ducono le risposte osservate. Le caratteristiche sono misurate al livello del singolo item e cercano di fornire
misure psicometriche degli item senza legarle a un campione specifico di soggetti rispondenti.
I modelli dei tratti latenti sono nati intorno al 1949, ma non sono stati ampiamente utilizzati fino al 1960.
Sebbene teoricamente possibile, è praticamente infattibile usare questi modelli senza software specialistici.
Mirano a misurare la capacità (o tratto) che sta alla base di una performance (comportamento), piuttosto che
la misurazione delle performance per sé. Ciò permette di liberarsi dal concetto di “campione” poiché le stati-
stiche derivate non dipendono dalla specifica situazione che ha generato una data performance ma dalla pro-
babilità e per questo possono essere usate in maniera più flessibile.
Ogni item ha la capacità di misurare alcune parti del tratto latente dei soggetti.
La teoria della risposta all’item si basa sulla modellizzazione, ovvero sulla creazione di un modello matematico
che permette di mettere in relazione la difficoltà di un item con l’abilità di un soggetto, in maniera tale da poter
misurare A una volta che conosciamo D.
Il modello matematico si chiama “funzione di risposta all’item” (IRF) ed è una funzione matematica che lega
la quantità di tratto latente alla probabilità che ha un soggetto di rispondere correttamente a un dato item.
Insieme alla IRF possiamo anche definire un nuovo tipo di misura psicometrica che è la funzione dell’infor-
mazione dell’item (IIF) è un’indicazione della qualità dell’item, ovvero la capacità dell’item di fornire una
stima precise dell’abilità di un soggetto (un po' come l’attendibilità).
Tuttavia, alla base di tutto ciò, è fondamentale il conetto di invarianza, cioè la posizione di un soggetto rispetto
al tratto latente (la quantità di tratto latente di un soggetto specifico) può essere stimata a partire dalla cono-
scenza della IRF di un item e per cui non è importante mettere in relazione un soggetto con altri soggetti o in
relazione degli item sommandoli come nella TCT in quanto le caratteristiche degli item stessi sono indipen-
denti dalla popolazione dei soggetti.
34
differenze individuali rispetto a un costrutto) di un soggetto, la proprietà di un item e la probabilità di rispon-
dere correttamente. Pertanto, secondo la IRF, la probabilità di rispondere correttamente a un dato item dipende
dal livello di tratto latente, o abilità, di un soggetto che è usualmente indicato dalla lettera greca theta “θ” e
dalla difficoltà di un item con la lettera “b”.
Il modello a 1 parametro (anche detto di b o modello di Rasch) assume che tutti gli item di una scala siano
relativi a un unico tratto latente (unidimensionale quindi) e possano variare solo per la difficoltà.
e = costante di Nepero
Un aspetto fondamentale della IRF ma come anche nella TCT grazie all’analisi fattoriale è la dimensionalità,
in particolare che tutti gli item che misurano i tratti latenti dei soggetti debbano misurare lo stesso tratto latente
e quindi non possono mischiare diverse dimensioni. Tutti gli item devono riferirsi a un unico tratto latente e
debbano e possano variare tra di loro solo per la loro difficoltà, cioè per “b” e non per “θ”, che è invece il
parametro che si vuole stimare.
Ora, se abbiamo due item che differiscono per difficoltà, questi avranno esattamente la stessa forma (curva
caratteristica) ma saranno diversi per la posizione, dove quello più difficile si troverà su valori di θ più alti.
35
(ciò significa che, come nell’esempio, per avere la location, cioè il punto di flesso, c’è bisogno di abilità di-
verse, appunto -0.2 e 0.4, e pertanto possiamo capire che l’item 1 sia più semplice. Inoltre, θ e b si muovono
entrambe sull’asse delle ascisse)
Il modello a 2 parametri ritiene che la probabilità di rispondere correttamente a un item dipenda sia da θ che
da b ma aggiunge il parametro “a”, ovvero la capacità di discriminazione. Infatti, in questo tipo di modelli le
IRFs (s per il plurale in inglese) degli item possono variare sia per la difficoltà che per la capacità di discrimi-
nazione.
Il parametro “a” indica la pendenza della IRF nella posizione in cui si trova l’item e quanto l’item è capace di
discriminare tra soggetti che hanno valori di abilità molto simili tra loro e quanto sia legato al fattore latente.
Gli item con alti parametri di discriminazione riescono a differenziare meglio i soggetti nella posizione speci-
fica dell’item. Inoltre, piccoli cambiamenti nel tratto latente portano a grandi cambiamenti nella probabilità di
risposta.
Il modello a 3 parametri aggiunge il parametro “c” (parametro del caso). Per cui, la difficoltà dipenderà sia da
θ, b, a e ora anche da c.
Il parametro “c” non fa altro che aumentare di poco l’asintoto inferiore e per cui il valore minimo non sarà 0
ma un numero più alto (0,1 per es.). L’inclusione di questo parametro suggerisce che i soggetti con bassi livelli
di tratto latente hanno comunque una probabilità di scegliere l’item (di rispondere correttamente) maggiore di
0 sulla base del caso.
Questo parametro è usato soprattutto con i test a scelta multipla e il valore non deve variare eccessivamente
dal reciproco del numero di scelte (se le scelte sono 4, c = ¼).
36
L’asintoto non è più 0 ma si alza. Pertanto, anche individui che
si trovano in punto molto basso del tratto latente (che rappre-
sentiamo con -3) hanno comunque una probabilità non nulla,
ma di 0.2 di poter rispondere correttamente.
Esiste infine un modello a 4 parametri in cui la difficoltà dipenderà sia da θ, b, a, c e infine da “d”.
Il parametro “d” abbassa l’asintoto superiore e pertanto anche dei soggetti che hanno dei valori molto alti del
tratto latente comunque hanno basse probabilità di rispondere correttamente.
Spesso si applica questo parametro per item che sono molto difficili o il cui endorsment è molto raro (es,
domande estremamente difficili in un test di profitto).
Infine, una caratteristica molto interessante delle IRTs è che siano additive e possono dunque essere sommate
(non è la media) tra di loro per creare un’unica funzione che rappresenta le caratteristiche psicometriche
dell’intero test (TRC).
Una TRC indica la quantità di tratto latente misurato in relazione al numero di item (cioè tutti gli item) di una
scala. Ciò ci permette di calcolare il rapporto tra l’abilità stimata (expected store, ovvero il punteggio di un
soggetto ottenuto stimando la sua abilità) e l’abilità osservata (observed score, cioè le risposte, i punteggi, dei
soggetti). Inoltre, ci permette anche di stimare l’abilità dei soggetti a partire dai punteggi osservati.
Per es. avendo una scala con 5 item rappresentate da 5 funzioni che differiscono per difficoltà in quanto si
trovano in posizioni diverse di θ. Questi valori si possono sommare e condensare in un’unica curva che va da
0 a 5 (5 perché sono gli item) e però ci rappresenta sempre la probabilità di rispondere correttamente agli item.
37
ITEM INFORMATION FUNCTIONS (IIT)
Nell’IRT il concetto di attendibilità è sostituito da una IIF in cui ogni IRF ha associata una IIF (funzione
relativa al singolo item) e indica la precisione con cui un item misura il tratto latente.
L’informazione di un item è un indice che rappresenta la capacità dell’item di differenziare tra di loro gli
individui che hanno simili abilità. Più l’informazione è alta, più la funzione dell’item riesce a stimare corret-
tamente l’abilità di un soggetto.
La curva dell’IIF è quella blu con una forma che ricorda una gaus-
siana che ha il suo punto più alto esattamente nella location dell’IRF.
Questo significa che il punto in cui la IRF raggiunge la sua massima
capacità di stima tra i soggetti è nel punto della sua location. L’IIF
tende poi a degradare a mano a mano che ci si allontana dalla loca-
tion.
Anche le IIFs sono additive e quindi possono essere sommate ottenendo una Test Information Function
(TIF). In questo modo è possibile analizzare l’informazione dell’intero test e stabilire in quali punti del tratto
latente il test riesce a essere più accurato.
E’ qui che si nota la divergenza dell’attendibilità con la TCT in
quanto mentre in quest’ultima l’attendibilità vale per tutto il test e
quindi per tutti i soggetti che vengono sottoposti al test vale lo
stesso valore di attendibilità anche per quelli che si discostano
molto dal campione di riferimento, mentre nell’IRT l’IRF mostra
che la precisione di misurazione del tratto latente cambia in base
alle caratteristiche dell’item e quindi non sarà la stessa per soggetti
che si trovano in certi punti dello spazio del tratto latente rispetto
ad altri punti. Per es., in questo caso, il massimo della precisione
è concentrato tra -2 e +2. Ciò si porta dietro una conseguenza im-
portante: l’errore standard di misurazione è il reciproco dell’infor-
1
mazione, cioè SEM(θ) = , e quindi maggiore è l’informazione minore sarà l’errore.
�𝐼𝐼(𝜃𝜃)
38
Inoltre, essendo l’errore di misurazione espresso nella stessa
metrica del tratto latente può essere utilizzato per costruire un
intervallo di confidenza come conosciuto nella TCT. Tuttavia,
la differenza fondamentale è che l’errore standard di misura-
zione non è lo stesso per tutti i soggetti (aspetto fondamentale
perché uno dei problemi della TCT è che l’errore standard sia
uguale per tutti i soggetti indipendentemente dal fatto che siano
vicini al centro della distribuzione dei soggetti campioni o ai
bordi in cui le caratteristiche del test non sono più tanto valide
nel misurare correttamente il tratto latente dei soggetti) ma
cambia in base all’informazione.
La curva rossa (errore) ha infatti valori più bassi nella zona centrale lì dove l’informazione è più alta e poi
inizia a salire nelle code. Ciò significa che per i soggetti che si trovano nel range -2 e +2 l’errore di misurazione
sarà più basso mentre andando verso le code la precisione di stima dei tratti latenti dei soggetti che si trovano
fuori da questo range sarà affetta da un errore più grande, tenendo conto delle caratteristiche specifiche degli
item rispetto le caratteristiche dei soggetti.
In questo modo è anche possibile costruire dei test in cui sappiamo in anticipo quali sono i range di abilità che
possono esser misurati con più accuratezza (a differenza della TCT in cui ciò non è possibile).
39
Classical Test Theory (CTT) relies heavily on group-level statistics and assumes that all items measure the same construct for all test-takers, lacking flexibility when applying to different samples. In contrast, Item Response Theory (IRT) measures the latent traits of individual respondents and provides item-level statistics which are independent of the sample. This allows IRT to provide item characteristics that are consistent across different populations, focusing on the interaction between the trait being measured and item difficulty .
The reliability of a test is inversely proportional to the measurement error. As the error decreases, the reliability increases, indicating a more trustworthy test. Reliability is mathematically expressed as rtt = 1 - σE²/σX², where σX² is the variance of the total score and σE² is the error variance. Thus, the lower the error variance compared to the total variance, the higher the reliability of the test .
Parallel tests are different forms of the same test designed to be equivalent in terms of their measurement properties, such as mean and standard deviation. They contribute to estimating reliability by allowing the measurement of consistency across different test administrations. The correlation between scores of these parallel forms gives an estimate of reliability, with higher correlations indicating higher reliability .
Latent trait models, like those in Item Response Theory (IRT), focus on measuring underlying characteristics producing observed responses rather than the responses themselves. Their popularity grew post-1960s due to their ability to estimate individual item characteristics independently of specific samples, which allows broader application and flexibility across different contexts. This feature distinguishes them from classical models, which are more limited by the population from which sample items are drawn .
The Item Characteristic Curve (ICC) in IRT depicts the probability of a correct response as a function of a latent trait (e.g., ability), expressed typically as a logistics curve. This curve provides a model for individual item performance across levels of ability. Unlike classical test theory, which assumes the same level of difficulty across populations, IRT and the ICC allow more personalized assessment by accounting for individual differences and item variance independently .
Zero covariance between true scores and measurement errors is crucial because it supports the assumption that errors are random and independent of the true ability being measured. This independence ensures that errors distribute symmetrically around zero and do not systematically bias the results, thereby validating the theoretical assumption that observed scores equals true scores plus error (X = V + E).
The point-biserial correlation coefficient is used to examine the relationship between dichotomous item responses and overall test scores. It helps in assessing how well an item discriminates between individuals with varying levels of ability on the construct being measured. A higher point-biserial correlation indicates that an item effectively differentiates between high and low performers on the test .
The Standard Error of Measurement (SEM) indicates the extent to which an observed score might differ from the true score due to measurement error. It is calculated using the formula: SEM = σX√(1 - rtt), where σX is the standard deviation of the observed scores and rtt is the reliability coefficient. SEM provides an estimate of the precision of scores, with smaller SEM values indicating greater measurement precision .
The percentile rank refers to the position of a score within a distribution, representing the percentage of scores falling below it, while a percentile is a specific value below which a given percentage of observations fall. The percentile rank indicates the relative standing of a score in a data set, whereas the percentile is more a measure of distribution location .
Item difficulty in dichotomous items is calculated as the proportion of test-takers who answer the item correctly, with values ranging from 0 to 1, where 0 indicates extreme difficulty and 1 indicates ease. It reflects the probability that a typical examinee will answer the item correctly, serving as a fundamental measure in assessing an item's appropriateness for differentiating between varying levels of performance among test-takers .