Il 0% ha trovato utile questo documento (0 voti)
1K visualizzazioni39 pagine

Appunti Di Psicometria

Appunti psicometria per psicologia

Caricato da

8bmk6q4zff
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Il 0% ha trovato utile questo documento (0 voti)
1K visualizzazioni39 pagine

Appunti Di Psicometria

Appunti psicometria per psicologia

Caricato da

8bmk6q4zff
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd

PSICOMETRIA

INTRODUZIONE
La Psicometria studia come misurare la mente. Essa è un’esigenza della psicologia che ha l’intento di asse-
gnare numeri a individui in maniera sistematica e replicabile.
La motivazione è sia scientifica che applicativa. Scientifica perché serve conoscere e studiare la psicologia
umana, mentre è applicativa perché ha fini pratici come la misurazione di un fenomeno reale.
Ciò che viene misurato in psicometria è il costrutto, un’entità teorica sintesi di specifici indicatori comporta-
mentali non osservabile direttamente. A tal proposito, per la misurazione del costrutto si usano determinati
indicatori, cioè il comportamento.
I costrutti quindi sottendono i comportamenti osservabili e sono
anche chiamati variabili latenti (o anche proprietà latenti). Le ma-
nifestazioni dei costrutti vengono misurate tramite le scale, degli
strumenti particolari (termometro, bilancia) che misurano quantità
variabili di una stessa entità e li collocano all’interno di un conti-
nuo omogeneo. La fonte di variabilità nelle scale è proprio l’indi-
viduo che d’altronde è l’unità di ricerca.
Non tutte le variabili misurabili in un individuo sono però latenti
(ansia, intelligenza). Per esempio, il genere sessuale e l’età sono
osservabili e facilmente ottenibili. In questo caso non è necessaria
una scala.
Un esempio di scala è il test psicologico il quale presuppone che una variabile latente sia in relazione causale
con degli item i quali sono espressione di comportamenti.
Naturalmente, nel processo di collegamento degli item ai comportamenti si commetteranno degli errori. Il più
conosciuto è quello della variabile interveniente, una variabile terza la quale determina un comportamento
in particolare ma che noi siamo portati a ricondurre alla variabile latente che invece era oggetto della nostra
misurazione.

In ogni caso, per la misurazione quindi abbiamo a che fare con tre
elementi distinti:
- Il sistema empirico (SE): il sistema che noi vediamo
nella realtà;
- Il sistema numerico (SN): tendenzialmente astratto, è
quello da misurare che può essere in relazione con quello
empirico attraverso una regola (una misurazione);
- Una regola (o funzione): che consente di attribuire dei
numeri agli elementi del sistema empirico;
Per cui, misurare vuol dire rappresentare un sistema empirico SE,
nel quale è stato definito un sistema di relazioni tra i suoi elementi,
tramite un sistema numero SN.
Per esempio: se esiste una relazione nel SE per cui b è più alto di a (bRa) allora sarà anche valido dire che la
funzione di b sarà maggiore della funzione di a [f(a)Sf(b)] essendo f(a) e f(b) le rappresentazioni di a e b nel
SN.
Le regole di corrispondenza cambiano in base alle variabili. Infatti, vi sono diversi livelli di misurazione di
scale ordinate gerarchicamente secondo un grado crescente di complessità, dove ogni nuova scala di misura-
zione incorpora a suo interno le proprietà della precedente:
- Nominale: definisce più categorie qualitative (genere, colore degli occhi, città) che possono essere
confrontate solo in termini di uguaglianza-differenza (Tante variabili che hanno delle caratteristiche
comuni determinano una categoria (maschio o femmina).

1
- Ordinale: oltre a categorizzare, queste scale permettono relazioni di ordine rispetto al grado di una
caratteristica dell’entità misurata (scale di valutazione come per niente d’accordo, poco d’accordo,
molto d’accordo, completamente d’accordo).;
- Intervalli equivalenti: è una scala propriamente detta. Infatti, qui si aggiunge la possibilità di definire
un’unità di misura e l’origine della misurazione le quali però non sono assolute ma convenzionali. Ciò
significa che possiamo solo calcolare la differenza tra due gradi di valutazioni ma non il rapporto in
quanto non esiste un livello 0 di gradimento. Infine, qui oltre a comprendere il grado di maggioranza
è possibile stabilire la quantità di una misura.
- Rapporti equivalenti: definisce uno zero assoluto (un punto d’inizio della scala), dove zero implica
che l’attributo ha quantità nulla. Anche qui l’unità di misura è convenzionale ed è possibile interpretare
dei rapporti tra valori (peso, età, altezza). Tutte le operazioni sono possibili.
Ogni scala definisce poi le operazioni matematiche e le statistiche ammissibili. Ecco perché si parla di signi-
ficanza: ovvero l’ammissibilità di una statistica rispetto alla scala di misurazione della variabile (non ha senso
calcolare la media su una scala nominale). Può essere assoluta se non varia dal passaggio da una scala a un’altra
o relative se è il contrario.

SCALING
Lo scaling è un’operazione di attribuzione di numeri a delle entità secondo una regola attraverso i quali si
possono posizionare i soggetti all’interno di un continuum psicologico omogeneo (ansia, aggressività, estro-
versione). Ogni scaling implica la costruzione di una scala.
Ci sono vari tipi di scaling secondo Giampaglia:
- Gli approcci centrati sul soggetto (differenze legate all’individuo): Scala Likert;
- Gli approcci centrati sugli stimoli (differenze tra stimoli): Confronto a coppie di Thurstone;
- Gli approcci centrati sulle risposte (differenze nella quantità di caratteristica presente sia negli stimoli
sia nei soggetti): Scale di Rasch.
Gli item, in base alla loro dimensionalità, ovvero al fatto che essi si riferiscano al medesimo costrutto (dimen-
sione) o a più costrutti, sono detti unidimensionali e multidimensionali.
Il processo di scaling si articola in tre fasi:
- La semplice registrazione delle osservazioni
- L’inferenza sulle osservazioni che porta alla creazione di dati
- La scelta del modello di scaling
Proprio per questo, è importante operare una distinzione tra osservazione e dati:
- Osservazione: si intende la semplice registrazione di indici comportamentali
- Dati: una delle possibili interpretazioni delle osservazioni.
I dati possono essere differenti tra loro. Infatti, vi sono:
- Dati relativi a scelte di preferenza: il soggetto deve ordinare degli stimoli rispetto a una certa pro-
prietà;
- Dati riferiti a stimoli singoli: il soggetto valuta separatamente determinati stimoli rispetto a una certa
proprietà;
- Dati riguardanti confronto tra stimoli: presentati una coppia di oggetti, il soggetto deve scegliere
quale di questi possiede in misura maggiore la caratteristica oggetto di studio;
- Dati di similarità: presentati degli oggetti estratti da un insieme, il soggetto deve decidere la somi-
glianza tra gli oggetti che la formano.
Rispetto l’errore, invece, vi sono due modelli d’interpretazione:
- Modelli deterministici: in cui si pensa che l’errore sia non casuale;
- Modelli stocastici: l’errore è casuale;

LE SCALE
Le scale (inventory, questionari, test) sono normalmente costituite da una serie di affermazioni, elementi mi-
nimali, gli item, rispetto a cui il soggetto è invitato a esprimere un’opinione o una preferenza.
In base agli item si possono distinguere:

2
- Test di comportamento tipico: in cui non ci sono risposte corrette;
- Test di tipica performance: non ci sono risposte corrette;
- Test di massima performance: prevedono più alternative di risposta delle quali solo una è quella
corretta.
I risultati degli item vengono poi combinati in maniera additiva (solo se unidimensionali), ovvero sommandoli.
L’assunto di fondo è che la proprietà sia interpretabile come un continuum sul quale ogni individuo può essere
collocato in una determinata posizione in base al proprio punteggio, ottenuto attraverso gli item. Della pro-
prietà possiamo misurare due aspetti:
- La direzione (se favorevole o sfavorevole)
- Il grado (l’intensità del favore o dello sfavore)
Ora, ogni scala è costituita da un insieme di indicatori. A ogni indicatore corrispondono una serie di item i
quali permettono di rilevare aspetti della variabile latente attraverso le scelte del soggetto rispondente (cioè in
base al suo comportamento). Gli item sono raggruppati in gruppi, le batterie, che insistono su una o più pro-
prietà latenti. Una batteria genera un punteggio (o score) che stabilisce il grado e la direzione di una proprietà
per un soggetto.
Per cui, è fondamentale per la costruzione di una scala decidere il tipo di risposte, ovvero le alternative fornite
al soggetto per la risposta. Il processo di decisione del tipo di risposta (non della domanda) si chiama anco-
raggio e varia in relazione all’uso di parole o numeri:
- Ancoraggio semantico: disapprovo fortemente…
- Ancoraggio numerico: la matematica è noiosa 1, 2 o …
Lo scaling di per sè non ha delle unità di misura. Pertanto, assumiamo che si possano attribuire dei valori
numerici agli item, dalla cui somma si avrà poi il punteggio.
Tuttavia, per attribuire proprietà numeriche, bisogna rispettare alcuni vincoli:
la funzione f: SE SN deve essere iniettiva e monotona
- Iniettiva: Data y= f(x) a ogni x corrisponde un solo y, in modo tale che se x1 ≠ x2
allora f(x1) ≠ f(x2) (non c’è ambiguità tra x e la sua funzione)
- Monotona: Se, per ogni x1 ≤ x2 allora f(x1) ≤ f(x2) (conserva e permette l’ordinamento)
In tal modo, l’unità di misura può essere replicabile e non soggettiva tenendo conto che le categorie devono
avere una bassa autonomia semantica, ovvero il rapporto che ogni categoria della variabile ha con le altre
della stessa variabile. Per cui, ogni categoria, in quanto indipendente, può essere interpretata completamente
senza dover fare ricorso alle altre categorie (come maschio o femmina).
Invece, se si parla di modalità a parziale autonomia semantica, si riferisce a tutte quelle tipologie di risposta
che di per sé non sono interpretabili completamente ma dipendono dalla declinazione delle altre opzioni, le
quali ci permettono di comprendere effettivamente il valore della nostra risposta. L’esempio classico sono le
scale Likert (per niente d’accordo, poco d’accordo, molto d’accordo, completamente d’accordo)
Infine, ci sono le scale a bassa autonomia semantica, come il
differenziale semantico, in cui il soggetto intervistato colloca la sua
posizione all’interno del continuum definito dai due estremi dotati di
significato.

L’unità di misura della scala è soggettiva e i dati generati da queste scale vengono trattati come se fossero
variabili cardinali.
Inoltre, le variabili si possono dividere:
- Variabili categoriali ordinali, ovvero composte da caratteristiche ordinabili (possono anche essere
non ordinabili ma non sono mai cardinali);
- Variabili cardinali: le modalità hanno un valore numerico assegnato, come l’età;
- Variabili quasi cardinali: la valutazione viene codificata mediante un processo di rappresentazione
numerica come la scala Likert e il differenziale semantico e trattate poi come cardinali.
Queste sono poi le fasi nelle quali si articola il processo di costruzione di un test psicologico:

3
SCALA DI THURSTONE

Il presupposto di base secondo Thurstone è che se un soggetto può discriminare e ordinare stimoli fisici sulla
base della sua percezione, potrà anche ordinare anche affermazioni sulla base del proprio favore o sfavore.
L’obiettivo di misura però non è quello di misurare il comportamento, ma misurare l’atteggiamento in forma
di opinioni inserito all’interno di un continuum in ordine di favorevolezza.
Il primo metodo da lui proposto fu quello del confronto fra coppie di item: due item vengono presentati ad
alcuni giudici (soggetti del test) che dovranno valutare quale dei due sia maggiore dell’altro (uccidere > ru-
bare). Si raggruppano poi queste valutazioni in una tabella e da questa partirà la costruzione della scala. Questa
avviene attraverso l’uso delle frequenze relative di risposta che, trasformate in punti z di una curva normale,
permettono di stabilire le distanze tra gli item
𝑋𝑋−𝑥𝑥𝑥
z=
𝑠𝑠
Gli item in questo caso sono ordinati in base alle frequenze di risposte.
Un altro metodo che propone Thurstone è il metodo degli intervalli apparentemente uguali. In questo caso
si genera un gran numero di item e si richiede una valutazione non in base al fatto che si sia d’accordo o meno
ma se il significato della frase sia a favore o a sfavore dell’argomento. Si delinea così un continuum sulla base
delle frequenze di risposta diviso in 10 segmenti, ognuno con un punteggio monotonico che va da 1 a 10 con
estremi favorevole e sfavorevole. A questo punto si calcola la mediana dei punteggi assegnati dai giudici e un
indice di variabilità. Successivamente, si scelgono gli item con variabilità piccola, cioè quelli per cui c’è con-
cordanza di giudizio da parte dei giudici.

SCALA DI GUTTMAN
La scala di Guttman è composta da item selezionati in modo tale che se un soggetto supera, o risponde affer-
mativamente a un item, avrà superato o avrà risposto affermativamente anche a quelli precedenti.
Questa scala, detta scalogramma, è cumulativa a differenza di quella Likert che è additiva; ciò significa che
gli elementi sono scalabili un senso crescente e decrescente all’interno di un continuum dove gli item si collo-
cano.

4
Un esempio è la scala della distanza sociale di Bo-
gardus:

Il presupposto è che se si risponde affermativamente


all’ultima risposta il soggetto dovrebbe aver risposto
affermativamente anche alle precedenti (che sono
meno forti).
Un altro tipo di scala sono le scale auto-ancoranti:

Solo due categorie estreme sono dotate di significato e il soggetto intervistato colloca la sua posizione all’in-
terno del continuum definito dai due estremi. L’unità di misura non è univoca, ma soggettiva.
Vi è poi il differenziale semantico: una tecnica di rilevazione dei significati che determinati concetti assu-
mono per gli intervistati. Si basa sulle associazioni che un soggetto instaura tra ciascun concetto e una serie di
aggettivi contrapposti, separati da una scala graduata, su cui i soggetti devono indicare a quale dei due estremi
si avvicina.
Poiché Osgood ha ideato questo strumento al fine di rilevare la reazione emotiva rispetto a un determinato
oggetto, le coppie di aggettivi erano state pensate per rilevare 3 principali dimensioni:
- Valutazione: buono/cattivo, utile/inutile
- Potenza: grande/piccolo, potente/impotente
- Attività: veloce/lento, vivo/morto
Per la creazione di un differenziale semantico si deve:
- Indicare l’oggetto rispetto a cui si intende rilevare la reazione, seguito da coppie di aggettivi
- Gli aggettivi devono essere disposti in maniera casuale (ovvero non tutti i positivi a sx e i negativi a
dx)
- Le coppie di aggettivi possono non essere le stesse di Osgood ma rimodulate in base alle esigenze del
ricercatore
- La risposta deve essere indicata velocemente, senza troppe riflessioni da parte dell’intervistato
A volte le coppie di aggettivi possono sembrare apparentemente estranee al concetto in esame ma in realtà
permettono comunque di comprendere come tale oggetto viene percepito dal rispondente. Inoltre, usando degli
aggettivi già prefissati si riduce anche un bias sempre presente, ovvero quello della desiderabilità sociale.
I soggetti dovranno indicare su una scala graduata a quale dei due poli il concetto in esame si avvicina. La
misurazione avviene lungo la gradazione discreta tra le coppie bipolari di aggettivi contrapposti, e i risultati
del campione vengono poi aggregati.

5
SCALA LIKERT
La scala è costruita sulla base di un insieme di item a cui il soggetto è invitato a rispondere ad alcune afferma-
zioni (giudizi), esprimendo il proprio accordo o disaccordo sulla base di una griglia di valutazione a 5,7 o più
punti (anche pari).
Il modello si basa sull’assunzione che esista una funzione monotona tra item e la proprietà latente che si vuole
misurare. Inoltre, la scala deve essere unidimensionale, cioè gli item devono misurare tutti lo stesso atteggia-
mento.
Per ciascun soggetto viene calcolato il punteggio complessivo: somma dei punteggi riportati in ogni singolo
item (è importante il verso degli item).
Gli item si scelgono sulla base di varie analisi: si eliminano quelli che hanno una bassa correlazione con il
totale di tutti gli item (correlazione item-totale) in quanto non misurerebbero lo stesso costrutto degli altri
item. Per ogni item si prendono le medie dei giudici nelle prime posizioni e nelle ultime posizioni dell’ordina-
mento (si considerano i giudici che hanno dato valori molto alti e molto bassi). Si applica t-test per stimare la
discriminazione (se si ha un alto valore, si ha anche una buona discriminazione).
Funzionamento: immaginiamo di avere una batteria di 10 items che rilevano l’atteggiamento di un soggetto
rispetto agli immigrati e che la metà degli item esprimano un giudizio positivo e l’altra metà un giudizio ne-
gativo.
Poiché ad ogni categoria di risposta è associati un valore (da 1 a 5 nel caso della scala 5), si trasformano in
negativi i valori riferiti agli items che esprimono un giudizio negativo rispetto agli immigrati. Il punteggio
finale totalizzato dal soggetto dovrà essere valutato entro una scala che va da +20 a -20: il massimo favore è
dato dalle risposte molto d’accordo (+5+5+5+5+5 congiuntamente al massimo disaccordo verso le frasi nega-
tive (+1+1+1+1+1). Quindi 25-20=20 (idem per il calcolo del massimo disaccordo).
La scala Likert è soggetta a distorsioni, tra cui:
- Response set: la tendenza a rispondere in maniera meccanica (sempre 5)
- Acquiescenza: la tendenza a dirsi sempre d’accordo (sempre in maniera positiva)
- Reazione dell’oggetto: l’intervistato reagisce a un solo oggetto cognitivo e non al significato com-
plessivo della stessa
- Curvilinearità: si ha quando un item è disapprovato sia da chi ha un atteggiamento positivo/favore-
vole, sia da chi ha l’atteggiamento opposto: si ha equivalenza numerica ma non equivalenza sostan-
ziale.

TEORIA CLASSICA DEI TEST


La teoria classica dei test (o teoria classica dell’errore) è un modello di misurazione che si fonda sull’idea che
il punteggio osservato in un test sia formato da due componenti: un valore vero + un errore casuale. Cioè: X =
V + E (equazione fondamentale della TCT). X è il punteggio osservato, V il valore reale che la variabile
misurata dovrebbe avere; E è un errore casuale che rende il valore osservato discostato dal valore vero.
Per cui, l’errore è parte integrante del processo di misurazione. Si differenziano però due tipi di errori:
- Gli errori casuali: sono errori che variano in maniera casuale tra le diverse misurazioni e non sono
predicibili (perché non costante, rappresenta una variabile aleatoria). Variano poi in maniera simme-
trica o in eccesso o in difetto rispetto al valore vero della misurazione;
- Gli errori sistematici: sono errori che si presentano in maniera costante e (per questo) predicibile.
Possono essere dovuti a problematiche degli strumenti o delle modalità di misurazione.

Per la TCT il punteggio di un soggetto a un test è un campione di una


popolazione di infiniti possibili punteggi (N punteggi, dove N è un valore
tendenzialmente infinito) affetti da errori casuali. Tutti i punteggi osser-
vati posso essere quindi considerati come una variabile che assume dei
valori secondo una distribuzione di probabilità che contiene il punteggio
vero. Ora, per la legge dei grandi numeri: la media che calcoliamo a
partire da un numero sufficiente di campioni sarà sufficientemente vicina alla media vera. Pertanto, il valore

6
atteso rappresenterà il punteggio vero della distribuzione di probabilità associata ai punteggi osservati: E(X)
= V (E() è l’operatore di valore atteso).
Inoltre, poiché gli errori si distribuiscono in maniera simmetrica in eccesso o in difetto la distribuzione di
probabilità non può che assumere una forma normale (avremo un numero equo di misurazioni al di sopra e al
di sotto del valore vero). Infatti, per il teorema limite centrale: la distribuzione della somma (o media) di un
numero elevato di variabili casuali indipendenti e identicamente distribuite tende a distribuirsi come una di-
stribuzione normale, indipendentemente dalla distribuzione delle singole variabili.

Conseguenze:
Da X = V + E essendo V = E(X) segue che V, il punteggio vero, rappresenti la parte attendibile del punteggio,
cioè la parte che ci interessa scoprire in quanto il valore atteso corrisponde al valore vero del punteggio.
Il punteggio vero, pertanto, ci si aspetta rimanga fisso per ogni soggetto in quanto a farlo variare sono gli errori
i quali si distribuiscono in maniera casuale e simmetrica in eccesso o in difetto. Per cui, poiché in una serie
infinita di misurazioni la media di tutti i punteggi osservati è rappresentata dal punteggio vero, l’errore di
misura scompare, e quindi la media degli errori casuali è nulla per infinite misurazioni. A questo punto, il
valore atteso degli errori è 0. E(E)=0 (la media degli errori di infinite misurazioni).

Partendo da X= V + E e sapendo che E(X)=V si ottiene che E= X -V e che il punteggio V è una costante per
ogni singolo soggetto e quindi per la proprietà della media E(V)= V, si ha che E(E)= E(X-V)= E(X) -
E(V)= V – V= 0. Se questo non accade l’errore non è casuale.
Inoltre, essendo l’errore casuale e quindi non dipendente né dal punteggio vero né da un altro punteggio d’er-
rore, per cui appunto non costante, si potrà affermare che la covarianza tra punteggio vero ed errore è nulla:
𝜎𝜎𝑉𝑉𝑉𝑉 = 0

E che la covarianza tra due distribuzioni di errore è nulla 𝜎𝜎𝐸𝐸𝑥𝑥𝐸𝐸𝑦𝑦 = 0, ovvero anche gli errori di diverse misu-
razioni rispetto ai punteggi veri non potranno covariare in quanto si distribuiscono in maniera casuale rispetto
al punteggio vero, diversamente sarebbe se l’errore fosse sistematico poiché si osserverebbe una covariazione
introducendo anche dei bias.
I punteggi differiscono tra soggetti, non soltanto per l’errore di misurazione E, ma anche e soprattutto per le
differenze individuali, che si riflettono nelle differenze tra i punteggi osservati che non dipendono dall’errore
di misurazione. I punteggi veri ottenibili per ogni individuo risultano uguali solo nel caso banale in cui il
costrutto oggetto di studio non ha variabilità.
Somministrando N test paralleli agli stessi soggetti, si può assumere che le medie dei punteggi dei soggetti
calcolate su ogni test siano uguali tra loro:
E(X1 ) = E(X2 ) = …. = E(XN )
dove E(X1 ), per esempio, rappresenta la media dei punteggi sugli n soggetti al primo test.
Inoltre, queste medie coincidono con la media dei punteggi veri: E(X1 ) = …=E(XN ) = E(V)
Come conseguenza, le medie di tutti gli errori sono uguali a zero E(E1 ) = E(E2 )… E(EN )= 0
A partire dalle assunzioni sul punteggio osservato è possibile definire i concetti di:
- Attendibilità: precisione di uno strumento di misura (test psicometrico)
- Validità: esattezza (correttezza) di uno strumento di misura (test psicometrico, misurazione di una
variabile psicologica)

ATTENDIBILITA’
L’attendibilità è una proprietà di una scala e misura il grado di coerenza e di stabilità di un test (o anche il
grado di precisione con una scala misura un certo attributo psicologico.
Se riscriviamo l’equazione fondamentale X= V + E in termini di varianza otteniamo: 𝜎𝜎𝑋𝑋2 = 𝜎𝜎𝑉𝑉2 + 𝜎𝜎𝐸𝐸2

7
2 2
𝜎𝜎𝑉𝑉 𝜎𝜎𝐸𝐸
l’attendibilità viene ad essere 𝑟𝑟𝑡𝑡𝑡𝑡 = da cui si può anche ottenere 𝑟𝑟𝑡𝑡𝑡𝑡 = 1 − dividendo per la varianza
𝜎𝜎𝑥𝑥2 𝜎𝜎𝑥𝑥2
del punteggio totale.ϕξ

L’attendibilità sarà più alta più il valore della varianza del punteggio vero sarà vicino a quello del punteggio
totale, e quindi il test sarà più attendibile. Inoltre, dalla seconda formula comprendiamo come attendibilità ed
errore siano inversamente proporzionali, ovvero più sarà basso l’errore e più il test sarà attendibile.
La media degli errori di misurazione è uguale a 0. Gli errori casuali tendono ad annullarsi all’aumentare del
numero di misurazioni. Più misure facciamo, più precisa sarà la misurazione.
L’errore di misurazione è una variabile aleatoria, distribuita normalmente. Ciò significa che ci si aspetta tanti
piccoli errori, vicini allo zero, e pochi errori di una certa entità.
I punteggi veri e gli errori di misurazione sono tra loro indipendenti. Gli errori di misurazione compiuti in due
somministrazioni indipendenti sono fra loro indipendenti.
Ora, l’attendibilità si riferisce alla coerenza tra manifestazioni apparentemente diverse dello stesso costrutto e
si comprende come sia possibile ricavare il coefficiente di attendibilità considerando la correlazione tra i
punteggi osservati X e X’ in due test paralleli (ovvero test che misurano lo stesso costrutto nello stesso
modo) assumendo che: E(X) = E(X’), 𝜎𝜎𝑋𝑋2 = 𝜎𝜎𝑋𝑋2′ e che 𝜎𝜎𝑒𝑒2 = 𝜎𝜎𝑒𝑒′
2
nei due test.
𝜎𝜎𝑋𝑋𝑋𝑋′ 𝜎𝜎𝑣𝑣2
ha 𝑟𝑟𝑋𝑋𝑋𝑋′ = = 2 = 𝑟𝑟𝑡𝑡𝑡𝑡
2 𝜎𝜎2 𝜎𝜎𝑋𝑋
�𝜎𝜎𝑋𝑋 𝑋𝑋′

Ecco perché l’attendibilità come simbolo “rtt”, ovvero r come correlazione e t come test (con sé stesso, in
quanto parallelo).
Essendo praticamente impossibile separare la varianza vera dalla varianza vera, questa formula viene a essere
impraticabile. Infatti, a tal proposito, si usano dei metodi empirici di stima dell’attendibilità:
- Metodo delle forme parallele: Si somministrano due versioni equivalenti del test (stessa media e
stessa deviazione standard) e si calcola la correlazione tra i punteggi che sarà rtt;
- Metodo del Test-Retest: studia l’attendibilità intesa come stabilità temporale. Infatti, si somministra
il test al tempo T1 e al tempo T2 e si calcola la correlazione tra i punteggi;
- Metodo dello Split-Half: si somministra il test in un unico tempo. Si divide il test a metà (come item
pari e dispari) e si considerano le due metà come forme parallele (stessa media e stessa deviazione
standard). Quindi si calcola la correlazione;
- Metodo della Coerenza Interna: È il metodo più utilizzato e si basa sul grado d’accordo tra più
misure dello stesso costrutto teorico (cioè gli item che compongono il test), ottenute in una stessa
somministrazione. Per l’utilizzo di questo metodo è indispensabile calcolare l’alfa di Cronbach. Af-
finché ci sia una buona coerenza interna è necessario che gli item siano adeguatamente correlati fra
loro ma ciò è plausibile perché dovrebbero misurare lo stesso costrutto. In questo caso, l’attendibilità
misura il grado di interscambiabilità degli item della scala poiché essendo il test attendibile gli item
sono perfettamente uguali.
(N.B. da questi metodi posso avere coefficienti di attendibilità diversi poiché metodi diversi fotogra-
fano diverse sfaccettature dell’attendibilità)
Esistono vari modi per calcolare la coerenza interna di una scala, uno tra questi è il coefficiente di
Kuder-Richardson per item dicotomici che si fonda sul rapporto tra la somma delle varianze degli
item e la varianza totale del test. All’aumentare della correlazione tra gli item aumenta la varianza
totale del test e il coefficiente KR20 si avvicina a 1 (è 20 perché ne hanno fatti diversi).

in cui:
- pi è la proporzione di risposte esatte (il reciproco 1- pi è la proporzione di risposte errate)
- k il numero degli item
- pi (1- pi) è la varianza

8
Se invece si vuole utilizzare KR20 non per item dicotomici ma anche per item misurati a livello di intervalli
equivalenti si usa l’α di Cronbach (una generalizzazione di
KR20):
ovvero la somma della varianza degli item fratto la varianza
totale.
Maggiore è la varianza totale rispetto alla somma delle varianze degli item, maggiore è la coerenza interna.
Nella prassi l’α di Cronbach si valuta nel modo seguente:
- <.60 inadeguato
- .60- .70 sufficiente
- .70-.80 discreto
- .80-.90 buono
- >.90 ottimo
Essendo il test psicometrico una serie di misurazioni coerenti di uno stesso costretto, l’attendibilità è forte-
mente determinata dalla lunghezza del test. Per cui, nella TCT la lunghezza del test migliora l’attendibilità in
quanto avendo test più lunghi abbiamo maggiori misurazioni e quindi un miglior modo di determinare la media
e di eliminare gli errori.
È possibile calcolare il coefficiente di attendibilità ipotetico che si otterrebbe se si allungasse un test di k item
utilizzando la formula di Spearman-Brown, ovvero:

dove:
- p*xx’ è l’attendibilità ipotetica
- n il rapporto tra il numero di item nella versione ipotetica e il numero di item nella versione esistente
- pxx’ l’attendibilità della versione esistente
La formula inversa può essere utilizzata per stimare il numero item necessari per raggiungere un livello di
attendibilità prescelto, ovvero:

È inoltre possibile dimostrare che la deviazione standard totale è uguale alla somma dei prodotti delle devia-
zioni standard degli item per la correlazione tra l’item ed il punteggio totale:

Nella equazione X=V + E come possiamo separare V da E in modo


da capire quanta informazione vera (V) è contenuta in X? Essendo
l’attendibilità il grado di precisione con una scala misura un costrutto, grazie a essa possiamo stimare quanto
di X è in realtà V, punteggio vero.
Attendibilità, affidabilità e fedeltà sono sinonimi. In base a questo, si dice allora che un test è affidabile quando
si può affermare che i punteggi ottenuti da un gruppo di soggetti allo stesso (test) sono coerenti e costanti dopo
molte somministrazioni e in assenza di cambiamenti evidenti quali variazioni psicologiche e fisiche degli in-
dividui che si sottopongono al test, o anche all’ambiente in cui questo ha luogo.
L’attendibilità di un test, quindi, esprime la misura in cui le differenze fra i punteggi di un gruppo di soggetti
sottoposti allo stesso test in tempi diversi, o a versioni equivalenti dello stesso, possano essere attribuite a errori
casuali nella misurazione o all’effettivo variare nei soggetti delle caratteristiche misurate. In altri termini l’at-
tendibilità ci permette di stimare quale proporzione della varianza totale dei punteggi sia varianza vera e quale
invece varianza dovuta a errore.

9
TEST-RETEST
L’attendibilità test-retest prevede la somministrazione dello stesso test al medesimo gruppo di soggetti dopo
un intervallo prestabilito di tempo (non più ampio di 6 mesi, specie per i bambini, e a seconda della variabile
misurata), e valuta soprattutto la dimensione della stabilità nel tempo dei punteggi e il coefficiente di corre-
lazione tra le due distribuzioni di punteggi ci dà la misura del coefficiente di affidabilità del test. Questo
coefficiente è però interpretabile se si assume che il concetto misurato non si modifichi nel tempo.
Il coefficiente test-retest si riduce all’aumentare del tempo trascorso fra le rilevazioni. Questo perché è irrisorio
pensare che la caratteristica in esame non si modifichi col tempo e rimanga stabile, soprattutto per esempio
nell’infanzia. Ecco perché si parla di tue tipologie di stabilità:
- Stabilità a breve termine: per i costrutti per cui alcuni fattori (es. tendenza a ricordare le domande) non
influenzano il risultato
- Stabilità a lungo termine: per i costrutti per i quali crescita, apprendimento non hanno effetto sul risul-
tato

METODO DELLE FORME PARALLELE


Si somministrano due versioni equivalenti del test (stessa media e stessa deviazione standard). La stima dell’at-
tendibilità si baserà sulla correlazione tra le due forme.
Il metodo è utilizzabile quando misuriamo caratteristiche suscettibili di lievi fluttuazioni nel tempo e per quei
test costituiti essenzialmente di prove che presuppongono ragionamenti o procedure di calcolo (effetto eserci-
zio, pratica, memoria) in cui non è applicabile il metodo test-retest. In questi casi la procedura alternativa è il
metodo delle forme parallele. Il primo passo è la costruzione di due versioni o forme alternative (parallele) del
test, il più possibile equivalenti per contenuto, modalità di risposte e proprietà statistiche. Successivamente
vengono somministrate, in tempi diversi, le due forme allo stesso gruppo di soggetti e si calcola il coefficiente
di correlazione tra le due serie di punteggi che sarà l’indice di attendibilità del test.
Tale procedura pone però la questione problematica del campionamento degli item che può divenire fonte
ulteriore di varianza dovuta a errore.
Inoltre, un altro problema è verificare che i due strumenti siano effettivamente paralleli. Nel caso di sommini-
strazione di un numero di test n (con n>1) a p soggetti (con p>2) le relazioni tra i test identificano 3 modelli
(negli ultimi due si accetta che solo alcune caratteristiche psicometriche siano effettivamente parallele, sono
quindi meno stringenti del primo modello):
- Test paralleli: sono test identici, con stesso punteggio vero e identica variabilità (varianza e devia-
zione standard)
- Test Tau-equivalenti: assumiamo che misurino il punteggio vero allo stesso modo ma che vari l’er-
rore rispetto alla misurazione del valore vero (tau sta per true, valore vero)
- Test congenerici: sono due test che possono avere diversi valori veri ed errori. Tuttavia, riconosciamo
che sono due test congenerici perché i punteggi veri sono legati da una dipendenza lineare (usando la
media di un test e dell’altro).

METODO DELLO SPLIT-HALF


Dato che creare dei test paralleli può essere molto dispendioso e difficile, vi è un altro metodo che si può
intraprendere: il metodo dello split-half. Consiste nel somministrare il test in un unico tempo T1 ma dividendo
il test a metà e considerano le parti ottenute come forme parallele (stessa media e stessa deviazione standard).
La stima dell’attendibilità consisterà nella correlazione tra le due metà ma va corretta con la formula profe-
tica di Spearman-Brown. Inoltre, si usano anche i coefficienti di attendibilità calcolati con la formula di Rulon
e la formula di Guttman.
Quando si usa questo metodo si ha il vantaggio di creare due forme parallele (in termini stringenti) e di poter
calcolare l’affidabilità con una sola somministrazione. La divisione del test in due metà comparabili costituisce
una misura di attendibilità (il coefficiente di attendibilità split-half) basata sul calcolo della coerenza interna
che significa controllare se tutti gli item dello strumento tendono a misurare la stessa variabile.

10
Per dividere il test in due parti confrontabili si possono assegnare casualmente gli item alla prima e alla seconda
parte o, ed è questa la modalità più comune, si può dividere il test in item pari e dispari (attendibilità pari-
dispari).
Come sappiamo, l’attendibilità dipende dalla lunghezza del test e la correlazione split-half è una sottostima
dell’attendibilità. La divisione del test a metà ne dimezza la lunghezza. Esiste un metodo che permette di
correggere tale sottostima.

In cui rAB (A e B sono le due parti in cui dividiamo il test) è la r di Pearson e rntt sta
per l’attendibilità corretta (l’attendibilità considerando che il test è stato diviso in n
parti).

𝜎𝜎𝑑𝑑2
Ma si usa anche la formula di Rulon in cui è 𝑟𝑟𝑡𝑡𝑡𝑡 = 1 − la varianza delle differenze 𝜎𝜎𝑑𝑑2 tra i punteggi delle
𝜎𝜎𝑥𝑥2
due metà e è 𝜎𝜎𝑥𝑥2 la varianza di tutti i punteggi.

Formula di Guttman:

MODELLO DELLA COERENZA INTERNA


Si somministra il test in un unico tempo T1. Ogni item viene considerato un test a sé stante. Si stima (con
apposite formule) la correlazione media tra tutti gli item e si riassume la coerenza degli indicatori tramite
l’alpha di Cronbach. Questo è il metodo più utilizzato, in alternativa si può usare l’L di Guttman o se gli item
sono dicotomici l’indice di Kuder-Richardson.
Partendo dal presupposto che l’attendibilità misura il grado di accordo tra misure dello stesso costrutto, il
modello della coerenza interna, nel caso generale del metodo split-half, si basa sul principio che gli item che
misurano uno stesso costrutto siano anche fortemente correlati tra loro. Pertanto, in questo caso, l’attendibilità
è uguale al grado di interscambiabilità degli item della scala, ovvero indica il grado di correlazione tra tutti
gli item del test. In base all’omogeneità del test (omogeneo se calcola stesso fattore, eterogeneo se più di uno),
un test più è omogeneo e maggiore sarà la sua coerenza interna.
Un altro aspetto per la stima dell’attendibilità è l’accordo fra rater (giudici). Quando capita di fare ricerche
in cui vanno codificati dei comportamenti o delle risposte in alcune categorie o ancora di analizzare caratteri-
stiche qualitative (è più buono il gianduiotto o il Ferrero Rocher), per evitare classificazioni totalmente sog-
gettive si ricorre spesso all’utilizzo di più osservatori. Per cui, per valutare il grado di accordo fra i rater, si
calcola il coefficiente K di Cohen. Questo indice tiene conto della percentuale di accordo corretta per la pro-
babilità casuale di accordo.
Il problema dell’accordo tra giudici può però crearsi nella valutazione dei risultati a un test, cioè all’affidabilità
della procedura di scoring. In tal senso è necessario spesso, per quei test che riservano all’esaminatore un
elevato margine di giudizio, calcolare il rapporto di affidabilità tra scorer: due o più scorer assegnano i punteggi
a un campione di protocolli indipendentemente l’uno dall’altro e successivamente si correlano questi punteggi.

11
CLASSIFICAZIONE DEI TEST
I test vengono classificati in base agli stimoli, che possono essere non stardadizzati o standardizzati, e in base
alla situazione, che si distingue in controllata e non controllata.
Dall’incrocio di questi due fattori si ottiene:
I test psicologici possono essere definiti in base all’ area che
si propongono di misurare:
- Test cognitivi: test di intelligenza, attitudine e profitto,
memoria e linguaggio. Ha item di tipo:
o Ad esclusione;
o A sequenza;
o Vocabolario;
o Analogici;
o Abilità spaziale.
- Test non cognitivi: test di personalità (a loro volta in test non proiettivi e proiettivi) e scale di atteg-
giamento. Ha item di tipo:
o Dicotomici: prevedono risposte vero-falso/sì-no;
o Tricotomici: vero-incerto-falso/sì-no-non so/di solito-qualche volta-mai;
o A risposta libera;
o Con scala di valutazione.
In base al materiale usato:
- Carta e matita;
- Strumentali: prevedono l’uso di strumenti e non la compilazione carta e matita.

In base al tipo di somministrazione:


- Individuali;
- Collettivi o di gruppo.
In base allo scopo:
- Nomotetici: per stabilire leggi comuni a tutti gli individui;
- Ideografici: test che tentano di cogliere l’unicità del paziente, applicato nella pratica clinica.
In base alla modalità di risposta:
- Verbali;
- Non verbali;
In base al tempo:
- Test di velocità: velocità
- Test di potenza: effetto
Ci sono poi:
- Test di massima performance: c’è una risposta corretta
o Test di intelligenza;
o Test attitudinali;
o Test di rendimento.
- Test di tipica performance: non c’è una risposta corretta
o Test di personalità.
Le scale di atteggiamento mirano a misurare l’atteggiamento il quale è il grado di favore o sfavore che un
individuo associa a un oggetto. Quelle più comunemente usate sono:
- Scala di Thurstone;
- Scala di Guttman;
- Scala di Likert;
- Differenziale semantico.

12
GLI STRUMENTI DI MISURA
In psicologia ci sono vari test psicologici che si possono utilizzare:
- Interviste;
- Questionari;
- Scale di misura degli atteggiamenti;
- Protocolli di osservazione.
I test e i questionari sono tra gli strumenti più utilizzati e spesso si presentano con una forma grafica simile.
Tuttavia, questi non sono sinonimi in quanto obiettivi, fasi di costruzione e metodologie di analisi dei dati sono
diversi. Le differenze in particolare sono:
- I test sono standardizzati: l’aspetto che distingue i test è l’esistenza di un valore normativo, cioè un
valore che sarà termine di confronto per le successive rilevazioni. Infatti, un test deve essere valido
(misurare esattamente ciò che si propone), attendibile o affidabile (cioè rilevare misurare costanti nel
tempo) e sensibile (in grado di discriminare fra gli individui o fra diversi livelli di sviluppo e appren-
dimento dello stesso individuo);
- Questionari: consistono in un insieme di domande riguardanti atteggiamenti, stili di vita, comporta-
menti e credenze. Particolare attenzione è posta sulle possibili forme di distorsione (desiderabilità so-
ciale: tendenza a scegliere i contenuti più graditi alla società; acquiescenza: rispondere in modo da far
piacere all’intervistatore; response set: tendenza a prendere posizioni estreme o posizioni centrali).
Per quanto riguarda gli obiettivi:
- I test sono intenzionati a misurare un tratto individuale, una capacità, etc. e nella valutazione si tiene
conto delle risposte che altri soggetti hanno dato alle stesse domande. Può avere anche funzione dia-
gnostica;
- I questionari invece hanno come obiettivo l’analisi di un fenomeno collettivo di una popolazione e non
ha la pretesa di analizzare le caratteristiche individuali di un singolo.

Validazione:
- Un test è validato: rispondenti e domande subiscono un processo di selezione al fine di creare dei
valori di riferimento dopo molte prove;
- Un questionario può essere usato anche una volta per tutte e non subisce un processo di validazione
vero e proprio, ma solo una verifica su un piccolo numero di soggetti (pre-test).
In questo senso:
- Caratteristiche: i test riguardano un numero limitato di dimensioni mentre il questionario si estende a
molteplici aspetti dell’oggetto di studio.
- Uso: un test è utilizzato anche da chi non l’ha costruito, mentre il questionario è spesso costruito ad
hoc per un’indagine dallo stesso gruppo che lo utilizzerà.
Il confronto tramite statistiche:
- Nei test la statistica è fondamentale nella creazione dello strumento, mentre resta implicita quando si
utilizza;
- Col questionario, la statistica interviene invece al momento della scelta del campione e nell’analisi dei
dati.
Per quanto riguarda il percorso che porta alla creazione di uno strumento:
- Con un test le fasi principali sono: costruzione della batteria di item; scelta del campione di riferi-
mento; somministrazione; calcolo dei punteggi normativi; stesura modalità di utilizzo; commercializ-
zazione;
- Per il questionario: progettazione di un’indagine; costruzione questionario; scelta del campione; co-
struzione matrice dati (in base alle risposte); analisi statistica dei dati; rapporto finale.

DEFINIZIONE DI TEST PSICOLOGICI


Si definisce test psicologico (o reattivo psicologico) una situazione standardizzata nella quale il comporta-
mento di una persona viene campionato, osservato e descritto producendo una misura oggettiva e standardiz-

13
zata di un campione di comportamento avvalendosi di metodi di “somministrazione” e interpretazione accura-
tamente standardizzati. Attraverso il comportamento, si valutano tutti gli aspetti del funzionamento dell’indi-
viduo, inclusi anche tratti di personalità, atteggiamenti e motivazioni. L’interpretazione è poi basata sulla com-
parazione tra le risposte del soggetto e i punteggi standardizzati previsti per ogni risposta del test stesso.
Per situazione standardizzata s’intende una situazione in cui tutto rimane costante, tranne il variare delle rea-
zioni individuali; mentre per misura s’intende il prodotto dell’applicazione di regole per classificare o asse-
gnare numeri a degli oggetti in maniera tale che il numero rappresenti la quantità degli attributi o il grado in
cui una qualità è presente. Una misura può essere:
- Oggettiva: cioè replicabile;
- Standardizzata: s’intende che il singolo dato empirico sia ricondotto a un sistema di riferimento più
generale.
Si usa l’espressione campione di comportamento perché un test si basa essenzialmente sulla selezione (cam-
pionatura) di alcuni comportamenti fra quelli che costituiscono il repertorio comportamentale complessivo di
una persona. Infatti, i comportamenti (risposte) elicitati dal test devono essere rappresentativi dei comporta-
menti che potrebbero osservarsi al di fuori della situazione testistica.
Un test può essere presentato in vari modi: come batterie di prove, un elenco di item, un profilo, un questiona-
rio, un’intervista, una scala, una successione di stimoli proiettivi, ma deve presente alcune caratteristiche im-
prescindibili:
- Standardizzazione: La somministrazione del test deve avvenire con procedure uniformi, ossia con le
stesse modalità (materiali, limiti di tempo, frasi da utilizzare, assegnazione del punteggio) per tutti i
soggetti testati. La standardizzazione prevede anche la definizione di procedure di scoring (cioè di
calcolo dei punteggi) uniformi e la determinazione delle norme statistiche, senza le quali non si po-
trebbe attribuire un punteggio: i punti grezzi ottenuti da un soggetto vengono confrontati con quelli
ottenuti da un campione di soggetti (convertiti in punteggi standard o in centili), potendo così verificare
se la sua prestazione rientri o meno nella norma statistica.
- Validità
- Attendibilità
Se vogliamo mettere in evidenza le ipotizzate differenze fra soggetti con un certo grado di oggettività, dob-
biamo far variare solo le caratteristiche dei soggetti, mantenendo costante tutto il resto. Per garantire questa
costanza deve essere costante la situazione stimolo, ovvero quella situazione che sarebbe in grado di suscitare,
produrre reazioni o risposte individuali. Dato che la situazione stimolo, uguale per tutti, provoca delle reazioni,
essa è a volte anche chiamata definita situazione reattivo. Se invece si fa riferimento a quanto la situazione è
usata come prova, esame, può essere definita situazione test.
I test, in quanto veri e propri strumenti di misura, devono poi rispettare alcune specifiche condizioni:
- La variabile oggetto di misurazione deve essere individuata e circoscritta;
- Il costrutto va chiaramente definito su basi teoriche, verificando poi che il test misuri realmente quel
costrutto e non altro);
- Vanno elaborate regole per la quantificazione dei risultati (chiarire la quantità di un attributo presente
in un soggetto o il grado di somiglianza tra il soggetto e il tipo ideale e standardizzare le misure, in
modo che il significato di un numero sia costante indipendentemente dalle circostanze in cui avviene
la misurazione). Quest’ultima deve tener conto di alcune problematiche:
o Le ipotesi sulla distribuzione delle risposte di un singolo item in riferimento alla distribuzione
generale della caratteristica psicologica misurata;
o Le ipotesi sulla distribuzione della caratteristica psicologica nella popolazione;
o L’identificazione di un punto di riferimento a cui ancorare la scala numerica.
La quantificazione delle risposte ai singoli item è detta scaling, procedimento che designa la disposi-
zione dei tipi di risposta lungo una scala d’intensità, ossia l’assegnazione di un numero a ciascuno dei
livelli qualitativi ritenuti rilevanti.
Il campione normativo: viene detto campione normativo il gruppo di soggetti le cui risposte al test vengono
prese come termine di riferimento per valutare le risposte di qualsiasi altro soggetto che successivamente venga

14
sottoposto a quel test. Il campione normativo deve essere reperito con metodi che garantiscono la sua rappre-
sentatività, ad esempio il campionamento casuale. Può essere utile per un campione normativo evidenziare le
distinzioni fra sub-campioni (es. maschi/femmine), ecco perché si può scegliere di estrarre invece un campione
casuale stratificato, in cui identificano gli strati di popolazione che interessa considerare distintamente e da
ciascuno di essi si estrae un campione casuale semplice). Ciò è fondamentale, perché se si sbaglia popolazione
si sbaglia anche la misurazione.
Un problema basilare nell’estrazione di un campione è quello relativo alla sua ampiezza. In particolare, rispetto
alla numerosità del campione, si assume che il numero minimo di soggetti su cui basare una campionatura
normativa sia pari a 300. Inoltre, è di uguale importanza anche l’eterogeneità dello stesso, in termini spazio-
temporali e quindi: geografici, socioculturali e fascia d’età.

STANDARDIZZAZIONE DEI PUNTEGGI (NON DEI TEST)


La standardizzazione ha lo scopo di rendere i dati direttamente confrontabili con la distribuzione di punteggi
del gruppo di cui fa parte, caratteristica che i dati grezzi non possiedono se vengono mantenuti nella forma
originale. In questo modo, possiamo:
- Confrontare due prestazioni dello stesso soggetto entro due diverse distribuzioni;
- Confrontare le prestazioni di soggetti diversi in differenti distribuzioni.
Per cui, in questo caso, standardizzare significa riferire la misura a una scala standard di cui sono noti i para-
metri, ovvero media e varianza (non si intende, come nei test, un sinonimo di taratura, cioè la somministra-
zione di un test a un ampio e rappresentativo campione di soggetti in condizioni uniformi al fine di determinare
le norme statistiche, che sono le più importanti caratteristiche descrittive delle dimensioni di un test derivate
dal campione normativo e permettono di ricavare i punteggi standardizzati). Per ottenere la standardizzazione
delle misure usiamo gli indicatori di tendenza centrale e di dispersione (media e deviazione standard).
Una delle scale più comunemente utilizzate è detta “standard” o “z” e ha media=0 e varianza=1. Questa scala
𝑋𝑋−𝑥𝑥𝑥
si ottiene trasformando i punteggi xi di una distribuzione in punteggi zi tramite la formula z =
𝑠𝑠
Questo significherà esprimere i valori come distanza dalla media (la media è dove si centrano i punteggi) in
termini di deviazione standard (come u.m.). In questo modo possiamo confrontare due risultati relativi allo
stesso soggetto, che, ad esempio, ha ottenuto un punteggio di X in un test che misura l’ansia e di y in uno che
misura la depressione. Ci sono anche altre scale oltre quella in punti z, che si ottengono dalle trasformazioni
lineari della scala z:

- Scala in punti T: ha media = 50 e s = 10. Varia tra 0 e 100 e non prevede valori negativi. T=
50 + 10z;
- Scala stanine (standard nine): ha media = 5 e s = 2. Stanine = 5 + 2z;
- Scala sten (standard ten): ha media = 5.5 + 2z. Sten = 5.5 + 2z;
- Punteggio QI: media = 100 e s = 15.
Possiamo anche usare il rango percentile di un punteggio X. RP(x) può essere definito come la percentuale
di dati che assumono valore minore o uguale a X. È una standardizzazione che si basa sulle posizioni dei
soggetti nella distribuzione dei punteggi. Se un soggetto ha un punteggio Xi, dire che ha RP(Xi)=45 significa
che nella distribuzione ordinata dei dati il punteggio Xi lascia alla sua sinistra il 45% dei dati della distribuzione.
Il percentile e il rango percentile non sono sinonimi però, in quanto:
- Il percentile è un valore;
- Il rango percentile è una posizione associata a una percentuale.

L’ERRORE STANDARD DI MISURAZIONE


E’ ormai appurato che ogni misurazione sia affetta da errori: X = V + E  E = X – V. Partendo da ciò,
abbiamo chiamato l’indice che misura la precisione di un test (cioè la relazione tra punteggio osservato che
presenta errori e punteggio vero) attendibilità di un test.
Ora, nonostante non sia possibile quantificare la componente di errore E, è possibile stimarne la varianza. La
radice quadrata di questa varianza viene definita “errore standard di misurazione” e questa quantità rappre-
senta la deviazione standard dei punteggi osservati intorno al punteggio vero.
15
Nel caso di punteggi relativi a una singola persona, questo termine viene definito errore standard di misura-
zione persona-specifico (PSEM) e si indica con il simbolo 𝜎𝜎𝐸𝐸𝐸𝐸 . Questa quantità è un indicatore della disper-
sione dei punteggi osservati del soggetto intorno al punteggio vero, nella condizione ipotetica ipotetica di poter
effettuare numerose misurazioni sulla stessa persona. Ovviamente, come nel caso di E, anche il PSEM non
può essere calcolato ma se ne può ottenere una stima a partire dai punteggi osservati X in un campione utiliz-
zando il coefficiente di attendibilità.

Dalla formulazione dell’equazione fondamentale della TCT in termine di attendibilità si ottiene che questa sia
2
𝜎𝜎𝐸𝐸
𝑟𝑟𝑡𝑡𝑡𝑡 = 1 − . Segue, a questo punto, che la varianza di errore è: 𝜎𝜎𝐸𝐸2 = 𝜎𝜎𝑋𝑋2 (1 − 𝑟𝑟𝑡𝑡𝑡𝑡 )
𝜎𝜎𝑥𝑥2
Mettendo sotto radice questa quantità si ottiene la deviazione standard (√𝑣𝑣𝑣𝑣𝑣𝑣), ovvero l’errore standard di
misurazione: 𝜎𝜎𝐸𝐸 = 𝜎𝜎𝑋𝑋 �(1 − 𝑟𝑟𝑡𝑡𝑡𝑡 ) (portando fuori 𝜎𝜎𝑋𝑋2 )

(L’utilizzo dell’attendibilità è necessario in quanto se dicessimo che la deviazione standard sia l’errore stan-
dard di misurazione non terremo conto di tutti gli errori, e a tal fine è necessario modificare lo scarto aggiun-
gendo quel valore che rappresenta l’errore di misurazione, appunto l’attendibilità).

Ex: Sia l’attendibilità di un test 0.90 e la deviazione standard uguale a 15, l’errore standard sarà:
𝜎𝜎𝐸𝐸 = 15�(1 − 0.90) = 4.74

Una volta conosciuto l’errore standard di misurazione di un test, è possibile calcolare l’intervallo di fiducia al
cui interno ricadrebbe il punteggio vero V nel caso in cui il soggetto ripetesse infinite volte il test a partire dal
punteggio osservato.

INTERVALLO DI FIDUCIA
L’intervallo di fiducia è un range di punteggi osservati al cui interno è probabile ricada il punteggio
vero. È possibile calcolare questa probabilità tramite l’errore standard di misurazione in quanto se ciò che fa
spostare X da V è l’errore, il parametro fondamentale che determina questo spostamento è la deviazione stan-
dard di questo errore, cioè appunto l’errore standard di misurazione.
Presupponendo un range in cui punteggio osservato coincida con il punteggio vero, la sua probabilità sarebbe
uguale a: P (X – V = 0). Rappresentando questo intervallo con una gaussiana (quindi interpretandola in termini
di distribuzione di frequenze) potremo stabilire la probabilità tramite una grandezza:
𝑃𝑃(𝑋𝑋 − 𝑉𝑉 = 0) = 1 − 𝛼𝛼 *
Questo praticamente significa misurare la distanza che c’è tra X e V e decidere sulla base di un α (un errore di
inferenza di cui è accettata la presenza) che X e V possano essere uguali. Graficamente ciò si tradurrà in un’area
della curva la quale non sarà altro che lo scarto tra il punteggio osservato e il punteggio vero e all’interno del
quale si troverà V.

La situazione in cui X e V coincideranno all’origine


della curva per la TCT è impossibile giacché c’è
sempre un errore. Pertanto, si preferisce centrare la
curva sul punteggio vero e X invece come punteggio
che si sposta a dx o sx rispetto al centro.

* Xinf e Xsup sono i valori estremi di questo range con


cui abbiamo il 95%, ovvero 1- α, della nostra curva
normale, e in cui accettiamo Ho, cioè l’ipotesi nulla.
Il 5% dell’area rimanente, cioè α, rappresenta invece la parte della curva in cui se X si trovasse al suo interno
rifiuteremmo Ho poiché sarebbe fuori dal range che ci permetterebbe di stabilire l’uguaglianza tra X e V.

16
Pertanto, possiamo riscrivere P (X – V = 0) = 1 – α in termini di valore del limite inferiore e superiore della
curva (formula inversa di z e inversa della standardizzazione per la quale z si moltiplica per l’errore standard
e che ci permette di portare il punteggio z critico in termini di punteggio del nostro test):
𝑃𝑃(𝑋𝑋𝑖𝑖𝑖𝑖𝑖𝑖 ≤ 𝑉𝑉 ≤ 𝑋𝑋𝑠𝑠𝑠𝑠𝑠𝑠 ) = 1 − 𝛼𝛼
𝑋𝑋𝑠𝑠𝑠𝑠𝑠𝑠 = 𝑋𝑋 + 𝑧𝑧1−(𝛼𝛼)𝜎𝜎𝐸𝐸
2
𝑋𝑋𝑖𝑖𝑖𝑖𝑖𝑖 = 𝑋𝑋 − 𝑧𝑧1−(𝛼𝛼)𝜎𝜎𝐸𝐸
2
Ex: Immaginiamo un soggetto che abbia ottenuto in un test il cui errore standard è 4.74 un punteggio X=
108. Quale sarà un intervallo di fiducia del 95%?
𝛼𝛼 = 0.05

𝑧𝑧1−(𝛼𝛼) = 1.96
2
108 − 1.96 × 4.74 ≤ 𝑉𝑉 ≤ 108 + 1.96 × 4.74
98.7 ≤ 𝑉𝑉 ≤ 117.3
Immaginiamo un soggetto che abbia ottenuto in un test il cui errore standard è 4.74 un punteggio X = 108.
Quale sarà un intervallo di fiducia del 99%?
𝛼𝛼 = 0.01
𝑧𝑧1−(𝛼𝛼) = 2.58
2
108 − 2.58 × 4.74 ≤ 𝑉𝑉 ≤ 108 + 2.58 × 4.74
95.8 ≤ 𝑉𝑉 ≤ 120.2
Più il test sarà preciso, più l’intervallo di fiducia sarà basso. Più l’attendibilità sarà bassa, più l’intervallo di
fiducia sarà ampio.

STIMA DEL PUNTEGGIO VERO


Va notato tuttavia che per alcuni valori specifici, cioè valori molto distanti dal punto medio e quindi agli
estremi della distribuzione (2 deviazioni standard dalla media rispetto a 1,96 di valore critico per alfa = 0.05),
la stima dell’intervallo non è corretta bensì sfalsata a causa del fatto che si trova così distante dalla media della
popolazione rischiando di essere un outlier (un fuori scala).
In questi casi (per riportare il valore in scala) è possibile stimare il punteggio vero V’ da quello osservato e
determinare poi l’intervallo di fiducia attorno alla stima ottenuta, ovvero:
𝑉𝑉 ′ = 𝑋𝑋� + 𝑟𝑟𝑡𝑡𝑡𝑡 (𝑋𝑋 − 𝑋𝑋�)
L’attendibilità correggerà sempre il punteggio osservato. Ciò potrebbe essere fatto per qualsiasi valore, anche
non estremo, ma mentre in quest’ultimo caso lo scarto sarà minimo, se si parla di outlier lo scarto sarà più
grande e quindi 𝑟𝑟𝑡𝑡𝑡𝑡 lo modificherà maggiormente. Se l’attendibilità fosse 1, ovvero non ci fosse errore di mi-
surazione, noi aggiungeremmo e sottrarremmo al punteggio osservato X la stessa somma, ovvero la media 𝑋𝑋�,
e quindi otterremmo che il punteggio vero sia uguale a quello osservato in quanto non c’è errore di misurazione.
A questo punto l’intervallo di fiducia sarà (tutta la teoria dietro non è modificata):
𝑉𝑉𝑠𝑠𝑢𝑢𝑝𝑝 = 𝑉𝑉′ + 𝑧𝑧1−𝛼𝛼 𝜎𝜎𝐸𝐸
𝑉𝑉𝑖𝑖𝑖𝑖𝑖𝑖 = 𝑉𝑉′ − 𝑧𝑧1−𝛼𝛼 𝜎𝜎𝐸𝐸
𝑃𝑃(𝑉𝑉𝑖𝑖𝑖𝑖𝑖𝑖 ≤ 𝑉𝑉 ≤ 𝑉𝑉𝑠𝑠𝑠𝑠𝑠𝑠 ) = 1 − 𝛼𝛼

ERRORE STANDARD DI MISURAZIONE


Un importante utilizzo dell’errore standard di misurazione si ha nel calcolo della differenza tra punteggi che è
necessario in due casi:
- Per stimare le differenze tra i punteggi di due soggetti allo stesso test;
- Per stimare le differenze tra i punteggi di uno stesso soggetto a due test diversi.
Anche in questo caso si utilizza l’errore standard di misurazione per calcolare la deviazione standard delle
differenze tra i punteggi, cioè come gli errori si distribuiscono tenendo conto delle differenze tra punteggi. Ciò
consente inoltre di verificare la significatività statistica della differenza di due punteggi.

17
Avendo solo XA e XB, bisogna stimare la differenza tra i due punteggi veri a partire dalla differenza tra i due
punteggi osservati. Tuttavia, i casi possibili sono molteplici, in quanto XA e XB possono essere anche molto più
distanti dai punteggi veri.

Immaginiamo dun-
que di avere 2 soggetti A e B sottoposti allo stesso test, con rtt = 0.92 e deviazione standard uguale a 12. XA =
102 e XB = 96. Dobbiamo verificare delle ipotesi statistiche:
• H 0 : VA = Vb
• H1 : VA ≠ Vb (si fanno ipotesi su V e non X)

Ciò che vogliamo verificare è che H0 : VA = Vb, cioè che siano


uguali. Naturalmente, ciò avviene sempre attraverso la
differenza tra i punteggi osservati, cercando di comprendere se
sia effettivamente distante dai punteggi veri.
Per fare questo, usiamo la verifica delle ipotesi per comprendere
se la differenza dei punteggi osservati sia effettivamente distante
dal punto 0 (centro della distribuzione) e quindi facendo in modo
che la differenza XA - XB ricada all’interno dell’area di rifuto
dell’ipotesi nulla, cioè nell’area di accettazione dell’ipotesi nulla
(95%).
Dato che lo scostamento tra punteggi veri e punteggi osservati
dipende sempre dall’errore, ciò che bisogna fare a questo punto
è trovare la deviazione standard e calcolare l’errore standard
della differenza tra i punteggi, che ci permette di rapportare correttamente i due punteggi e quindi le loro
differenze.
1) Bisogna stabilire l’alfa, di solito si sceglie uno del 5% e il cui rapporto (o punto) critico è 1.96, ovvero
il punteggio che ricade laddove inizia l’area di rifiuto dell’ipotesi nulla.
2) A questo punto calcoliamo l’errore standard, quindi: 12√1 − 0.92 = 3.3936
3) Si calcola la deviazione standard che ci permette di rapportare la differenza tra i due punti, cioè l’er-
rore standard della differenza tra i punteggi: 𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑= 𝜎𝜎𝐸𝐸𝐸𝐸 −𝐸𝐸𝐸𝐸 .
Per determinare il valore di 𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 , partiamo dal presupposto che i due test A e B che stiamo valutando
2 2
sono uguali, per cui 𝜎𝜎𝐸𝐸𝐸𝐸 = 𝜎𝜎𝐸𝐸𝐸𝐸 . Per cui, la varianza della differenza degli errori (elevando al quadrato
2 2 2
la differenza 𝜎𝜎𝐸𝐸𝐸𝐸 −𝐸𝐸𝐸𝐸 ) sarà 𝜎𝜎𝐸𝐸𝐸𝐸−𝐸𝐸𝐸𝐸 = 𝜎𝜎𝐸𝐸𝐸𝐸 + 𝜎𝜎𝐸𝐸𝐸𝐸 − 2𝜎𝜎𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 da cui segue che la covarianza degli errori
2 2 2 2
è nulla perché gli errori sono casuali e, data l’uguaglianza 𝜎𝜎𝐸𝐸𝐸𝐸 = 𝜎𝜎𝐸𝐸𝐸𝐸 , 𝜎𝜎𝐸𝐸𝐸𝐸 = 𝜎𝜎𝐸𝐸𝐸𝐸 = 𝜎𝜎𝐸𝐸2 (si possono
2 2
semplificare nella varianza dell’errore di tutto il test) per cui alla fine 𝜎𝜎𝐸𝐸𝐸𝐸−𝐸𝐸𝐸𝐸 = 2𝜎𝜎𝐸𝐸 la cui deviazione
standard sara’ �2𝜎𝜎𝐸𝐸2 da cui segue che 𝜎𝜎𝐸𝐸𝐸𝐸 −𝐸𝐸𝐸𝐸 = 𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 = 𝜎𝜎𝑒𝑒 √2.
Ritornando all’esempio, se 𝜎𝜎𝐸𝐸𝐸𝐸 −𝐸𝐸𝐸𝐸 = 𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 = 𝜎𝜎𝑒𝑒 √2, allora 3.3986 x 1.4142 = 4.7992
𝑋𝑋𝐴𝐴 −𝑋𝑋𝐵𝐵
4) A questo punto, si calcola il rapporto critico della differenza: 𝑧𝑧𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 =
𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑
102−96
= 1.2502. Dato che 𝑧𝑧𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 < 𝑧𝑧𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 ovvero 1.2502 < 1.96, si accetta l’ipotesi nulla (se fosse
4.7992
stato maggiore sarebbe ricaduto nell’area di rifiuto dell’ipotesi nulla). Questo ci permette di dire che
nonostante i punteggi osservati siano differenti i due punteggi veri sono uguali. Per cui, è possibile
dire con una percentuale di errore del 5% che il punteggio vero del soggetto A sia uguale a quello del
soggetto B.

18
La stessa cosa può essere fatta se si vuole stimare le differenze tra i punteggi di uno stesso soggetto a due test
differenti. Per prima cosa dobbiamo calcolare la differenza degli errori, cioè 𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 = 𝜎𝜎𝐸𝐸𝐸𝐸 −𝐸𝐸𝐸𝐸 , tuttavia essendo
2
due test diversi la varianza della componente dell’errore del test A sarà diversa da quella del test B, cioè 𝜎𝜎𝐸𝐸𝐸𝐸 ≠
2 2 2
𝜎𝜎𝐸𝐸𝐸𝐸 per cui 𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 = �𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 = �𝜎𝜎𝐸𝐸𝐸𝐸−𝐸𝐸𝐸𝐸 = �𝜎𝜎 2 𝐸𝐸𝐸𝐸 + 𝜎𝜎 2 𝐸𝐸𝐸𝐸 (covarianza nulla).
Quindi, esemplificando, abbiamo un soggetto sottoposto a due test, con rttA = 0.94, rttB = 0.86 e deviazioni
standard uguale a 15 e a 12 e con XA = 108 e XB = 94. Dobbiamo verificare delle ipotesi statistiche:

- H0 : VA = Vb
- H 1 : VA ≠ Vb
(possiamo fare verifiche bidirezionali (vedere l’uguaglianza e la diversità), ma anche monodirezionali
(se una è maggiore di un’altra), pertanto specifico l’alfa solo da una parte in quando monodirezionale
o unilaterale dx o sx, pertanto l’alfa non dovrà essere diviso in due parti e sarà solo da una parte della
curva e quindi il valore critico con cui confrontiamo, in questo caso, 𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 ).

1) Per alfa = 0.05 il rapporto critico è 1.96;


2) Si calcola l’errore standard per i due test:
15√1 − 0.94 = 3.6472
12√1 − 0.86 = 4.4899
3) Si calcola la deviazione standard della differenza tra i punteggi:
𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 = √3.64722 + 4.48992 = 5.7845
𝑋𝑋𝐴𝐴 −𝑋𝑋𝐵𝐵 108−94
4) Si calcola il rapporto critico della differenza: 𝑧𝑧𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 = , 𝑐𝑐𝑖𝑖𝑖𝑖è = 2.4202 ed essendo (la
𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 5.7845
diff. dei due test) 𝑧𝑧𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 > 𝑧𝑧𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 ovvero 2.4202 > 1.96 si rifiuta l’ipotesi nulla. Pertanto, dati i punteggi
osservati dello stesso soggetto a due test diversi, non possiamo dire che per i due test il valore vero di
quel soggetto sia il medesimo.

Se i due test hanno poi stessa varianza (𝜎𝜎𝐴𝐴2 = 𝜎𝜎𝐵𝐵2 = 𝜎𝜎𝑋𝑋2 ) e attendibilità (rttA = rttB = rtt), la formula diventa:
2
𝜎𝜎𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 = 𝜎𝜎𝑋𝑋2 ∗ 2(1 − 𝑟𝑟𝑡𝑡𝑡𝑡).

VALIDITA’
Insieme all’attendibilità, la validità è l’altra dimensione fondamentale nello studio dei test psicometrici e si
riferisce al grado di accuratezza con cui uno strumento misura effettivamente ciò che si propone di misurare,
a differenza dell’attendibilità che misura invece la precisione, quanto bene ho misurato…(validità e attendibi-
lità non sono correlate).
L’errore sistematico riduce la validità della misura.

VALIDITA’ VS ATTENDIBILITA’

- La misura attendibile ha un basso grado di


dispersione dei valori;
- La misura valida è concentrata sul valore
reale.

19
Si può affermare, per semplicità, che l’attendibilità
misura la struttura di una scala psicometrica, cioè le
sue caratteristiche formali, del modo in cui misura un
costrutto psicologico; la validità è invece un tipo di
misurazione dell’efficacia di una scala psicometrica
nell’essere capace di misurare il contenuto del test,
cioè quello che si vuole misurare e non il modo in cui
riusciamo a farlo.

TIPI DI VALIDITA’

Metodi qualitativi:
validità di facciata
e contenuto
Metodi quantita-
tivi: validità di cri-
terio e di co-
strutto

VALIDITA’ DI FACCIATA (FACE VALIDITY)


Riguarda l’accettabilità degli items di una scala per gli utilizzatori del test e per i soggetti a cui il test è som-
ministrato. Interessandosi all'aspetto esteriore del test e con l'impressione che può produrre sui soggetti, si
riferisce a ciò che il test sembra misurare (piuttosto che a ciò che il test misura realmente). Se vi è una buona
validità di facciata, ci si aspetta che i tester percepiscano positivamente il test e siano motivati a rispondere.
Questo tipo di validità può essere incrementata rendendo più sistematica l’operazionalizzazione di un costrutto,
ovvero usando un campione selezionato di giudici esperti che ne valutano l’appropriatezza. (forma vs conte-
nuto)
VALIDITA’ DI CONTENUTO
Valuta se il contenuto degli item di cui è composta una scala psicometrica è pertinente al costrutto che vo-
gliamo misurare (quanto gli item del test rappresentano il comportamento che si vuole valutare con quello
specifico strumento). Per cui, l’operazionalizzazione viene valutata rispetto alla relazione che intercorre tra la
scala (il test) e il dominio, l’argomento, che il test intende misurare.
Non essendoci indici statistici, occorre verificare la campionatura degli items che compongono la scala, i quali
devono coprire l’intera definizione teorica del costrutto che si vuole misurare ed essere in grado di evidenziare
gli aspetti più importanti del costrutto. A tal fine, ci si avvale spesso di «giudizi» esperti del settore o di «giu-
dici» estranei alla costruzione del test.

VALIDITÀ DI CRITERIO
Riguarda la relazione che il test presenta con una o più misure o osservazioni (criterio, non è il risultato di uno
scaling) esterne al costrutto del test, con le quali viene ipotizzata tale relazione associata allo stesso criterio
(confronto tra il costrutto personalità e il criterio performance accademica, quest’ultima condensa solo risultati
e non è rappresentativa di nessun costrutto, a meno che non ci sia una teoria che mi dimostri che ci sia una
relazione o una causalità). Per cui si basa su ipotesi teoriche ed è misurabile attraverso un coefficiente di
correlazione o regressione, in base a quello che si vuole misurare. Infatti, la validità di criterio si può intendere
in due modi:
- Predittiva: Riguarda la rilevazione dei punteggi ad un test in momenti successivi ed una loro correla-
zione. Un elevato coefficiente di correlazione indicherà una buona capacità del test di previsione dei

20
comportamenti (regressione, è possibile individuare una causalità determinare una variabile indipen-
dente e dipendente e ci permette di predire in anticipo una determinata variabile);
- Concorrente: Riguarda la correlazione tra i punteggi ottenuti sia ad un test che ad un criterio in una
popolazione specifica e predeterminata. Un elevato coefficiente di correlazione indica una buona ca-
pacità del test di predire comportamenti simile a quella di altre fonti di valutazione (correlazione). rtt
E’ possibile dimostrare che il massimo valore ottenibile per il coefficiente di validità è �𝑟𝑟𝑡𝑡𝑡𝑡 .

VALIDITA’ DI COSTRUTTO
Cerca di verificare se un punteggio a un test misura realmente il costrutto psicologico d’interesse (cioè, quanto
una data operazionalizzazione misura effettivamente il costrutto che si intende misurare) attraverso il confronto
con la misurazione dello stesso costrutto effettuata con un altro strumento. Per cui, in questo caso, l’importanza
non risiede nel rapporto tra costrutto e criterio, ma tra due costrutti. Anche in questo caso si utilizza la corre-
lazione come metodo statistico, ovvero si somministrano due test che si ipotizza in via teorica che misuri lo
stesso costrutto e si calcola la correlazione tra due punteggi. Quel valore sarà il coefficiente di attendibilità. Si
possono interpretare i risultati in due modi differenti: convergente (quando due scale che misurano lo stesso
costrutto presentano un alto valore di correlazione, è significativa se > .80) e discriminante (o divergente,
quando due scale psicometriche che in teoria non dovrebbero essere correlate forniscono una correlazione
molto bassa, < .20).
ATTENUAZIONE
Nello studio della validità di criterio e di costrutto, assume un’importanza rilevante un’applicazione dell’at-
tendibilità: il concetto di attenuazione. Partendo dall’assunzione che ogni misurazione contiene un errore, la
correlazione tra due costrutti sarà sempre maggiore di quella tra indicatori o misure in quanto solo quest’ultimi
sono affetti dall’errore di misurazione, per cui 𝑟𝑟𝑝𝑝𝑝𝑝 ≥ 𝑟𝑟𝑝𝑝′ 𝑞𝑞′ . Questo fenomeno è noto come attenuazione delle
correlazioni dovuta alla inattendibilità delle misure

(Path diagram: diagrammi che rappresentano la relazione tra variabili. I quadrati sono variabili osservabili,
le X, ovvero V + E, due variabili latenti, non osservabili direttamente, e rappresentate dai due cerchi. “p” e
“q” sono i punteggi veri, p’ e q’ sono i punteggi osservati ed e1 ed e2 sono gli errori. Delle frecce hanno una
sola testa, altre due. Le prime vuol dire che nell’esempio della regressione, possiamo comprendere il valore
di una variabile a partire da un’altra in quanto è dipendente (prezzo delle case dipende dai metri quadri), se
le frecce sono due si parla di correlazione. Ciò che ci dice l’attenuazione è che la correlazione che avremo
tra p’ e q’ non sarà mai uguale a quella di p e q in quanto i punteggi osservati presentano errori ed è quindi
corrotta dato che si aggiunge necessariamente una somma, ovvero quella di errore. Pertanto, sapendo che il
punteggio vero si ottiene come X - E allora si spiega la superiorità della correlazione tra due costrutti, in
quanto quella tra punteggi è attenuata dall’errore. Ecco perché per esempio se non c’è errore non c’è atte-
nuazione. Inoltre, l’attenuazione non riguarda variabili osservabili, come il voto di laurea, perché per defini-
zione non presenta errori, riguarda solo le variabili latenti).
Al fine di correggere l’attenuazione un modo da avere una stima della correlazione tra i due costrutti non
attenuta dall’errore di misurazione è possibile utilizzare l’attendibilità calcolata per le scale che vengono uti-
lizzate nell’acquisizione dei punteggi relativi alle osservazioni dei due costrutti (p e q).

21
𝑟𝑟𝑝𝑝′𝑞𝑞′
𝑟𝑟𝑝𝑝𝑝𝑝 = in cui 𝑟𝑟𝑝𝑝𝑝𝑝 è la correlazione corretta tra i due costrutti, 𝑟𝑟𝑝𝑝′𝑞𝑞′ la correlazione osservata e 𝑟𝑟𝑝𝑝′𝑝𝑝′
�𝑟𝑟𝑝𝑝′𝑝𝑝′𝑟𝑟𝑞𝑞′𝑞𝑞′
l’attendibilità del test p’ e 𝑟𝑟𝑞𝑞′𝑞𝑞′ l’attendibilità del test q’.

Nel caso di correlazione tra un criterio di un costrutto, sulla base dei valori di attendibilità, potremmo optare
per la correzione dell’attenuazione determinata da solo una delle due scale, la scala p o la scala (o misurazione)
q. Nel caso della performance, dato che non si può calcolare l’attendibilità su di esso, si può scegliere di farlo
direttamente sulla scala di misurazione che è in relazione con il criterio.

VALIDITÀ INTERNA (o FATTORIALE)


L’ultimo tipo di validità: riguarda il grado in cui gli item di un test si riferiscono (misurano) ad uno stesso
costrutto e quindi la coerenza nella correlazione tra item che misurano uno stesso costrutto. Se c’è validità
interna gli item di un test presentano un’elevata intercorrelazione.
Si lega al concetto di dimensionalità, cioè alle diverse dimensioni di un test (di cui i fattori sono rappresentativi,
per esempio, nel caso della personalità e del test Big Five, si dice che la scala abbia 5 dimensioni rappresentati
da 5 fattori. Il grado di accordo tra gli item e questi fattori (interpretabili come variabili latenti) è fondamentale
per la validità interna e si indaga attraverso l’analisi fattoriale.

ANALISI DEGLI ITEM


Non abbiamo ancora visto come avere informazioni sui singoli item affinché questi siano corretti (la corre-
zione consta di caratteristiche teoriche, come validità e la teoria di riferimento per quel costrutto, e di verifiche
statistiche, come l’analisi fattoriale).
Gli item nel loro insieme compongono una scala psicometrica e sono una serie di misurazioni simili ma non
identiche di uno stesso costrutto somministrati a un campione di individui.
Gli item possono essere:
- Dicotomici: prevedono una scelta fra due o più alternative di cui una corretta (risposte vero/falso,
risposte a scelta multipla);
- Politomici: possono prevedere un range di risposte variabili (risposte basate su scala Likert).
L’analisi degli item per i due tipi di item è simile, con l’utilizzo di alcuni metodi differenti, in base ai dati.
Ci sono due indicatori fondamentali per comprendere il ruolo degli item all’interno delle scale che però variano
sempre in base alla popolazione di riferimento (che quindi possiede grande rilevanza):
- Difficoltà
- Correlazione item-totale: oltre a rappresentare la coerenza di un item rispetto la totalità di un test, ci
indica anche il livello di discriminatività, cioè di quanto un item riesca a discriminare correttamente
tra soggetti diversi sulla base delle misurazioni che effettua uno strumento rispetto a un dato costrutto
(se tutti i soggetti rispondessero in maniera uguale, quell’item sarebbe inutile, anche se non tutti gli
item discriminano in maniera uguale e comunque varia in base alla popolazione di riferimento, per
esempio uccidere qualcuno in un campione di detenuti). Se un item ha una forte correlazione con il
punteggio totale del test (item-totale), significa che è un item che riuscirà ad approssimare quanto
meglio possibile la misurazione offerta dall’intero test, ovvero se è il test riesce a discriminare, do-
vrebbe essere possibile anche per l’item (più c’è correlazione, più c’è covarianza, più c’è attendibi-
lità).

DIFFICOLTÀ DELL’ITEM (ITEM DICOTOMICI)


In item dicotomici la difficoltà (indice pi) è data dalla divisione tra il numero di risposte corrette fornite a un
item dai soggetti per il numero totale di risposte fornite all’item stesso, e come tutte le proporzioni, può assu-
mere valori compresi tra 0 e 1 (0 difficilissimo, nessuno risponde correttamente; 1 facilissimo, tutti rispondono
correttamente). Inoltre, corrisponde alla media dell’item nel senso che un item sarà facile se un gran numero
di persone risponderanno in maniera corretta.
∑𝑛𝑛
𝑗𝑗=1 𝑋𝑋𝑖𝑖𝑖𝑖
𝑝𝑝𝑖𝑖 = = E(Xi). Da questo si può ottenere facilmente qi, ovvero la proporzione di risposte sbagliate come
𝑛𝑛
complementare a 1 di 𝑝𝑝𝑖𝑖 , tale che 𝑝𝑝𝑖𝑖 + 𝑞𝑞𝑖𝑖 = 1, mentre la varianza:
22
𝑠𝑠𝑖𝑖2 = 𝑝𝑝𝑖𝑖 𝑞𝑞𝑖𝑖 = 𝑝𝑝𝑖𝑖 (1 − 𝑝𝑝𝑖𝑖 )

CORRELAZIONE ITEM-TOTALE (ITEM DICOTOMICI)


L’indice di correlazione item-totale invece come misurazione della discriminatività di un item nel caso di item
dicotomici (misura della coerenza dell’item rispetto alla scala nel suo complesso) di ottiene con il coefficiente
punto-biseriale in quanto mette in relazione una variabile continua con una dicotomica:
���� − 𝑋𝑋�)
(𝑋𝑋𝑝𝑝
𝑟𝑟𝑝𝑝𝑝𝑝 = �𝑝𝑝/𝑞𝑞
𝜎𝜎𝑋𝑋
����) è 𝑙𝑙𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑎𝑎 𝑑𝑑𝑑𝑑𝑖𝑖 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑑𝑑𝑑𝑑𝑑𝑑 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑑𝑑𝑑𝑑 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑖𝑖 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑐𝑐ℎ𝑒𝑒 ℎ𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑙𝑙′𝑖𝑖𝑖𝑖𝑖𝑖
(𝑋𝑋𝑝𝑝
(ENDORSEMENT) AFFETTIVITA’ (ITEM POLITOMICI)
Le analisi per item politomici, ovvero item in cui non ci sono risposte giuste o sbagliate, si basano principal-
mente su indici di tendenza centrale e di dispersione (Likert, corretto o sbagliato).
Ecco perché si preferisce parlare, invece che di difficoltà, di affettività la quale non si concentra sulla corret-
tezza di una risposta quanto sull’adesione che hanno i soggetti rispetto i comportamenti che vengono suggeriti
da un determinato item (è il grado di adesione che non possiamo descrivere in termini di giusto o sbagliato).
Pertanto, un item molto facile sarà un item che susciterà molta adesione rispetto una direzione (1 o 5). Non
essendo possibile calcolare la proporzione tra risposte corrette e totali, la misurazione consiste nello studiare
le caratteristiche standard come media e deviazione standard e soprattutto rapportare la media osservata
dell’item con quella teorica (osservare la posizione della media rispetto alla scala dell’item). Nel caso di una
scala Likert a 5 punti, sarà un item con una media fortemente spostato verso il 4 o il 5. La media osservata è
all’interno di un intervallo non troppo distante dalla media teorica, es ±1.5

CORRELAZIONE ITEM-TOTALE (ITEM POLITOMICI)


Il coefficiente item-totale corretto (c’è la distorsione nel tener conto anche dell’item in analisi nel totale) si
può ottenere attraverso l’applicazione della r di Pearson ed eliminando il contributo dell’item al totale:
𝑟𝑟𝑥𝑥𝑥𝑥 𝜎𝜎𝑥𝑥 − 𝜎𝜎𝑗𝑗
𝑟𝑟(𝑥𝑥−𝑗𝑗) =
�𝜎𝜎𝑥𝑥2 + 𝜎𝜎𝑗𝑗2 − 2𝑟𝑟𝑥𝑥𝑥𝑥 𝜎𝜎𝑥𝑥 𝜎𝜎𝑗𝑗
Dove 𝑟𝑟𝑥𝑥𝑥𝑥 viene calcolato con la correlazione di Pearson e non con la formula della correlazione punto-biseriale

INDICE D PER ITEM DICOTOMICI


Un ulteriore metodo per la determinazione della discriminatività di item dicotomici ma applicabile anche po-
litomici è l’indice D di discriminatività che misura la differenza tra la probabilità di risposte corrette all’item
per i due gruppi.
Per il calcolo, bisogna partire dal presupposto che sia possibile mettere in relazione il punteggio totale di un
soggetto a un test e il punteggio di un soggetto a un item specifico di questo test. Per cui, si suddividono i
soggetti sulla base del loro punteggio al test: quelli con punteggio basso faranno parte del gruppo A e quelli
con punteggio alto faranno parte del gruppo B (suddividerli in base alla mediana del gruppo). Se un item IK
ha un buon indice di discriminazione, (per esempio) i soggetti del gruppo A avranno punteggi bassi di IK,
mentre i soggetti del gruppo B avranno punteggi alti di IK.
Una volta individuati questi due gruppi, si calcola la probabilità di risposta corretta ottenuta allo specifico item
di cui vogliamo calcolare l’indice di discriminatività e si confronta. Per cui, l’indice D non sarà altro che la
differenza tra la probabilità di risposte corrette a un item specifico dei soggetti appartenenti al gruppo B meno
la probabilità di risposte corrette a un item specifico dei soggetti del gruppo A.
𝐷𝐷 = 𝑝𝑝(𝐵𝐵) − 𝑝𝑝(𝐴𝐴)
Valori elevati di D (≥ 0.40) indicano buona discriminatività (varia tra -1 e +1).
Per item politomici vengono fatte alcune correzioni al punteggio dal momento che l’indice D utilizza la pro-
babilità di risposte corrette che non è possibile avere per gli item politomici. Ciò avviene per esempio attraverso
un test di stima delle differenze tra punteggi dei soggetti nel gruppo A e B, come il T test, in cui si calcolano i

23
punteggi all’item specifico del gruppo A e B e li si sottopone a un test di verifica di uguaglianza delle diffe-
renze. Se il T test risultasse significativo, i punteggi dei due gruppi sarebbero significativamente diversi anche
non avendo un indice di stima e quindi che l’item in oggetto possiede una buona discriminatività.

ANALISI FATTORIALE

STORIA
Spearman, uno psicologo inglese, sviluppò le basi dell’Analisi Fattoriale (AF) all’inizio del 1900 per misu-
rare l’intelligenza in modo “obiettivo”. L’idea di base è che le correlazioni tra le risposte fornite a un set di test
di abilità siano descritte da un unico “fattore generale” di intelligenza.

ANALISI FATTORIALE E IL CONCETTO DI VL


L'analisi fattoriale è un metodo di statistica multivariata (più variabili) che ha l’obiettivo di:
- Identificare le dimensioni latenti, ovvero i fattori, che spiegano la variabilità e l’intercorrelazione esi-
stente (quale correlazione è più importante per spiegare i dati osservati) tra una serie di variabili
direttamente osservate (item)
- Ottenere una riduzione della complessità del numero di variabili osservate che spiegano un fenomeno
(metodo di riduzione della dimensionalità) eliminando la ridondanza di informazioni nei dati, cioè
determinare un numero di fattori minore rispetto al numero di variabili osservate in partenza (item), le
quali sono generalmente altamente correlate e quindi eliminabili (dopo aver controllato l’attendibilità
e il loading) e di definire (scoprire) quali e quanti siano i fattori a cui si riferiscono. I fattori sono
variabili latenti che sono causa dei punteggi e della correlazione nelle variabili osservate e ne rappre-
sentano la parte comune (ad esempio un tratto di personalità, un atteggiamento).
- L’AF, fornendoci una rappresentazione quantitativa della variabile latente che soggiace a quelle os-
servabili, può essere utilizzata anche per costruire e validare di strumenti di misura (es. gli items sono
coerenti con la definizione del costrutto?), oppure per verificare se la struttura teorica ipotizzata di un
insieme di misure può essere confermata o meno (es. un atteggiamento consta di separate componenti
cognitive, emotive e comportamentali, “ABC”?).
(se non c’è varianza, non c’è analisi fattoriale)

LA MATRICE DI VARIANZE E COVARIANZE


Da un punto di vista statistico la variabilità è informazione: quanto più elevata la variabilità, tanto maggiore il
contenuto informativo nei dati in termini di struttura e dinamica.
Nella statistica univariata, la variabilità è rappresentata dagli indici di variabilità: Varianza, deviazione stan-
dard, devianza, ecc.
Nella statistica multivariata (è per questo motivo che si usa la matrice), non essendo possibile riassumere e
rappresentare questa variabilità con un unico numero, come la varianza o la deviazione standard, è necessario
uno strumento che metta in relazione le diverse variabili che sono oggetto di studio e che permetta di com-
prendere come vari l’informazione all’interno dei dati, ovvero (un insieme ordinato di dati) la matrice di
varianze e covarianze, in cui:

24
- X è la matrice che mette in relazione i soggetti con i punteggi ottenuti dalle variabili (item) di dimen-
sioni n,k, in cui nelle righe ci sono i soggetti di studio e nelle colonne le risposte agli item che hanno
dato;

- S è la matrice che mette in relazione le diverse variabili, item (utilizzando i punteggi) in termini di
varianze e covarianze e che sono sia nelle righe che nelle colonne ci sono gli item. In particolare, negli
incroci di variabili diverse la covarianza, in quelli delle stesse variabili la varianza (che sarebbe co-
munque la covarianza, vd formula e relazione con correlazione di Bravais-Pearson). Per cui, la dia-
gonale formata da quei punti in cui si incrociano le stesse variabili divide la matrice in due parti sim-
metriche e pertanto basterà calcolare solo una parte e poi moltiplicare per due per ottenere l’intera
matrice (la moltiplicazione è commutativa):

X=S=

(tutto A con
tutto B, tutto A
con tutto C…)

MODELLO DELL’ANALISI FATTORIALE


L’AF consiste nella stima di un modello che riproduca la struttura della covarianza tra le variabili osservate.

In termini più formali: date p variabili manifeste osservate su n individui x1…xp nell’AF ciascuna delle p
variabili manifeste viene espressa come funzione lineare (retta) di q fattori “comuni” (con q < p), respon-
sabili della correlazione della specifica variabile manifesta con le altre variabili manifeste, ed un unico errore
di misura, responsabile della variabilità della variabile stessa (eliminati i fattori in comune con le altre varia-
bili). (x è un vettore, un insieme ordinato di numeri con una dimensione)
(i vari lambda * csi descrivono le diverse dimensioni di una stessa retta, e questo è anche un problema in
quanto il punteggio unico X non mi descrive i pesi differenti delle varie dimensioni (più nevroticismo, -aper-
tura a nuove esperienze, e viceversa poiché rimane uguale)
Le variabili osservabili (x...xp) (colonna) possono essere riscritte utilizzando dei fattori di saturazione
(lambda), dei fattori comuni (csi) e dei fattori unici (epsilon, l’errore). (y=2x, 2 = landa; x = csi; y =
25
variabile indipendente che calcolo tramite x, la variabile dipendente; per cui, la dimensione è quell’elemento
che varia e che modifica y, in questo caso x)
Fattore comune (csi) = variabile latente (non direttamente osservabile), inferito attraverso variabili osservate
e che ne determina la covariazione o correlazione. E’ chiamato così perché è un fattore uguale per tutte le
variabili (ha lo stesso pedice per tutte le variabili in colonna).
Factor Loading (lambda) = è un coefficiente di correlazione che mostra la forza della relazione tra ciascun
fattore comune con la corrispondente variabile manifesta (l’importanza, il peso di ogni variabile nel definire
un fattore). E’ un fattore individuale (specifico) che cambia per ogni variabile.
(Il modello dell’Af somiglia solo apparentemente a quello di regressione multipla, infatti q fattori non sono
osservabili (non abbiamo valori osservati su queste variabili): tutto ciò che giace a destra dell’equazione è
dunque incognito).
Lo scopo è quello di stimare i parametri che compongono la matrice

PATH DIAGRAM
Un modello di analisi fattoriale può essere rappresentato graficamente attraverso il path diagram che permette
di capire meglio le relazioni tra tutte le variabili latenti e manifeste (quali e quante sono), comprendendo anche
fattori di errori.

2 VL (correlate), 6 VM (causate), 6 errori

Vi sono due maniere differenti di usare la stessa applicazione del modello di analisi fattoriale:
- Analisi fattoriale esplorativa: ha l’obbiettivo di determinare se e in che modo le variabili manifeste
osservate sono legate ad uno o più fattori latenti. Le relazioni tra le variabili osservate e le variabili
latenti sono quindi sconosciute o incerte.
- Analisi fattoriale confermativa: ha come scopo quello di testare statisticamente le relazioni causali
esistenti tra le variabili manifeste e uno o più fattori latenti. Le relazioni tra le variabili manifeste e le
variabili latenti sono quindi note a priori sulla base di teorie o sulla base si esperimenti empirici.

Analisi fattoriale esplorativa (EFA) Analisi fattoriale confermativa (CFA)

Lambda = frecce; csi = fattori latenti; x = punteggi; epsilon (errore):

26
tutto il problema sta nel ricostruire il punteggio osservato a partire da lambda, csi ed epsilon in cui il punteggio
di lambda ci dice quanto una dimensione è importante nel determinare un punteggio.

METODO DI STIMA DEL MODELLO

I parametri incogniti del modello fattoriale sono stimati minimizzando la «distanza» (differenza) tra la matrice
di var/cov S osservata e la matrice di var/cov Σ (stimata) riprodotta dai parametri del modello.
I valori stimati dei parametri in Σ (sigma) saranno tali che: S - Σ = min
L’obiettivo è, cioè, quello di stimare quei parametri che rendono la differenza tra le due matrici S e Σ la più
piccola possibile.
Pertanto, i metodi di stima dei parametri (lambda ed epsilon) del modello di AF cercano di ricostruire la matrice
di var/cov originaria S a partire dalla definizione di alcuni fattori comuni (VL) che spieghino nel miglior modo
possibile la struttura di varianza e covarianza osservata in S (per poi ridurre la dimensionalità: io ho una
matrice di dati originaria S, da questa riscrivo le covarianze e le varianze osservate in S usando i parametri
del modello (per poi ricostruire la matrice originaria), costruisco la matrice Σ, la quale mi permette, a diffe-
renza di S, di definire alcuni fattori comuni, ovvero VL, in maniera tale da ottenere q < p, rispettando i vincoli
in alto a sx nell’immagine e sempre con l’obiettivo che S e Σ siano quanto più simili possibili (più lo sono, più
i parametri permettono di ricostruire la matrice di cov/var S).
ϕ11 = var (ξ1) la varianza di csi (se la assumo come variabile standardizzata) è 1

TEST SULLA BONTA’ DELL’ADATTAMENTO


Un test di bontà dia adattamento del modello ai dati si basa sulla determinazione di una funzione di discre-
panza f(S, Σ), costruire a partire dall’analisi dei residui (scarti) del modello, cioè degli scarti tra matrice di
var/cov osservata e quella implicata del modello (S - Σ). Si può inoltre dimostrare che la discrepanza tra le due
matrici si distribuisce secondo una distribuzione del Chi2: f (S, Σ) ≈ X2
Il test del Chi-2:
- H0 : S = Σ Buon adattamento del modello ai dati
- H1 : S ≠ Σ
Regola di decisione: se p-value > 0.05 allora accettiamo H0 in quanto si ottiene un buon adattamento tra le due
matrici. Tuttavia, il test del Chi-2 dipende molto dalla numerosità campionaria N e pertanto se N è grande, vi
è il rischio di dover rifiutare il modello anche con un buon adattamento ai dati.
F
Un indice che viene utilizzato è “Il Goodness of Fit Index” GFI = 1- (compreso tra 0 e 1) che si basa
Fnull
su una qualunque funzione di discrepanza F. L’indice infatti non rappresenta una formula specifica ma una

27
qualunque funzione che riesca a misurare la distanza tra S e Σ. In particolare, rapporta la funzione di discre-
panza sul modello stimato (la percentuale di varianza e covarianza in S spiegata dalla matrice Σ) e la funzione
di discrepanza sul “modello nullo” in cui i parametri non svolgono alcun ruolo (tutti i parametri sono fissati a
0).
Regola di decisione: un modello è accettato se GFI > 0.9 (F più piccolo di Fnull). Non avendo informazioni
sulla distribuzione dell’andamento di queste F, l’unica cosa possibile è vedere il GFI in modo da aspettarci
valori alti.
∑(𝑆𝑆𝑆𝑆,𝑗𝑗−𝜎𝜎𝜎𝜎,𝑗𝑗)
Un altro indice è il “Root Mean Squared Error” RMSE = � (matrice S e matrice sigma) divisi
𝑘𝑘
per la variabile k = (p + q) * (p + q + 1). Media degli errori, ovvero gli scarti tra S e Σ. Parte da 0, quando S è
uguale a Σ.
Regola di decisione: valori bassi

COMUNALITA’ E SPECIFICITA’
Con l’AF, la varianza di una variabile viene scomposta in due parti:
- La comunalità: la varianza in comune con ciascuna variabile osservata. Questa è determinata da un
parametro, h2, ovvero il loading (lambda) * la varianza dei fattori comuni corrispondenti;
- Unicità: la varianza unica della variabile (spiegata dal fattore unico)

La comunalità è una proporzione che varia tra 0 e 1 (perché è una variabile standardizzata). Più h2 si avvicina
a 1, tanto più i fattori considerati saranno in grado di spiegare la (totalità della) varianza della variabile osser-
vata (quindi il presupposto è che ci siamo molta comunalità e poca unicità).
Una rappresentazione grafica del rapporto tra varianza comune e varianza spiegata è:

La varianza unica tra l’altro è composta sia da un


Attraverso la scomposizione in path diagram, si
inevitabile errore di misurazione ma anche dalla
comprende come la varianza comune sia spiegata
specificità di ogni item.
dalla variabile latente, mentre la varianza speci-
fica è interamente attribuibile ai diversi item.

ANALISI DELLE COMPONENTI PRINCIPALI (ACP)


Ora per comprendere la relazione tra la variabilità (cioè la varianza) e i fattori è utile l’analisi delle compo-
nenti principali. Quest’analisi è affine a quella fattoriale, in quanto, per esempio entrambi cercano di ridurre

Non esiste questa differenziazione nello


spiegare la varianza. Per cui, tutta la va-
rianza viene spiegata come varianza co-
mune (a tutti).
28
la dimensionalità delle variabili osservate in metodi pressoché simili ma comunque vi sono delle differenze.
(Ciò che cambia è l’interpretazione della varianza e questo è uno strumento numerico e non statistico, cioè
non stima i parametri ma li calcola) Per es.

L’ACP è un metodo di statistica multivariata che ha l’obiettivo di ridurre la complessità presente in una matrice
di dati (come l’AF) in maniera tale da esprimere la sua struttura in un numero ridotto di dimensioni (metodo
di riduzione della dimensionalità), eliminando la ridondanza di informazioni nei dati.
Tuttavia, a differenza dell’AF che dispone di un modello fattoriale, l’ACP non si basa su un modello che
richiede una serie di assunzioni. Questa, infatti, individua delle particolari trasformazioni delle variabili osser-
vate, le componenti principali, le quali devono essere tra loro correlate e spiegano la variabilità
totale.
Qui la varianza totale viene suddivisa in
S=
varianza comune e varianza unica.
La variabilità totale (7.64 + 54.35
+ 6.32 + 617.84 = 686) è rappre-
sentata dalla diagonale delle va-
rianze della matrice S

La varianza totale può essere però anche rappresentata da altri valori, derivabili sempre da una matrice var/cov,
gli autovalori (rappresentano la varianza delle variabili latenti, cioè la varianza di csi, non csi stesso), in
quanto la somma di questi autovalori è uguale alla traccia della matrice S, cioè alla somma delle varianze
(variabilità totale) sulla sua diagonale. Si possono estrarre tanti autovalori quante sono le variabili in X.
Ciò è fondamentale, perché in base all’analisi degli autovalori e di alcuni elementi a loro affini, ovvero gli
autovettori (csi), è possibile ricostituire la matrice dei dati grazie alle componenti principali, nuovi sistemi di
riferimenti che cercano di rappresentare gli aspetti della variabilità di un set di dati

Variabili originarie Componenti principali


7.64 + 54.35 + 6.32 + 617.84 = 686 606.01 + 67.75 + 6.46 + 5.92 = 686
I valori nella diagonale sono gli au-
tovalori
Ad ogni autovalore è associata una componente principale.
L’autovalore può essere interpretato come la varianza della componente principale associata:
- La prima componente principale sarà quella con autovalore più alto, cioè quella in grado di spiegare
più variabilità possibile (e sarà quindi per questo più importante);
- La seconda componente principale sarà quella associata al secondo autovalore più grande
- …E così via, fino a tener conto di tutte le variabili in X (che prendiamo in considerazione nella ma-
trice)
Per cui, considerando tutti gli autovalori si riesce a spiegare tutta la varianza, tuttavia solo alcuni spiegano la
comunalità, ovvero quelli con i valori più alti, in quanto i restanti descrivono delle piccolezze della varianza
(che poi prese insieme spiegano tutta la varianza). Siccome lo scopo è ridurre la dimensionalità, si calcolano
tutti gli autovalori in quanto è necessario per il sistema di equazioni, ma poi si considerano effettivamente solo
quelle componenti che ci spiegano la maggior parte della variabilità (non tutta, spiegano nel senso di descrivere
i dati con sufficienti dettagli in maniera tale da comprenderne gli elementi comuni e poi poter ridurre la di-
mensionalità).
29
L’autovalore è la varianza che spieghiamo sulla componente principale.
La formula sarebbe così: var (x3) = λ231 ϕ11

VALIDARE UN TEST
Operazionalizzazione: il costrutto deve essere definito in modo operativo, individuando comportamenti che
ci permettono di rilevare la presenza di una caratteristica psicologica in una persona.
Le dimensioni sono aspetti psicologici organizzati non osservabili che rappresentano ognuno una parte del
costrutto e che si collocano gerarchicamente tra i costrutti e gli indicatori.
(tremori, parlare in pubblico)
Te-
stare
un test

Quando in letteratura non esiste uno strumento che misuri il costrutto che si vuole misurare è possibile creare
uno strumento e avviare il processo di validazione seguendo accuratamente una serie di step:

(minimo 5 persone a item)


1) Scelta degli item e della scala di misurazione (es., Likert);
2) “Pre-test” degli item (es., interviste ai soggetti per identificare aree e procedure alla definizione
degli item finali, pool di esperti con grado di accordo rispetto la significatività di un item, etc);
3) Validazione qualitativa (es: validazione di contenuto: le domande sono fornite in modo ade-
guato?);
4) Somministrazione degli item “finali”;
5) Somministrazione di strumenti di “controllo” (o di “criterio”, ovvero altri strumenti in lettera-
tura che misurano lo stesso costrutto);
6) Validazione di criterio: inter-correlazioni tra gli item somministrati e quelli presenti in letteratura
che misurano quel costrutto;
7) Validazione di costrutto: identificazione delle dimensioni e analisi fattoriale.

30
Quando in letteratura esiste uno strumento che misuri il costrutto che si vuole misurare ma non è creato per il
contesto in esame e non è presente una versione adattata è possibile procedere alla validazione dello strumento
attraverso alcuni step:
1) Se lo strumento non è adattato alla lingua del contesto in cui deve essere somministrato (es., ita-
liano), il primo step è la traduzione degli item (es., metodo della Back-translation);
2) Testare la struttura fattoriale dello strumento: analisi fattoriale (es., analisi fattoriale esplorativa,
analisi delle componenti principali, analisi fattoriale confermativa);
3) Testare l’invarianza della struttura fattoriale (ad es., è valido per maschi e femmine? E’ valido per
adolescenti e giovani adulti?): attraverso tre tipi di invarianza: configurale, metrica e scalare.
4) A partire da uno strumento è possibile creare una versione breve, utilizzando solo alcune dimen-
sioni

AF: ESTRAZIONE DEI FATTORI


Quanti fattori estrarre o ci sono? Ci sono 4 modi:
1) Autovalori maggiori di 1;
2) La percentuale di varianza spiegata (60-75%)

(matrice di var/cov)

La diagonale non c’è in quanto composta da solo “1”. (azzurri fortemente correlate positivamente, gialle for-
temente correlate negativamente).
Possiamo ipotizzare ci siano due fattori latenti, F1 e F2, dato che i primi due autovalori hanno valori molto alti
e spiegano insieme quasi la maggior parte della varianza, l’87% (sono molto superiori a 1 e 1 è importante
poiché essendo le variabili standardizzate, la loro varianza è pari a 1. Per cui, se noi avessimo degli autovalori
che avessero come valore 1 significherebbe che essi non spiegherebbero più varianza della variabile stessa,
mentre invece l’obiettivo è proprio avere dei fattori che spiegano molta più varianza della singola variabile):
A ogni componente principale è
associata un autovalore il quale
spiega una parte di varianza. Per
esempio, l’autovalore 1, che è
uguale a 4,961 spiega il 49,
611% di varianza (i valori sono
standardizzati, cioè le varianze
delle diverse variabili sono poste
a 1) (la somma degli autovalori
è uguale a 10, come il numero di
fattori, cioè 10)

31
3) Scree-test di Cattell: spiega l’andamento della varianza spiegata in cui sull’asse delle ordinate ab-
biamo i valori degli autovalori, mentre sull’asse delle ascisse i fattori (10, come
nella tabella)

Il fattore 1 e 2 determinano questa forte pendenza e per cui lo scree-test ci mo-


stra come la varianza spiegata sia fortemente determinata dai primi due valori
e poi cali drasticamente a partire dal 3o fattore.

4) Teoria
Fatto ciò, i programmi per l’analisi fattoriale ci restituiscono la matrice fattoriale, ovvero una matrice di
loadings i quali ci rappresentano la correlazione tra una variabile osservata ed il fattore che però non ci permette
di capire quali sono i fattori che determinano il comportamento delle variabili, e quindi come associare i fattori
alle singole variabili.
Per fare questo, esiste il metodo della rotazione dei fattori il quale permette di ruotare gli assi fattoriali
(rotazione dei fattori) e di avvicinare o allontanare i fattori dai punteggi osservati in maniera da trovare la
struttura minima, ovvero quella struttura di fattori che meglio rappresentano i dati. Questo problema deriva
dal fatto che l’analisi fattoriale offre soluzioni infinite e solo attraverso la rotazione dei fattori si possono
trovare soluzioni che abbiano dei loading più marcati.

Ortogonale Obliqua

La rotazione (applicata alla matrice dei loadings) è un metodo per cambiare la disposizione degli assi di rife-
rimento nello spazio e di avvicinarli o meno rispetto i punti che rappresentano i dati. (Immagina di avere i due
assi, e di avere un punto al centro. Applicando una rotazione degli assi, massimizzo la distanza da uno e la
riduco da un altro e quindi potremmo calcolare meglio le distanze, ovvero i loadings. I due assi possono essere
intesi come i fattori. Questa non è poi una distorsione in quanto cambia il sistema di riferimento ma non la
posizione de punto). Ci sono differenti metodi:

- Metodi ortogonali: mantengono l’ortogonalità delle assi, per cui la rotazione degli assi fattoriali sep-
pure renda interpretabili le dimensioni latenti (o fattori) mantiene comunque l’indipendenza fra i fattori
(la differenza tra ortogonali e obliqui è che nei primi ciò che spiega un fattore non viene spiegato da
un altro fattore)
o Varimax: semplifica le righe: ogni variabile osservata è correlata massimamente con un fattore
e nulla con gli altri (è’ il metodo più utilizzato);
o Quartimax: semplifica le colonne: ogni colonna è massimamente correlata con tutte le variabili
osservate e poco con le restanti;

32
o Equamax: bilancia i due criteri precedenti.
- Metodi obliqui: permettono alle assi di violare la loro ortogonalità. Inoltre, la rotazione obliqua per-
mette un migliore adeguamento degli assi fattoriali alle variabili osservate ma il criterio di indipen-
denza statistica fra i fattori non è più osservato
o Promax: rende gli assi obliqui in funzione di una soluzione iniziale Varimax;
o Oblimin (obliquità minima): permette di fissare l’inclinazione degli assi e quindi le loro inter-
correlazioni.
Per cui, ciò che vediamo dopo l’applicazione della rotazione è possibile vedere quali fattori determinano (sog-
giace, è latente) il comportamento di alcune variabili.
Ciò ha permesso di verificare l’ipotesi secondo cui due fattori latenti spiegassero la varianza delle variabili.

PC=componenti principali, sono questi a variare e non gli


autovalori, i loadings

Varimax dà un’informazione scorretta che non spiega la di-


mensione latente. L’unica è appunto quella struttura mi-
nima.

Dove il primo fattore, che è quello che spiega il maggior


numero di varianza, si denota anche nei loadings, anche ri-
spetto le altre componenti principali.

AF E ATTENDIBILITA’
L’AF cerca di spiegare la varianza comune tra più osservazioni (item nel caso di test psicometrici).

La varianza del singolo item di un test è: 𝜎𝜎𝑖𝑖2 = 𝜆𝜆2𝑖𝑖 + 𝑣𝑣𝑣𝑣𝑣𝑣(𝑒𝑒𝑖𝑖 ) (l’attendibilità calcolata con l’α di Cronbach è
meno precisa di quella calcolata con ω in quanto quest’ultimo utilizza soltanto la varianza spiegata e non
tutta la varianza)

Attraverso l’AF è quindi possibile stimare l’omogeneità e i rapporti tra le varianze degli item e del test. In
particolare, rispetto alla TCT, l’AF permette di stimare la monodimensionalità (unico fattore, VL) di un test,
ovvero la stima del fatto che gli item misurino effettivamente la stessa variabile latente (come se venisse sti-
mata la coerenza interna del test). Ciò avviene attraverso…

Coefficiente (omega): ω = in cui λj sono i loadings dei fattori e ψj le unicità degli items.

Al numeratore c’è la comunalità e al determinatore la comunalità più l’unicità.


Più la comunalità è alta., più il rapporto tra la comunalità e la varianza totale si avvicinerà a 1 in quanto la
comunalità spiega molta parte della varianza che si osserva nei dati e così facendo è un altro modo per stimare
la coerenza interna dei test.

Tuttavia, tutto ciò che abbiamo discusso fino a ora, valgono per matrici:
- Quadrate: il numero delle righe e delle colonne è il medesimo;
- Simmetriche: i valori al di sopra della diagonale e al di sotto sono uguali;
33
Qualora queste due caratteristiche non ci siano, si possono ottenere attraverso la matrice var/cov.

ITEM RESPONSE THEORY


I Latent Trait Model
La TCT si occupa dell’attendibilità dei test e assume che gli item siano scelti a caso da un gruppo di item
simili. Gli item sono repliche parallele tra loro (tant’è vero che le sommiamo) e le loro caratteristiche sono
solitamente interpretate (e dipendenti) in relazione alla totalità del test e del campione di soggetti rispondenti.
Per cui, l’attendibilità è intesa come una caratteristica dell’intero test e della varianza del costrutto misurato.
Le analisi prodotte dalla TCT hanno quindi il test (non l’item) come base. Inoltre, i risultati sono spesso gene-
ralizzati a soggetti simili agli originali che rispondono a test simili.

I Latent Trait Model cercano di andare oltre questo approccio e di studiare le caratteristiche latenti che pro-
ducono le risposte osservate. Le caratteristiche sono misurate al livello del singolo item e cercano di fornire
misure psicometriche degli item senza legarle a un campione specifico di soggetti rispondenti.
I modelli dei tratti latenti sono nati intorno al 1949, ma non sono stati ampiamente utilizzati fino al 1960.
Sebbene teoricamente possibile, è praticamente infattibile usare questi modelli senza software specialistici.
Mirano a misurare la capacità (o tratto) che sta alla base di una performance (comportamento), piuttosto che
la misurazione delle performance per sé. Ciò permette di liberarsi dal concetto di “campione” poiché le stati-
stiche derivate non dipendono dalla specifica situazione che ha generato una data performance ma dalla pro-
babilità e per questo possono essere usate in maniera più flessibile.

L’Item Response Theory


L’Item Response Theory (IRT), quindi, si riferisce a una famiglia di modelli dei tratti latenti utilizzata per
stabilire le proprietà psicometriche di item e scale. A volte è indicata anche come “the new psychometric”,
perché ha quasi del tutto sostituito l’approccio classico nelle valutazioni su larga scala ed è la prima scelta
nell’assessment e nella selezione di grandi numeri di persone (invalsi).
L’assunto di base è un modello psicometrico per cui l’abilità (A) è vista come una variabile latente che intera-
gisce con la difficoltà (D) di un item, anch’essa latente.
La probabilità che una persona risponda correttamente a un item sarà dunque: P(X = 1 | AS, Di ) e dipende
dunque sia da A che da D.

Ogni item ha la capacità di misurare alcune parti del tratto latente dei soggetti.

La teoria della risposta all’item si basa sulla modellizzazione, ovvero sulla creazione di un modello matematico
che permette di mettere in relazione la difficoltà di un item con l’abilità di un soggetto, in maniera tale da poter
misurare A una volta che conosciamo D.
Il modello matematico si chiama “funzione di risposta all’item” (IRF) ed è una funzione matematica che lega
la quantità di tratto latente alla probabilità che ha un soggetto di rispondere correttamente a un dato item.
Insieme alla IRF possiamo anche definire un nuovo tipo di misura psicometrica che è la funzione dell’infor-
mazione dell’item (IIF) è un’indicazione della qualità dell’item, ovvero la capacità dell’item di fornire una
stima precise dell’abilità di un soggetto (un po' come l’attendibilità).
Tuttavia, alla base di tutto ciò, è fondamentale il conetto di invarianza, cioè la posizione di un soggetto rispetto
al tratto latente (la quantità di tratto latente di un soggetto specifico) può essere stimata a partire dalla cono-
scenza della IRF di un item e per cui non è importante mettere in relazione un soggetto con altri soggetti o in
relazione degli item sommandoli come nella TCT in quanto le caratteristiche degli item stessi sono indipen-
denti dalla popolazione dei soggetti.

FUNZIONE DI RISPOSTA ALL’ITEM


La IRF cerca di modellare (un modello è una semplificazione della realtà e può essere testato proprio per
comprendere quanto si adatta ai dati osservati) il rapporto tra il livello del tratto latente (VL, vale a dire, le

34
differenze individuali rispetto a un costrutto) di un soggetto, la proprietà di un item e la probabilità di rispon-
dere correttamente. Pertanto, secondo la IRF, la probabilità di rispondere correttamente a un dato item dipende
dal livello di tratto latente, o abilità, di un soggetto che è usualmente indicato dalla lettera greca theta “θ” e
dalla difficoltà di un item con la lettera “b”.

Le funzioni di risposta all’item possono avere diversi parametri.

Il modello a 1 parametro (anche detto di b o modello di Rasch) assume che tutti gli item di una scala siano
relativi a un unico tratto latente (unidimensionale quindi) e possano variare solo per la difficoltà.

e = costante di Nepero

Un aspetto fondamentale della IRF ma come anche nella TCT grazie all’analisi fattoriale è la dimensionalità,
in particolare che tutti gli item che misurano i tratti latenti dei soggetti debbano misurare lo stesso tratto latente
e quindi non possono mischiare diverse dimensioni. Tutti gli item devono riferirsi a un unico tratto latente e
debbano e possano variare tra di loro solo per la loro difficoltà, cioè per “b” e non per “θ”, che è invece il
parametro che si vuole stimare.

ITEM CHARACTERISTIC CURVE


Calcolando i valori di una IRF per tanti e diversi valori di theta (VL) è possibile generare una curva: la curva
caratteristica dell’item (ICC). Questa curva rappresenta la probabilità di un soggetto di rispondere corretta-
mente a un dato item in funzione della sua abilità.

Classica curva logistica o sigmoide che è asintotica a 0


e a 1 (cioè non raggiunge mai 0 e 1 ma si avvicina infi-
nitamente verso di loro).
Sulle ordinate abbiamo la probabilità di rispondere cor-
rettamente a un item mentre sulle ascisse theta.
La location, ovvero la posizione, indica la difficoltà
dell’item. Ora, la posizione di una curva è definita come
la quantità di tratto latente necessario per avere una pro-
babilità del 50% di rispondere correttamente all’item
(quel punto sul tratto latente in cui la probabilità di ri-
spondere correttamente sia il 50%, quindi y=0.5). Più
alto è il parametro “b” e più sono alti i livelli di VL, o
di abilità, che sono necessari per rispondere corretta-
mente. Ha normalmente un range tra -3 e +3 (talvolta 4
in base alla quantità del tratto latente). È analogo (non uguale) alla difficoltà di un item nella TCT.

Ora, se abbiamo due item che differiscono per difficoltà, questi avranno esattamente la stessa forma (curva
caratteristica) ma saranno diversi per la posizione, dove quello più difficile si troverà su valori di θ più alti.

35
(ciò significa che, come nell’esempio, per avere la location, cioè il punto di flesso, c’è bisogno di abilità di-
verse, appunto -0.2 e 0.4, e pertanto possiamo capire che l’item 1 sia più semplice. Inoltre, θ e b si muovono
entrambe sull’asse delle ascisse)
Il modello a 2 parametri ritiene che la probabilità di rispondere correttamente a un item dipenda sia da θ che
da b ma aggiunge il parametro “a”, ovvero la capacità di discriminazione. Infatti, in questo tipo di modelli le
IRFs (s per il plurale in inglese) degli item possono variare sia per la difficoltà che per la capacità di discrimi-
nazione.

Il parametro “a” indica la pendenza della IRF nella posizione in cui si trova l’item e quanto l’item è capace di
discriminare tra soggetti che hanno valori di abilità molto simili tra loro e quanto sia legato al fattore latente.
Gli item con alti parametri di discriminazione riescono a differenziare meglio i soggetti nella posizione speci-
fica dell’item. Inoltre, piccoli cambiamenti nel tratto latente portano a grandi cambiamenti nella probabilità di
risposta.

L’item 2 ha un parametro “a” più alto dell’item 1 e quindi con una


pendenza e una capacità di discriminare maggiore.

Se consideriamo il range della parentesi graffa, i valori della


curva gialla hanno una variazione molto inferiore rispetto a quella
della curva viola, la quale per tale ragione discrimina meglio.

Il modello a 3 parametri aggiunge il parametro “c” (parametro del caso). Per cui, la difficoltà dipenderà sia da
θ, b, a e ora anche da c.

Il parametro “c” non fa altro che aumentare di poco l’asintoto inferiore e per cui il valore minimo non sarà 0
ma un numero più alto (0,1 per es.). L’inclusione di questo parametro suggerisce che i soggetti con bassi livelli
di tratto latente hanno comunque una probabilità di scegliere l’item (di rispondere correttamente) maggiore di
0 sulla base del caso.
Questo parametro è usato soprattutto con i test a scelta multipla e il valore non deve variare eccessivamente
dal reciproco del numero di scelte (se le scelte sono 4, c = ¼).

36
L’asintoto non è più 0 ma si alza. Pertanto, anche individui che
si trovano in punto molto basso del tratto latente (che rappre-
sentiamo con -3) hanno comunque una probabilità non nulla,
ma di 0.2 di poter rispondere correttamente.

Esiste infine un modello a 4 parametri in cui la difficoltà dipenderà sia da θ, b, a, c e infine da “d”.

Il parametro “d” abbassa l’asintoto superiore e pertanto anche dei soggetti che hanno dei valori molto alti del
tratto latente comunque hanno basse probabilità di rispondere correttamente.
Spesso si applica questo parametro per item che sono molto difficili o il cui endorsment è molto raro (es,
domande estremamente difficili in un test di profitto).

Abbassando l’asintoto superiore, an-


che valori molto alti di θ non hanno
altissime probabilità di rispondere
correttamente.

Infine, una caratteristica molto interessante delle IRTs è che siano additive e possono dunque essere sommate
(non è la media) tra di loro per creare un’unica funzione che rappresenta le caratteristiche psicometriche
dell’intero test (TRC).
Una TRC indica la quantità di tratto latente misurato in relazione al numero di item (cioè tutti gli item) di una
scala. Ciò ci permette di calcolare il rapporto tra l’abilità stimata (expected store, ovvero il punteggio di un
soggetto ottenuto stimando la sua abilità) e l’abilità osservata (observed score, cioè le risposte, i punteggi, dei
soggetti). Inoltre, ci permette anche di stimare l’abilità dei soggetti a partire dai punteggi osservati.
Per es. avendo una scala con 5 item rappresentate da 5 funzioni che differiscono per difficoltà in quanto si
trovano in posizioni diverse di θ. Questi valori si possono sommare e condensare in un’unica curva che va da
0 a 5 (5 perché sono gli item) e però ci rappresenta sempre la probabilità di rispondere correttamente agli item.

37
ITEM INFORMATION FUNCTIONS (IIT)

Nell’IRT il concetto di attendibilità è sostituito da una IIF in cui ogni IRF ha associata una IIF (funzione
relativa al singolo item) e indica la precisione con cui un item misura il tratto latente.

P = probabilità di rispondere correttamente,


Q = probabilità di non rispondere correttamente

L’informazione di un item è un indice che rappresenta la capacità dell’item di differenziare tra di loro gli
individui che hanno simili abilità. Più l’informazione è alta, più la funzione dell’item riesce a stimare corret-
tamente l’abilità di un soggetto.

La curva dell’IIF è quella blu con una forma che ricorda una gaus-
siana che ha il suo punto più alto esattamente nella location dell’IRF.
Questo significa che il punto in cui la IRF raggiunge la sua massima
capacità di stima tra i soggetti è nel punto della sua location. L’IIF
tende poi a degradare a mano a mano che ci si allontana dalla loca-
tion.

Anche le IIFs sono additive e quindi possono essere sommate ottenendo una Test Information Function
(TIF). In questo modo è possibile analizzare l’informazione dell’intero test e stabilire in quali punti del tratto
latente il test riesce a essere più accurato.
E’ qui che si nota la divergenza dell’attendibilità con la TCT in
quanto mentre in quest’ultima l’attendibilità vale per tutto il test e
quindi per tutti i soggetti che vengono sottoposti al test vale lo
stesso valore di attendibilità anche per quelli che si discostano
molto dal campione di riferimento, mentre nell’IRT l’IRF mostra
che la precisione di misurazione del tratto latente cambia in base
alle caratteristiche dell’item e quindi non sarà la stessa per soggetti
che si trovano in certi punti dello spazio del tratto latente rispetto
ad altri punti. Per es., in questo caso, il massimo della precisione
è concentrato tra -2 e +2. Ciò si porta dietro una conseguenza im-
portante: l’errore standard di misurazione è il reciproco dell’infor-
1
mazione, cioè SEM(θ) = , e quindi maggiore è l’informazione minore sarà l’errore.
�𝐼𝐼(𝜃𝜃)

38
Inoltre, essendo l’errore di misurazione espresso nella stessa
metrica del tratto latente può essere utilizzato per costruire un
intervallo di confidenza come conosciuto nella TCT. Tuttavia,
la differenza fondamentale è che l’errore standard di misura-
zione non è lo stesso per tutti i soggetti (aspetto fondamentale
perché uno dei problemi della TCT è che l’errore standard sia
uguale per tutti i soggetti indipendentemente dal fatto che siano
vicini al centro della distribuzione dei soggetti campioni o ai
bordi in cui le caratteristiche del test non sono più tanto valide
nel misurare correttamente il tratto latente dei soggetti) ma
cambia in base all’informazione.

La curva rossa (errore) ha infatti valori più bassi nella zona centrale lì dove l’informazione è più alta e poi
inizia a salire nelle code. Ciò significa che per i soggetti che si trovano nel range -2 e +2 l’errore di misurazione
sarà più basso mentre andando verso le code la precisione di stima dei tratti latenti dei soggetti che si trovano
fuori da questo range sarà affetta da un errore più grande, tenendo conto delle caratteristiche specifiche degli
item rispetto le caratteristiche dei soggetti.
In questo modo è anche possibile costruire dei test in cui sappiamo in anticipo quali sono i range di abilità che
possono esser misurati con più accuratezza (a differenza della TCT in cui ciò non è possibile).

39

Common questions

Basati sull'IA

Classical Test Theory (CTT) relies heavily on group-level statistics and assumes that all items measure the same construct for all test-takers, lacking flexibility when applying to different samples. In contrast, Item Response Theory (IRT) measures the latent traits of individual respondents and provides item-level statistics which are independent of the sample. This allows IRT to provide item characteristics that are consistent across different populations, focusing on the interaction between the trait being measured and item difficulty .

The reliability of a test is inversely proportional to the measurement error. As the error decreases, the reliability increases, indicating a more trustworthy test. Reliability is mathematically expressed as rtt = 1 - σE²/σX², where σX² is the variance of the total score and σE² is the error variance. Thus, the lower the error variance compared to the total variance, the higher the reliability of the test .

Parallel tests are different forms of the same test designed to be equivalent in terms of their measurement properties, such as mean and standard deviation. They contribute to estimating reliability by allowing the measurement of consistency across different test administrations. The correlation between scores of these parallel forms gives an estimate of reliability, with higher correlations indicating higher reliability .

Latent trait models, like those in Item Response Theory (IRT), focus on measuring underlying characteristics producing observed responses rather than the responses themselves. Their popularity grew post-1960s due to their ability to estimate individual item characteristics independently of specific samples, which allows broader application and flexibility across different contexts. This feature distinguishes them from classical models, which are more limited by the population from which sample items are drawn .

The Item Characteristic Curve (ICC) in IRT depicts the probability of a correct response as a function of a latent trait (e.g., ability), expressed typically as a logistics curve. This curve provides a model for individual item performance across levels of ability. Unlike classical test theory, which assumes the same level of difficulty across populations, IRT and the ICC allow more personalized assessment by accounting for individual differences and item variance independently .

Zero covariance between true scores and measurement errors is crucial because it supports the assumption that errors are random and independent of the true ability being measured. This independence ensures that errors distribute symmetrically around zero and do not systematically bias the results, thereby validating the theoretical assumption that observed scores equals true scores plus error (X = V + E).

The point-biserial correlation coefficient is used to examine the relationship between dichotomous item responses and overall test scores. It helps in assessing how well an item discriminates between individuals with varying levels of ability on the construct being measured. A higher point-biserial correlation indicates that an item effectively differentiates between high and low performers on the test .

The Standard Error of Measurement (SEM) indicates the extent to which an observed score might differ from the true score due to measurement error. It is calculated using the formula: SEM = σX√(1 - rtt), where σX is the standard deviation of the observed scores and rtt is the reliability coefficient. SEM provides an estimate of the precision of scores, with smaller SEM values indicating greater measurement precision .

The percentile rank refers to the position of a score within a distribution, representing the percentage of scores falling below it, while a percentile is a specific value below which a given percentage of observations fall. The percentile rank indicates the relative standing of a score in a data set, whereas the percentile is more a measure of distribution location .

Item difficulty in dichotomous items is calculated as the proportion of test-takers who answer the item correctly, with values ranging from 0 to 1, where 0 indicates extreme difficulty and 1 indicates ease. It reflects the probability that a typical examinee will answer the item correctly, serving as a fundamental measure in assessing an item's appropriateness for differentiating between varying levels of performance among test-takers .

Potrebbero piacerti anche