Sei sulla pagina 1di 27

Obiettivo e struttura di un test

● Un buon test deve rilevare, attraverso i suoi item, un campione di comportamenti funzionali a
misurare una qualità psicologica (costrutto).
● Un test deve consentire di campionare i comportamenti indicatori del costrutto per ottenerne una
misura: gli indicatori vengono espressi con gli item del test.
● La rilevazione degli indicatori deve avvenire in condizioni standardizzate dettate da precise
istruzioni costruite per quel determinato test:
o un test deve essere somministrato secondo precise indicazioni;
o ci devono essere regole per definire il punteggio in modo che tutti gli esaminatori
attribuiscano i punteggi nello stesso modo, oggettivamente.
● I test vengono somministrati ad un ampio gruppo di individui (campione di taratura o normativo),
rappresentativo di coloro (popolazione) per i quali è stato progettato il test, per stabilire un quadro di
riferimento standardizzato e specifiche norme per interpretare i singoli punteggi dei test.

Scoring del test


Item V/F: Punteggio totale:
─ Vero = 1; 1. Ogni risposta dà un punteggio (0, 1 o + per
─ Falso = 0. scale Likert);
2. Esclusione eventuali item filler (per scale
Item su scala Likert: Likert);
─ Numeri progressivi in base alla risposta (invertire 3. Inversione eventuali item reverse (per scale
i R). Likert);
4. Somma di tutti i punteggi.

Item risposta multipla con una corretta: Item domande aperte:


─ Risposta corretta = 1; ─ Risposta scorretta = 0;
─ Risposta sbagliata = 0. ─ Risposta parzialmente corretta = 1;
─ [eventualmente] Risposta sbagliata = -0,25 ─ Risposta corretta ma non completa = 2;
& Risposta omessa = 0 ─ Risposta corretta e completa = 3.

Stimoli e somministrazione dei test cognitivi


Quali variabili discriminano una auto o etero-somministrazione di un test?
Se un test può essere sia auto-somministrato che etero-somministrato, ciò che influenza l’una o l’altra
somministrazione sono diverse variabili:
─ Le caratteristiche del rispondente. Ad esempio, bambini ed anziani possono avere scarse abilità
attentive e di lettura, dunque necessitano di qualcuno che somministri loro il test. Altrimenti, in caso
di risposta errata, non sarebbe interpretabile, poiché potrebbe non essere necessariamente una
“risposta corretta” ma una risposta non ben letta per cause intrinseche al rispondente.
Ugualmente occorre tener conto della scolarità, un adulto con basso livello di scolarità può
necessitare di istruzioni ulteriori. Analogamente per rispondenti con disturbi specifici, deficit o
patologie legati a capacità motorio/visive o attentive/di lettura.
In tutti questi casi l’auto-somministrazione non consente una raccolta adeguata delle informazioni.
─ I tempi e i costi. Se il rispondente ha le caratteristiche adatte, si opta per l’auto-somministrazione
perché i tempi e i costi sono estremamente ridotti: la variabile discriminatrice è il numero dei
rispondenti. Tuttavia, ci sono anche degli svantaggi legati alla mancanza di controllo sulle risposte
che vengono date.
─ L’obiettivo della somministrazione. Per selezioni su grandi numeri di candidati, necessariamente
c’è bisogno di un test auto-somministrato collettivamente e devo assicurarmi delle strategie di
controllo. Per fare una diagnosi è preferibile una etero-somministrazione. Esistono anche dei test
diagnostici che vengono auto-somministrati anche collettivamente che servono per fare uno
screening a livello di popolazione per comprendere l’eventuale presenza di un dato disturbo, per poi
procedere nello studio di quel campione di soggetti individuati che necessitano di ulteriori indagini.
Una auto-somministrazione può garantire l’anonimato, per cui il rispondente può avvertire meno
pressione, anche se l’anonimato e la privacy vengono sempre garantite in ogni caso, anche per test
etero-somministrati.

Il MoCa può essere auto o etero-somministrato e perché?


Il MoCa deve essere necessariamente etero-somministrato perché:
1. Ci sono delle prove che non possono essere svolte in autonomia:
⮚ Prove di attenzione selettiva. È necessario qualcuno che legga le lettere (stimoli della prova) a
cui il rispondente deve prestare attenzione e segnalare quando viene detta dal somministratore
una lettera speifica; se non c’è nessuno che legge le lettere, non può essere svolto;
⮚ Prova di memoria. Il somministratore è fondamentale perché deve leggere le parole che il
rispondente dovrà memorizzare secondo quella sequenza, per poi recuperarle a distanza di
tempo. L’auto-somministrazione è impossibile, anche in virtù delle procedure e istruzioni da
seguire per il recupero (ricordo libero, recupero son suggerimento, recupero tra alternative);
⮚ Prova attenzione sostenuta. Le istruzioni di questa prova sono complesse, vanno ben spiegate,
per cui è fondamentale un somministratore esperto anche in questo.

2. È un test rivolto ad una popolazione anziana, per cui occorre un esperto che somministri e segua tutto
lo svolgimento della somministrazione per intervenire se ce ne fosse bisogno.
Il somministratore esperto e formato ha un ruolo cruciale nella somministrazione di un test come il MoCa:
─ rispiegando o chiarendo dubbi;
─ tranquillizzare il rispondente se dimostra ansia o difficoltà;
─ incoraggiare il rispondente a proseguire se non vuole terminare la prova;
─ fermarsi per poi completare la somministrazione in un momento successivo.

My job in the future


Il costrutto di “autoefficacia”
L’autoefficacia è un concetto ideato da Bandura ed è legato alla percezione di sé in quanto efficace e
motivato nel perseguire i propri obiettivi in base alle proprie capacità. Può essere misurata ad un livello
generale (general self-efficacy) che a livelli più specifici legati a certi ambiti (domain o specific self-efficacy),
come quella sociale, accademica, in ambito lavorativo e nella ricerca del lavoro.
Occorre sempre ben distinguere il costrutto teorico dai suoi indicatori comportamentali.
Il costrutto di autoefficacia non va confuso con quello di autostima: la prima è la fiducia nella capacità
personale, mentre la seconda è un giudizio di valore su sé stessi; tuttavia, i due costrutti si influenzano e
determinano vicendevolmente.
Questi costrutti fanno parte di misurazioni riguardanti test NON cognitivi.

Response biases
Valutare gli eventuali bias all’interno di risposte ad item su scala likert.
Se il test vuole misurare l’onestà sul lavoro è possibile trovare dei response biases legati al response set
(elicitato dai contenuti) riguardanti la desiderabilità sociale rispetto a delle norme etiche (l’inganno non è da
escludere ma la distorsione è influenzata in direzione del comportamento giusto, mentre l’inganno è di per
sé “neutro”).
Per evidenziare distorsioni nelle risposte si utilizzano item che in parte sono in “positivo” e in parte in
“negativo”:
─ risposte tutte nella stessa direzione, nonostante gli item alternati nella positività/negatività, possono
rivelare che il rispondente abbia adottato un response set caratterizzato dalla scelta di risposte in
linea con la desiderabilità sociale;
─ risposte tutte date in uno dei due estremi, nonostante gli item alternati nella positività/negatività,
possono rivelare che il rispondente abbia adottato un response style caratterizzato dalla scelta di
risposte estreme (extreme point responding) perché le risposte si contraddicono. L’alternanza della
valenza degli item è un metodo per rilevare response style legati all’extreme point responding.
Se il test vuole misurare l’autoefficacia sociale possiamo osservare:
─ risposte tutte orientate verso una propria positiva autoefficacia sociale, per cui possiamo pensare
che il rispondente abbia adottato un response set caratterizzato dall’inganno, cioè dalla tendenza a
descriversi non in modo sincero ma rispetto a come si vorrebbe essere (la desiderabilità sociale
entra in gioco per comportamenti socialmente accettati oppure no, quando il comportamento deve
rientrare in una norma che è legata anche alla morale; in questo caso, non avere un’elevata
autoefficacia sociale può comportare una minor ammirazione sociale, ma non comporta l’essere
sbagliati in base ad una norma sociale di comportamenti accettati o non accettati);
─ risposte tutte date in uno dei due estremi, nonostante l’alternanza nella valenza degli item, possono
rivelare che il rispondente abbia adottato un response style caratterizzato dall’extreme point
responding.

Come si possono costruire degli item per evitare dei biases di risposta?
─ Si possono introdurre item filler per non far comprendere cosa misuri il test, così da evitare dei
response set, cioè pattern di risposta elicitati dal contenuto del test in quanto non pienamente
compreso (desiderabilità sociale o inganno); inoltre, i filler possono aiutare anche ad individuare
eventuali risposte anomale legate allo stile di risposta (midpoint responding se anche ad essi
vengono date risposte neutre) oppure al contenuto che viene proposto (se ad essi vengono date
risposte in genere diverse da quelle date agli altri item che misurano una caratteristica rispetto alla
quale il rispondente vuole dare un’immagine ingannevole di sé).
─ Si costruiscono sia item in positivo che item in negativo riguardanti il costrutto da misurare, così
da evidenziare eventualmente, nel caso di risposte “troppo” uguali/estreme o risposte incoerenti, la
presenza di un resposte style caratterizzato da acquiescenza/dissenso o extreme point responding.
Non c’è un modo per distinguere tra questi due biases se non inserendo item misuranti
l’acquiescenza o il dissenso della persona, per capire se le risposte sono dettate dall’attitudine della
persona o dallo stile di risposta estremo. In ogni caso non c’è differenza al fine della valutazione,
entrambe sono risposte distorte.
─ Si costruiscono item su scala likert con un numero pari di opzioni di risposta, così da evitare il
midpoint responding. In questo caso i filler possono essere molto utili, perché delle risposte neutre
date anche ad item filler possono rivelare il suddetto bias di risposta.

Advanced Progressive Matrices – APM (Matrici progressive di Raven avanzate)


Non è una prova a tempo e in tutto sono 36 matrici.
Nelle prove di training non si calcola nessun punteggio.
Nello scoring, si calcola un punto per ogni risposta corretta e 0 per le risposte errate.

Montreal cognitive assessment (MoCA)


Misurazione abilità cognitive anziani per rilevare eventuale deterioramento.
Come l’APM, il test si compone di due fasi:
1. Somministrazione;
2. Scoring, che rispetto all’APM è più complesso, ci sono varie istruzioni per il calcolo.
La soglia è 25: sopra 25, quindi da 26 in su, il punteggio è considerato normale, mentre da 25 in giù non si
supera la prova e il soggetto ha presenta un deterioramento cognitivo da valutare in base al punteggio
specifico e ai subtest.

LOT-R
È un test breve di 10 item su scala Likert a 5 punti che misura l’ottimismo disposizionale e prevede
istruzioni ben precise per calcolare il punteggio in modo tale che sia interpretabile:
1. Esclusione degli item filler;
2. Inversione dei reverse item.
Escludendo così i filler, il punteggio può variare da 6 (rispondendo sempre 1 ai 6 item) a 30 (rispondendo
sempre 5). Se si fossero saltate delle risposte, il test sarebbe stato invalidato.
C’è dunque un punteggio totale.
Non ci sono sottoscale.

HEXACO-60
È un test di personalità composto da 60 item.
Rispetto al LOT-R, la logica sottesa al calcolo del punteggio è simile ma più complessa perché è presente
un numero maggiore di item disposti in base a differenti scale e sottoscale di cui occorre tener conto nel
fare lo scoring.
Come il LOT-R, il test si compone di due fasi:
1. Somministrazione;
2. Scoring.
Inizialmente ci sono le istruzioni di compilazione. Non riporta la scala likert per ogni item, ma si deve
inserire il numero di risposta per ogni item.
Lo scoring prevede il calcolo del punteggio per ogni fattore/tratto di personalità (il modello sotteso al test
prevede 6 tratti: onestà-umiltà, emozionalità, estroversione, gradevolezza, coscienziosità, apertura
all’esperienza).
Il test si compone di 6 scale corrispondenti ai 6 tratti di personalità, ognuna delle quali ha 4 sottoscale.
Sappiamo dalle istruzioni quali sono i singoli item che misurano ciascuna sottoscala.
Per calcolare il punteggio occorre:
1. Invertire il punteggio degli item reverse (R);
2. Sommare i punteggi di ogni sottoscala;
3. Sommare i punteggi di ogni scala;
Per ogni scala il punteggio va da 10 a 50: il punteggio è direttamente proporzionale all’intensità del tratto
(ricordarsi che i filler NON ci sono).
Se un test non cognitivo si compone di più scale, il punteggio può essere calcolato dividendo il totale di
scala per il numero di item che la compongono: questo permette di riutilizzare lo stesso range di
punteggi della scala likert, per cui non si avranno più punteggi da 10 a 50, ma da 1 a 5. Inoltre, fare questa
operazione serve anche per rendere le scale confrontabili nel caso in cui si compongano di un numero
diverso di item, riportando nuovamente il punteggio sulla stessa scala di misura della likert di risposta, di
fatto “standardizzando” il punteggio.
Alla fine, quindi si dividono i totali di scala per 10.
Si può procedere anche con l’interpretazione avendo a disposizione un campione normativo che ci
permette di avere le norme del test (la Professoressa ha proposto il test a studenti di Psicologia di Firenze
del 2° e 3° anno frequentanti con prevalenza femminile ed età intorno ai 21 anni, soddisfando le
proporzioni e le caratteristiche della popolazione degli studenti in generale).
Rispetto ai 6 tratti, aventi una distribuzione pressoché normale, sono state calcolate le statistiche descrittive
(valore min, valore max, media e mediana coincidenti, deviazione standard), quindi si possono calcolare i
punti Z per ciascuno dei 6 tratti.
Quando si lavora con la personalità però in genere di utilizzano i punti T, un’ulteriore trasformazione oltre il
punto Z che mi permette di avere tutti i valori positivi con media 50 e deviazione standard 10.
Si possono fare dunque due tipi di confronti per ottenere un profilo completo della personalità del soggetto:
● Confronto normativo 🡪 Per ogni scala la performance del soggetto viene confrontata con il
campione normativo o di taratura. In questo modo posso dire quale sia il tratto che contraddistingue
maggiormente il soggetto rispetto alla popolazione. Dove si collocano i percentili dell’individuo per
ciascuna scala del test rispetto ai percentili del campione di taratura.
● Confronto ipsativo 🡪 Viene confrontata la performance del soggetto nelle diverse scale (se il test
si compone di più scale). In questo modo posso dire quale sia il tratto che contraddistingue
maggiormente il soggetto rispetto agli altri tratti. Come si collocano i percentili dell'individuo nelle
scale dei test.
Per i test di personalità NON ci sono punteggi totali, i tratti sono elementi distinti che vanno a configurare un
profilo peculiare in base al quale si osservano le differenze individuali. Le differenze sono moltissimi, i
possibili profili sono moltissimi e non ha senso sommare i totali: la personalità si “misura” in termini
qualitativi tra tutti i suoi tratti che rimangono distinti, non in termini quantitativi di un unico costrutto:
calcolare i punteggi totali implicherebbe non solo un errore procedurale, ma anche un errore di
comprensione teorica del costrutto personalità a monte.
Ciò che conta sono i punteggi delle scale, cioè dei tratti/fattori tra loro indipendenti che definiscono il profilo
di personalità.

Confronto fra test NON cognitivi

Item reversed Item filler Scale/sottoscale Totale


generale
LOT-R Sì Sì No Sì
SES Sì Sì Sì Sì
HEXACO-60 Sì No Sì No

QI e percentili

Esercizio QI: Paolo ha 45 anni e ha ottenuto 120 al test.


I dati normativi per la sua fascia d’età sono M = 132 e s = 15. Calcolare QI.
Procedura:
1. Prima si standardizza il punteggio per trovare il punto Z attraverso i dati normativi della popolazione
del soggetto 🡪 Z = (x – M)/s = (120 – 132)/15 = -0,8
2. Poi si calcola il QI con la formula convenzionale (M e s specifici) inserendo il punto Z già calcolato 🡪
QI = 100 + 15 (-0,8) = 88
Esercizio ranghi percentili (Matrici di Raven, tabella età-punteggio): Gemma 54 anni ha ottenuto 56.
Rango percentile?
Procedura:
1. Individuare la fascia d’età nella tabella (in alto);
2. Individuare il punteggio nella tabella (prima colonna a sx);
3. Individuare l’incrocio all’interno della tabella, trovando il rango percentile (in questo caso è 83, cioè il
punteggio di Gemma lascia dietro di sé l’83% della popolazione alla quale lei appartiene)

Esercizio ranghi percentili (Matrici di Raven, tabella età-nazionalità-punteggio): Harry (UK, 35 anni)
ha ottenuto 49. Rango percentile?
Procedura:
1. Individuare la fascia d’età nella tabella (in alto);
2. Per quella fascia d’età, individuare la nazionalità;
3. Per quella fascia d’età e nazionalità, individuare il punteggio ottenuto;
4. Procedendo dal punteggio ottenuto verso la prima colonna a sx, individuare il corrispondente rango
percentile (in questo caso è 25, cioè lascia dietro di sé soltanto il 25% della popolazione alla quale
appartiene).

Commento esercizi: spiegare bene dove si colloca il punteggio ottenuto.


QI 🡪 Quando siamo entro una deviazione standard dalla media (-1 < Z < 1, che equivale a 85 < QI < 115)
possiamo dire che siamo nella media specificando se siamo sopra o sotto; a partire da una deviazione
standard o oltre siamo nelle code della distribuzione.
Esempio: QI di Paolo di 88. Rispetto alla popolazione di appartenenza, Paolo ha un QI che si colloca poco
meno di una deviazione standard sotto la media, dunque, possiamo dire che le sue abilità intellettive sono
in generale nella media ma inferiori ad essa.
Ranghi percentili 🡪 Un punteggio uguale o sotto il 25esimo e uguale o sopra al 75esimo indica che siamo
lontani dalla media, mentre all’interno siamo nella tendenza centrale. Attenzione che in questo caso è la
mediana (nelle distribuzioni normali coincide con la media, ma in quelle non simmetriche i due indici non
coincidono e occorre specificare nel commento che ci si riferisce alla mediana).
Esempio: Rango percentile 83 di Gemma. Rispetto alla popolazione di appartenenza, Gemma si colloca
all’83esimo percentile, dunque, possiamo dire che le sue abilità intellettive sono elevate, infatti solo il 17%
della popolazione di riferimento ha un punteggio maggiore del suo.

Time Perspective Inventory (TPI, Zimbardo)


Si traccia un profilo attraverso i percentili attraverso un test NON cognitivo che misura la prospettiva
temporale, cioè l’approccio con cui le persone si rivolgono al tempo.
Il costrutto della prospettiva temporale, nelle sue varie “scale”, viene misurato dal test in questione, il TPI
(Time Perspective Inventory).
Il test è composto complessivamente da 61 item su scala Likert da 1 a 5 che misura le seguenti
componenti, dalla cui combinazione ne deriva un profilo:
─ Passato negativo: 10 item;
─ Passato positivo: 15 item;
─ Presente fatalista: 13 item;
─ Presente edonista: 9 item;
─ Futuro: 9 item;
─ Futuro trascendentale: 5 item.
Per ogni scala cambia il numero degli item e questo è un aspetto di cui si deve tener conto per
standardizzare i punteggi (si divide il punteggio di ogni scala per il suo numero di item), per poi derivare un
profilo che può essere interpretato secondo le norme specifiche.
Per l’interpretazione si ha a disposizione la tabella che comprende i percentili principali sulla prima colonna
a sx e i punteggi corrispondenti all’interno della tabella, per ciascuna delle 6 scale (2 per ogni categoria
temporale). I punteggi riportati sono compresi tra 1 e 5, cioè il range di variazione della scala Liker in
quanto i punteggi di ogni scala sono stati standardizzati in base al numero degli item per scala.

Esercizio percentili: Claudia ha ottenuto i punteggi 21 (PN), 55 (PP), 22 (PF), 39 (PH), 33 (F), 17 (TF).
Procedura:
1. Dividere il punteggio di ogni fattore/scala per il suo numero di item;
2. Individuare i punteggi standardizzati trovati nella tabella;
3. Trovare i rispettivi percentili nella colonna a sx;
4. Individuazione del profilo del soggetto (Claudia):
⮚ Ha una visione non negativa del passato, infatti lascia dietro di sé solo il 10% della
popolazione;
⮚ Ha una visione molto intensamente positiva del passato, infatti solo il 10% della popolazione
ha una visione più positiva;
⮚ Ha una visione non fatalista del presente, infatti lascia dietro di sé solo il 10% della
popolazione;
⮚ Ha una visione edonistica del presente, infatti solo il 20% della popolazione ha una visione
maggiormente edonistica;
⮚ Ha una visione focalizzata sul futuro, in quanto solo il 20% della popolazione è più
focalizzata sul futuro;
⮚ Ha una visione mediamente focalizzata sul futuro trascendentemente inteso, in quanto si
posiziona esattamente lungo la mediana.
Questa è una buona combinazione. A questo, compilando il nostro profilo o avendone a disposizione un
altro (esercizio profilo di Giovanni), potremmo poi fare un confronto tra i due profili (punteggi opposti e
punteggi simili) e anche un confronto singolo ipastivo, individuando i punteggi con ranghi bassi rispetto a
quelli con ranghi alti, interpretando tutti i fattori del costrutto in base alle norme del test.

Norme di correzione sulla regressione (MoCA)


Per correggere i punteggi ottenuti al MoCA in base alla regressione, occorre tener conto delle variabili età e
scolarità.
Per la correzione si ha a disposizione una tabella che permette di trovare il fattore di correzione che va
aggiunto/tolto al punteggio grezzo per ottenere il punteggio corretto in base ad alcuni valori di età e di anni
di scolarità, mentre per correggere punteggi relativi a particolari valori di età e scolarità si utilizza la
formula:
Xcorretto = X + 0,175 (età – 70,08) + 24,3 [(1/scolarità) – 0,126]
È importante ricordarsi che un’età superiore a 70,08 (la media del campione normativo) comporta
sicuramente un aggiunta al punteggio, e viceversa, mentre una scolarità superiore a 8 (la media del
campione normativo, sulla quale però sono state applicati delle trasformazioni matematiche, per cui la
media specifica è 0,126) comporta sicuramente una diminuzione del punteggio, e viceversa: già a partire
dai dati è possibile prevedere se il punteggio corretto sarà maggiore o minore del punteggio grezzo.

Classificazione e confronto in base a soglie e categorie


Il test fornisce un punteggio (quantità):
─ Definizione di fasce di punteggio in base alle quali si viene classificati (valutazione qualitativa);
─ Definizione di una soglia sopra/sotto la quale si viene classificati (valutazione qualitativa).

Matrici di Raven. Trovati i ranghi percentili corrispondenti al punteggio di due soggetti grazie alla tabella, è
possibile confrontarli e fare un commento.
Ottenuti i ranghi percentili, è possibile anche inquadrare il soggetto all’interno di una classificazione
dell’intelligenza intesa come costrutto misurato dalle Matrici di Raven, attraverso una tabella che
categorizza in base ai ranghi percentili:

GRADE I Intellectualy superior X ≥ 95°


GRADE II+ 95° > X ≥ 90°
Definitely above the average in intellectual capacity
GRADE II 90° > X ≥ 75°
GRADE III+ 75° > X > 50°
GRADE III Intellectually average X = 50°
GRADE III- 50° > X > 25°
GRADE IV 25° ≥ X > 10°
Definitely below average in intellectual capacity
GRADE IV- 10° ≥ X > 5°
GRADE V Intellectually impaired 5° ≥ X

Commento: Nonostante il punteggio di Jim (44, 19 anni, UK) sia di 9 punti maggiore di quello di Ted (35, 61
anni, US), una volta standardizzati, i ranghi indicano che le loro abilità intellettive sono uguali e
corrispondenti al GRADO V- (nettamente al di sotto della tendenza centrale).
Procedura:
1. Standardizzo il punteggio con la tabella trovando il corrispondente rango percentile;
2. In base al rango percentile si individua il grado/livello del soggetto.

MoCA. Abbiamo a disposizione una tabella che distingue 5 specifiche categorie che vanno dallo 0 al 4, ma
l’obiettivo del test è quello di identificare un deterioramento cognitivo, per cui è più importante una
classificazione dicotomica in base alla soglia, piuttosto che categorizzare specificatamente il livello di un
soggetto qualora questo sia sopra il livello di soglia.
La soglia per la popolazione italiana è 17,362: per prima cosa si compara il punteggio del soggetto alla
soglia per vedere se è sotto o sopra la norma.
Occorre fare attenzione anche se il punteggio del soggetto è superiore alla norma ma inferiore a 19,500
poiché si trova in una situazione borderline, quindi a rischio, e richiede un successivo controllo per
valutare se c’è stata una progressione verso il deterioramento cognitivo.
Per punteggi superiori siamo nettamente sopra la soglia e, seppur sotto, nella media (livello 2 e 3) o anche
sopra la media (livello 4).
Procedura:
1. Correggere il punteggio ottenuto attraverso le norme di regressione (tabella o formula);
2. Osservare se il punteggio corretto sia sopra o sotto soglia ed eventualmente categorizzare
(l’obiettivo è individuare un eventuale deficit cognitivo).
Attendibilità: coerenza interna e stabilità temporale
A parità di item, un test è migliore di un altro se ha un indice maggiore di attendibilità (α di Cronbach).
A parità di indice di attendibilità, un test è migliore di un altro nella misura in cui è composto da un numero
minore di item, poiché la sua attendibilità non è intensificata artificialmente dal numero di item: c’è una
maggior ecologia, una maggior praticità. Quando uno stesso test presenta versioni ridotte, inevitabilmente
un minor numero di item comporta una minor coerenza interna.
Per migliorare un test, occorre eliminare gli item con una correlazione col punteggio totale senza essi
minore di .30 e che, se eliminati, l’indice di coerenza interna del test aumenta.
È importante che, oltre al test nel suo complesso, qualora questo presentasse delle sottoscale, anche
queste abbiano una coerenza interna maggiore del valore soglia di .70, indicativo di un’adeguata
attendibilità.
Nel commentare i report delle proprietà psicometriche di un test, in particolare della loro attendibilità,
occorre notare che viene riportato l’indice α di Cronbach per misurare la loro coerenza interna in
riferimento, eventualmente, al punteggio totale del test, al punteggio delle sue sotto-scale o ad entrambi.
Occorre dire di cosa si sta parlando, degli indici utilizzati, dei criteri per interpretarli e della rilevanza del
numero di item.
Esempi di commento:
● Si fa riferimento all’attendibilità di un test (composto da più sotto-scale e che non prevede un totale)
che hanno una coerenza interna (misurata con l’α di Cronbach) da adeguata ad eccellente, ad
eccezione di una sottoscala che non raggiunge la soglia (.70) indicativa di un’adeguata attendibilità
(come indicato dai criteri EPFA per la coerenza interna).
● Il test STAI (che prevede un’unica dimensione) composto da 20 item ha un’eccellente attendibilità
(misurata con l’α di Cronbach, indice di coerenza interna). Diminuendo gli item diminuisce anche α,
ma riducendoli ad oltre un terzo (versione con 6 item) e ad un quinto (versione con 4 item)
l’attendibilità rimane comunque rispettivamente buona (>.80) ed adeguata (>.70).
Per valutare l’attendibilità si utilizza anche l’indice di stabilità temporale ottenuto attraverso il test-retest,
mettendo in correlazione i punteggi ottenuti alla prima e alla/e successiva/e somministrazione/i.
Esempi di commento:
● La stabilità temporale (definita attraverso il test-retest) indica l’attendibilità del test. Questa la si
calcola con il coefficiente di correlazione che è in questo caso sempre superiore a .60, valore
preposto dall’EPFA per un’adeguata stabilità temporale. Nello specifico, è buona dopo un mese
(.77) e adeguata dopo circa due mesi (.67).
Vedi esercizi sulla stima intervallare del punteggio vero sulle slide.

Validità
Nel commentare i report/manuali dei test, occorre specificare e definire di cosa si sta parlando, in questo
caso della validità (di contento/costrutto/criterio), e poi elaborare su ciò che viene contingentemente detto.
Esempi di commento:
● La validità di contenuto, che si riferisce a quanto il test HRSD rappresenta adeguatamente il
costrutto attraverso i suoi indicatori, non risulta adeguata. Infatti, ci si concentra sui sintomi somatici,
mentre mancano molti altri indicatori della depressione descritti nel DSM-III (è un test vecchio e si
riferisce alla terza versione del DSM). Il test si concentra molto soltanto su alcuni degli indicatori del
costrutto in questione.
● Ci sono prove di un’eccellente validità convergente (validità di costrutto esterna) del MADRS, data
dall’elevata correlazione (la soglia è .55) con una misura di depressione (dell’HADS), e della
validità discriminante (validità di costrutto esterna), data dalla bassa correlazione (non c’è una
soglia ma è importante che sia minore della misura di correlazione data dalla validità convergente)
con una misura di ansia (dell’HADS). Entrambe misurano la validità di costrutto (esterna) del test
MADRS.
● La validità predittiva (validità di criterio) delle Matrici di Raven Standard (SPM) è valutata
attraverso l’associazione con misure di rendimento scolastico (misurato qualche tempo dopo la
somministrazione delle SPM). La correlazione è elevata (la soglia è .20) e nella direzione attesa
evidenziando un eccellente validità di criterio.
Se nelle analisi la pratica non conferma le ipotesi teoriche, significa che non si è riusciti a dimostrare la
validità del test in questione ed occorre mettere in dubbio che quel test misuri proprio il costrutto in esame.
Esercitazione sulle proprietà psicometriche

Attendibilità:
● Coerenza interna:
o α di Cronbach generale 🡪 Non abbiamo a disposizione nei dati questo indice e nemmeno le
variabili per poterlo calcolare (soglia .70).
o Correlazione punteggio item – punteggio totale item escluso 🡪 Non abbiamo a disposizione i
risultati ai punteggi degli item né, tantomeno, i punteggi totali.
o α di Cronbach item escluso 🡪 Non avendo a disposizione né i punteggi agli item né gli altri
dati per calcolare l’indice, non si può calcolare.
● Stabilità temporale:
o Test-retest 🡪 La correlazione tra il punteggio ottenuto al LOT-R al tempo 1 e il punteggio al
medesimo test ottenuto al tempo 2 è adeguata (.70, dunque compresa tra .60 e .70, la soglia
è .60) secondo i criteri per l’interpretazione forniti dall’EPFA, dunque possiamo dire che il
test LOT-R sia attendibile.
Ciò che correla in misurazioni di uno stesso strumento a tempi diversi è SOLO la parte vera
perché, secondo la assunzione III della Teoria Classica dei Test, gli errori a misurazioni a
tempi diversi sono indipendenti. Ciò significa che più è alta la correlazione e più il test riesce
a rilevare la parte vera della variazione dei punteggi dovuti a differenze e valori reali e
presenti, non dovuti al caso.
Validità:
● Validità di contenuto 🡪 Non sono un esperto per poter giudicare se gli item del test rappresentano
adeguatamente tutti gli indicatori del costrutto in questione (l’ottimismo disposizionale), ma siccome
il LOT-R è un test ufficiale suppongo che sia valido dal punto di vista del contenuto.
● Validità di costrutto:
o Fattoriale 🡪 Non abbiamo a disposizione i dati campionari della somministrazione per fare
un’analisi fattoriale degli item in modo tale da ritrovarvi quegli indicatori specifici del costrutto
da ricondurre ai suoi fattori costituenti, in questo caso un unico fattore (il costrutto,
l’ottimismo disposizionale). Ad ogni modo, siccome il LOT-R è un test ufficiale, possiamo dire
che sia valido dal punto di vista fattoriale, anche perché questa analisi è collegata
all’attendibilità.
o Convergente 🡪 Non abbiamo a disposizione misurazioni dello stesso costrutto, l’ottimismo
disposizionale, attraverso altri test. Tuttavia, possiamo utilizzare la misurazione del
pessimismo in quanto costrutto opposto, aspettandoci una correlazione negativa. Prendiamo
come criteri di interpretazione gli stessi forniti dall’EPFA per la validità convergente,
invertendo semplicemente di segno la soglia oppure trattando i valori in termini di valore
assoluto. La misura di correlazione tra il LOT-R e il test per il pessimismo è eccellente (.78,
cioè superiore a .75, valore soglia per l’eccellenza). Possiamo dunque dire che il test è
valido dal punto di vista convergente.
o Discriminante 🡪 Per valutare la validità discriminante occorre trovare la correlazione tra la
misurazione del punteggio al LOT-R e ad uno o poi punteggi a test misuranti costrutti diversi
dall’ottimismo disposizionale, aspettandoci un valore di correlazione basso, o almeno,
sicuramente inferiore al valore inerente alla validità convergente. Come da attese teoriche, il
LOT-R risulta avere un’adeguata validità discriminante in virtù di bassi valori di correlazione
tra punteggio al test e punteggi all’ansia (-.22) e all’autoefficacia (.24). È interessante notare
che la correlazione con l’ansia ha segno negativo: possiamo supporre che il valore della
correlazione tra ansia e pessimismo sia simile, ma con segno opposto.
● Validità di criterio:
o Concorrente 🡪 C’è un costrutto che possiamo inquadrare come criterio dell’ottimismo
disposizionale, ed è quello del benessere psicologico, che, tuttavia, viene misurato
successivamente alla somministrazione del LOT-R, per cui non possiamo fare un’analisi di
validità concorrente. Non posso considerare una validità concorrente tra ottimismo
disposizionale e ansia o autoefficacia, poiché è plausibile che si influenzino vicendevolmente
piuttosto che avere una relazione che si avvicina maggiormente alla causazione.
o Predittiva 🡪 Come suddetto, osservando il valore della correlazione tra i punteggi alla misura
dell’ottimismo disposizionale e, a distanza di 6 settimane, del benessere psicologico,
possiamo osservare che il LOT-R ha una buona validità predittiva del criterio (.49, quindi
compresa tra .35 e .49).
Da NON confondere con la stabilità temporale dell’attendibilità, qui si ragiona su costrutto
predittore e criterio predetto, non tra due costrutti uguali, infatti la soglia di adeguatezza della
stabilità temporale è inevitabilmente più alta della soglia della validità predittiva di criterio.

Suggerimenti e consigli per le risposte alle domande aperte:


● Risposte non sintetiche ma ben articolate;
● Portare degli esempi esplicativi che possano specificare bene la risposta , anche la Prof. li utilizza
spesso nella spiegazione. Ad esempio, portare un caso in cui il rispondente sia un anziano o uno
scolaro, o qualunque altro tipo di rispondente. Gli esempi sono importanti per far capire che
abbiamo capito;
● Non utilizzare termini ambigui ma specifici e chiari;

Incomprensioni da evitare:
● Le istruzioni sono molto specifiche e standardizzate, non utilizzare mai il termine “colloquio”, un test
prevede istruzioni che devono essere eseguite alla lettera, dunque si tratta di una procedura
altamente standardizzata e definita da non confondersi con un semplice colloquio, che è molto più
libero della procedura di somministrazione di un test.
● Non utilizzare nemmeno la parola “autovalutazione”, il rispondente non si autovaluta, non ha le
istruzioni per la valutazione, auto-somministrazione non va confusa con autovalutazione.
● Se si parla di attendibilità non dire mai che il test è “valido”. Occorre fare attenzione perché parlando
di proprietà psicometriche, attendibilità e validità sono due cose molto diverse, non ci si deve far
ingannare dall’uso comune dei termini.
● L’α di Cronbach (o qualsiasi altro indice di attendibilità) non si riferisce mai al singolo item, la
coerenza interna non è dell’item, bensì del test; al massimo, può essere l’indice del test una volta
tolto quel determinato item, oppure posso al massimo vedere come ciascun item correla con il totale
ottenuto con il resto degli item del test.
● Un test non misura l’attendibilità, ma l’attendibilità è una proprietà psicometrica posseduta dal test, o
almeno, è auspicabile che la possieda.

Formule da sapere:Contenerlo = fare più misurazioni della stessa caratteristica ottenuta con le stesse
persone (rilevo più volte la parte vera).
─ Calcolo del punto Z 🡪 Z = (x – M) / s
─ Trasformazione da Z in T 🡪 50 + 10(z)
─ Trasformazione da Z in QI 🡪 100 + 15(z)
─ Intervallo di fiducia 🡪 x – z(σe) < V < x + z(σe)
─ Errore standard 🡪 σe = sx √ ❑
─ Tutte le altre tavole, tabelle, formule ecc. si trovano nel testo dell’esercizio.

⇛ Stima intervallare del punteggio vero con un livello di fiducia del 95%: spiegare come si calcola
specificando quali dati sono necessari.
Per trovare la stima intervallare del punteggio vero è necessario individuare i limiti dell’intervallo, tenendo
conto che l’ampiezza di quest’ultimo è inversamente proporzionale al livello di fiducia, fissato a priori,
rispetto al quale siamo sicuri che il punteggio vero ricada esattamente in quell’intervallo.
Per trovare i limiti dell’intervallo abbiamo bisogno del punteggio grezzo e dell’errore standard di
misurazione. Quest’ultimo si calcola a partire dalla deviazione standard della distribuzione dei punteggi e
dal coefficiente di attendibilità del test. Calcolato l’errore standard, i limiti inferiore e superiore dell’intervallo
si trovano rispettivamente sottraendo e aggiungendo al punteggio grezzo il ME (margine di errore), ovvero
l’errore standard moltiplicato per quello specifico valore di Z che individua il livello di fiducia prefissato (in
genere 90%, 95% o 99%).
⇛ Come si possono evitare, limitare o scoprire i response style nelle risposte ai test non cognitivi?
Innanzitutto, attraverso la costruzione del test. Attraverso l’implemento di item filler, in un test non cognitivo
composto da item su scala Likert posso individuare biases dovuti al response style nel caso in cui a certi
item filler venga data una risposta, ad esempio, mediana, rispetto a pattern di risposta caratterizzati da
risposte estreme. Oppure viceversa posso riscontrare risposte estreme ad item filler che si contrappongono
a molte altre risposte caratterizzate da un midpoint responding. Attraverso l’implemento di item con
valenza alternata (item in senso positivo ed item in senso negativo) posso riscontrare pattern di risposta
incoerenti, caratterizzati magari da biases dovuti ad acquiescenza/dissenso.
Analogamente, un numero pari di punti della scala Likert può evitare un midpoint responding.
In tutti questi casi la costruzione del test è indirizzata ad evitare e limitare i response style o a farli emergere
nelle risposte; dunque, fondamentale è anche l’osservazione a posteriori delle risposte per trovare eventuali
incoerenze.
Infine, posso utilizzare scale di controllo finalizzate alla rilevazione di response style da inserire
direttamente nel test o presentandole separatamente. Queste scale sono fondamentali per informarmi
sull’eventuale non validità della misurazione.

⇛ Commentare il seguente brano specificando tutte le informazioni che se ne possono trarre: “Reliabilities
of the four factors of the TEIQue (Trait Emotional Intelligence Questionnaire) were the following: Well-
being (α=0.82), Self-control (α=0.79), Sociability (α=0.78) and Emotionality (α=0.65). The reliability of
the global trait EI score was α=0.86.”
In questo caso si riporta il coefficiente di attendibilità totale del test TEIQue e i relativi coefficienti di
attendibilità dei quattro fattori costituenti il costrutto unitario misurato dal test, cioè l’intelligenza emotiva,
relativamente alla loro coerenza interna misurata attraverso l’Alfa di Cronbach. Tutti i coefficienti variano da
una attendibilità adeguata a buona ad esclusione di quello relativo alla sottoscala dell’emozionalità che non
raggiunge il valore di .70, indicato dai criteri EPFA come soglia per un’adeguata attendibilità.

⇛ Calcolare il QI di Giada che a un test di intelligenza ha ottenuto un punteggio standardizzato di z=1.33.


Confrontare con il QI di Stefano che è uguale a 90.
QI (Giada) = 100 +15 (1.33) = 119,95. In riferimento alla popolazione generale, il QI di Giada, rispetto a
quello nella media di Stefano (pur essendo inferiore ad essa), è superiore ed in particolare le sue abilità
intellettive si collocano decisamente sopra la media, quasi una deviazione standard e mezzo sopra di essa.

⇛ Descrivere le principali caratteristiche del test BFQ-2. Riportare costrutto e teoria di riferimento, chi è il
destinatario del test (popolazione), come sono fatti gli item (modalità di risposta e quanti sono
eventualmente), riportare eventuali scale e sottoscale (ed eventuali scale di controllo), come si fa lo
scoring, standardizzazione e norme per l’interpretazione.
Il test BFQ-2, messo a punto da Caprara e collaboratori nel 2008, risulta essere una rivisitazione aggiornata
del precedente BFQ. Questo test di personalità si basa sulla teoria dei cosiddetti Big Five, una teoria della
personalità riconducibile al più ampio filone teorico dei tratti. In particolare, questo approccio è stato
derivato dall’azione congiunta di teoria e pratica: partendo dall’ipotesi della sedimentazione e attraverso
l’analisi fattoriale del lessico comune sono stati individuati 5 macro-fattori spieganti tutta la variabilità
interindividuale della personalità. Dunque, il BFQ-2 si propone di delineare un profilo di personalità
mediante la misurazione dei cinque fattori attraverso 134 item su scala Likert a 5 punti; in particolare, i 5
fattori sono a loro volta suddivisi in 2 sotto-dimensioni composte da 12 item ciascuna. Oltre alle scale per i
fattori (Energia, Amicalità, Coscienziosità, Stabilità emotiva e Apertura mentale) è presente anche una
scala di controllo misurante la tendenza a mentire del rispondente.
Lo scoring del test si fa tenendo conto delle singole 6 macro-scale, trasformando i punteggi grezzi in punti
T. Inizialmente si valuta la scala di Lie e, se il profilo non risulta essere falsato, si procede all’interpretazione
dei 5 fattori tenendo conto che si considera genericamente nella normalità un punteggio compreso tra -1 e
+1 deviazioni standard rispetto alla media.
È possibile fare confronti normativi ed ipsativi.
Questo test viene utilizzato prevalentemente in ambito organizzativo, anche se può essere impiegato anche
nel testing clinico e in quello finalizzato a progetti educativi.

⇛ Descrivere le principali caratteristiche del test WPPSI. Riportare costrutto e teoria di riferimento, chi è il
destinatario del test (popolazione), come sono fatti gli item (modalità di risposta e quanti sono
eventualmente), riportare eventuali scale e sottoscale (ed eventuali scale di controllo), come si fa lo
scoring, standardizzazione e norme per l’interpretazione.
Il WPPSI è un test di intelligenza messo a punto, da Wechsler nel 1967, indirizzato a bambini in età
prescolare e rappresenta la prima forma del più recente WPPSI-III. Classicamente le scale Wechsler
misurano l’intelligenza attraverso prove verbali e di performance (in accordo con la dicotomia cristallizzata-
fluida dell’intelligenza secondo la teoria di Cattel e Horn) ma le ultime versioni dei test WISC e WAIS hanno
cambiato conformazione, non il WPPSI, che continua ad operare la medesima distinzione, oltre a rilevare
anche un punteggio per il Quoziente di Velocità di Processamento e di Linguaggio Generale.
Gli item sono domande aperte, o meglio, vere e proprie prove e compiti, ai quali è possibile attribuire un
punteggio variabile da 0 a 2 in base alla correttezza della risposta e a seconda del sub-test. Esempi di sub-
test del WPPSI sono Informazione, Comprensione, Somiglianze, Vocabolario, Completamento di figure,
Disegno con i cubi.
I punteggi grezzi delle scale vengono trasformati in punti Z in base alle relative norme per le fasce d’età e
infine si può ottenere il QI totale, generalmente interpretabile come nella norma se compreso tra -1 e +1
deviazioni standard dalla media, mentre sotto e sopra questi valori si può parlare di individui con
un'intelligenza nettamente sotto o sopra la media.

⇛ Descrivere le principali caratteristiche del test MMPI-II.


Il test MMPI-II, messo a punto da Hathaway e McKinley nel 1989, è una rivisitazione aggiornata del
precedente MMPI, un test di personalità molto utilizzato per la rilevazione di psicopatologie e basato
sull’approccio teorico dei sistemi empirico-intuitivi, metodi di descrizione e valutazione della personalità
derivanti dall’osservazione psichiatrica.
Il test, indirizzato a soggetti dai 18 anni in su, è composto da 567 item a risposta binaria vero/falso disposti
lungo 9 scale di controllo, 10 scale cliniche, 15 scale supplementari, 15 scale di contenuto e le cosiddette
PSY-5. Le scale di controllo sono finalizzate alla valutazione della validità del protocollo prima di procedere
eventualmente con lo scoring e l’interpretazione dei punteggi ottenuti, in quanto rilevano la tendenza del
soggetto a mentire, a non rispondere e in generale a mettere in atto meccanismi difensivi più o meno
inconsapevoli. Le 10 scale cliniche vogliono rilevare il profilo del soggetto lungo 10 dimensioni
rappresentanti le principali psicopatologie più diffuse, come depressione, schizofrenia, paranoia ecc. Le
scale supplementari, di contenuto e le PSY-5 hanno l’obiettivo di fornire informazioni più specifiche.
Le norme del test sono state ottenute mediante il metodo dei cosiddetti gruppi contrapposti, confrontando le
risposte di pazienti con disturbi psicopatologici e soggetti “normali”.
Una volta valutata la validità della misurazione, si procede con la trasformazione dei punteggi grezzi (1
punto per ogni risposta in linea con la rispettiva tendenza psicopatologica della scala) in punti T e
nell’interpretazione: generalmente, si considera nella norma un punteggio compreso tra +1 e -1 deviazioni
standard dalla media e, analogamente, si prendono in considerazione punteggi oltre questi valori per
rilevare potenziali tendenze psicopatologiche.
Infine, esiste una versione ridotta del test con 370 item e una versione per adolescenti, l’MMPI-A.

⇛ Le seguenti analisi sono sulla validità della Sensation Seeking Scale (SSS) che è stata somministrata
insieme ad un test che misura il perfezionismo e la prudenza (sotto-scale dell’HEXACO). Possiamo dire
che la SSS ha validità di costrutto (e di che tipo)?
Sensation Seeking
Perfezionismo .22*
Prudenza -.68***
Possiamo dire che la SSS ha una buona validità di costrutto (esterna) convergente relativamente alla sotto-
scala per la prudenza dell’HEXACO poiché, per quanto la prudenza e la sensation seeking non siano
esattamente le due estremità di uno stesso costrutto misurato dai due relativi test, possono comunque
esser considerate tali in virtù del fatto che la sensation seeking non si identifica come imprudenza ma è
caratterizzata fortemente da essa. Allo stesso tempo, possiamo eliminare l’ipotesi di una validità di criterio
in quanto è impossibile individuare una netta relazione causale tra imprudenza e sensation seeking o
viceversa.
La SSS ha anche validità di costrutto (esterna) discriminante relativamente alla sotto-scala per il
perfezionismo dell’HEXACO, in quanto il valore della correlazione è basso.

⇛ Cosa si intende per domanda aperta in un test cognitivo? (rappresentata da compiti o prove) Fare un
esempio.
Si intende una domanda che non presenta alternative di risposta per la quale esiste una sola risposta
corretta, oppure una/un particolare prova/compito da eseguire. Prendendo come riferimento le scale
Wechsler, nel primo caso si tratta di un item che intende misurare il QI verbale (analogo all’intelligenza
cristallizzata secondo il modello di Cattel e Horn), mentre nel secondo caso di un item che intende misurare
il QI di performance (analogo all’intelligenza fluida). Un esempio del primo caso sono gli item del sub-test
“Informazione” (Qual è la capitale dell’Italia?), mentre un esempio del secondo caso sono gli item del sub-
test “Disegno con i cubi”, che richiede abilità visuo-motorie.

⇛ Yan (19 anni) e Karl (40 anni) hanno ottenuto alle Matrici di Raven un punteggio grezzo di 40.
Possiamo dire che hanno lo stesso livello intellettivo? [tavola per trovare i ranghi da età e punteggio &
tavola per l’interpretazione]
In linea di massima la risposta è affermativa poiché il livello intellettivo non subisce grandi variazioni in base
all’età fino genericamente ai 50 anni (come è possibile evincere anche dalla specularità dei valori della
tabella dai 18 ai 47 anni). Oltre questa età è possibile che il livello intellettivo possa iniziare a decadere per
l’insorgenza di più o meno intensi deficit intellettivi, non a caso il MoCA svolge proprio la funzione di
screening per rilevare un’eventuale situazione deficitaria o a rischio. Tuttavia, ciò non toglie che si possano
somministrare le Matrici di Raven ad un anziano, ma inevitabilmente lo stesso punteggio ottenuto da un
anziano e da un giovane adulto avranno un significato diverso: l’anziano avrà un livello intellettivo
superiore.

⇛ Xu (cinese – PRC) e Brad (inglese – UK) hanno entrambi 15 anni e mezzo. Hanno ottenuto alle Matrici
di Raven un punteggio grezzo di 55. Trasformare i loro punteggi in base alla Tavola e commentare.
[tavola per trovare i ranghi da età, nazionalità e punteggio & tavola per l’interpretazione]
Qui si utilizza la tavola per trovare i rispettivi ranghi e si commenta dicendo come si predispongono ed
eventualmente a quale GRADE appartengono.

⇛ Si deve misurare l’atteggiamento verso le materie quantitative (statistica, psicometria) degli studenti di
Psicologia dell’Ateneo fiorentino. Il test scelto sarà inserito in una batteria usata dai docenti al fine di
organizzare la proposta didattica. Indica quali caratteristiche questo test dovrebbe avere e che tu ritieni
importanti.
Supponendo che l’atteggiamento positivo/negativo verso le materie quantitative può incidere sullo studio di
esse, il test dovrà rilevare il costrutto nella sua intera polarità al fine di individuare la fetta di studenti con un
atteggiamento significativamente negativo e di che tipo, per poter poi costruire una didattica più fruibile
possibile. Gli item dovranno essere presumibilmente su scala Likert, permettendo di individuare tutta la
variabilità interindividuale. Teoricamente, l’ansia verso le materie quantitative ha una distribuzione
asimmetrica negativa, per cui occorre stabilire una soglia intorno all’85esimo percentile, ma questo dipende
dalle statistiche del campione di taratura. Sicuramente il test dovrà possedere buone proprietà
psicometriche.

TCT è alla base dello studio dell’attendibilità del test e definisce come si compone la misura. Ogni
misurazione di un test è data dalla somma del punteggio vero e della componente di errore. L’ipotesi di
questa teoria è che che l’errore non casuale non possa essere eliminato, ma solamente contenuto o
quantificato. 3 assunti per capire se la misura è attendibile/precisa.

⇛ Prima assunzione della Teoria Classica dei Test: spiegare [qui è utile fare anche esempi]
La TCT, sviluppata da Spearman nel 1904, è una delle teorie più utilizzate come base per la costruzione
dei reattivi affinché questi possano possedere adeguate proprietà psicometriche (attendibilità e validità).
La TCT parte dal definire il punteggio come composto da una parte vera e da una parte di errore, in cui
quest’ultima può a sua volte contenere una parte sistematica, oltre ad esser composto necessariamente e
per definizione da una parte casuale.
Posto rimedio all’errore sistematico, la prima assunzione della TCT afferma che la media degli errori di
misurazione (casuali) è uguale a 0: di conseguenza, per n. misurazioni tendenti all’infinito la media degli
errori tende a 0. A partire da questa assunzione, risulta dunque necessario aumentare il numero item per
misurare il costrutto attraverso i suoi indicatori all’interno del test, tenendo però conto che aumentando
indiscriminatamente il numero di item posso anche innalzare artificiosamente il coefficiente di attendibilità di
un test, oltre al fatto che un test ugualmente attendibile ma con minor numero di item risulta più “ecologico”,
più pratico e più comodo.

⇛ Seconda assunzione della Teoria Classica dei Test: spiegare [qui è utile fare anche esempi]
La TCT, sviluppata da Spearman nel 1904, è una delle teorie più utilizzate come base per la costruzione
dei reattivi affinché questi possano possedere adeguate proprietà psicometriche (attendibilità e validità).
La TCT parte dal definire il punteggio come composto da una parte vera e da una parte di errore, in cui
quest’ultima può a sua volte contenere una parte sistematica, oltre ad esser composto necessariamente e
per definizione da una parte casuale. Posto rimedio all’errore sistematico, la seconda assunzione della TCT
afferma che, in una misurazione, i punteggi veri e gli errori sono tra loro indipendenti: ciò significa che
l’errore è totalmente indipendente dalla caratteristica che sto misurando e dalla sua effettiva entità poiché,
appunto, è casuale.
Questa assunzione, insieme alla prima e alla terza della medesima teoria, mi supporta nella definizione dei
4 principali metodi per rilevare l’attendibilità di un test, in quanto se due misurazioni correlano, ciò accade
necessariamente perché a correlare sono le misure vere (la parte vera e quella d’errore sono indipendenti):
la coerenza interna, lo split-half, la stabilità temporale e l’accordo inter-siglatore (tra valutatori).

⇛ Terza assunzione della Teoria Classica dei Test: spiegare. [qui è utile fare anche esempi]
La TCT, sviluppata da Spearman nel 1904, è una delle teorie più utilizzate come base per la costruzione
dei reattivi affinché questi possano possedere adeguate proprietà psicometriche (attendibilità e validità).
La TCT parte dal definire il punteggio come composto da una parte vera e da una parte di errore, in cui
quest’ultima può a sua volte contenere una parte sistematica, oltre ad esser composto necessariamente e
per definizione da una parte casuale. Posto rimedio all’errore sistematico, la terza assunzione della TCT
afferma che, tra le misure di due somministrazioni indipendenti, la parte di errore in ognuno dei due
punteggi osservati è indipendente dall’altra.
Questa assunzione, insieme alla prima e alla seconda della medesima teoria in questione, mi supporta
nella definizione dei 4 principali metodi per rilevare l’attendibilità di un test, in quanto se due misure diverse
correlano, ciò accade perché a correlare sono le misure vere (gli errori sono tra loro indipendenti): la
coerenza interna, lo split-half, la stabilità temporale e l’accordo inter-siglatore.

⇛ Cosa è un percentile? Spiegare e fare un esempio di come vengono utilizzati nell’ambito dei test.
Un percentile è un indice di standardizzazione che individua la posizione di uno specifico punteggio
all’interno di una distribuzione; in particolare indica in percentuale quella parte di distribuzione avente un
punteggio inferiore al punteggio che viene preso in considerazione.
Nell’ambito dei test i percentili vengono utilizzati per collocare quello specifico punteggio rispetto e
all’interno di un gruppo di riferimento, quello del campione normativo (dal quale vengono fatte derivare le
norme del test). I percentili servono per l’interpretazione dei punteggi, per la categorizzazione degli individui
e per operare confronti tra punteggi ottenuti da individui simili o diversi ad una stessa prova e da uno stesso
individuo a prove diverse.
I percentili possono essere utilizzati per l’interpretazione riguardanti diversi test, tra cui il TPI, le Matrici di
Raven, il SOGS-RA, il BDI-II.
Ad esempio, per quanto riguarda le Matrici di Raven, attraverso i percentili sono state derivate diversi gradi
che identificano il livello intellettivo relativo ad un determinato punteggio; in genere, tra il 25esimo percentile
escluso e il 75esimo percentile escluso siamo nella norma (GRADE III per quanto riguarda le Matrici di
Raven).

⇛ Fare un esempio di performance tipica con item su scala Likert, specificando le modalità per calcolare il
punteggio (scoring).
Prendiamo ad esempio il test LOT-R misurante l’ottimismo disposizionale, i cui item sono costruiti su scala
Likert a 5 punti. Per fare lo scoring occorre innanzitutto escludere le risposte date agli item filler. Il
punteggio totale (essendo il test costruito per ottenere un unico punteggio totale) si ottiene sommando tutti i
punteggi delle singole risposte agli item facendo ben attenzione ad invertire i punti delle risposte ai reverse
item: se la risposta è 1 si segna 5 e viceversa, se è 2 si segna 4 e viceversa, se è 3 rimane tale.

⇛ Con quali procedure statistiche posso ottenere valori per il punteggio vero che, per definizione, non è
direttamente misurabile?
Il punteggio vero in sé con assoluta certezza non è mai rilevabile a causa dell’intrinseca presenza nella
misurazione dell’errore casuale. Tuttavia, è possibile ottenere un intervallo di valori, chiamato intervallo di
fiducia, rispetto al quale è possibile che ricada il punteggio vero con una percentuale fissata a priori,
chiamata livello di fiducia, il cui valore è inversamente proporzionale all’ampiezza (dunque all’informatività)
dell’intervallo. Fissato il livello di fiducia, i limiti inferiore e superiore dell’intervallo si ottengono sottraendo e
sommando al punteggio grezzo un valore pari al prodotto tra l’errore standard di misurazione e quel valore
di Z relativo al livello di fiducia prefissato.

⇛ Commenta le seguenti analisi indicando a cosa si riferiscono e tutto ciò che possiamo dire su questo
test.
α di Cronbach = .887
Correlazione ITEM-totale α se eliminato l’ITEM
ITEM1 .617 .862
ITEM2 .405 .873
ITEM3 .575 .773
ITEM4 .592 .768
ITEM5 .716 .737
ITEM6 .690 .743
ITEM7 .617 .762
In queste analisi viene riportata l’attendibilità del test in questione attraverso la sua coerenza interna
misurata mediante l’indice Alfa di Cronbach, il cui valore totale risulta buono in base ai criteri dettati
dall’EPFA.
Inoltre, viene analizzata la coerenza interna anche relativamente ai singoli item del test. Dall’analisi della
correlazione tra il punteggio ottenuto ai singoli item e quello ottenuti al test escludendo l’item in questione,
si evince che tutti gli item superano il valore soglia di .30, per cui misurano adeguatamente il costrutto.
Inoltre, gli item risultano adeguati anche in virtù del fatto che l’Alfa di Cronbach calcolato per il test
eliminando singolarmente tutti gli item diminuisce e non aumenta.
⇛ Commentare il seguente brano specificando a quale tipo di validità si riferisce: “The validity of the
Marlow and Crowne Social Desirability Scale was tested looking at the relationship with the Lie scale of
the MMPI-2. This scale is intended to identify individuals who are deliberately trying to avoid answering
the MMPI honestly and in a frank manner or people who try to make themselves look like a better
person than they really are. The correlation was r = .68.”
Si fa riferimento alla validità di costrutto esterna convergente del Marlow and Crowne Social Desiderability
Scale misurata relativamente alla scala Lie del MMPI-2. Entrambi i test (o “sotto-test” nel caso della scala
Lie) sono finalizzati alla rilevazione della tendenza a mostrarsi secondo un’ottica più positiva, quella stessa
deformazione che deriva da un’alta desiderabilità sociale, in quanto la distorsione viene fatta in positivo in
base a ciò che è giusto o migliore secondo norme collettive più o meno implicitamente condivise. In questo
caso, la validità del test risulta buona.

⇛ Cosa si intende per sensibilità del test?


Per sensibilità del test si intende l’adeguatezza e la precisione del test in questione nel rilevare punteggi
sopra-soglia che appartengono effettivamente e veramente a valori identificati come tali indipendentemente
e a prescindere dalla misurazione operata col test che si sta testando: la sensibilità può essere considerata
un indice della validità del test. Risulta fondamentale massimizzarla e, al tempo stesso, minimizzare i falsi
negativi o omissioni che il test non riesce a delineare, tenendo conto che, oltre alla sensibilità, la soglia del
test deve essere equilibrata anche rispetto alla specificità.

⇛ Cosa si intende per desiderabilità sociale?


Per desiderabilità sociale si intende un particolare tipo di response set, ovvero un bias di risposta che viene
elicitato dai contenuti del test o dal contesto in cui viene somministrato. La desiderabilità sociale identifica la
tendenza a mostrarsi sotto una luce più positiva rispetto a determinate norme socio-culturali collettive, più o
meno implicite, le quali dettano ciò che è più o meno giusto/corretto fare.
Ad esempio è socialmente ritenuto appropriato comportarsi in maniera onesta, per cui un soggetto non
molto onesto potrebbe distorcere le sue risposte all’interno di un test affinché possa mostrarsi
maggiormente onesto rispetto a quanto effettivamente non sia in realtà.

⇛ Cosa si intende per response set? Spiegare e fare un esempio.


Per response set si intende un bias di risposta che viene elicitato dai contenuti del test o dal contesto in cui
esso viene somministrato. Può essere dettato dalla desiderabilità sociale o dall’inganno. Ad esempio, un
rispondente a cui è stato somministrato l’HEXACO può rendersi conto che gli item a cui sta rispondendo
vogliono valutare la sua onestà/umiltà, per cui, più o meno consapevolmente, sarà indotto a distorcere le
risposte al fine di dare un’immagine di sé come più onesto e umile, in accordo con la norma sociale che
ritiene sia giusto essere onesti e umili con gli altri.

⇛ Marta e Andrew hanno ottenuto 3.2 alla scala X dell’HEXACO. I dati normativi per le popolazioni di
appartenenza sono rispettivamente: MM=3.3, sM=0.4 e MA=2.9, sA=0.6. Calcolare per entrambi i punti t e
commentare.
Z (Marta) = (3.2 – 3.3) / 0.4 = -0.25
T (Marta) 50 + 10 (-0.25) = 47.5
Z (Andrew) = (3.2 – 2.9) / 0.6 = 0.5
T (Andrew) = 50 + 10 (0.5) = 55
Sia Marta che Andrew hanno ottenuto un punteggio alla scala X (estroversione) dell’HEXACO nella norma,
in quanto entrambi i punti T calcolati rientrano nell’intervallo compreso tra -1 e +1 deviazioni standard dalla
media. Tuttavia, Andrew è più estroverso di Marta, in quanto il suo punteggio, seppur nella media, si
colloca sopra di essa, al contrario di quello di Marta che si colloca al di sotto.

⇛ Cosa si intende per validità di costrutto esterna? Spiegare e accompagnare la spiegazione con esempi.
Per validità di costrutto esterna si intende quanto il test in questione misura effettivamente il costrutto che si
prefigge di rilevare e non altri. Dunque, la validità di costrutto esterna può essere di due tipi: convergente e
discriminante. La prima si misura attraverso la correlazione (coefficiente di Pearson) tra il punteggio
ottenuto dal test in questione ed il punteggio ottenuto da un test diverso ma che si prefigge di misurare lo
stesso costrutto. Ad esempio, è plausibile aspettarsi che due test diversi misuranti due poli di un stesso
costrutto, come l’ottimismo e il pessimismo, abbiano una correlazione alta (e negativa): la soglia affinché si
definisce adeguata questo tipo di validità è di .55 secondo i criteri dell’EPFA. La seconda si misura
attraverso la correlazione tra il punteggio ottenuto dal test in questione ed il punteggio ottenuto da un altro
test misurante un costrutto diverso. Ad esempio, è plausibile aspettarsi che i punteggi ad un test misurante
l’ottimismo ed uno misurante l’autoefficacia abbiano un basso valore di correlazione. Per questo tipo di
validità non c’è una soglia fissa, in quanto il valore della correlazione dipende dai test che si prendono
contingentemente in considerazione, ma in linea generale, affinché possa ritenersi adeguata, questa
validità deve presentare un basso valore.

⇛ Perché il costrutto psicologico è definito variabile latente?


Il costrutto psicologico è definito variabile latente poiché non è possibile osservarlo direttamente ma
soltanto attraverso la sua manifestazione comportamentale, rilevabile attraverso item costruiti su misura
rispetto a quegli specifici indicatori comportamentali che rivelano quel costrutto, in quanto “causati” da esso.
Tutte le variabili psicologiche sono un’astrazione teorica, non esiste materialmente un’intelligenza
osservabile, ma è possibile inferirla a partire da determinate azioni, nel nostro caso risposte agli item delle
prove d’intelligenza.

⇛ Giovanni (70 anni, scolarità 5) e Fiorella (85 anni, scolarità 5) hanno ottenuto 16 al MoCA. Correggere i
punteggi e interpretarli. [tavola di correzione da età e scolarita & tavola per l’interpretazione]
Xcorretto(G) = 16 + 1.784 = 17.784
Xcorretto(F) = 16 + 4.409 = 20.409
Nonostante Giovanni e Fiorella abbiano ottenuto lo stesso punteggio, la correzione dei singoli punteggi ha
rivelato sostanziali differenze tra i due soggetti, come era facilmente anticipabile dalla diversità di età tra
loro. Giovanni, nonostante rientri sopra la soglia, presenta un livello cognitivo a rischio deficit, per cui è
auspicabile sottoporlo a nuova somministrazione prossimamente. Fiorella, invece, nonostante presenti un
punteggio sotto la media, non presenta alcun deficit né rischio.

⇛ Attendibilità e i suoi indici.


L’attendibilità è una proprietà psicometrica necessaria affinché un test possa essere utilizzato e definisce la
precisione nella misurazione del reattivo in questione. Più un test è attendibile e più è preciso nella
misurazione, nonostante questa possa essere precisa anche nel misurare un qualcosa che esula dal
costrutto che il test si prefigge di rilevare: l’attendibilità è condizione necessaria ma non sufficiente per la
validità, l’altra fondamentale proprietà psicometrica che un test deve avere.
L’attendibilità si definisce attraverso un suo specifico coefficiente che misura quanta variabilità nella
misurazione è effettivamente dovuta alla parte vera delle differenze individuali e può oscillare tra 0 ed 1,
nonostante non possa mai raggiungere l’unità in quanto l’errore casuale è per definizione ineliminabile. Per
ottenere una misura dell’attendibilità è possibile fornire prove empiriche ottenute mediante 4 modalità:
coerenza interna, split-half, stabilità temporale e accordo inter-siglatori.

⇛ Test LOT-R.
Il LOT-R è un reattivo non cognitivo messo a punto Scheier e collaboratori nel 1994 a partire dalla
rivisitazione della sua prima forma. Il test si propone di misurare il costrutto dell’ottimismo disposizionale,
definibile lungo un continuum che va dal polo negativo del pessimismo e quello positivo dell’ottimismo.
In generale, l’ottimismo si caratterizza come una disposizione mentale ad aspettarsi esiti favorevoli riguardo
il futuro che influenza il comportamento nel presente, direzionandolo più efficacemente verso il
raggiungimento dell’obiettivo. Più in particolare, i 4 indicatori del costrutto che il test vuole campionare sono
avere fiducia nel futuro, fare previsioni favorevoli, avere sensazioni positive riguardo il raggiungimento
dell’obiettivo e avere aspettative positive.
Il test è composto da 10 item su scala Likert a 5 punti, tra cui 4 item filler da escludere durante la procedura
di scoring e 3 reverse item da invertire nella medesima fase di calcolo del punteggio.
In questo modo, il punteggio può oscillare tra 6 e 30: punteggi bassi rivelano pessimismo mentre punteggi
alti rivelano ottimismo.

⇛ Definizione di standardizzazione.
La standardizzazione è una procedura statistica che permette di stabilire la posizione di un determinato
punteggio all’interno di una distribuzione in base alla misura del costrutto che si vuole misurare e a quello
esclusivamente, escludendo l’intervento di cosiddette variabili terze e ponendo i punteggi tutti sullo stesso
piano, permettendo così anche varie tipologie di confronti.
Ciò che permette la standardizzazione è il campione normativo, in quanto rappresentativo della
popolazione che si vuole prendere in considerazione. Per standardizzare i punteggi si utilizzano due metodi
:
-i punti Z esprimono la distanza del punteggio dalla media della distribuzione in termini di deviazioni
standard,
-i ranghi percentili esprimono la posizione relativa a quel punteggio in termini di percentuale della
distribuzione che ha ottenuto un punteggio inferiore.
⇛ Cosa sono le norme di un test? Come si definiscono?
Le norme di un test sono quelle regole fondamentali che permettono di collocare i punteggi ottenuti dai
soggetti all’interno di uno specifico gruppo di riferimento, la loro popolazione, e di interpretarli.
Per ottenere le norme occorre somministrare il test in questione ad un campione definito normativo o di
taratura, ovvero un campione che sia rappresentativo della popolazione e che tenga conto della sua
variabilità. Una volta ottenuti i punteggi, si procede con le relative analisi statistiche in base alle
trasformazioni che il test richiede, a seconda di ciò che misura e a come è costruito.
Le statistiche possono essere utilizzate per ricavare norme relative alla standardizzazione dei punteggi e/o
alla loro correzione in base all’effetto sui punteggi di variabili terze di cui vogliamo azzerare il peso.
Attraverso queste operazioni e a partire dall’intreccio tra pratica e teoria, è poi possibile interpretare i singoli
punteggi ottenuti dai soggetti in base a quelle che sono le finalità del test (screening, diagnostiche ecc.).

⇛ Cos’è un campione normativo?


Definito anche campione di taratura, è rappresentativo della popolazione e deve avere una adeguata
distribuzione delle caratteristiche demografiche (età, genere, scolarità..) e un’ampiezza adeguata. Inoltre è
il campione le cui risposte vengono prese come punto di riferimento per attribuire un significato alla risposta
del singolo soggetto che si sottopone al test.

⇛ Cos’è un indicatore?
Un indicatore, o indicatore comportamentale, è detto anche variabile manifesta, in quanto porta a
compimento osservabile la variabile latente che vogliamo misurare attraverso il test, cioè il costrutto.
Quest’ultimo non può essere rilevato direttamente ma solo inferito a partire da quei comportamenti
manifesti da esso causati e determinati, per cui si dice che gli indicatori riflettono il costrutto: ad esempio,
avere fiducia verso il futuro e avere la sensazione di essere nella giusta direzione per il raggiungimento
dell’obiettivo sono indicatori dell’ottimismo.
A loro volta, gli indicatori forniscono il modello sul quale costruire gli item del test.

⇛ Quale validità è più importante dimostrare per un test di ammissione ad un corso di laurea?
Indubbiamente la validità di criterio predittiva. Un test di ammissione ad un corso di laurea si prefigge
l’obiettivo di discriminare quei soggetti che ottengono punteggi superiori ad una soglia fissata rispetto alla
quale quegli stessi soggetti conseguiranno risultati migliori durante la loro carriera universitaria, rispetto a
soggetti che ottengono punteggi più bassi. Se il test porta in dote un’adeguata validità di criterio predittiva,
se è ben costruito, allora misura efficacemente il costrutto in questione, quello stesso costrutto che
teoricamente funziona da variabile causa sul successivo successo universitario.

⇛ Quale relazione intercorre tra item e indicatori?


L’item è costruito per rilevare la risposta del soggetto relativa a quello specifico indicatore comportamentali,
tra gli altri, che manifesta in maniera osservabile il costrutto del test. Potremmo dire che l’item è definito su
immagine e somiglianza dell’indicatore comportamentale.
Item = elemento minimale del test psicologico che consente di ottenere misura dell'indicatore del costrutto.
Indicatore comportamentale = espressione del costrutto osservabile (ma perdita di informazione), le
risposte sono codificate in maniera quantitativa ed è usato per misurare attributo, tratto o caratteristica
personale.

⇛ Quali differenze ci sono tra test di performance tipica e test di massima performance? Fare degli
esempi.
I test di massima performance, o cognitivi, richiedono dal rispondente la migliore prestazione che potrebbe
e sono composti da item a cui occorre rispondere correttamente: esistono risposte giuste e risposte
sbagliate. Contrariamente, i test di performance tipica, o non cognitivi, non si riferiscono alle abilità
cognitive del soggetto ma a quei tratti generali per lo più disposizionali, in questo senso tipici, che lo
contraddistinguono, come atteggiamenti, tratti di personalità, tendenze affettive ecc. Per questo, questi
reattivi sono costituiti da item che primariamente intendono fornire un quadro descrittivo del soggetto e non
richiedono di dare la risposta giusta, poiché non esiste una risposta giusta. Tuttavia, è possibile rispondervi,
anche volontariamente, differentemente a come in realtà vi avremmo risposto seguendo i propri veri
atteggiamenti, mentre nei test cognitivi ciò non è possibile, a meno che il soggetto non si trovi ad essere
affaticato o distratto, ma si tratta di due domini diversi. Esempi della prima tipologia di test sono le scale
Wechsler, il MoCA, le Matrici di Raven; esempi della seconda sono i test di personalità, il LOT-R, il SOGS,
il SSS.

⇛ Come si effettua lo scoring delle Matrici di Raven?


Le Matrici di Raven presentano item a risposta multipla con una sola opzione corretta, quindi si utilizza la
griglia di correzione che contiene l’elenco delle risposte corrette. Per ogni risposta giusta data viene
assegnato un punto e il punteggio massimo è 36 nel caso delle M. P. Colorate e delle M.P. Avanzate,
invece è 60 per le M.P. Standard.

⇛ Qual è lo scopo dell’utilizzo di batterie di test nella ricerca?


L’ambito della ricerca nel quale si utilizzano batterie di test è quello psicometrico: lo scopo principale è
quello studiare la validità dei test che vengono somministrati., raccogliendo misurazioni sui costrutti relativi
ai test da validare e ad altri costrutti connessi in modo diverso con quello misurato dal test. Quindi batterie
per la costruzione e l’adattamento di test per misurare le variabili che consentono lo studio della validità
(inclusi test da validare e test che misurano altri costrutti).
Batteria = insieme di test per raccogliere più informazioni su più costrutti (quadro dettagliato e articolato
della capacità e caratteristiche di un individuo o gruppo), si può comporre di test cognitivi e non cognitivi

⇛ Cos’è necessario verificare nel passaggio dalla versione estesa del test a quella breve?
È necessario verificare come si comportano le proprietà psicometriche nella versione breve rispetto a
quella estesa. Indubbiamente una forma ridotta comporta notevoli vantaggi (come la riduzione di costi e
tempi, della probabilità di commettere errori e dell’influenza di variabili terze sulla prova del rispondente),
ma è necessario che questa abbia comunque adeguati livelli di validità e soprattutto attendibilità, dunque è
auspicabile che queste proprietà non si riducano in modo tale da invalidare il test o comunque da rendere
ugualmente preferibile la somministrazione della sua forma estesa.
Test con numero di item ridotto rispetto all’originale ma senza ridurre in modo sostanziale l’attendibilità e
validità, i vantaggi sono tempi rapidi di somministrazione, diminuzione dell’influenza di variabili intervenienti
(noia, stanchezza, perdita di motivazione), facilitazione dello scoring : riduzione di tempo e riduzione di
probabilità di commettere errori (per somministratore).

⇛ Se un test non ha le norme, come si interpreta il punteggio?


È impossibile farlo. Le norme, ottenute mediante analisi statistiche a partire dalla somministrazione del test
ad un campione normativo o di taratura, sono necessarie per poter standardizzare e/o correggere
adeguatamente il punteggio grezzo al fine di poterlo altrettanto adeguatamente interpretare. Non
dimentichiamoci mai che l’interpretazione è ciò che dà direzione al successivo intervento, per cui è
importantissimo che essa sia quanto più accurata possibile, onde evitare pericolosi “falsi allarmi” od
“omissioni di soccorso”.

⇛ Come si commenta un rango percentile? (esempio: RP=25)


Un rango percentile si commenta a partire dalla percentuale di distribuzione che si lascia alle spalle (o al di
sotto). Essendo un indice di posizione, è possibile commentare il rango percentile relativo ad uno specifico
punteggio in base a come si colloca il soggetto che ha conseguito quel punteggio. In questo caso, si può
dire che ben il 75% della popolazione consegue un punteggio maggiore, ma per interpretare ulteriormente,
cioè “teoricamente” e contingentemente, occorre contestualizzare l’indice all’interno della rilevazione di uno
specifico test e di come si distribuisce il costrutto che misura. Ad esempio, se si sta utilizzando il BDI-II o il
SOGS-RA, misuranti costrutti distribuiti in modo asimmetrico positivo, possiamo dire che il soggetto non
presenta assenza né di depressione né di gioco d’azzardo patologico. Se invece si sta utilizzando le Matrici
di Raven (l’intelligenza segue una distribuzione normale) allora il soggetto si colloca nel GRADE IV ed è
caratterizzato da capacità intellettive inferiori alla media.

⇛ Cos’è l’errore di misurazione? Come si calcola?


L’errore di misurazione rappresenta quella componente di variabilità nella misurazione di un test che non è
dovuta alla vera entità della caratteristica che il test si prefigge di rilevare.
Può essere di due tipi: sistematico o casuale. Il primo è costante e può essere dovuto a distorsioni
sistematiche relative al somministratore, al rispondente, al test o al contesto, per questo è necessario
eliminarlo. Il secondo è imprevedibile ed ineliminabile, ma ci sono delle procedure che permettono di
controllarlo e quantificarlo.
Per quantificare l’errore casuale si utilizza il cosiddetto errore standard, ovvero la variabilità delle
misurazioni intorno al punteggio vero espressa in termini di deviazioni standard. Si calcola attraverso il
prodotto tra la deviazione standard del test e la radice quadrata della differenza tra 1 e il coefficiente di
attendibilità del test.
Contenerlo = fare più misurazioni della stessa caratteristica ottenuta con le stesse persone (rilevo più volte
la parte vera).
Quantificarlo = fare più somministrazioni dello stesso test a persone diverse in uno stesso momento o
persone diverse nello stesso momento.

⇛ Quale funzione ha la correzione del punteggio basata sulle norme di regressione?


La correzione del punteggio basata sulle norme di regressione ha la funzione fondamentale di azzerare
l’effetto sul punteggio ottenuto dal rispondente di variabili terze (come età, genere e scolarità) che
intervengono e “distorcono” la rilevazione effettiva del costrutto che il test si prefigge di rilevare.
Attraverso l’analisi della regressione è possibile misurare l’effetto che queste variabili hanno sul costrutto in
questione.
Il MoCA presenta norme di regressione per l’età e la scolarità: rispetto alla media del campione normativo
(circa 70 anni e circa 8 anni di scolarità) occorre sommare o sottrarre una quantità al punteggio ottenuto per
riportare tutti i punteggi sulla stessa scala standardizzata. Se un soggetto ha un'età maggiore di 70 e
ottiene lo stesso punteggio di un soggetto che di anni ne ha 50 è logico che il punteggio del primo “vale” di
più, poiché è molto probabile che il secondo, una volta che avrà raggiunto 70 anni, possa ottenere un
punteggio inferiore (dopo i 50 anni inizia più o meno intensamente un declino cognitivo).

Test cognitivi
Matrici Progressive di Raven (RPM) WPPSI-III
- Raven, 1938; - Valutazione intelligenza procedurale e
- Valutazione intelligenza non verbale (fluida) → verbale (fluida e cristallizzata);
Legami tra stimoli; - Versione più recente prima scala Wechsler
- Item a risposta multipla → 1 corretta; WPPSI;
- CPM → 5-11 e anziani, 3×12; a) 2,6 – 3,11 anni → 5 subtest:
- SPM → 11+, 5×12 · 2 verbali, 2 performance, 1
- APM → Eccellenza, 1×12 (training) + 1×36 linguaggio generale;
(prova); · QI totale, QI verbale, QI
- Punteggio tot. → Ranghi percentili (tabelle) → performance, Punt. tot. LG;
GRADE V-I (5-25-75-95) · Esempi: Informazione, Disegno con i
cubi, Denominazione di immagini;
b) 4,0 – 7,3 anni → 14 subtest:
· 7 verbali, 5 performance, 2 velocità
MoCA processamento;
- Nasreddine et al., 2005; · QI totale, QI verbale, QI
- Screening funzionamento cognitivo per performance, QVP;
deficit 60+; · Esempi: Comprensione, Matrici
- Prove e compiti → Istruzioni per scoring;
logiche, Cifrario;
- Correzione su regressione per età e
- Punteggio da 0 a 2 a seconda del subtest
scolarità (tabella e formula);
(istruzioni);
- Interpretazione per soglia e categorie.
- X → Z ponderati per età → QI → Categorie tra
d.s.

WISC-IV WAIS-IV
- Valutazione intelligenza procedurale e - Valutazione intelligenza procedurale e
verbale (fluida e cristallizzata); verbale (fluida e cristallizzata);
- Versione più recente prima scala Wechsler - Versione più recente prima scala Wechsler
WISC; WAIS;
- 6,0 – 16,11 anni → 15 subtest (10 principali e - 16,0 – 90,11 anni → 15 subtest (10 principali
5 supplementari); e 5 supplementari);
- Esempi: Memoria di cifre, Riordinamento di - Esempi: Confronto di pesi, puzzle;
lettere e numeri; - QI totale e 4 indici:
- QI totale e 4 indici: · Indice di Comprensione Verbale
· Indice di Comprensione Verbale (ICV),
(ICV), · Indice di Ragionamento Visuo-
· Indice di Ragionamento Visuo- Percettivo (IRP),
Percettivo (IRP), · Indice di Memoria di Lavoro (IML),
· Indice di Memoria di Lavoro (IML), · Indice di Velocità di Elaborazione
· Indice di Velocità di Elaborazione (IVE);
(IVE); - Punteggio da 0 a 2 a seconda del subtest
- Punteggio da 0 a 2 a seconda del subtest (istruzioni);
(istruzioni); - X → Z ponderati per età → QI → Categorie tra
- X → Z ponderati per età → QI → Categorie tra d.s.
d.s.

Test non cognitivi


BFQ-2 SOGS-RA
- Caprara e colleghi, 2008; - Winters et al., 1993;
- Descrizione e valutazione personalità; - Screening gioco d’azzardo problematico in
- Teorie centrate sui tratti → Modello dei Big adolescenti;
Five; - 12 item risposta SI/NO;
- Teoria lessicografica (ipotesi - 1 punto SI / 0 punti NO → Punteggio da 0 a 12;
sedimentazione) + Teoria fattorialista; - Percentili e distribuzione asimmetrica positiva
- 134 item su scala Likert a 5 punti; → Categorie (Assenza, rischio, problematico)
- E, A, C, S, M + L (2 sottodimensioni
ciascuna);
- Punti T scale → 40 < M < 60;
- Ambito organizzativo.

MMPI-II HEXACO-PI
- Hathaway e McKinley, 1989; - Ashton e Lee, 2002;
- Valutazione personalità in relazione a disturbi - Descrizione e valutazione personalità;
clinici - Approccio lessicale + analisi fattoriale in 12
- Approccio teorico dei sistemi empirico-intuitivi; lingue;
- 567 item a risposta binaria V/F; (18+); - Onestà-Umiltà, Emozionalità, Estroversione,
- 9 scale controllo → Non so (?), L, F, K, Fb, VRIN, Gradevolezza, Coscienziosità, Apertura (4
TRIN, Fp, S; sotto-scale per ciascuno);
- 10 scale cliniche→ Hs, D, Hy, Pd, Mf, Pa, Pt, Sc, - 200 item su scala Likert a 5 punti;
Ma, Si; - Scoring secondo istruzioni (divisione scala
- 15 scale supplementari, 15 scale contenuto, per n. item);
PSY-5; - Ridotto a 100 ed HEXACO-60 per ricerca.
- Gruppi contrapposti → Punti T scale → 40 < M < 60;
- Ridotto 370, MMPI-A per adolescenti.

LOT-R SES
- Scheier, Carver e Bridges, 1994; - Sherer et al., 1982;
- Misurazione ottimismo disposizionale - Misurazione dell’autoefficacia su 2
secondo 4 indicatori; dimensioni (generale e sociale);
- 10 item su scala Likert a 5 punti (4 filler e 3 - 30 item su scala Likert a 5 punti (7 filler +
reverse); reverse);
- Scoring secondo istruzioni → Punteggio da 6 a - Scoring secondo istruzioni → Punteggio totale e
30. di scale.

BDI-II SSS-V
- Beck, Steer e Brown, 1996; - Zuckerman e Eysenck, 1978;
- Misurazione depressione 13+ su 2 - Misurazione della sensation seeking lungo 4
dimensioni (somatico-affettiva e cognitiva); dimensioni;
- 21 item su scala Likert a 3 punti; - 40 item risposta A/B con ordine indicatori
- Correzione su regressione per scolarità e incostante;
genere; - 1 punto alfa / 0 punti beta → Punteggio da 0 a
- Percentili e distribuzione asimmetrica positiva 40.
→ Categorie (assenza, rischio, lieve, grave).

SCORSE DOMANDE ESAMI


1. Cosa si intende per Bias? S’intende una forma di distorsione della risposta presente soprattutto
nei self-report dei test non cognitivi, nei quali il soggetto si descrive. Le risposte date non sono
veritiere e quindi non è da considerare valido per la valutazione. Vi sono due tipologie di risposte
simili e sono il responde set e il response style che sono indipendenti dal costrutto misurato. Nel
primo caso il soggetto può volontariamente o involontariamente distorcere le proprie risposte e
ciò è elicitato dal contenuto del test o dal contesto. Ciò che caratterizza questa prima tipologia di
risposta è la desiderabilità sociale, ovvero la tendenza del rispondente di volersi presentare
bene e dare descrizione di sè aggiustata in relazione alle norme sociali, e poi c’è l’inganno, che
consiste nella tendenza a distorcere la realtà ma non necessariamente in senso positivo o
secondo la norma sociale, può esserci un obiettivo differente. Nel secondo caso invece le
risposte date sono elicitate dalle caratteristiche personali del soggetto. Si parla quindi di
acquiescenza ovvero la tendenza ad essere d’accordo o in disaccordo indipendentemente dai
contenuti del test e poi si parla di midpoint o extreme point responding, ovvero situazioni in cui il
soggetto non ha giudizio/opinione oppure sceglie sempre i punti estremi della scala.
Per contrastare questa tendenza → è possibile durante la costruzione del test scegliere item in positivo e in
negativo oppure item filler che non permetteranno al soggetto di capire la finalità del test o è possibile non
mettere il punto centrale nella scelta. Poi garantendo l’anonimato, anche se non è sempre possibile o
funzionale, il soggetto si sentirà più libero di rispondere sinceramente. Vanno anche osservate
attentamente le risposte per controllare che non vi siano incongruenze o pattern di risposta troppo
omogenei. Infine all’interno di alcuni test sono presenti delle scale che permettono di identificare le varie
tendenza (misurano desiderabilità sociale, acquiescenza, tendenza a mentire).

2. Cosa misurano i test della personalità? Test di personalità in cui misuro le caratteristiche
psichiche e comportamentali che rimangono stabili nella molteplicità delle condizioni ambientali
in cui ci si trova (profilo psicologico, disposizioni, propensioni). Fanno parte dei test di
performance tipica o test non cognitivi, mi baso sul self report e non posso seguire criteri di
correttezza della risposta. Esempio HEXACO-60 o MMPI-2.

3. Dare una definizione di costrutto → è un concetto astratto non osservabile che descrive aspetto della vita
psichica, è inoltre definito come la variabile latente che viene espressa tramite gli indicatori
comportamentali dati dalle risposte agli item di un test. Quindi è la definizione teorica di una caratteristica
psicologica come ad esempio un tratto o un attributo o una caratteristica personale, esempio la depressione
nel test BDI-II.

4. Come possono essere classificati i test? I test possono dividersi in test di performance massima
e performance tipica. Test di Performance massima sono anche definiti come test cognitivi
ovvero quando posso valutare le risposte in termini di giusto o sbagliato, test valuta qualità
rispetto a criteri di correttezza o meno delle risposte. Possono essere (test di intelligenza).
Questi si dividono ulteriormente in test di livello (che includono prove cognitive di varia natura
(attenzione, verbali, ragionamento numerico logico, prove visuo-spaziali, memoria) e test
attitudinali che includono una serie ristretta di prove cognitive selezionate in base ad un tipo di
percorso formativo o mansione lavorativa, test di rendimento o profitto che includono prove per
valutare la competenza acquisita dopo un periodo di formazione o una periodo lavorativo. Poi ci
sono i test di Performance tipica (test non cognitivi), mi baso sul self report e non posso seguire
criteri di correttezza della risposta. Si suddividono in Test di personalità in cui misuro le
caratteristiche psichiche e comportamentali che rimangono stabili nella molteplicità delle
condizioni ambientali in cui ci si trova (profilo psicologico, disposizioni, propensioni) e Test di
atteggiamento (giudizio e valutazione), sfera affettiva (emozioni e sentimenti), sociale (rapporti
interpersonali), percezione di sè (autoefficacia, autostima), motivazione, ecc…

5. Cosa valutano le Scale Wechsler? Le scale Wechsler permettono la misurazione dello sviluppo
cognitivo. Valutazione intelligenza procedurale e verbale (fluida e cristallizzata);
Vi è una parte di intelligenza fluida e una cristallizzata (molte prove e tempo per
somministrazione, serve esperienza). Le prove suddivise in due aree :
- performance : capacità di organizzazione percettiva e costruttiva
- verbale : capacità di comprendere a prendere materiale verbale
Versioni in base all'età : WPPSI (età prescolare 4-7), WISC (età vascolare 6-16), WAIS (adulti)
Per calcolare punteggio vanno seguite le istruzioni che definiscono l’assegnazione dei punti per
ciascuna domanda o problema. I punteggi delle prove confluiscono in 3 misure del QI, ovvero il QI di
performance (indicazione complessiva di efficienza nell’organizzazione ed elaborazione di stimoli
non verbali), QI verbale (indicazione complessiva delle capacità di comprendere e apprendere
materiale verbale) e QI totale che riassume i due indicatori precedenti.
6. Come viene fatto lo scoring di un cognitive test con domande aperte? Fare un esempio.
Nel caso del MoCA ad esempio che è un test che misura il deterioramento cognitivo negli
anziani, può esserci una prova o un compito in cui il soggetto risponde a una domanda aperta.
Nel caso del Clock Drawing Test, il somministratore chiede all’anziano di disegnare a mano
libera un orologio le quali lancette devono segnare un’ora precisa. L’orologio deve essere
caratterizzato da forma tonda, i numeri posizionati nei posti corretti e lo stesso vale per le
lancette. A seconda di quali caratteristiche abbia l'orologio il punteggio varia da 0 a 3 punti e il
somministratore è tenuto a seguire le proprie istruzioni per l’assegnazione.

7. Elencare e descrivere le proprietà degli item.


Item : sono le domande del test o gli elementi minimali che consentono di ottenere una misura
del costrutto attraverso gli indicatori comportamentali. Sono una necessaria semplificazione
rispetto la definizione teoria e derivano dalla definizione operativa. Vi sono differenti tipologie di
item : a scelta binaria ovvero con due alternative A e B, vero o falso, sì e no, poi ci sono gli item
a scelta multiplica che possono essere distributi su una scala Likert per accordo/disaccordo
oppure per frequenza. Esempio di item nel caso del test SOGS-RA (misura comportamento di
gioco problematico negli adolescenti) è “ci sono persone che ti hanno criticato perchè giochi?” e
la risposta è binaria, ovvero sì oppure no.

8. Elisa ha 40 anni e ha ottenuto 12 al test. I dati normativi per quella prova e per la sua età sono
M=15 e S=5. Calcola il QI e commenta. z = (x-m)/s QI = 100- (z)15
z = (12-15) /5 = -0,6 QI= 100 - (0,6)15= 109
Il soggetto rispetto alla popolazione di appartenenza ha un QI che si colloca poco meno di una
deviazione standard sotto la media. Si può dire che le sue abilità intellettive sono nella media,
ma inferiore ad essa.

9. Jack (UK) ha 48 anni ed ha ottenuto 51 alle matrici di Raven Standard. A quale rango percentile
corrisponde il suo punteggio? Il soggetto rispetto alla popolazione di appartenenza si colloca al
50esimo rango percentile, quindi è possibile affermare le sue abilità intellettive sono nella media
(il 50% della popolazione ha un punteggio superiore al suo) e appartiene al grado III.

10. Definizione di standardizzazione.


La standardizzazione è una procedura statistica che permette di stabilire la posizione di un
determinato punteggio all’interno di una distribuzione in base alla misura del costrutto che si
vuole misurare e a quello esclusivamente, escludendo l’intervento di cosiddette variabili terze e
ponendo i punteggi tutti sullo stesso piano, permettendo così anche varie tipologie di confronti.
In base alle norme il punteggio, ottenuto facendo riferimento al campione normativo, viene
trasformato da grezzo a standardizzato.
Ciò che permette la standardizzazione è il campione normativo, in quanto rappresentativo della
popolazione che si vuole prendere in considerazione. Per standardizzare i punteggi si utilizzano
due metodi :
-i punti Z esprimono la distanza del punteggio dalla media della distribuzione in termini di
deviazioni standard,
-i ranghi percentili esprimono la posizione relativa a quel punteggio in termini di percentuale
della distribuzione che ha ottenuto un punteggio inferiore.
Serve quindi a collocare un punteggio all'interno di una distruzione :
in termini di distanza del punteggio della media (punti z → indice
statistico)
individuando parte di distribuzione che il punteggio lascia dietro di sé (percentili)

11. Cosa sono e a cosa servono le norme di un test? Sono i criteri/regole per interpretazione del
punteggio e permettono di aver parametri di riferimento che rendono possibile la valutazione del
punteggio di ogni singola persona. Parametri di riferimento sono costruiti rispetto alla
popolazione.
Modalità che utilizzo per creare le norme di un test che si basa sulla distribuzione di frequenza.
Si definisce rango percentile o percentile il valore (numero cardinale o ordinale) che indica la porzione del
campione normativo che ha ottenuto un risultato inferiore al punteggio in questione:
- consente di interpretare il punteggio di un individuo rispetto alla distribuzione del campione
normativo
- Analisi (statistica) della regressione per definire (quantificare) l’effetto di queste variabili sul punteggio al
test: → Norme basate sulla regressione.
Alcuni test prevedono che il punteggio venga corretto - aggiungendo/togliendo una quantità (lo aggiusto) - in modo da
controllare l’impatto di alcune variabili → Norme basate sulla regressione
I punteggi devono essere “trasformati” o “corretti” per poterli interpretare nel modo appropriato usando le
norme definite rispetto alla popolazione di riferimento:
Un test è corredato da norme che definiscono i criteri di lettura dei punteggi ottenuti: Interpretazione del punteggio
→ Classificazione in categorie: definite fasce di punteggio che rappresentano distinti livelli del costrutto in esame.
Un test è corredato da norme che definiscono i criteri di lettura dei punteggi ottenuti: Interpretazione del punteggio
→ Classificazione in base a una soglia: punteggio al di sotto/sopra del quale la caratteristica in esame è presente/non
presente oppure nella norma/deficitaria-patologica (sufficiente o insufficiente).

12. Vantaggi e svantaggi dei ranghi percentili.


Percentili si possono usare in qualsiasi tipo di distribuzione (simmetrica o asimmetrica), mentre i punti z
presuppongono una simmetria. I percentili possono solamente dire quanto ogni punteggio della
distribuzione lascia dietro di sé. è possibile che ci sia una distorsione → differenza di punteggio grezzo
sarà enfatizzata dai ranghi percentili se il punteggio grezzo si trova intorno alla media della distribuzione,
sarà compressa se si trova agli estremi.
Percentile : modalità che utilizzo per creare le norme di un test che si basa sulla distribuzione di frequenza.
Si definisce rango percentile o percentile il valore (numero cardinale o ordinale) che indica la porzione del
campione normativo che ha ottenuto un risultato inferiore al punteggio in questione. Inoltre consente di
interpretare il punteggio di un individuo rispetto alla distribuzione del campione normativo

13. Cosa indica il punteggio grezzo? Perché si trasforma? Indica il punteggio al test prima della
trasformazione che non è ancora standardizzato. Viene trasformato perché in questo modo sarà
possibile poterlo adeguatamente interpretare tramite le norme.

14. Cosa sono le misure ipsative? Misurazione ipsativa , chiamata anche misurazione della scelta
forzata , tipo di valutazione utilizzato nei questionari sulla personalità o nei sondaggi
sull'atteggiamento in cui l'intervistato deve scegliere tra due o più opzioni socialmente accettabili.

15. Cos’è la regressione? Analisi statistica usata per costruire le norme per correggere un punteggio
di un test
Analisi (statistica) della regressione per definire (quantificare)
l’effetto di queste variabili sul punteggio al test: → Norme basate sulla
regressione.

Regressione lineare → Esamina la relazione lineare tra una o più variabili


esplicative dette predittori (X) e una variabile criterio (Y) → quindi il costrutto
che vado a misurare
– misurare il grado/forza dell’impatto della variabile X sulla variabile Y
- Trovare l‘equazione lineare che lega Y a X in una relazione causale.
Occorre trovare la retta che rappresenta meglio l’insieme di questi dati:
– beta (inclinazione della retta) – alfa (punto in cui la retta incontra l’asse Y)

Regressione semplice→ L’equazione di regressione definisce per ogni variazione di X la corrispondente


variazione di Y:
Y= α+βX dove:
α = intercetta, punto in cui la retta incontra l’asse delle Y, rappresenta il valore di Y se X =0
β = coefficiente di regressione, inclinazione della retta, rappresenta l’incremento di Y per un incremento
unitario di X
(conoscendo beta posso definire qual è l’effetto del mio predittore sul criterio)

16. Cos’è un test di tipica performance? Fare un esempio.


Performance tipica (test non cognitivi), mi baso sul self report e non posso seguire criteri di
correttezza della risposta (TPI, BFQ-2, HEXACO-60, LOT-R, MMPI-2)
> Test di personalità in cui misuro le caratteristiche psichiche e comportamentali che rimangono
stabili nella molteplicità delle condizioni ambientali in cui ci si trova (profilo psicologico,
disposizioni, propensioni)
> Test di atteggiamento (giudizio e valutazione), sfera affettiva (emozioni e sentimenti), sociale
(rapporti interpersonali), percezione di sè (autoefficacia, autostima), motivazione, ecc…

17. Perché un costrutto viene definito variabile latente? Perchè è una caratteristica psicologica non
direttamente osservabile, variabile non manifesta. Non appare, non si vede in maniera diretta,
ma è nascosto.
Derivato da una teoria che ci offre una definizione del concetto astratto (definizione teorica) :
- Definizioni più o meno precise ed esaurienti - Costrutti più o meno complessi
Non si vede direttamente, ma sta dietro a un comportamento o dentro una persona. 1. Semplici:
ansia per la statistica. 2. Complessi: Intelligenza, tratti della personalità.
A ogni definizione teorica di un costrutto corrisponde un test diverso costruito sulla base di quella
definizione.

18. Che cos’è il LOT-R? è un test non cognitivo che misura l'ottimismo disposizionale
Disposizione mentale ad attendersi esiti favorevoli. Aspettativa nei confronti del futuro che influenza il
comportamento presente (Scheier e carver 1985) → definisce l'approccio adottato nel raggiungimento dell'obiettivo
(più o meno motivata), la perseveranza e determina in qualche misura la sua realizzazione (Carver e Scheier 1998).
Esempio studiato in contesti in cui il soggetto è ammalato. La forma negativa di questi indicatori definisce il
pessimismo.
Ottimismo disposizionale : indicatori (teoria → definizione operativa)
- Fiducia rispetto al futuro
- Percezione che le cose vanno nella direzione attesa
- Sentire di poter raggiungere il risultato desiderato
- Avere aspettative positive
Life orientation Test- Revised (LOT-R, Scheier, Carver e Bridges, 1994)
La scala per misurare l'ottimismo disposizionale composta da 10 item misura una sola dimensione :
modalità di risposta su scala likert a 5 punti (da 1 fortemente in disaccordo a 5 fortemente di in accordo).
Per evitare bias nella risposta : si inseriscono filler (item non inerenti al costruttore funzionano addestratori
per non rendere troppo palese lo scopo del test e si alternano affermazioni in direzione positiva e negativa
Calcolo del punteggio → Esclusione item filler e rigirare item, somma item e punteggio che può variare da 6 a 30
Direzione punteggio : punteggi bassi indicano pessimismo, punteggi alti indicano ottimismo

19. Che cos’è il test di screening? Fare un esempio.


Ad esempio il test MoCA (Montreal Cognitive Assessment) è utilizzato per identificare patologie
per passare a un’analisi più approfondita se necessario. Questo test è strutturato per essere
somministrato in modo veloce, per avere un insieme di indicazioni iniziali, indagine completa
iniziale che fornisce spunti per l'approfondimento.

20. Cosa si intende per validità di contenuto? è inerente al grado con cui gli item del test
costituiscono un campione rappresentativo degli indicatori comportamentali del costrutto che si
vuol misurare (Pedon e Gnisci 2004)
Questa dipende dalla bontà della definizione teorica e operativa (dipende poi quanto riesco a costruire con
gli item il test e rappresentare bene tutti gli indicatori del costrutto)

Definizione spiegata→ test in grado di raccogliere e campionare una serie di indicatori comportamentali che mi
rendono conto del costrutto. Quindi se item del test riescono a rappresentare e definire bene i vari indicatori
comportamentali relativi a un certo costrutto, sarà un test che riuscirà a campionare il comportamento dell’individuo in
modo adeguato.
In base a quanto teoria riesce a definire bene il costrutto e poi in base a quanto si riesce ad avere un definizione
operativa dei vari indicatori, costruirò un buon test → riuscendo a rappresentare bene tutti gli indicatori
comportamentali, → se riesco in questo, attraverso le risposte del test avrò un buon campionamento del
comportamento della persona rispetto a quel costrutto e quindi poi buona validità del costrutto

La validità del contenuto è soddisfatta quando il costrutto è rappresentato in modo esaustivo → quando c’è
- inclusione aspetti fondamentali
- esclusione aspetti irrilevanti/non necessari (non attinenti)
Questo tipo di validità viene stabilita grazie alla valutazione di esperti rispetto a costrutto (no attraverso
analisi statistiche). Chiesto a esperti se sono riuscita a rappresentare costrutto nella maniera migliore.
- Giudizio sull’adeguatezza degli item come manifestazioni osservabili del costrutto
Analisi qualitativa fatta da esperti sui contenuti del test basandosi sulla teoria di riferimento e andando a
vedere se sono stati inclusi tutti gli elementi necessari o se ci sono parti irrilevanti per il costrutto che viene
misurato.

Per capire se gli item del test descrivono e rappresentano in modo esaustivo il gioco d’azzardo
problematico occorre sottoporre il test al giudizio di persone “esperte” : psichiatri, psicologi (esperienza con
pazienti), operatori in associazioni di intervento/recupero, giocatori o ex giocatori, familiari di giocatori o ex
giocatori
Esperti coloro che si occupano di risolvere disagio, coloro che hanno vissuto esperienza. Persone
indirettamente o direttamente coinvolte nel disturbo. Gli esperti valutano se gli item del test :
1. Descrivono in modo esaustivo il gioco d’azzardo problematico
- Includono tutti i criteri descritti dal DSM per questa dipendenza senza sostanze
- Non includono criteri che non sono tipici del gioco d’azzardo ma di altre forme di dipendenza
2. Descrivono in modo chiaro ciascuno sintomo:
- Includono gli elementi caratterizzanti → facendo esempi adeguati anche rispetto alla popolazione alla
quale il test è destinato (es: adolescenti, se contenuti adatti alla situazione o meno)

21. Cosa valuta l’Alfa Cronbach? L’Alfa di Cronbach è il più utilizzato indice di coerenza interna,
ovvero ciò che valuta se un test è attendibile e preciso. Tramite i valori dell’Alfa di Cronbach
sono interpretati e classificati come eccellenti, buoni, adeguati o insufficienti a seconda di valori
precisi (70-90)
Usato per misurare la loro coerenza interna in riferimento, eventualmente, al punteggio totale del test, al
punteggio delle sue sotto-scale o ad entrambi. Coerenza interna:
o α di Cronbach generale,
o Correlazione punteggio item – punteggio totale item escluso
o α di Cronbach item escluso
In queste analisi viene riportata l’attendibilità del test in questione attraverso la sua coerenza interna
misurata mediante l’indice Alfa di Cronbach, il cui valore totale risulta buono in base ai criteri dettati
dall’EPFA.
Inoltre, viene analizzata la coerenza interna anche relativamente ai singoli item del test. Dall’analisi della
correlazione tra il punteggio ottenuto ai singoli item e quello ottenuti al test escludendo l’item in questione,
si evince che tutti gli item superano il valore soglia di .30, per cui misurano adeguatamente il costrutto.
Inoltre, gli item risultano adeguati anche in virtù del fatto che l’Alfa di Cronbach calcolato per il test
eliminando singolarmente tutti gli item diminuisce e non aumenta.

22. Cosa si intende per punteggio vero? La parte vera del punteggio che non presenta errore.
Possiamo calcolare la stima del punteggio vero dato il punteggio osservato a partire dall’indice (qualsiasi) di
attendibilità del test : V = Mx - ru (X - Mx) ru= attendibilità del test
Occorre conoscere la media del test, l'indice di attendibilità e il punteggio.
Esempio : il punteggio ottenuto x= 16, media test Mx=18, rtt =.80
V=18+.80(16-18)=16.4 è stima puntuale della parte vera

Stima intervallare del punteggio vero


Possiamo definire un intervallo, detto intervallo di fiducia, entro il quale ricade il punteggio vero (V) con una
determinata probabilità (no valore esatto, ma un intervallo)..
Limiti di fiducia : estremi dell’intervallo attorno al punteggio osservato X entro il quale abbiamo fiducia si
collochi V:
- limite inferiore : sotto il punteggio osservato
- limite superiore : sopra il punteggio osservato
Livello di fiducia : probabilità che il punteggio ricada nell’intervallo definito dai limiti di fiducia
Scelta del livello di fiducia è fissata a priori :
- minore livello di probabilità → intervallo meno ampio
- maggiore livello→ intervallo più ampio (range di valore più piccolo entro cui ricade punteggio)
Livelli utilizzati : 90%, 95%, 99% (vicino a 1). Quindi ho soltanto il 10%, 5%, 1% di possibilità di sbagliare.

Maggiore è la probabilità (certezza che punteggio ricada nell’intervallo), tanto maggiore è l’intervallo e
talvolta la stima può essere inutile o poco informativa.
Ad esempio il mio punteggio x è 15, la stima intervallare del mio punteggio vero con un livello di fiducia del 99% va
da 10 a 20 → quindi sono 99% certa che lì dentro c'è il mio conteggio vero, ma l'ampiezza dell'intervallo è tale che mi
dice poco su quale in effetti sia il mio punteggio vero. Se prendo una probabilità inferiore del 90%, ho un margine di
errore ma comunque contenuto del 10% e l'intervallo ad esempio potrebbe essere tra 13.5 e 16.5 e restringendo il
campo mi dà indicazioni più precise o meno vaghe su quale possa essere il mio vero punteggio.
Stima intervallare del punteggio vero
La stima intervallare di V viene calcolata in base a X e all’errore standard di misurazione :
X - zσ E < V < X + zσ E
Limite inferiore Limite superiore
Dove : X = punteggio osservato z dipende dal livello di fiducia scelto σ E =sx
⺁1 - rtt
σ E → dipende dalla deviazione standard del test e dal coefficiente di attendibilità
Questa è la formula per stimare l'intervallo in cui può ricadere punteggio vero dalla formula.
Si vede che limite inferiore e superiore sono nei valori sotto/sopra punteggio osservato X ed equidistanti da
essi. Infatti da X devo togliere o aggiungere una stessa quantità. Come ottengo questa quantità?
1. usando l'errore standard di misurazione calcolato usando indice di attendibilità e dev standard del
test
2. rifacendomi alle proprietà della distribuzione normale, che mi consentono di identificare un valore di
Z corrispondente al livello di fiducia scelto, questi valori zeta sono fissi

23. Quali sono le caratteristiche di un buon test?


Un buon test attraverso i suoi item deve descrivere comportamenti (indicatori o variabili manifesto del
costrutto) funzionali a misurare una caratteristica psicologica non direttamente osservabile (costrutto,
variabile latente)
- Un test è valido se misura quello che intende misurare (Kline 1995)
- Test è valido nella misura in cui è chiaro il significato teorico e pratico di ciò che esso misura
(Boncori 1993)
→ chiarimento riguardo al costrutto e la sua funzione, utilità pratica (come lo somministro)
Un buon test deve rilevare, attraverso i suoi item, un campione di comportamenti funzionali a misurare una
caratteristica psicologica detta costrutto.
Un test deve consentire di campionare i comportamenti indicatori del costrutto per ottenerne una misura
Attraverso item raccolgo una serie di informazioni sulle espressioni visibili del costrutto e le risposte degli
item consentono di fare campionamento dei comportamenti della persona valutata, per poi arrivare a
misurazione del costrutto.

Istruzioni (per somministrazione e calcolo del punteggio)→ La rilevazione degli indicatori deve avvenire in
condizioni standardizzate:
- un test deve essere amministrato secondo precise indicazioni
- ci devono essere regole per definire il punteggio in modo che tutti gli esaminatori attribuiranno i
punteggi nello stesso modo (bisogna seguire indicazioni)
Legate all’aspetto della quantificazione.

Norme → I test vengono somministrati a un ampio gruppo di individui (campione di taratura o normativo),
rappresentativo di coloro per i quali è stato progettato il test, per stabilire un quadro di riferimento per interpretare i
singoli punteggi dei test (singolo punteggio viene interpretato rispetto alla popolazione di appartenenza).
Legate all'aspetto dell'interpretazione e quindi a ritornare a valutazione qualitativa

In base a quanto teoria riesce a definire bene il costrutto e poi in base a quanto si riesce ad avere un definizione
operativa dei vari indicatori, costruirò un buon test → riuscendo a rappresentare bene tutti gli indicatori
comportamentali, → se riesco in questo, attraverso le risposte del test avrò un buon campionamento del
comportamento della persona rispetto a quel costrutto e quindi poi buona validità del costrutto

24. Cos’è la correlazione? Una correlazione è una relazione tra due variabili tale che a ciascun
valore della prima corrisponda un valore della seconda, seguendo una certa regolarità.
Porre in relazione o covarianza, tramite indice di correlazione r di Pearson tra i punteggi.

25. Cosa sono gli errori non casuali nella somministrazione di un test?
– Non casuale o Sistematico : componente di errore che va sempre nella stessa direzione, si presenta in
maniera sistematica a rendere la misura non accurata (va corretto).
L’errore «non casuale» o «sistematico» nella somministrazione di un test può e deve essere corretto
Fonti di errore non casuale nella somministrazione del test : Intervistatore, Intervistato, Strumento,
Situazione
Intervistatore
Somministrazione : – Istruzioni date in modo scorretto – Risposte raccolte in modo sbagliato
Scoring: – Istruzioni applicate in modo scorretto – Errori nel calcolare il punteggio
Aspetti che attraverso la pratica, esperienza devono essere evitati

Intervistato
Caratteristiche del rispondente che invalidano la prova:
– Limiti motori, visivi, uditivi – Eccessiva ansia/timore – Scarsa applicazione
– Scarsa attenzione – Response set & style (nei test non cognitivi → non detta verità)

Strumento
Uno strumento può essere costruito in modo scorretto:
– Item con imprecisioni – Istruzioni non chiare o esaustive – Moduli poco leggibili
Questo è il motivo per cui i test vengono rivisti, per evitare margine di interpretazione.

Situazione
Il test può essere somministrato in condizioni non idonee:
– Ambiente (rumoroso) – Interruzioni – Mancanza del tempo necessario

26. Cos’è l’errore standard? Che cosa serve per misurarlo?


Errore standard di misurazione
Errore standard di misurazione definisce la variabilità dei punteggi osservati attorno a quello vero.
Definisce le oscillazioni dei punteggi osservati (X) dovute all’errore casuale attorno al punteggio vero (V)
- deviazione standard degli X attorno a V σe = sx ⺁1 - rtt → errore standard di
misuraz
Esempio : rtt (indice di attendibilità) =.80 Deviazione standard test sx=2
σe = 2⺁1-.80= 0.89
Esempio della scrivania → se la misuro tante volte avrò tante misure attorno a quella vera (superiori o inferiori a
quella vera). Calcolo la componente di errore legata al mio metro → se variabilità (sintetizzata da un incide come la
deviazione standard) è alta → componente di errore è elevata, se variabilità è poca l’errore è piccolo).

27. Cos’è il BDI? Da chi può essere somministrato?


Depressione: Beck Depression Inventory (BDI-II) (Test non cognitivi) Roelofs, J., van Breukelen, G., de
Graaf, L. E., Beck, A. T., Arntz, A., & Huibers, M. J. (2013). Norms for the Beck Depression Inventory (BDI-
II) in a large Dutch community sample. Journal of Psychopathology and Behavioral Assessment, 35, 93-98.
– Correzione su scolarità e genere per la popolazione olandese: Norme basate sulla regressione.
(BDI-II; Beck, Steer & Brown, 1996; versione italiana: Ghisi et al., 2006)
Il BDI-II è uno strumento self-report che misura la depressione a partire dai 13 anni di età
Si compone di 21 item che descrivono i sintomi e la loro gravità (scala da 0 a 3) secondo la definizione di
depressione della 4° edizione del manuale diagnostico statistico dei disturbi mentali (DSM-IV)
– Item relativi all’area somatico affettiva: a che fare con alterazioni sonno, dell’appetito, perdita energie e
piacere.
– Item relativi all’area cognitiva: pessimismo, autocritica, senso di colpa, senso di fallimento.
– Totale trasformato in percentili

Esempio categorie & definizione, Beck Depression Inventory


- II Un punteggio totale al BDI-II corrispondente ad un percentile (valutazione):
● < all’85° (assenza): è da considerarsi indicativo di assenza di un livello di depressione di significato
clinico.
● Tra 85° e 90° (rischio): indica una condizione di disforia* (Alterazione dell'umore in senso negativo
(contrario: euforia)) al confine con aspetti di tipo patologico. La persona è vulnerabile alla
depressione ed è possibile un’evoluzione in senso patologico. Ma non si esclude che la persona
possa rientrare sotto soglia senza particolari interventi (persona in situazione di vulnerabilità).
● Tra 91° e 95° (lieve): situazione di disforia (disagio) che comporta chiaramente un disagio e difficoltà
per la persona. E’ auspicabile una valutazione più specifica sui singoli item del test per valutare gli
aspetti specifici che sono fonte di maggiore sofferenza per la persona. Si andrà ad identificare la
fonte di disagio e poi ci sarà un intervento.
● Oltre il 95° (da moderata a grave): indica una situazione di particolare difficoltà e una condizione depressiva
che in alcuni casi potrebbe essere particolarmente grave. Necessità di una indagine più approfondita e di
intervento specialistico. Presenta quasi tutti i sintomi depressivi → parte estrema della distribuzione.

28. Si sta lavorando all’adattamento della versione italiana della Competitiveness Orientation
Measure (COM), un test che misura la competitività costruito e validato in inglese. Insieme alla
scala sono stati misurati altri costrutti attraverso una batteria di test (somministrazione unica) e
calcolate le correlazioni:

- Aggressività (r=0.25) - Auto-efficacia (r=0.31) -Uso videogiochi online (r=0.28)


- Risk-Taking, cioè mettere in atto comportamenti a rischio al fine di mettersi alla prova e confrontarsi
con gli altri (r=0.35)

Indicare quali relazioni indicano la validità di costrutto e quali quella di criterio, specificando per ognuna la
tipologia.

GRADO Soglia MoCA Alfa di Stabilità V. costrutto Validità di Livello di fiducia


abilità Cronbach temporale convergent criterio
intellettive e

I → sopra 95 Deficitario (0- < .70 < .60 : <.55 : <.20 : 90%, z= 1,65
II → 94-90 17,368) insufficient insufficiente inadeguata inadeguat 95%, z= 1,96
II → 89-75 Borderline, ES = 1 e .70 -.80 .60 - .70 : .55 - .64 : a 99%, z=2,58
(III+ → 74-51) (17,369-19,500) adeguata adeguata adeguata .20 e .34 :
III → 75-25 Normale, ES = 2 .80- .90 .70 - .80 : .65 -.75 : adeguata
(III- → 49-24) (19,501-21,562) buona buona buona .35 -.50 :
IV → 25-11 Normale, ES = 3 > .90 >. 80 : >.75 : buona
IV- → 10-6 (21,563-23,361) eccellente eccellente eccellente >.50 :
V → sotto 5 Normale, ES = 4 eccellente
(maggiore 23,362)

Potrebbero piacerti anche