Domande e Programma TTT

COME SI MISURANO LE CARATTERISTICHE PSICOLOGICHE?
Le caratteristiche psicologiche non sono direttamente osservabili ma possono essere inferite dai
comportamenti. La misurazione avviene per deduzione, per cui il comportamento da indicazioni che
consentono di dedurre la proprietà astratta.
Per misurare una proprietà psicologica come intelligenza o estroversione, occorre usare strumenti che
consentono una rilevazione indiretta. Come si arriva quindi ad una quantificazione?
La misurazione in psicologia si realizza attraverso la rilevazione di indicatori comportamentali, i quali

consentono di rilevare il costrutto attraverso la somministrazione di test psicologici.
COME SI COSTRUISCE UN TEST PSICOLOGICO?

Lo strumento di misura per queste caratteristiche psicologiche sono i test psicologici. La costruzione di un
TEST di articola su questi tre livelli:
• Definizione teorica di una caratteristica psicologica, detta COSTRUTTO. Un costrutto è un concetto

astratto non osservabile, detto anche variabile latente, che descrive un aspetto della vita psichica. Concetto
derivato da una teoria che ci offre una definizione del concetto astratto, ovvero una definizione teorica.
• Scelta di INDICATORI comportamentali in grado di rilevare la presenza del costrutto. Sono espressioni del
costrutto osservabili, detti anche variabili manifeste. Definiti in base ad una regola di corrispondenza che
definisce il passaggio dalla teoria al piano empirico, una definizione operativa. Tale passaggio implica una
perdita di informazione, quindi non ci sarà mai corrispondenza perfetta tra costrutto e indicatori. Un
costrutto può essere espresso attraverso pochi o molti indicatori.
• Messa a punto di ITEM che consentano di ottenere una misura del costrutto attraverso i suoi indicatori.
L’item è l’elemento minimale di un test psicologico che consente di ottenere una misura dell’indicatore e
del costrutto. Gli item rappresentano la domanda del test. Ciascun indicatore può essere misurato
attraverso uno o più item.
ELENCARE E DECRIVERE LE PROPRIETA’ DEGLI ITEM

La costruzione di un test si articola su 3 livelli:
 La definizione teorica di una caratteristica psicologica;
 La scelta di indicatori in grado di rilevare la presenza del costrutto;
 La messa a punto di item che misurino il costrutto attraverso i suoi indicatori.
Per comprendere a fondo quest’ultima fase è necessario specificare cosa si intenda per Item. L’item è
l’elemento minimale di un test psicologico che consente di ottenere una misura dell’indicatore del
costrutto; gli item fungono dunque come semplificazione rispetto alla definizione teorica. Se gli item
riflettono il costrutto teorico si parla di indicatori riflessivi, se non accade si parla di indicatori formativi.
Infine si possono dividere in:
 Item a scelta alternativa (dicotomici/politomici),
 Item a risposta libera o item verbali/visivi.

DEFINIZIONE DI TEST PSICOLOGICO
“Un test è una situazione standardizzata in cui il comportamento di una persona viene campionato,
osservato e descritto, producendo una misura precisa e standardizzata”. Analizziamo in profondità tale
definizione, focalizzandosi su tre punti salienti:
1. “situazione standardizzata” = Nel test gli stimoli (item) e le modalità di presentazione (istruzioni
per la somministrazione) sono sempre uguali.
2. “il comportamento viene campionato, osservato e descritto” = l’obiettivo è quello di rilevare
indicatori comportamentali attraverso il test; in questo senso le risposte agli item somministrati
costituiscono un campione dei comportamenti rappresentativi del costrutto che si intende
misurare.
3. “producendo una misura precisa e standardizzata” = un test, oltre alle istruzioni per la
somministrazione, deve presentare istruzioni sulla modalità attraverso cui ottenere un punteggio,
ovvero su come trasformare ogni risposta in un punteggio. I test presentano quindi procedure
predefinite per codificare le risposte agli item e generare un punteggio totale dell’individuo al test
(istruzioni sulla procedura di scoring, griglie per lo scoring).
Le risposte devono essere interpretate in modo oggettivo come indicatori di un costrutto
psicologico; per questo motivo è necessario stabilire regole e criteri per l’interpretazione dei
punteggi ottenuti dalle risposte, dette norme. [le istruzioni e le norme sono due cose ben diverse
nel caso dei test: le prime riguardano la somministrazione e il calcolo di un punteggio, la norma
riguarda l’interpretazione dei punteggi.]
COME POSSONO ESSERE CLASSIFICATI I TEST?

I test possono essere divisi in base alla finalità con cui sono somministrati, all’ambito in cui sono utilizzati e
alla loro tipologia: la finalità di un test può essere quella pratica, nel caso in cui si sia interessati a un singolo
caso, come quando un terapeuta somministra un test per rilevare delle caratteristiche del paziente, oppure
di ricerca, nel caso in cui si vogliano raccogliere dati campionari da potere estendere ad una popolazione
ampia.
Esistono vari ambiti di applicazione dei test:
Ambito clinico: psicodiagnostico, valutazione cognitiva e salute (…).
Ambito educativo: valutazione profitto, difficoltà di apprendimento, orientamento e selezione (…).
Ambito lavorativo: selezione personale, marketing, spot professionale e counseling, condizioni lavorative,
ambiente lavorativo (…).
Ambito giuridico: perizie e consulenze (…).
I test devono produrre una misurazione che consente di fare:
 Classificazione
 Diagnosi
 Valutazione intervento
Nella pratica ci si concentra sull’osservazione del dato singolo. Nella ricerca sull’osservazione del dato
campionario.
Esistono due tipologie di test:
Test di massima performance (cognitivi): consistono in prove, compiti che prevedono una modalità corretta
di svolgimento. Essi suddividono in:
1. Test di livello: includono prove cognitive di varia natura (attenzione, verbali, ragionamento logico e
numerico, memoria, …)
2. Test attitudinali: includono una serie ristretta di prove cognitive selezionate in base ad un percorso
formativo o mansione lavorativa.
3. Test di rendimento o profitto: includono prove per valutare la competenza acquisita dopo un
periodo di formazione.
Nei test cognitivi lo scoring e l’interpretazione implicano una correzione, ovvero il giudicare giusta o
sbagliata una risposta.
Test di performance tipica (non cognitivi): richiamano le caratteristiche psicologiche individuali proprie di
una persona.
1. Test di personalità: misurazione delle caratteristiche psichiche e comportamentali che rimangono

stabili indipendentemente dalla molteplicità delle condizioni ambientali in cui ci si trova.
2. Test di atteggiamento della sfera affettiva, sociale, della percezione di sé, della motivazione (…).
TIPOLOGIA DI DOMANDE TEST COGNITIVI

Le tipologie di domande possono essere due:
 Domande Aperte = Le domande aperte possono essere sia le classiche domande a cui rispondere in
base alle proprie conoscenze, sia compiti e prove.
 Domande Chiuse = Queste ultime consistono nella proposta di alternative mutuamente escludentisi
tra le quali scegliere una risposta in maniera binaria oppure in maniera multipla; le alternative non
corrette presentate nella scelta multipla sono dette distrattori e sono generalmente definiti
graduando la loro plausibilità.
Domande aperte = compiti/prove
SCALE WECHSLER (adulti)
 SCALE VERBALI “Qual è la capitale della Francia?” “Cos’è un cucchiaio?”
 ATTENZIONE E PERCEZIONE (completamento di figure) “Guarda bene questa figura e dimmi cosa
manca.”
 PERCEZIONE (disegno con i cubi: rotazione-riproduzione) “Guarda questi cubetti. Alcuni lati sono
tuti rossi o tutti bianchi, altri metà e metà. Possono esse combinati insieme. Prova a metterli
insieme come in questa figura.”
Domande chiuse = compiti/prove che propongono alternative mutuamente escludentisi tra le quali
scegliere una risposta:
 SCELTA BINARIA → scelta fra due riposte.
RAGIONAMENTO LOGICO (adulti) Leggi attentamente e traccia una croce sul quadratino
corrispondente alla risposta che ritiene corretta.
 SCELTA MULTIPLA → scelta fra tre o più risposte in cui le alternative sono dette distrattori,
generalmente definiti graduando la loro plausibilità. •
RAGIONAMENTO LOGICO (adulti) “Leggi attentamente e traccia una croce sul numero
corrispondente alla risposta che ritiene corretta.” •
MATRICI RAVEN (adulti) – INTELLIGENZA GENERALE “Come vede su questa tavola manca un pezzo.
Individui il pezzo mancante scegliendo tra gli otto riportati sotto.”
MATRICI RAVEN (bambini e anziani) – INTELLIGENZA GENERALE “Secondo te/lei quale è il pezzo
mancante tra questi riportati sotto la figura grande?”
TIPOLOGIA DI DOMANDE TEST NON COGNITIVI

I test di performance tipica sono connessi al self-report.
SELF REPORT = Il suo assunto di base è che il modo migliore per indagare certi aspetti psicologici è quello di
chiedere in modo diretto ai rispondenti. La persona si auto-descrive indicando quali sono i comportamenti,
sensazioni, opinioni, idee che la rappresentano o descrivono.
Il self report avviene quindi secondo due tipologie di domande chiuse:
 Scelta binaria. (“Questo ti descrive sì o no?”)

 Scelta multipla. (Scala Likert)
Vediamo i test con scelta binaria, ci sono 2 possibilità:
 BINARIA 2 ALTERNATIVE = Vengono mostrate 2 affermazioni che descrivono comportamenti

antitetici (ovvero uno l’opposto dell’altro). Una affermazione descrive la caratteristica che vogliamo
misurare e l’altra il suo opposto.
SSS-V (adulti e adolescenti): SENSATION SEEKING Si presentano delle coppie di affermazioni (A o B)
e si chiede di scegliere quale ti descrive nel modo migliore.
 BINARIA SI-NO/BINARIA VERO-FALSO = L’alternativa al precedente test è semplicemente formulare
la domanda e rispondere con SI O NO / VERO o FALSO.
SOGS-RA (adolescenti): PROBLEM GAMBLING Si pongono delle domande sul comportamento nel
gioco d’azzardo e si chiede di rispondere SI o NO.
MC-SDS (adulti): SOCIAL DESIRABILITY Vengono elencate delle frasi che descrivono atteggiamenti e
caratteristiche individuali e per ciascuna bisogna indicare Vero o Falso.
CSD (bambini): SOCIAL DESIRABILITY Vengono elencate delle frasi che descrivono certi
comportamenti e bisogna scegliere tra vero o falso.
Vediamo i test con scelta multipla:

ACCORDO
 HEXACO (adulti): PERSONALITY Per ciascuna delle seguenti affermazioni, si prega di scrivere il
numero che ritiene rappresenti meglio il suo grado di accordo. Utilizzi la seguente scala: 5 =
completamente d’accordo; 4 = molto d’accordo; 3 = né d’accordo né in disaccordo; 2 = molto in
disaccordo; 1 = completamente in disaccordo
FREQUENZA
 TAI (bambini, adolescenti, adulti): TEST ANXIETY Per ciascuna delle seguenti affermazioni, traccia
una crocetta sul numero che meglio rappresenta la frequenza con la quale avverti le seguenti
sensazioni. Utilizza una scala dove 1 = quasi mai e 4 = quasi sempre
In relazione al contenuto della domanda la Scala Likert può anche essere di altri 3 fattori:
 Probabilità
 Importanza
 Falsità/Veridicità
I punti della scala Likert possono essere:
 pari (4,6)
 dispari (3, 5, 7)
SOMMINISTRAZIONE
I test possono essere auto-somministrati o etero-somministrati; alcune tipologie di test cognitivi devono
essere necessariamente somministrati da un esperto. L’etero-somministrazione può essere individuale o
collettiva; un test auto-somministrato può essere anche etero-somministrato, ma non viceversa.
Test cognitivi somministrazione
Alcuni test cognitivi sono somministrati da esperti (psicologi, medici, logopedisti ecc..) che hanno seguito
una formazione specifica per la somministrazione = etero-somministrazione:
 Individuale
Alcuni test cognitivi possono anche essere compilati dal rispondente se gli stimoli e le istruzioni lo
consentono = auto-somministrazione che può essere:
 Individuale
 Collettiva
I test cognitivi sono dotati di istruzioni sia per chi compila (test taker) sia per chi somministra (test user). La
presenza di istruzioni efficienti e precise è fondamentale per la somministrazione del test e per il suo
corretto svolgimento; esse devono essere dotate anche di una spiegazione della scala di risposta.
Infine, il test deve essere calibrato e definito sul destinatario, in relazione al quale muteranno gli item.
Test non cognitivi somministrazione
Per questa categoria di test viene generalmente utilizzata l’auto-somministrazione, individuale o collettiva,
cui precede, come per tutti i test psicologici, l’illustrazione di precise istruzioni:
 La spiegazione della scala di risposta,
 Il richiamo sull’importanza di rispondere sinceramente,
 la rassicurazione sul fatto che non esistono risposte giuste o sbagliate, migliori o peggiori.
Per i test non cognitivi, nel caso in cui il rispondente non possa eseguire il test a causa di malattie o
condizioni specifiche, nel caso in cui si vogliano ottenere maggiori informazioni o confronti sulla veridicità
delle risposte del rispondente, si può ricorrere a valutatori esterni che conoscono molto bene il soggetto.
Per i bambini saranno indicati genitori o insegnanti, per gli adulti i compagni, per gli anziani i figli, i
compagni o i caregiver.
Infine, il test deve essere calibrato e definito sul destinatario, in relazione al quale muteranno gli item.
SINTESI SOMMINISTRAZIONE TEST COGNITIVI E TEST NON COGNITIVI
TEST COGNITIVI
 Stimoli = materiali, prove, domande varie
 Istruzioni = indicazioni/consegne per svolgere il compito e per la compilazione (possono includere

istruzioni per il training) e sono per: chi compila il test / chi lo somministra
 Somministrazione:
Individuale = Auto-somministrato / Etero-somministrato
Collettiva = Auto-somministrato
 Destinatario = i test sono adattati in base alle caratteristiche del rispondente.
TEST NON COGNITIVI
 Stimoli = domande che consistono in affermazioni alle quali possono essere associate diverse
modalità di risposta.
 Istruzioni = indicazioni per la compilazione, per invogliare alla compilazione, per rassicurare, per
promuovere la sincerità.
 Somministrazione:
Collettiva = Auto-somministrato
Individuale = Auto-somministrato / Etero-somministrato / Valutatore esterno
 Destinatario = i test sono adattati in base alle caratteristiche del rispondente.
BIAS, DISTORSIONI NELLA RISPOSTE

In particolare nei test non cognitivi, nel self-report possiamo avere dei pattern di risposte che sono
indipendenti dal costrutto che vogliamo misurare.
I Bias sono distorsioni sistematiche che implicano errori involontari di valutazione e mancanza di oggettività
di giudizio. Anche i test sono soggetti a bias di risposta, detti Response bias, i quali si possono suddividere
in:
Si parla di Response Set quando sono presenti delle risposte elicitate da specifici contenuti del test o da
particolari contesti. Ovvero quando viene chiesto qualcosa e il soggetto non si sente di rispondere in
maniera sincera. Quindi viene data una auto descrizione che non corrisponde alla realtà. Questa risposta
può essere espressa in maniera volontaria come involontaria. Quindi si parla di risposte falsate.
Per quanto riguarda i Response Set i più comuni sono:
Desiderabilità sociale: tendenza a fornire un’immagine di sé positiva, a dare una descrizione di sé
“aggiustata” sulle norme e sui valori socialmente condivisi, spesso propri del contesto specifico.
Inganno: tendenza a modificare o distorcere la realtà; la differenza dal primo tipo di bias è che l’inganno
può consistere in una distorsione positiva o negativa, in relazione ad uno specifico obiettivo (conscio o
inconscio) del rispondente. (es. rispondenti in età adolescenziale, ottenere un posto di lavoro (…)).
Response style: È definito dalle caratteristiche del rispondente, dal suo stile responsivo, dunque
indipendentemente dal contenuto degli item e più o meno costante nel tempo.
Si parla di Response Style quando il soggetto indipendentemente da ciò che gli viene chiesto adotta uno
stile di risposta. Il soggetto risponde nello stesso modo, non si fa attenzione al contenuto. Le risposte vanno
tutte nella stessa direzione.
Per quanto riguarda i Response Style i più comuni sono:
Acquiescenza/dissenso: tendenza ad essere d’accordo o disaccordo indipendentemente dal contenuto.

Midpoint and Extreme Point responding: tendenza a rispondere sempre nel punto centrale di una scala
(spesso indicativa di mancanza di giudizio, opinione, informazione o interesse riguardo al tema) oppure
sempre agli estremi di quella scala (ovviamente ciò avviene con la scala Likert).
Per contrastare/rilevare queste tendenze/distorsioni/ Response bias lo si può fare a due livelli:
Nel primo caso Quando si costruisce il Test: Chi costruisce il test utilizza strategie funzionali a rilevare o
prendere consapevolezza delle distorsioni dovute ai Response bias: in primo luogo si possono utilizzare
degli item positivi, in linea con il costrutto che si intende misurare e degli item negativi, ovvero nella
direzione opposta del costrutto; questa strategia può rilevare la presenza di Response style quali
acquiescenza/dissenso.
In secondo luogo, si possono inserire degli item detti filler, che hanno la finalità di spezzare il test e la sua
possibile monotonia. Rappresentano item che non c’entrano niente con i costrutti da misurare; la finalità è
quella di non far comprendere palesemente gli obiettivi del test al rispondente per evitare che si verifichino
Response bias.
Un’ultima strategia è quella di evitare il punto centrale nelle alternative di risposta delle scale Likert.
Nel secondo caso si costruisce un test anonimato: Pero lo si può garantire quando si fanno delle rilevazioni
collettive ai fini della ricerca. Ma non è possibile farlo in tutti i contesti.
Ulteriori strategie per Response Bias dopo la costruzione del TEST:
 Osservazione delle risposte: incongruenze, pattern di risposte troppo omogenei.

 Posso anche misurare queste tendenze (desiderabilità sociale, acquiescenza, tendenza a mentire):
Alcuni test prevedono delle scale al loro interno che sono in grado di identificare queste tendenze.
Insieme al test si possono somministrare altri test che le misurano.
DEFINIZIONE DI INTELLIGENZA
Qual è la definizione di intelligenza? Non esiste una concezione univoca dell’intelligenza: i teorici si sono
susseguiti nel tempo e ne hanno proposto molteplici concezioni, fra cui quelle che sono divenute i costrutti
alla base dei test di intelligenza.
L’idea di fondo di tali teorie è che l’intelligenza sia la capacità globale di agire in maniera finalizzata, di
pensare razionalmente e di interagire efficacemente con il proprio ambiente; da ciò consegue la capacità di
acquisire e manipolare informazioni apprendendo dall’esperienza. Partendo da qui, è necessario definire gli
indicatori comportamentali di tali abilità.
Esistono due principali filoni teorici:
 Le teorie monodimensionali sostengono l’idea di base che esista un fattore generale (g) che indichi
la capacità di ragionare, scoprire relazioni, pensare in modo astratto, risolvere compiti, imparare
dall’esperienza. l’esistenza di tale fattore fu teorizzata per la prima volta da Spearman nel 1904.
 Le teorie multidimensionali invece, la cui prima teorizzazione fu di Cattell,1987, sostengono l’idea
che esistano più forme di intelligenza:
 Intelligenza fluida: corrisponde al fattore g.
 Intelligenza cristallizzata: capacità di utilizzare competenze, conoscenze ed esperienze educative e
culturali; sostanzialmente questa forma di intelligenza è legata al linguaggio, tali capacità
dipendono dalle capacità di linguaggio.
Le teorie multidimensionali teorizzano l’interazione e combinazione fra le due componenti dell’intelligenza.
COME SI MISURA L’INTELLIGENZA? Scoring per i test cognitivi

Per quanto riguarda le teorie monodimensionali, essi sono le matrici progressive di Raven, funzionali a
cogliere il fattore g, dunque un fattore statico. Esse sono indipendenti dalle capacità di linguaggio e non le
misurano; pertanto, possono essere utilizzate anche nel caso di incompatibilità linguistica con chi svolge il
test. Per quanto riguarda le teorie multidimensionali, gli strumenti utilizzati sono le scale Wechsler, che
misurano entrambe le forme di intelligenza, colgono aspetti linguistici e sono più articolate rispetto alle
matrici.
Le abilità funzionali a risolvere le matrici di Raven sono indipendenti dalle capacità e caratteristiche
linguistiche; inoltre, le matrici di Raven sono considerate culture-free, ossia somministrabili
indipendentemente dalla cultura cui si appartiene.
Matrici Progressive di Raven = teoria monodimensionale
Sono una serie di matrici (stimoli/item) ordinate in termini di difficoltà crescente. Esistono versioni distinte
da usare in base alle caratteristiche del rispondente:
 Matrici Progressive Colorate (CPM; Raven, 1958) → tre set di 12 matrici da usare con bambini (5-11
anni) e anziani;
 Matrici Progressive Standard (SPM; Raven, 1941) → cinque set di 12 matrici da usare dagli 11 anni e
adulti;
 Matrici Progressive Avanzate (APM; Raven, 1962) → due serie di 12 (set A) e 36 (set B) matrici per
adulti con un buon livello di scolarità e se la SPM risultano troppo semplici.
Calcolo del punteggio totale: Ognuna ha una griglia di correzione che contiene l’elenco delle risposte
corrette e si assegna un punto per ciascuna risposta corretta (risposta alfa).
Matrici Progressive Colorate = 0-36
Matrici Progressive Standard = 0-60
Matrici Progressive Avanzate = 0-12; 0-36

Scale Wechsler = teoria multidimensionale
Le prove sono suddivise in due aree:
Scale di Performance = capacità di organizzazione percettiva e costruttiva. Le prove che ne fanno parte son
 Completamento di figure: comprendere una serie di immagini a colori riguardanti scene comuni alle
quali manca un elemento da identificare.
 Disegno con i cubi: si devono riprodurre con dei cubi una serie di immagini presentate
graficamente.
 Riordinamento di storie raffigurate: si devono riordinare dei cartoncini con figure a colori in modo
da formare una breve storia.
Scale Verbali = capacità di comprendere e apprendere materiale verbale. Le prove che ne fanno parte sono:
 Comprensione: domande circa la risoluzione di problemi quotidiani o su regole sociali.

(cristallizzata). Es. “cosa fai se cadi e ti fai male?”
 Analogie: spiegare somiglianze tra coppie di parole.

Es. “in cosa si somigliano maglione e pantaloni?”
Per il punteggio/scoring in questo caso occorre seguire le istruzioni che definiscono l’assegnazione dei
punti per ciascuna prova/domanda (da 0 a 2).
I punteggi alle varie prove confluiscono in tre misure di quoziente intellettivo (QI):
 QI di performance = indicazione complessiva dell’efficienza nell’organizzazione e elaborazione di

stimoli non verbali.
 QI verbale = indicazione complessiva delle capacità di comprendere materiale verbale.
 QI totale = riassume globalmente i due indicatori precedenti.
Per lo scoring i punteggi confluiscono in tre misure di QI: QI di performance, QI verbale, QI totale. Si delinea
così un profilo del soggetto da cui emergono anche i suoi punti di forza. L’interpretazione non deve essere
superficiale: si devono considerare la storia e lo stato d’animo del soggetto prima di trarre conclusioni
definitive a partire dal giudizio sul test.
Come per le matrici di Raven anche le Scale Wechsler si differenziano in base alle caratteristiche del
destinatario:
 WPPSI per età prescolare (4-7).
 WISC per l’età scolare (6-16).
 WAIS per gli adulti.
 Un famoso e importante test che utilizza le scale Wechsler è il test MOCA (per molti aspetti simile al
WAIS, ma non è un test di intelligenza).
CHE COS’E’ UN TEST DI SCREENING? FARE UN ESEMPIO
Nei test di screening, o scala breve, si propone di rilevare con un numero ridotto di item e in un tempo
contenuto i fattori di rischio legati ad un disturbo/patologia o i primi segni del disturbo/patologia in un
largo numero di individui non clinici (popolazione). Si parla di test di screening perché è un test che
permette di cogliere certe eventuali limitazioni a partire dalle quali devo fare una ricerca più approfondita.
Test molto breve che consente di mettere in evidenza se sono presenti delle difficoltà. Inoltre consente di
vedere chi invece ha un funzionamento del tutto normale.
Un esempio di test di screening è il Montreal Cognitive Assessment (MOCA): test di screening per misurare
il funzionamento cognitivo generale per la fascia d’età dai 60 anni in poi. Il suo obiettivo è quello di
evidenziare il deterioramento cognitivo lieve che può essere indicativo di una situazione di rischio per
sviluppare patologie e quello di discriminare soggetti normali da soggetti con deterioramento lieve.
TEST NON COGNITIVI ESEMPI (NON I TEST DI PERSONALITA’). DESCRIVERE IL TEST E COME SI
ESEGUE LO SCORING.
South Oaks Gambling Screen-Revised for Adolescents (SOGS-RA; Winters et al., 1993)
Test di screening del comportamento problematico di gioco d’azzardo negli adolescenti. Il SOGS-RA è
costituito da 12 item che descrivono comportamenti e problemi legati al gioco d’azzardo. La tipologia di
domanda in questo test è chiusa ed è a scelta binaria.
Gli indicatori sono: mentire sul denaro persone, avere discussioni con familiari ed amici, giocare più di
quanto pianificato, chiedere in prestito denaro per giocare o per coprire i debiti di gioco.
Obiettivo: evidenziare situazioni a rischio o problematiche, discriminando i giocatori non problematici da

quelli problematici o a rischi di sviluppare un problema legato al gioco.
Scoring: Assegnare 1 punto per ciascuna risposta affermativa (SI) e 0 punti alle negative (NO) che
rappresentano la presenza/assenza del comportamento (indicatore) descritto dall’item. Il punteggio totale
può essere compreso tra 0 e 12.
Sensation Seeking Scale Form V (SSS-V; Zuckerman, Eysenck & Eysenck, 1978) Scala/test per misurare la
Sensation Seeking (SS), caratteristica legata al ricercare sensazioni forti. La tipologia di domanda in questo
test è chiusa ed è a scelta binaria.
Gli indicatori sono: la tendenza a ricercare esperienze nuove, diverse ed intense (Thrill and Adventure
Seeking, TAS), la volontà deliberata di correre rischi per il piacere di tale esperienza (Experience Seeking,
ES), la disinibizione (Disinhibition, D) e l’insofferenza alla noia e alla ripetizione (Boredom Susceptibility, BS)
La scala è composta da 40 item (2 affermazioni x item) che definiscono 4 dimensioni (10 coppie x
dimensione):
 Thrill and Adventure Seeking (TAS)
 Experience Seeking (ES)
 Disinhibition (D)
 Boredom Susceptibility (BS)
Scoring: Assegnare 1 punto per ciascuna delle risposte che evidenziano SS e 0 punti in caso contrario. Il
punteggio totale può essere compreso tra 0 e 40, per ogni sottoscala da 0 a 10. Tanto più è alto il
punteggio, tanto più elevata è la Sensation Seeking e le sue componenti (TAS, ES, D, BS).
Ottimismo disposizionale
È la disposizione mentale ad attendersi esiti favorevoli, ovvero l’aspettativa nei confronti del futuro che
influenza il comportamento presente (Scheier e Carver, 1985). È un’aspettativa nei confronti del futuro che
influenza il comportamento presente perché definisce l’approccio nel raggiungimento dell’obiettivo, la
perseveranza e determina in qualche misura la sua realizzazione.
Gli indicatori sono: la fiducia rispetto al futuro, la percezione che le cose vadano nella direzione attesa, il
sentire di poter raggiungere il risultato desiderato e l’avere aspettative positive. La forma negativa di
quest’ultimi definisce il pessimismo.
Life Orientation Test-Revised (LOT-R, Scheier, et al., 1994)
Questa è la scala/strumento per misurare l’ottimismo disposizionale, è composta da 10 item che misurano
una sola dimensione; la modalità di risposta è su scala Likert a 5 punti. (1 = fortemente in disaccordo / 5 =
fortemente d’accordo). Punteggi alti indicano ottimismo, punteggi bassi indicano pessimismo.
Per evitare i bias nella risposta gli autori di questo test hanno inserito item “filler” (nello scoring non vanno
contati, funzionano anche da distrattori) e utilizzato anche item “reversed”, ovvero item il cui senso va nella
direzione opposta del costrutto che si misura, in questo caso dell’ottimismo disposizionale. In gergo si dice
che la polarità viene invertita; di fatti nello scoring si invertono i punteggi.
Scoring:
 Esclusione item filler: 2,5,6,8
 Rigirare item: 3,7,9
 Sommare le risposte agli item 1,3,4,7,9,10
 Il punteggio può variare da 6 a 30
 Direzione punteggio: Punteggi bassi indicano pessimismo, punteggi alti ottimismo
 Il calcolo è scorretto se: • Punteggio inferiore a 6 • Punteggio maggiore di 30
 Possibili errori: • Item non rigirati • Filler inclusi nel punteggio • Errori di calcolo
La Self-Efficacy Scale (SES, Sherer et al., 1982)
È un test non cognitivo che misura l’auto-efficacia. La tipologia di risposta agli item è la risposta binaria ed è
composto da 30 item (23+7 filler) distribuiti in due sotto-scale:
 17 item per la General Self-Efficacy
 6 item per la Social Self-Efficacy.
Scoring: si tolgono i filler, si rigirano gli item, si calcolano i due punteggi e si sommano per ottenere il totale.
PERSONALITA’
La personalità è l’insieme delle caratteristiche psichiche stabili e delle modalità comportamentali che
definiscono l’individuo nella molteplicità dei contesti in cui si esprime e si trova ad agire.
Vista la complessità del costrutto, sono state elaborate nel tempo svariate teorie della personalità: in
particolare, riportiamo tre approcci:
 Teorie psicodinamiche (Freud, Jung…).

 Sistemi empirico – intuitivi (Hathaway).
 Teorie incentrate sui tratti (Allport, Cattell) e teoria delle Big Five (Goldberg, Norman).
Gli strumenti per la misura della personalità si rifanno alle diverse concezioni teoriche:
 Le teorie psicodinamiche utilizzano i test proiettivi, fra tutti il test delle Macchie di Rorschach
(1921).
 I sistemi empirico – intuitivi utilizzano il Minnesota Multiphasic Inventory- MMPI (Hathaway e
McKinley, 1989): MMPI-2 (versione corrente) e MMPI-A (versione per adolescenti). Gli item sono
circa 500, misurano moltissimi costrutti e la modalità di risposta è dicotomica. In origine questo test
fu elaborato per individuare e misurare aspetti patologici della personalità. All’interno di questo
test sono presenti anche scale per misurare i Response bias, mirate appunto a identificare e
collocare distorsioni dovute a bias.
 Le teorie incentrate sui tratti e la teoria dei Big Five utilizzano il Sixteen Personality Factor- 16PF
(Cattel, 1961), il Neo Personality Inventory (Costa & McCrae, 1992) e, soprattutto, il Big Five
Questionnaire (BFQ-2, Caprara et al., 2008) suddiviso in cinque sotto-scale: estroversione,
amicalità, coscienziosità, stabilità emotiva e apertura mentale (o apertura all’esperienza).
Come siamo arrivati alla definizione di questi cinque tratti?
L’approccio utilizzato nello studio della personalità, che viene utilizzato per costrutti articolati e multi-
determinati in genere, è l’approccio lessicale. L’idea alla base di tale approccio è rintracciabile nell’ipotesi
della sedimentazione di Cattel del 1945: “Le differenze individuali più salienti e socialmente rilevanti nella
vita delle persone sono codificate nel loro linguaggio; più è importante una differenza, più è probabile che
essa sia espressa con una singola parola”.
Ne consegue che attraverso lo studio del linguaggio possiamo trovare tutte le parole utili a definire le
differenze interindividuali; il lessico è considerato come un “serbatoio” di tutte le parole che descrivono le
differenze individuali di personalità. Procedendo in questo senso, si è creata una classificazione delle
principali caratteristiche di personalità ricavata dai termini contenuti nel linguaggio ordinario, comune. Ciò
che rende questa teoria valida è che essa non è tipica di un contesto linguistico: tale costrutto assume
universalità e estendibilità in quanto le ricerche condotte in contesti linguistici diversi ripropongono gli
stessi tratti, gli stessi termini delle ricerche iniziali. La tesi che si è sviluppata in relazione a tale prospettiva è
quella alla base della teoria dei Big Five: che la personalità possa essere descritta e analizzata basandosi su
cinque dimensioni, tratti universali. Tale modello è uno dei più condivisi e i relativi test sono fra i più
utilizzati.
Il nome riflette il numero dei fattori da cui è composto (Hexaco = 6) e i loro nomi:
• Honesty-Humility (H) • Emotionality (E) • eXtraversion (X) • Agreebleness (A) • Conscientiousness (C) •
Openness to Experience (O)
Test Set di 6 fattori emerso in 12 lingue: inglese, olandese, francese, tedesca, ungherese, italiana, coreana,
polacca, greca, croata, turca, filippina. HEXACO Personality Inventory (HEXACO-PI) Esistono versioni in
molte lingue tra cui quella italiana.
HEXACO-60 (Lee & Ashton, 2009) I test HEXACO sono stati rivisti nel tempo e ridefiniti rispetto al numero di
item (200, 100, 60). Quello più breve è l’HEXACO-60, usato principalmente per scopri di ricerca.
• 60 item 6 scale con 10 item ciascuna: 24 sotto scale con 2/3 item ciascuna.
CONFRONTO NORMATIVO E IPSATIVO

Quando si lavora con un profilo di personalità si possono fare 2 tipi di confronti:
1. Confronto Normativo = Un confronto tra il soggetto e i valori normativi della popolazione di

riferimento.
2. Confronto Ipsativo = Si confrontano i diversi tratti della stessa persona.
Con il confronto normativo si collocano i punteggi rispetto ai percentili del campione di taratura; attraverso
il confronto ipsativo invece si collocano i punteggi nelle sotto scale del test confrontando i percentili tra
loro, ciò è usato soprattutto per confrontare differenze significative nei punteggi dei subtest. Nel confronto
normativo si compara il soggetto con altri soggetti (il campione normativo), nel confronto ipsativo invece il
soggetto è comparato con sé stesso nelle varie scale, questo per vedere ed evidenziare i punti di forza e
altre caratterizzazioni del soggetto.
Un esempio di utilizzo di misure ipsative si ha nel “Time Perspective Inventory”, nel quale si confrontano i
punteggi di una stessa persona su diverse prospettive temporali per delinearne il profilo psicologico
In sintesi:
 Nei test cognitivi, il calcolo del punteggio si basa sulle risposte corrette:
Istruzioni per definire la correttezza o il grado di correttezza con il relativo punteggio (domande
aperte).
Griglia di correzione con i relativi punteggi (domande chiuse).
 Nei test non cognitivi, il calcolo del punteggio dipende dalla modalità prevista per la risposta:
Istruzioni sui punteggi da assegnare alla risposta “vero”, “si” ecc. (scelta binaria).
Istruzioni definite in base alla direzione degli item e alla polarità della modalità di risposta (scala
Likert).
 Sia per i test cognitivi che non cognitivi occorre sapere se gli item confluiscono in:
un unico totale / scale e sotto scale / scale e sotto scale = totale
QUALI SONO LE CARATTERISTICHE DI UN BUON TEST?

Per dire che un test è valido dobbiamo provare che misura ciò che dice di misurare, ovvero che: include
indicatori adeguati del costrutto (validità di contenuto), rappresenta bene il costrutto (validità fattoriale), è
in accordo con altri test validi che misurano la stessa cosa (validità convergente), non misura ciò che non
deve misurare (validità discriminante), predice in modo accurato ciò che il costrutto misurato deve predire
(validità concorrente) e in futuro (validità predittiva). Si può dunque considerare un test buono quando
produce misure stabili se rilevate in tempi diversi, precise e corrispondenti alla realtà. La stabilità e la
precisione sono date dall’attendibilità mentre la corrispondenza con la realtà rappresenta la validità.
Inoltre per considerare un test “buono” ci sono altri 4 aspetti importanti da valutare:
 che lo strumento sia adatto per la fascia d’età da considerare;
 che la versione sia nella lingua originale o ben adattata;
 che la versione scelta sia la più recente;
 che siano documentate le proprietà psicometriche (validità e attendibilità).
COSA SI INTENDE PER NORMATIVITA’
Le norme di un test nel loro complesso costituiscono la “normatività”. Per normatività si intende la
possibilità, fornita da un test, di collocare un individuo rispetto a un gruppo di riferimento. Delle norme
fanno quindi parte le indicazioni, sempre associate al test stesso, per confrontare il punteggio ottenuto da
un individuo con il campione di riferimento, che si chiama appunto campione normativo perché
rappresenta le caratteristiche della popolazione di riferimento, a cui è rivolto il test.
Col termine di norme, quindi, si intende un insieme di regole che permettono l’interpretazione dei risultati
di un test e che sono connesse direttamente con il processo che è stato seguito per la costruzione del test
stesso.
Il confronto del un punteggio ottenuto con quello del campione normativo avviene tramite la
standardizzazione del punteggio con l’utilizzo dei punti Z oppure tramite il calcolo del rango percentile in
cui si colloca la prestazione. Oltre all’interpretazione del punteggio le norme servono anche alla
classificazione in categorie (scala ordinale) e in base a una soglia (scala dicotomica e punteggio di cut-off
per stabilire lo scostamento del soggetto dalla norma).
Per costruire queste norme appunto devo partire da un Campione detto normativo o di taratura che mi
consenta di avere questi parametri di riferimento. Teoricamente per costruire le norme bisognerebbe avere
a disposizione i dati dell’intera popolazione però per motivi pratici questo è impossibile, quindi per questo
si utilizza un campione (rappresentativo). Quest’ultimo deve avere le caratteristiche principali della
popolazione alla quale io mi sto riferendo. Queste caratteristiche sono:
 Età /Genere/ Scolarità/ Area geografica/ Ampiezza adeguata (con campioni piccoli è più facile
discostarsi dalle caratteristiche generali della popolazione di riferimento).
Sia il costrutto che intendo misurare che anche le indicazioni necessarie per l’interpretazione del
punteggio sono dunque fornite dalla base teorica su cui si poggia e su cui viene costruito il test.
COME SI PROCEDE PER LA TARATURA
Come si procede per la taratura (ovvero la costruzione delle norme) di un test:
1. Il test viene somministrato al campione rappresentativo della popolazione
2. Si calcolano le statistiche dei punteggi ottenuti: - Distribuzione - Indici di tendenza centrale, dispersione e
posizione (media, deviazione standard, mediana, percentili)
3. Si usano le statistiche per standardizzare i punteggi al test, ovvero per collocare il punteggio all’interno
della distribuzione di riferimento e in base a come si colloca le possiamo trarre delle indicazioni sul
significato del punteggio, e quindi sulle caratteristiche della persona che lo ha ottenuto
 Punti z (e trasformazioni)
 Ranghi percentili
Tutto questo vale sia per i test cognitivi che non cognitivi, sia che si parli di massima performance che si
performance tipica.
DEFINIZIONE DI STANDARDIZZAZIONE
Un test psicologico è una situazione standardizzata in cui il comportamento di una persona viene
campionato, osservato e descritto, producendo una misura oggettiva e standardizzata.
Assume così un ruolo di prim’ordine per l’interpretazione di un test la standardizzazione. Questa serve a
collocare un punteggio all’interno della distribuzione: in termini di distanza del punteggio dalla media e
individuando la parte della distribuzione che il punteggio lascia dietro di sé (percentili).
La standardizzazione significa riferire la misura (trasformandola) a una scala standard di cui sono noti i
parametri (la scala standard o distribuzione normale standardizzata ha M = 0 e ds = 1).
Per passare dalla scala originaria in punti x a quella standardizzata, si trasformano tutti i punteggi grezzi x in
punti z con la formula: z= x-m / ds. Il punto z indica la distanza dalla media espressa in deviazioni standard
(unità di misura) del punteggio in esame. Un punto z fornisce inoltre indicazioni riguardo valore e segno:
valore= distanza del punteggio dalla M in ds; segno= positivo se il punteggio è sopra M, negativo se il
punteggio è sotto M.
PUNTI Z
Il punto z consente di riferire un punteggio ad una distribuzione normale particolare che è la distribuzione
normale standardizzata. Questa distruzione è teorica ed ha come media = 0 e deviazione standard = 1.
La media e la deviazione standard della popolazione sono quelli che si chiamano i dati normativi o di
taratura che si calcolano quando si costruiscono le norme del test.
Questo tipo di operazione consente di trasformare il punteggio X al test (punteggio grezzo) in Z per poter
dire quanto questo punteggio si discosta da quella che è la media della popolazione. Questa distanza si
misura in deviazione standard. Uso l’indice di dispersione che è la deviazione standard come unità di
misura. Cosi da quantificare in termini più precisi questa distanza dalla media.
Un punto z fornisce indicazione attraverso:
 Valore = distanza del punteggio dalla Media in s (deviazione standard)
 Segno (+) = indica che il punteggio è sopra la Media
 Segno (-) = indica che il punteggio è sotto la Media
Trasformazione da Distribuzione Normale a Distribuzione Normale Standardizzata: Partendo da una

distribuzione con la M e s, prendo ciascun valore x, faccio lo scarto dalla M, lo diviso per la s, e ottengo un
punto z che apparterrà ad una identica distribuzione che però ha media uguale a 0 (lo scarto dalla M della
M è 0) e deviazione standard a 1.
Sapendo poi che una distribuzione normale (o normale standardizzata) ha queste specifiche caratteristiche
possiamo fornire un’interpretazione del nostro punteggio:
 La parte destra è uguale alla sinistra
 Tra + e – 1s intorno alla media ci sta circa il 70% della distribuzione (34% sotto e 34% sopra), tra + e
– 2s oltre il 95% (48% sopra e 48% sotto) e infine, tra + e – 3s oltre il 99% (49,8% sopra e 49,8%
sotto)
DISTRIBUZIONE DI FREQUENZA. COME SI DISTRUBUISCONO I COSTRUTTI?
Alcuni costrutti si distribuiscono in maniera simmetrica con un andamento che è approssimabile a quello
della distribuzione normale (la distribuzione normale è un concetto teorico quindi la forma non sarà
perfettamente la stessa).
Per esempio sia l’intelligenza che tutti i tratti di personalità hanno questo tipo di distribuzione. Quindi la
maggior parte dei casi si concentra intorno alla media (sia sotto che sopra). Piu ci si allontana dalla media
più le frequenze diminuiscono e si vanno a definire le code della distribuzione (dove sono presenti un minor
numero di casi).
Questa distribuzione è simmetrica perché la tendenza centrale divide a metà la distribuzione. Quindi ho un
numero più o meno uguale di casi a destra che a sinistra della media. Questo fa sì che in questo tipo di
distribuzione media e mediana coincidono.
Pero ci sono dei costrutti che non hanno questo tipo distribuzione simmetrica ma sono invece
asimmetriche.
Asimmetria positiva:
Positiva perché la coda della distribuzione è sui valori alti del punteggio al test. Essendoci una
concentrazione sui valori bassi la mediana e la media non coincidono più. La media è leggermente maggiore
perché esistono punteggi estremamente elevati.
Quali sono i costrutti che si distribuiscono in questo modo per esempio?
 Il ragionamento sillogistico sono prove (che fanno parte dei test cognitivi) estremamente
complesse. Per cui nella popolazione non si osserva una distribuzione normale ma osservo che la
maggior parte dei soggetti ha punteggi bassi e solo pochi riescono ad avere punteggi elevati.
 Disturbo patologico del gioco d’azzardo si distribuisce in questo modo (con un andamento
asimmetrico positivo). Perché la maggior parte della popolazione non è affetta da questo disturbo.
Asimmetria negativa:
Negativa perché la coda si colloca sui valori bassi del punteggio al test. Quindi la maggior parte delle
persone si colloca nei punteggi alti. Questa fa sì come al solito che media e mediana non coincidono più e
che la media sia più bassa della mediana perché è abbassata dai valori bassi che stanno nella coda.
Quali sono i costrutti che si distribuiscono in questo modo per esempio?
 Test che misurano deficit cognitivi di apprendimento . Sono test somministrati per esempio ai
bambini per la capacità di lettura. Naturalmente la maggior parte dei bambini supera il test (ottiene
punteggi alti). Cosi da identificare il deficit nella coda della distribuzione.
 Ansia per l’esame. Anche questo costrutto non si distribuisce normalmente perché
tendenzialmente le persone si collocano sui valori alti. Quando c’è una valutazione di solito le
persone tendono ad essere ansiose. Solo pochi rimangono impassibili.
In seguito come si fa a collocare il punteggio all’interno della distribuzione? Esistono 2 strategie:
1. In termini di distanza del punteggio dalla media (punti Z).

2. Individuando la parte della distribuzione che il punteggio lascia dietro di sé (percentili).
La prima strategia si può attuare solamente nel caso di una distribuzione normale. La seconda strategia si
può attuare in entrambi i casi (simmetrica e asimmetrica).
PUNTI T
Proprio come da definizione, è cruciale per un’adeguata interpretazione di un test psicologico la
standardizzazione dei punteggi. Questa serve a collocare un punteggio all’interno della distribuzione della
popolazione di riferimento al quale il soggetto appartiene: in termini di distanza del punteggio dalla media
e individuando la parte della distribuzione che il punteggio lascia dietro di sé (percentili).
La standardizzazione consiste nella trasformazione dei punteggi grezzi x, in punteggi standardizzati z; questi
punteggi che prendono il nome di punti z, possono assumere ulteriori trasformazioni lineari che facilitano le
operazioni di calcolo. Nel caso dei test non cognitivi, come il caso dell’HEXACO, ma anche dell’MMPI e del
BFQ, l’interpretazione avviene trasformando i punteggi Z in punti T e interpretandoli in termini di distanza
dalla media. La scala T ha media=50 e deviazione standard=10, la trasformazione segue la seguente
formula: Y= 50 + 10Z.
QI DI DEVIAZIONE
QI di deviazione Wechsler ha messo a punto un QI di deviazione che consente il confronto tra la
performance ottenuta dall’individuo con quella del campione normativo di riferimento. Si tratta di una
trasformazione lineare eseguita per convenzione.
Queste trasformazioni ci consentono di avere a che fare con valori tutti positivi e questo facilita la gestione
e la praticità nei punteggi.
Il calcolo del QI prevede due passaggi distinti:
 Calcolare z = qui la media e la deviazione standard sono i dati normativi della popolazione di
riferimento.
 Inserire z calcolato nella formula per la trasformazione in QIdideviazione: Y = M + s(z)
 Se è un test d’intelligenza la media di riferimento è 100 e la ds invece è 15.
Elisa ha 40 anni, x=12, m=15, s=5. Calcola il QI e commenta.

Per il calcolo del QI di deviazione si deve utilizzare la scala QI (M=100, S=15) una volta trasformato il
punteggio ottenuto in punteggio Z.
In questo caso per il calcolo del QI si seguono questi passaggi:
1. Calcolo di Z secondo la formula: Z=(X-M) /S (dove M e S sono i parametri del test somministrato, in
questo caso 15 e 5);
2. Calcolo del QI con la formula: QI=100+15*Z.
In questo caso si ottiene: Z= (12-15) /5=-0.6; quindi QI=100+15*(-0.6) =91
Il punteggio finale ottenuto da elisa si discosta di appena 0,6 ds al di sotto della media. Quindi il suo
punteggio lineare T assume un valore di 91 punti. Quindi possiamo dire che il suo punteggio è in linea con la
tendenza centrale della distribuzione campionaria di riferimento, ovvero che il suo QI di deviazione è da
considerarsi nella media.
RANGHI PERCENTILI
Si definisce rango percentile (numero cardinale “1,2, 3…”) o percentile (numero ordinale “primo, secondo,
terzo...”) il valore che indica la porzione del campione normativo che ha ottenuto un risultato inferiore al
punteggio in questione. Consentono di capire dove si colloca un punteggio rispetto agli altri ma, mentre
prima lo facevo utilizzando media e deviazione standard, qui mi baso esclusivamente sulla distribuzione di
frequenza e, nello specifico, vado a vedere quanta parte della distribuzione il punteggio lascia dietro di sé
Come faccio a trasformare un punteggio in un percentile?
 Somministrare il test ad un soggetto.

 Fare lo scoring, calcolare il punteggio grezzo
 Usufruire delle tavole per trasformarlo in percentile.
NORME BASATE SULLA REGRESSIONE
Alcuni test prevedono che il punteggio venga corretto in relazione alle variabili che hanno un’influenza sul
punteggio come età, scolarità, genere ecc... Pensate alle matrici di Raven o alle scale Wechsler, l’età ha un
peso sul punteggio ottenuto perciò lo trasformo in base alle norme in un percentile o in QI di deviazione che
tiene conto di questa variabile (ovvero vado a vedere cosa significa il punteggio rispetto all’età).
Esistono invece, sempre per fare un esempio, test che misurano la depressione dove il genere è la variabile
che ha un effetto sul punteggio; perciò, trasformo il punteggio in un percentile in base alle norme per
sapere cosa significa il punteggio se sei uomo o cosa significa se sei donna. Quando usiamo le norme basate
sulla regressione, il significato è lo stesso ma invece di trasformare il punteggio in qualcos’altro (un
percentile, punto z, punto T o QI) faccio una correzione sul punteggio stesso utilizzando una procedura
dell’analisi di regressione.
REGRESSIONE LINEARE
Nella regressione lineare si analizza la relazione lineare tra una o più variabili:
 Variabili esplicative dette predittori (X) → variabile indipendente (può essere una o più di una)
 Variabile criterio (Y) → variabile dipendente causata dal/dai predittore/i
Conoscendo il predittore posso predire cosa accadrà alla mia variabile criterio. Si parla di regressione lineare
perché la relazione fra X e Y è rappresentabile attraverso una retta. Si misura il grado/forza dell’impatto
della variabile X su Y. L’obiettivo, quindi, è trovare l’equazione lineare che lega Y a X in una relazione causale.
REGRESSIONE SEMPLICE
Nella regressione semplice le variabili sono solo due: un predittore e un criterio. L’obiettivo è trovare
l’equazione della retta che meglio rappresenta i dati. L’equazione di regressione definisce per ogni
variazione di X la corrispondente variazione di Y. La formula è la seguente:
Y = α+βX
 α → intercetta: punto in cui la retta incontra l’asse delle Y; rappresenta il valore di Y se X=0
 β → coefficiente di regressione: inclinazione della retta; rappresenta l’incremento di Y per un

incremento unitario di X
Attraverso l’analisi di regressione possiamo identificare quali variabili hanno un effetto sul punteggio.
Possiamo così correggere i punteggi definendo una formula che ci dice come dobbiamo modificare il
punteggio in base alle caratteristiche del rispondente.
Alcuni test prevedono che il punteggio venga corretto aggiungendo o togliendo una quantità, in modo da
tenere sotto controllo l’eventuale effetto di una o più di queste variabili che possono influire sul punteggio.
In base all’effetto devo apportare una correzione.
CORREZIONE MOCA
Il MOCA, test che ormai conosciamo bene e che misura il funzionamento cognitivo negli anziani prevede
delle norme, nella sua taratura italiana, basate sulla regressione. Ci sono due variabili predittore (x) che
influiscono sul punteggio, età e scolarità. A questo punto quindi occorre aggiustare il punteggio in base alla
regressione per controllare le due variabili predittore età e scolarità. Ne consegue che aggiungo o tolgo una
quantità in base a ciascuna delle variabili. Prendiamo come esempio una popolazione di anziani di età
diverse che si sottopone ad un test MOCA che misura le capacità di calcolo.
X corretto = x + 0.175 (età – 70.08) + 24.3 (1/scolarità – 0.126)
In base all’analisi di regressione fatte sui dati del campione l’età ha un effetto sul punteggio: all’aumentare
dell’età diminuisce il punteggio. Anche la scolarità ha un effetto sul punteggio: più sono scolarizzato, più alto
è il punteggio. I valori 0.175 e 24.3 (i beta) sono i coefficienti di regressione, che definiscono la relazione
lineare tra età e punteggio al MOCA e età media (70 anni) del campione normativo (il primo) e tra scolarità
e punteggio al moca e scolarità media (0.126, circa 8 anni) (il secondo).
La logica è:
• Se l’età è maggiore di 70 dovrò aggiungere qualcosa al punteggio (l’età penalizza il rispondente e quindi gli
aumento di una certa quantità il punteggio) e viceversa.
• Se la scolarità è maggiore di 8, dovrò togliere qualcosa al punteggio (la scolarità avvantaggia il rispondente
quindi diminuisco di una certa quantità il punteggio) e viceversa.
Le combinazioni possono essere quattro:
• Aggiungo in entrambi i casi se entrambe le variabili penalizzano nel punteggio (molto anziano con bassa
scolarità)
• Tolgo in entrambi i casi se entrambe le variabili avvantaggiano nel punteggio (giovane anziano con
scolarità elevata)
• Aggiungo e tolgo se una variabile penalizza e una avvantaggia (molto anziano con scolarità elevata)
• Tolgo e aggiungo se una variabile avvantaggia e l’altra penalizza (giovane anziano con bassa scolarità)
INTERPRETAZIONE
Un test è corredato da norme che definiscono i criteri di lettura dei punteggi ottenuti. Il primo passo per
l’interpretazione del punteggio consiste nella classificazione in categorie, ovvero fasce di punteggio che
rappresentano distinti livelli del costrutto in esame.
Occorre che il test abbia una fondatezza teoria e metodologica che supporta le decisioni prese sulle
categorie. La teoria relativa al costrutto mirato e le tecniche di analisi sono in continua interazione nella
definizione del test e delle sue norme.
CLASSIFICAZIONE IN CATEGORIE
Le categorie, come detto prima, sono fasce di punteggio che rappresentano distinti livelli della caratteristica
in esame. Le categorie si definiscono in base alla distribuzione della caratteristica nel campione attraverso i
valori:
 Distanza dalla media
 Percentili
CLASSIFICAZIONE IN BASE AD UNA SOGLIA
I livelli di interesse talvolta possono essere soltanto due; in quest’ultimo caso si parla di classificazione in
base a una soglia. La soglia è un punteggio al di sopra o al di sotto del quale la caratteristica in esame è
presente, non presente oppure nella norma, deficitaria o patologica.
La teoria e la metodologia consentono di definire queste soglie e di specificare cosa significano, quindi la
teoria e le tecniche psicometriche si combinano per costruire un test.
DUE CATEGORIE
La soglia generalmente si collocale nelle code della distribuzione che possono configurare situazioni di
disagio, disturbo, deficit rispetto al costrutto misurato e al dato normativo della popolazione.
Le due categorie vengono individuate identificando un punteggio detto cut-off, rispetto al quale si ritiene
che la caratteristica in esame non sia posseduta (assente), non sia sufficiente (livello troppo basso) o sia
patologica (livello troppo elevato). Quindi il cut-off rappresenta la soglia.
SPECIFICITA’ E SENSIBILITA’
La definizione del cut-off di un test può avvenire applicando tecniche che consentono di individuare la
sensibilità del test (Sn), ovvero il punteggio sopra/sotto il quale viene indicata la presenza del disturbo, e la
specificità del test (Sp), ovvero il punteggio sopra/sotto il quale viene indicata l’assenza del disturbo. Il test
deve quindi essere sensibile nell’identificare i casi positivi e specifico nell’escludere i casi negativi. Inoltre, il
test deve essere in grado di limitare gli errori, come i falsi positivi e i falsi negativi.
Sn = veri positivi/ veri positivi + omissioni;
Sp = veri negativi/veri negativi + falsi allarmi
Sn e Sp sono in relazione tra loro e devo tenerne conto nella definizione della soglia. Nel definire la soglia
devo trovare quel valore che massimizza la Sn e Sp del test e minimizza falsi allarmi e omissioni.
Purtroppo, questi sono inversamente legati tra loro:
 Se prendi una soglia alta, sono sicura di avere un’elevata specificità (identifico bene i negativi), ma
diminuisce la sensibilità perché aumentano le omissioni.
 Se prendo una soglia bassa, la sensibilità aumenta, ma diminuisce la specificità perché crescono i
falsi allarmi.
Per definire la soglia che consente la classificazione più accurata occorre somministrare il test che misura
un certo disturbo/deficit a:
 Campione di persone SENZA il disturbo/deficit, classificate come tali indipendentemente dal test.
 Campione di persone CON il disturbo/deficit, classificate come tali indipendentemente dal test.
Il campione normativo viene definito includendo persone che non presentano il disturbo/deficit e persone
che invece lo presentano. Questo lo si fa utilizzando altri tipi di valutazione rispetto al test per il quale
vogliamo definire la soglia. In fase di taratura usiamo un campione “particolare” per il quale già sappiamo
chi appartiene ad una categoria e chi all’altra. A questo punto, a tutti viene somministrato il test e calcolato
il loro punteggio. Partendo da un primo valore di soglia (deciso inizialmente su presupposti teorici o a caso),
vado a vedere la classificazione che mi consente di fare il test a confronto con quella “vera”, ovvero con
quella distribuzione del campione normativo che già conosco. Partendo dal presupposto che l’errore non
può essere eliminato definitivamente, confrontando realtà e misura possono verificarsi queste quattro
situazioni:
C’è un disturbo/deficit quando c’è / Non c’è un disturbo/deficit quando non c’è / C’è un disturbo quando
non c’è → falso positivo/falso allarme / Non c’è un disturbo/deficit quando invece c’è → falso
negativo/omissione
Il fatto che un test mi porti a prendere decisioni corrette è fondamentale perché l’errore ha un costo
elevato. Non individuare una patologia (omissione) significa non intervenire, con le conseguenze che
questo può avere. Analogamente, dire ad una persona che è malata quando non è vero (falso allarme), può
essere fortemente destabilizzante.
Per decidere la soglia più adeguata a un determinato disturbo o ad un determinato deficit devo calcolare
Sn e Sp variando il cut-off e, solo in seguito, confrontare i valori che si ottengono per cercare di
massimizzare la sensibilità e la specificità del test e di minimizzare i falsi allarmi e le omissioni.
MOCA
MOCA sta per “Montreal Cognitive Assesment”: si tratta di un test per monitorare il deterioramento
cognitivo (“Mild cognitive impairment”, MCI) di individui oltre i 60 anni di età.
Valuta diversi domini cognitivi: attenzione e concentrazione, funzioni esecutive, memoria,
linguaggio, abilità visuocostruttive, astrazione, calcolo e orientamento
Utilizzato in tutto il mondo: tradotto in 36 lingue e dialetti.
Obiettivo = evidenziare il deterioramento cognitivo lieve (Mild cognitive impairment) che
può essere indicativo di una situazione di rischio per sviluppare patologie, discriminando
soggetti normali da soggetti con deterioramento lieve.
Il test viene suddiviso in 7 prove/compiti principali:
•DENOMINAZIONE (prova verbale-linguaggio)

“Iniziando da sinistra, indicare una figura alla volta chiedendo: Mi dice il nome di
questo animale?”
• ABILITÁ VISUOCOSTRUTTIVE (prova non verbale)
“Copi questo disegno nello spazio accanto e cerchi di farlo il meglio possibile.”
• ABILITÁ VISUOCOSTRUTTIVE (prova non verbale – Clock Drawing Test)
“Disegni un orologio tipo sveglia, un po’ grande con tutti i numeri delle ore. Disegni
le lancette in modo che indichino le ore undici e dieci.”
• ATTENZIONE (selettiva su stimolo target)
Leggere la lista di lettere (una al secondo) dopo aver dato le seguenti istruzioni:
“Leggerò una serie di lettere. Ogni volta che dico la lettera A dia un colpetto sul
tavolo con la mano. Se dico una lettera differente non dia alcun colpetto.”
• ATTENZIONE (sostenuta – parte del Trail Making Test)
“Come vede abbiamo dei numeri crescenti da 1 a 5 e lettere crescenti dà A ad E. Per
favore, disegni una linea che unisca il primo numero con la prima lettera
corrispondente alternando numeri e lettere in ordine crescente e così via. Inizi qui
(indicare il punto) dal punto “1” e unisca con una linea il punto “1” alla lettera
“A” e poi dalla “A” tracci una linea sino al “2” e continui così fino alla lettera “E”
(indicare il punto “E”)”
• MEMORIA (recupero immediato)
Leggere le 5 parole (una al secondo), dopo aver dato le seguenti istruzioni: “Questa
è una prova di memoria. Le leggerò un elenco di parole che lei dovrà ripetere ora e
più tardi. Ascolti attentamente. Quando avrò finito, mi dica tutte le parole che riesce
a ricordare. Non importa l’ordine in cui le dice.” Poi ripete la prova (rileggendo le
parole) e alla fine informare che queste parole verranno richieste nuovamente,
dicendo: “Le chiederò di ricordare ancora queste parole fra qualche minuto”
• MEMORIA (recupero differito + riconoscimento)
Dopo qualche minuto l’esaminatore dà le seguenti indicazioni:” Prima le ho letto
alcune parole che le avevo chiesto di tenere in mente. Adesso mi dica tutte le parole
che riesce a ricordare” (se non ricorda tutte o alcune dare suggerimenti prima, poi
far riconoscere tra le tre opzioni).
Nelle slide “Lab-MOCA” sono riportati tutti i domini considerati e i relativi subtest. È un test di screening
che necessita di una correzione in fase di calcolo del punteggio. Si è osservato infatti che nella popolazione
italiana due fattori in particolare influenzano il punteggio ottenuto: la scolarità e l’età del soggetto che si
sottopone al test. Ci sono quindi delle norme basate sulla regressione ideate per questo test, per passare
dal punteggio grezzo (X) a quello corretto (X corretto) si deve seguire questa formula:
X corretto = x + 0.175 (età – 70.08) + 24.3 (1/scolarità – 0.126)
Una volta calcolato il punteggio corretto con i valori di scolarità ed età si deve interpretare il punteggio
ottenuto collocando il soggetto nella categoria corrispondente. Le categorie sono:
0-17,362 sotto norma/ 17,363-19,500 Border line / >19,501 nella norma
Esistono molte versioni linguistiche del test MOCA per le quali sono state identificate soglia e categorie per
la definizione del funzionamento cognitivo normale e deficitario. La procedura descritta prima è stata
applicata per il test MOCA nei suoi vari adattamenti per popolazioni diverse. Infatti, nelle norme del test,
oltre alla correzione sulla regressione, ci sono indicazioni per classificare in base al livello di deterioramento
cognitivo poiché questo è il fine ultimo del test: screening, per capire se una persona anziana ha abilità
cognitive nella norma o se presenta decadimento cognitivo.
Per definire la soglia, il campione normativo o di taratura è stato formato includendo individui che sono
stati classificati (prima del test MOCA) come:
 Campione di persone con funzionamento normale
 Campione di persone che hanno qualche tipo di deficit cognitivo:
- Deterioramento cognitivo lieve (Mild Cognitive Impairment – MCI)

- Deterioramento cognitivo severo (Alzheimer - AD)
Con questi studi per identificare il cut-off sono state identificate tante soglie diverse a seconda della
popolazione di riferimento. Per la versione italiana del MOCA, la soglia proposta dai costruttori del test
portava a classificare deficit cognitivi per il 74% del sottogruppo precedentemente definito nella norma.
Questo vuol dire che quella soglia è eccessivamente alta per la popolazione italiana e quindi gli autori della
taratura italiana ne hanno proposta un’altra, molto più bassa. I criteri forniti per classificare i rispondenti
sono questi: la soglia è 17.362, ovvero al di sotto di questo valore (categoria 0) la persona presenta un
deterioramento cognitivo. Il test MOCA ha il cut-off al valore 17.362 e definisce 5 categorie:
 0: 0-17.362, presenza di deterioramento cognitivo;

 1: 17.363-19.500, categoria borderline;
 2: 19.501-21.562, valori nella norma;
 3: 21.563-23.361, valori nella norma;
 4: 23.361, valori oltre la media/mediana
Prima devo correggere il punteggio, poi cercarlo nella tabella per definire:
 Se è sopra o sotto soglia
 A quale categoria appartiene
Tuttavia alcuni test non hanno una vera e propria taratura (norme) e sono:
 Test non diagnostici
 Test utilizzati per scopi di ricerca
 Test con punteggio interpretato in base al campo di variazione teorico
Esistono test senza norme chaimati test non standardizzati e sono limitati a certi contesti, soprattutto in
ambito di ricerca. Cioè quando voglio studiare dei costrutti e le loro relazioni e non c’è l’interesse a fare una
classificazione o di identificare le specifiche caratteristiche di un individuo.
BECK DEPRESSION INVENTORY-II
Il BDI-II è uno strumento self-report che misura la depressione a partire dai 13 anni di età. Si compone di 21
item che descrivono i sintomi e la loro gravità (scala da 0 a 3) secondo la definizione di depressione della 4°
edizione del manuale diagnostico statistico dei disturbi mentali (DSM-IV). Gli item possono essere:
 Item relativi all’area somatico affettiva: alterazioni del sonno, dell’appetito, perdita di energie e
piacere.
 Item relativi all’area cognitiva: pessimismo, autocritica, senso di colpa, senso di fallimento.
Il totale dei punteggi è poi trasformato in percentili. Un punteggio totale al BDI-II corrispondente ad un
percentile:
 Inferiore all’85° (assenza) → da considerarsi indicativo di assenza di un livello di depressione di

significato clinico.
 Tra l’85° e il 90° (rischio) → indica una condizione di disforia (alterazione dell’umore in senso
negativo) al confine con aspetti di tipo patologico; la persona è vulnerabile alla depressione ed è
possibile un’evoluzione in senso patologico; non si esclude che la persona possa rientrare sotto-
soglia senza particolari interventi.
 Tra il 91° e il 95° (lieve) → situazione di disforia che comporta chiaramente un disagio e difficoltà
per la persona; è auspicabile una valutazione più specifica sui singoli item del test per valutare gli
aspetti specifici che sono fonte di maggiore sofferenza per la persona.
 Oltre il 95° (da moderata a grave) → indica una situazione di particolare difficoltà e una condizione
depressiva che in alcuni casi potrebbe essere particolarmente grave; necessità di una indagine più
approfondita e di intervento specialistico.
Anche il test SOGS-RA, che misura il comportamento problematico nel gioco d’azzardo negli adolescenti,
interpreta i punteggi trasformandoli in percentili:
• Inferiore all’85° (non problematico) → assenza o presenza irrilevante di sintomi di rischio o dipendenza.
• Tra l’85° e il 94° (a rischio) → presenza di alcuni sintomi indici di dipendenza che possono rappresentare
un fattore di rischio; il numero limitato di sintomi non consente di configurare la condizione come
patologica ma identifica una situazione di potenziale criticità.
• 94° (problematico) → presenza significativa di sintomi indici di dipendenza che identificano il

comportamento di gioco d’azzardo come un disturbo, ovvero l’individuo è cronicamente incapace di
resistere all’impulso di giocare d’azzardo e il gioco d’azzardo compromette, distrugge o danneggia la vita
personale, familiare e lavorativa/scolastica.
In base al costrutto e alle sue caratteristiche devo giustificare e spiegare i livelli definiti dal test, quindi cosa
significa appartenere ad una categoria piuttosto che ad un’altra.
CHE COSA SI INTENDE PER PUNTEGGIO VERO? TCT, LE SUE ASSUNZIONI, L’ERRORE CASUALE
La Teoria Classica dei Test (TCT) definisce l’errore casuale come un errore che non può essere identificato e
evitato, che si presenta in modo imprevedibile e varia da misurazione a misurazione. Alla base di questa
teoria abbiamo il concetto che l’errore varia in modo casuale. Il punto di partenza della TCT è: ogni misura
ottenuta attraverso un test è composta da una parte vera e una parte di errore. La TCT è composta di tre
assunzioni:
Assunzione I La media degli errori (E) di misurazione è uguale a 0 = siccome variano da misura a misura e
possono essere in eccesso e difetto, tendono ad annullarsi. In teoria, avrei la lunghezza vera se facessi
misure infinite, in pratica quello che posso fare è avere un certo numero di misurazioni (più sono e più
precisa sarà la misurazione) per ottenere una buona approssimazione della misura vera e limitare l’errore.
Assunzione II I punteggi veri (V) e gli errori (E) di misurazione sono tra loro indipendenti → l’errore non ha
nessuna relazione con la quantità/caratteristica che sto misurando.
Assunzione III Gli errori di misurazione (E) in somministrazioni indipendenti sono indipendenti → l’errore
casuale non è lo stesso da una rilevazione all’altra.
La parte vera è quindi il valore reale del costrutto che si intende misurare, ma non viene mai ottenuto da
una misurazione tramite test proprio per la presenza dell’errore casuale che, essendo ineliminabile, può
solo essere contenuto (somministrando più item per misurare uno stesso costrutto e i suoi indicatori) e
quantificato (più somministrazioni dello stesso test alla stessa persona o a persone diverse).
ERRORE CASUALE = Non può essere previsto ed evitato, si presenta in modo imprevedibile, varia da
misurazione a misurazione.
L’errore casuale rende la misura imprecisa, quindi quando si costruisce il test occorre trovare un modo per
contenerlo, visto che non si può eliminare, e cercare anche di quantificarlo in qualche modo al fine di avere
un’idea su quanto è precisa la misurazione ottenuta attraverso il test.
• Per contenere l’errore casuale nel test dobbiamo ripetere più volte le misure sapendo che quante più
misurazioni faccio, tanto migliore sarà la misura finale perché gli errori si annullano. In un test infatti
abbiamo più item (domande) che misurano un costrutto al fine di contrastare l’impatto dell’errore di
misura.
• Per quantificare l’errore nel test facciamo delle analisi su misurazioni ottenute da persone diverse, oppure
considerando misure ripetute più volte con le stesse persone.
Per quantificare l’errore casuale, e quindi la precisione dello strumento a fronte di E, si utilizza il
coefficiente rtt di attendibilità, che è utilizzato anche nella formula per stimare il punteggio vero: V=Mx +
rtt(x-Mx), dove Mx è la media del test e x è il punteggio ottenuto.
ERRORI SISTEMATICI
ERRORE NON CASUALE O SISTEMATICO = Componente di errore che va sempre nella stessa direzione.
L’errore non casuale nella somministrazione di un test può e deve essere corretto. Quali possono essere le
fonti dell’erroe sistematico? Possono essere a carico:
 Intervistatore (1)
 Intervistato (2)
 Strumento (3)
 Situazione nella quale io somministro il test (4)
1. SOMMINISTRAZIONE = L’intervistatore fornisce delle istruzioni scorrette a chi deve rispondere.
Oppure raccoglie le risposte/dati in modo sbagliato.
SCORING = L’intervistatore applica istruzioni in modo scorretto nella correzione di un test. Oppure
più banalmente commette degli errori di calcolo del punteggio.
2. CATTERISTICHE DEL RISPONDENTE CHE INVALIDANO LA PROVA = Limiti motori/visivi/uditivi ,

eccessiva ansia o timore , scarsa applicazione , scarsa attenzione , response set o style.
3. UNO STRUMENTO PUO’ ESSERE IN QUALCHE MODO COSTRUITO SCORRETTAMENTE = Item con
errori lessicali , istruzioni non chiare , moduli poco leggebili.
4. IL TEST PUO’ ESSERE SOMMINISTRATO IN CONDIZIONI NON IDONEE = Ambiente rumoroso,
ambiente con continue interruzioni , mancanza di tempo necessario.
Quindi questi errore vanno individuati e corretti. Quello che invece non si può fare con l’errore casuale
perché io non lo posso identificare, si presenta in modo imprevedibile e varia da misurazione a misurazione.
L’ATTENDIBILITA’
L’Attendibilità (Reliability) o Affidabilità o Fedeltà è la proprietà psicometrica del test che riguarda la
precisione con cui lo strumento misura un costrutto a fronte dell’errore casuale di misurazione. Questo lo si
fa esaminando la variabilità (varianza) nei punteggi osservati per stabilire se il punteggio del test è una
misura attendibile, ovvero di capire quanta parte della misura osservata è riconducibile alla parte vera e
quanta all’errore. Se X = V + E, dato un insieme di punteggi:
Ricordando che il punteggio X (σ²x) è dato dalla somma della parte vera V e dall’errore E, la varianza dei
punteggi X sarà data dalla somma della varianza di V(σ²v) e di E(σ²E). Quindi posso pensare che la misura sia
attendibile se la varianza di V è grande e quella di E è piccola. Ciò significa che la variabilità nei punteggi è
frutto delle vere differenze individuali e dipende in minima parte dalla componente di errore, ovvero dalle
variazioni dovute al caso. Un test deve cogliere le reali differenze che esistono nelle abilità, nei tratti, negli
atteggiamenti e nelle attitudini delle persone, e le differenze nei punteggi devono esprimere queste
differenze e solo in minima parte dovute all’errore casuale di cui la misura è affetta. Quindi per cercare di
capire se un test è attendibile devo cercare di capire quanto è la varianza vera e quella d’errore.
Coefficiente di attendibilità rtt
È un valore che esprime il grado di impermeabilità all’errore di misurazione.
Come si vede dalla formula, è dato dal rapporto tra varianza vera e varianza dei punteggi osservati. Questo
rapporto può andare da 0 a 1, essendo il rapporto tra due quantità uguali (σ²v) con l’aggiunta a
denominatore della varianza di E. Da qui si capisce che tanto è più piccola σ ² E, tanto più questo valore si
avvicina a 1, senza mai raggiungerlo perché l’errore c’è sempre. Il problema è che non posso quantificare
né l’una né l’altra poiché l’errore casuale è incontrollabile, inevitabile e imprevedibile e, di conseguenza,
non posso conoscere esattamente la parte vera. L’unica cosa che sappiamo è la varianza di X, ovvero dei
punteggi osservati. Se la varianza vera non possiamo conoscerla, possiamo però utilizzare misure di
covarianza o correlazione tra i valori X perché applicando la II e III assunzione della TCT sappiamo che la
parte vera è indipendente dall’errore e gli errori, in misurazioni diverse, sono indipendenti tra di loro.
Questo vuol dire che se misure dello stesso costrutto covariano o correlano tra loro, l’entità o la forza della
covariazione/correlazione dipende esclusivamente dalla parte vera dal momento che, per definizione, gli
errori sono tra loro indipendenti.
Quindi l’attendibilità di un test si valuta andando a vedere se misure dello stesso costrutto sono in relazione
tra di loro. Se lo sono vuol dire che sto misurando in modo preciso la parte vera che è l’unica responsabile
della covariazione/correlazione, sapendo che gli errori non sono in relazione tra loro. Se la correlazione è
alta significa che sto misurando bene, se la correlazione è bassa vuol dire che c’è tanto errore nelle misure.
Come si ottengono più misure dello stesso costrutto con un test?
Coerenza interna
Si utilizzano più item della stessa scala come indicatori del costrutto. La coerenza interna è un indice
dell’attendibilità del test poiché si va ad indagare quanto covariano tra loro gli item che lo compongono.
Misurando la coerenza interna si pone l’attenzione sui singoli item. La covarianza tra item sarà tanto più
elevata tanto più gli item condividono la parte vera poiché, per la II e III assunzione della TCT, gli errori sono
indipendenti (non variano tra loro). Si calcolano dei coefficienti che esprimono quantitativamente la
precisione/attendibilità del test. Ci sono diversi indici di coerenza interna, il più famoso è l’Alfa di Cronbach:
Questo indice infatti, per come è calcolato matematicamente, dipende dal numero di item: all’aumentare
del numero di item la coerenza interna aumenta indipendentemente da quanto siano buoni gli item o
preciso il test. Ciò vuol dire che tanti più elementi metto, tanto più alfa aumenta, ma non è detto che
questo corrisponda ad un effettivo aumento dell’attendibilità del test nel suo complesso. Nella costruzione
del test l’obiettivo è:
 Definire il numero di item necessari per misurare il costrutto riducendo l’impatto dell’errore
casuale.
 Evitare che il numero di item sia tale da aumentare in modo artificiale la coerenza interna.
Criteri per l’interpretazione dell’Alfa di Cronbach: • α < .70 → insufficiente • .70 < α < .80 → adeguata • .80
< α < .90 → buona • α > .90 → eccellente → il valore minimo è .70
Quando valuto la coerenza interna del test posso considerare l’indice complessivo (alfa di Cronbach) e
posso anche stabilire quanto ogni item del test contribuisce alla precisione del test andando a vedere due
cose:
 Quanto l’item correla con il punteggio totale calcolato senza considerare quell’item;
 Cosa succede alla coerenza interna del test se tolgo quell’item?
1. Se alfa aumenta significa che l’item non contribuisce alla coerenza interna
2. Se alfa diminuisce significa che l’item contribuisce alla coerenza interna
Quindi:
 La correlazione item totale deve essere > .30 perché si possa dire che l’item contribuisce alla
coerenza del test. Altrimenti è come dire che quell’item non covaria con gli altri, quindi non
contribuisce alla precisione della misura (è alta la componente di errore nelle risposte a quell’item).
 L’alfa, se l’item è escluso, non ha una soglia di riferimento ma dipende dall’alfa calcolato per il test
e si valuta se quello che si ottiene quando l’item è escluso è minore o maggiore di quell’alfa.
Stabilità temporale - test-retest

Si ripete la somministrazione dello stesso test allo stesso campione a distanza di tempo. Il lasso di tempo
suggerito è di 3-4 settimane, ma in generale non deve essere:
 Troppo breve perché si ricordano le precedenti risposte e il coefficiente risulta essere una sovra-
stima dell’effettiva stabilità della misura.
 Troppo lungo perché possono intervenire fattori che modificano il costrutto misurato. In questo
caso si considera il punteggio totale e non i singoli item e si correlano le misure ottenute al tempo 0
(test) e al tempo 1 (retest).
La misura dell’attendibilità test-retest è data dalla correlazione di r di Pearson tra i punteggi delle due
somministrazioni. I punteggi saranno correlati tra loro nella misura in cui condividono la parte vera (per la
III assunzione). Siccome è la parte vera che correla, tanto più sarà alta questa correlazione tra misura
rilevate in tempi diversi, tanto maggiore sarà la precisione dello strumento. Come dice la III assunzione, gli
errori in misure raccolte in tempi diversi sono tra loro indipendenti (non correlano).
I criteri per l’interpretazione per l’r di Pearson sono: • r < .60 → insufficiente • .60 < r < .70 → adeguata
• .70 < r < .80 → buona • r > .80 → eccellente → il valore minimo è .60
Come viene riportata l’attendibilità
Quando si descrivono le caratteristiche psicometriche di un test occorre riportare misure di attendibilità:
 Coerenza interna → Alfa di Cronbach
 Stabilità temporale → Correlazione – r di Pearson
L’attendibilità viene calcolata e riportata in base a come è fatto il test.
 Se un test ha una sola dimensione (Matrici Raven o LOT-R test), avrò un solo indice di coerenza
interna o stabilità temporale.
 Se invece il test prevede due o più scale e un totale (scale Wechsler o SES test), gli indici di
attendibilità devono essere riportati per l’intero test e per ogni dimensione.
 Infine, se il test ha scale non sommabili (HEXACO test o Time Perspective Inventory), devo riportare
gli indici per ogni dimensione misurata dal test, ma ovviamente non per il totale che non viene
calcolato.
Quando il test si compone di scale e sotto-scale come nel test HEXACO, gli indici di attendibilità vengono
riportati per ognuna scala e sotto-scala. Poiché il totale non è previsto, non esiste un indice di attendibilità
totale. Talvolta l’attendibilità viene calcolata su campioni diversi ma che hanno un senso rispetto al
costrutto misurato.
Stima puntuale del punteggio vero (V)
L’indice di attendibilità, qualsiasi esso sia, può servire per calcolare la stima puntuale di V. Per calcolarlo
occorre conoscere: • Media del test Mx • Indice di attendibilità rtt • Punteggio osservato
X Errore standard di misurazione σE
L’indice di attendibilità, qualsiasi esso sia, può anche servire per calcolare l’errore standard di misurazione
che definisce la variabilità dei punteggi osservati attorno a quello vero. Per calcolarlo occorre conoscere:
• Deviazione standard del test sx • Indice di attendibilità rtt
Stima intervallare del punteggio vero (V)
Possiamo definire un intervallo, detto intervallo di fiducia, l’intervallo entro il quale ricade il punteggio vero
con una determinata probabilità. Con la stima intervallare stimo gli estremi di un intervallo di valori entro il
quale probabilmente ricade il punteggio vero. Gli estremi sono detti limiti di fiducia:
 Limite Inferiore → sotto il punteggio osservato X
 Limite Superiore → sopra il punteggio osservato X
Il livello di fiducia è la probabilità che il punteggio ricada nell’intervallo definito dai limiti di fiducia.
La scelta del livello è fissata a priori:
 Minore livello → intervallo meno ampio
 Maggiore livello → intervallo più ampio
Livelli di probabilità utilizzati: • 90% • 95% • 99%
Come si calcola l’intervallo?
Dalla formula si vede che il limite inferiore e superiore sono due valori sotto/sopra il punteggio osservato X
ed equidistanti da esso. Infatti da X devo togliere o aggiungere una stessa quantità. Come ottengo questa
quantità?
 Usando l’errore standard di misurazione (σE = sx √1-rtt)
 Rifacendomi alla proprietà della distribuzione normale, che mi consentono di identificare un valore
zeta corrispondente al livello di fiducia scelto. Questi valori di z sono fissi.
Valori di z:
 Livello del 90% → z = -1.65; z = +1.65 → Corrispondenti alla porzione di area attorno alla media
uguale al 90% della distribuzione.
COSA VALUTA L’ALFA DI CRONBACH
Lo studio delle proprietà psicometriche permette di capire se un test misura realmente ciò che dice di
misurare e se lo fa in modo accurato attraverso i suoi indicatori: validità e attendibilità. Tra i metodi di
studio dell’attendibilità si trova quello relativo alla coerenza interna, ovvero il grado di coerenza o
concordanza tra gli item che compongono un test. Ciò si può studiare e quantificare attraverso l’alfa di
Cronbach, un indice (usato per gli item su scala metrica).
L’alfa di Cronbach tende ad aumentare all’aumentare del numero degli item, i quali fanno alzare il livello
indipendentemente dalla precisione. L’alfa di Cronbach ha dei criteri per stabilire l’attendibilità: <0.70
insufficiente; tra 0.70 e 0.80 adeguata; tra 0.80 e 0.90 buona; >0.90 eccellente.
Quando valuto la coerenza interna del test posso considerare l’indice complessivo (alfa di Cronbach) e
posso anche stabilire quanto ogni item del test contribuisce alla precisione del test andando ad osservare
due fattori:
• Quanto l’item correla con il punteggio totale calcolato senza considerare quell’item;
• Cosa succede alla coerenza interna del test se tolgo quell’item?
1. Se alfa aumenta significa che l’item non contribuisce alla coerenza interna
2. Se alfa diminuisce significa che l’item contribuisce alla coerenza interna
COS’E’ LA CORRELAZIONE?
Per correlazione si intende la relazione tra due variabili tale che a ciascun valore della prima corrisponda un
valore della seconda, seguendo una certa regolarità. Questo può essere inteso anche tra due eventi: al
verificarsi dell’uno si registra l’avvenirsi anche dell’altro. A proposito dei test la correlazione entra in gioco a
riguardo della validità di criterio, la quale può essere misurata mediante il coefficiente di correlazione: tra
0.20 e 0.34 adeguata; tra 0.35 e 0.50 buona; >0.50 eccellente.
Entra in gioco anche nella validità di costrutto, infatti per misurare la validità convergente e quella
discriminante si usa il coefficiente di correlazione: una correlazione elevata con misure dello stesso
costrutto è indice di validità convergente; una correlazione bassa con misure di costrutti diversi indica una
validità discriminante.
Per indice di correlazione spesso si usa la “correlazione R di Pearson” tra punteggi di due somministrazioni
diverse. La correlazione va da 0 a 1: <0.60 insufficiente; tra 0.60 e 0.70 adeguata; tra 0.70 e 0.80 buona;
>0.80 eccellente.
CHE COSA SI INTENDE PER VALIDITA’DI UN TEST? SPIEGA TUTTE LE SUE CLASSIFICAZIONI.
La validità di contenuto si riferisce alla misura in cui gli item del test costituiscono un campione
rappresentativo degli indicatori comportamentali del costrutto che si intende misurare.
Questo tipo di validità è valutata da persone esperte come psicologi e psichiatri e sarà alta se il costrutto è
rappresentato dal test in maniera esaustiva; spesso il criterio di valutazione è il DSM (Diagnostic and
Statistical Manual of Mental Disorders), in cui i costrutti sono definiti nelle loro caratteristiche e nei loro
sintomi.
La validità di un test può essere classificata in 3 aspetti fondamentali:
La validità di contenuto è inerente al grado con cui gli item del test costituiscono un campione
rappresentativo degli indicatori comportamentali del costrutto che si vuol misurare. Esiste un passaggio
dalla definizione teorica a quella operativa che include la specificazione degli indicatori che poi saranno
tradotti in item.
La validità di contenuto è soddisfatta quando il costrutto è rappresentato in modo esaustivo:
• Inclusione di aspetti fondamentali • Esclusioni di aspetti irrilevanti/non necessari
La validità di costrutto è inerente al grado in cui il test misura adeguatamente ciò che intende misurare.
Viene dimostrata provando che il test misura un certo costrutto perché è ben rappresentato rispetto alle
sue specifiche caratteristiche e che misura proprio quel costrutto e non altri.
La validità di costrutto è soddisfatta quando si hanno prove del fatto che il test ha:
• Validità interna (o fattoriale) rappresenta adeguatamente il costrutto
• Validità esterna misura proprio quel costrutto e non altri.
La validità fattoriale/interna si misura studiando la dimensionalità del test tramite analisi fattoriale, che
permette di capire tramite le covariazioni di più variabili se è presente una variabile latente (il costrutto
misurato) che determina le risposte e che può a sua volta essere costituita da più fattori. Se la struttura che
si crea rispetta le attese e la definizione teorica del costrutto allora la validità fattoriale è alta.
È relativa al grado in cui il test rappresenta il costrutto ricalcandone la definizione teorica. Come sappiamo,
ci sono costrutti che hanno una sola dimensione, mentre altri hanno più dimensioni. Questo vuol dire che
un test si compone di tanti item che confluiscono in un’unica misurazione, oppure da tanti item che si
raggruppano in sotto-scale diverse e che misurano le varie dimensioni del costrutto. La validità intera o
fattoriale riguarda quindi lo studio della dimensionalità del test che deve riprodurre le dimensioni del
costrutto.
Al solito, ci si riallaccia all’intreccio tra teoria e misura. La teoria ci dà indicazioni per costruire uno
strumento per misurare un certo costrutto. Una volta definito lo strumento raccogliamo le misure
attraverso i suoi item e dall’analisi di queste dobbiamo capire se ritroviamo il costrutto che volevamo
misurare. Rispetto alla validità di contenuto in cui facciamo un’analisi prima di somministrare il test per
capire se rappresenta bene il costrutto, con la validità di fattoriale facciamo un’analisi dopo aver
somministrato il test, sempre per capire se rappresenta bene il costrutto.
Dimensionalità: L’analisi della dimensionalità fornisce prove alla validità di costrutto interna. Per portare
prove a favore della validità interna o fattoriale si usa l’analisi fattoriale, un’analisi statistica che consente di
analizzare le risposte agli item per risalire al costrutto. Esiste quindi un’ulteriore differenza con la validità di
contenuto. La validità di contenuto richiede un’analisi qualitativa di quanto il test rappresenta bene il
costrutto, mentre la validità di costrutto richiede un’analisi quantitativa per dimostrare la stessa cosa.
Validità esterna. Esistono due tipi di validità esterna:
• Validità convergente Rappresenta un accordo tra la misura ottenuta con il test e altre misure dello stesso
costrutto ottenute con altri test. Uso il coefficiente di correlazione: se il test misura quello che dice di
misurare devo osservare una correlazione forte con misure dello stesso costrutto. La validità di un costrutto
convergente si interpreta: • valori < di .55 → inadeguata • valori tra .55 e .64 → adeguata • valori tra .65
e .75 → buona • valori > .75 → eccellente
• Validità discriminante Rappresenta la distinzione tra la misura ottenuta con il test e misure di altri
costrutti ottenute con altri test. Uso il coefficiente di correlazione: se il test misura quello che dice di
misurare devo osservare una correlazione debole con misure di costrutti diversi. La validità di un costrutto
discriminante non si interpreta in base a criteri fissi poiché dipende da quali sono gli altri costrutti.
La validità di criterio si valuta rispetto ad un criterio, ovvero un costrutto esterno ritenuto teoricamente
connesso con il costrutto misurato dal test. Il criterio, in termini statistici, è rappresentato da una variabile
che si voglia spiegare e/o predire in base ad un’altra.
Il test per il quale devo dimostrare la validità di criterio misura il predittore. La scelta del criterio è cruciale:
• Il criterio deve essere teoricamente giustificato
• La teoria deve supportare la definizione di ipotesi in merito alla relazione tra test e criterio/i
Ci sono due tipi di validità di criterio:
• Validità di criterio concorrente Comporta la rilevazione contemporanea del predittore e del criterio
• Validità di criterio predittiva Comporta la rilevazione del predittore a cui segue a distanza di tempo la
rilevazione al criterio La validità di criterio può essere misurata mediante la regressione o il coefficiente di
correlazione. I valori si interpretano così: • valori tra .20 e .34 → adeguata • valori tra .35 e .50 → buona •
valori > .50 → eccellente
DIMENSIONALITA’
La validità intera o fattoriale riguarda quindi lo studio della dimensionalità del test che deve riprodurre le
dimensioni del costrutto. Dimensionalità: L’analisi della dimensionalità fornisce prove alla validità di
costrutto interna. Per portare prove a favore della validità interna o fattoriale si usa l’analisi fattoriale,
un’analisi statistica che consente di analizzare le risposte agli item per risalire al costrutto. Esiste quindi
un’ulteriore differenza con la validità di contenuto. La validità di contenuto richiede un’analisi qualitativa di
quanto il test rappresenta bene il costrutto, mentre la validità di costrutto richiede un’analisi quantitativa
per dimostrare la stessa cosa.
Lo studio della dimensionalità si lega all’attendibilità:
• Una dimensione = indice unico Punteggio totale se osservo un solo fattore/dimensione Quando vado a
verificare l’attendibilità devo considerare tutti gli item insieme sotto un indice unico.
• Dimensioni correlate = indice unico e per ciascuna dimensione Punteggi per le sotto-scale e la possibilità
di sommarli in un totale se osservo fattori/dimensioni non correlati/e Quando vado a verificare
l’attendibilità devo calcolare l’indice per ogni sotto scala e un indice per il totale.
• Dimensioni non correlate = indice per ciascuna dimensione Punteggi per le scale che non possono essere
sommati se osservo fattori/dimensioni non correlati/e Quando vado a verificare l’attendibilità devo
calcolare un indice per ogni scala.
ANALISI FATTORIALE
Attraverso l’analisi fattoriale si esamina la varianza comune (covariazioni) ad un insieme di variabili
osservate (risposte agli item), riconducendola ad una variabile latente (costrutto misurato) che causa le
risposte e che può essere costituito da una o più dimensioni (fattore/i). In sintesi, esaminiamo le risposte
per identificare se c’è un fattore/i che le causa.
Si opera un passaggio da uno spazio con n dimensioni (n = numero delle risposte agli item) a uno più ridotto
con m dimensioni (m = numero dei fattori identificati dall’analisi). Il risultato può indicare uno, due, tre o
più fattori che dovranno poi corrispondere alla/e dimensione/i descritte nella definizione teorica del
costrutto. I risultati dell’analisi fattoriale devono corrispondere alle attese:
• Costrutto = fattore/i. Analizzando le relazioni tra le risposte agli item, ritrovo le dimensioni del costrutto?
• Indicatori (item) = fattore. Analizzando le relazioni tra le risposte agli item, ritrovo che ogni dimensione
del costrutto è misurata attraverso i suoi indicatori?
Se osservo/confermo queste corrispondenze, il test ha validità di costrutto interna. Nel caso ci siano più
fattori, l’analisi fattoriale mi dice anche se:
• Sono in relazione tra loro (freccia bidirezionale), ovvero se il costrutto si compone di due dimensioni
correlate.
• Non sono in relazione tra loro (nessuna freccia), ovvero se il costrutto si compone di due dimensioni non
correlate.
MMPI
MMPI sta per “Minnesota Multiphasic Personality Inventory”. Sono presenti due versioni del test, una per
adulti (l’MMPI-2), ottenuta a seguito di una revisione interna ed esterna dell’MMPI originario, e un’altra per
adolescenti (l’MMPI-A). Gli item sono circa 500 per questo test. La modalità di risposta è dicotomica.
Si tratta di un test utilizzato per valutare le maggiori caratteristiche strutturali di personalità e i disordini di
tipo emotivo con necessità di un colloquio clinico affiancato. È composto da diversi tipi di scale:
 6 SCALE DI VALIDITA’: utili per capire l’accettabilità del protocollo e la difesa attuata dal soggetto
(scala LIE, scala K (correzione), scala VRIN/TRIN (incoerenza risposte).
 10 SCALE CLINICHE DI BASE: si tratta di 10 scale che corrispondono a 10 categorie psicopatologiche

diverse (scala Hs (ipocondria), scala D (depressione), scala Hy (isteria)…), raggruppate in 3 aree:
neurotica, bipolare e psicotica.
 12 SCALE SUPPLEMENTARI: misurano costrutti diversi da quelle precedenti ma importanti per il

profilo psicologico del soggetto, approfondendo la natura dei disturbi. Esempi: Ansietà (scala A),
Repressione (scala R) e forza dell’Io (scala ES).
 15 SCALE DI CONTENUTO: permettono di descrivere e predire diverse variabili di personalità, ad

esempio scala OBS (ossessività), SOD (disagio sociale), ANG (rabbia)…
- Sono state aggiunte 5 nuove scale supplementari (PSY-5).
Una volta somministrato il test, è importante procedere con lo scoring del test, che può avvenire anche
tramite computer. La codifica può avvenire per punte, per codici o per assi. Successivamente si procede
con l’interpretazione dei risultati, in cui è fondamentale incrociare i risultati forniti dal test con le
informazioni extra-test, come il problema riferito, le osservazioni comportamentali, la storia del
paziente, i sintomi clinici e gli obiettivi del paziente stesso. Ciò che assume una particolare importanza
nell’interpretazione del test è il valore T raggiunto nelle singole scale. I punti T sono suddivisi in 5 grandi
aree in base alla distanza della deviazione standard dalla media. Se la distanza è significativa è
necessario osservare e approfondire quell’aspetto, anche utilizzando i dati forniti dalle scale
supplementari e di contenuto. Il fine ultimo dell’MMPI è quello di fornire un profilo di personalità nel
più breve tempo possibile, anche se non è di per sé sufficiente ed esaustivo riguardo le caratteristiche
globali e la storia di un individuo, che deve comunque essere considerata insieme agli elementi extra-
test sopracitati.
TIME PERSPECTIVE INVENTORY(TPI)-ZIMBARDO

Esso misura le differenze individuali nell'orientamento temporale o la tendenza a concentrarsi sul passato,
presente e futuro. L’autore ha costruito un test per misurare la prospettiva temporale; esso è costituito da
61 domande su scala Likert da 1 a 5 e misura 6 componenti:
1. Passato negativo: 10 item; chi ha elevati valori di PN è focalizzato sul passato negativo, vale a dire
che tende a pensare e rivivere esperienze del passato - realmente negative o anche solo vissute e
rappresentate negativamente – provocando stati d’animo negativi nel presente.
2. Passato positivo: 15 item; chi ha elevati valori di PP è focalizzato sul passato positivo, vale a dire che
tende a pensare e rivivere esperienze passate, ma si focalizza su eventi ed esperienze vissute e
rappresentate positivamente. Questo tipo di orientamento temporale provoca sostegno e stati
d’animo positivi nel presente e può essere associato alla progettualità futura.
3. Presente fatalista: 13 item; chi ha elevati valori di PF è focalizzato sul presente, ma presenta un
atteggiamento fatalista, vale a dire che tende a credere di avere molto meno controllo e capacità di
cambiare il presente di quanto realmente abbia e si lascia guidare passivamente dagli eventi esterni.
Solitamente attribuisce la causalità degli eventi al caso e di focalizza sull’inutilità dell’agire.
4. Presente edonista: 9 item; chi ha elevati valori di PE è focalizzato sul presente e presenta un
atteggiamento edonista, vale a dire che tende a dare priorità al piacere e alla gratificazione
immediata nel prendere decisioni e non da molto peso alle conseguenze future. In genere evita
situazioni difficili, impegnative e spiacevoli, in quanto tende a volersi “godere la vita” senza
preoccupazioni. Secondo Zimbardo questa componente non è negativa, anzi deve essere presente
nel profilo di orientamento temporale di un individuo; quest’ultimo non deve essere sempre
focalizzato sulla pianificazione, deve anche presentare questa parte di edonismo necessaria per
ottenere un buon livello di benessere.
5. Futuro: 9 item; chi ha elevati valori di F è focalizzato sul futuro e orientato ad esso, vale a dire che
tende a soppesare vantaggi e svantaggi, fissare obiettivi e ragionare sulle conseguenze delle proprie
azioni. Solitamente è disposto e sacrificarsi, lavorare duro e rinviare le gratificazioni.
6. Futuro trascendentale: 5 item, se il punteggio è alto l’individuo è orientato al futuro, ma in termini

trascendentali/mistici. Riguarda le persone che sono focalizzate sulla vita futura oltre la morte fisica.
Ognuno di noi presenta caratteristiche di orientamento temporale differenti e non riassumibili in una sola
dimensione, per questo motivo dalla combinazione delle sei componenti si ottiene un profilo individuale.
Per lo scoring dobbiamo dividere ciascun punteggio per il numero di item, individuare i percentili e
ricordarsi che il punteggio ottenuto in ogni scala è quasi totalmente indipendente dalle altre
Jack (UK) ha 48 anni e ha ottenuto 51 alle matrici di Raven Standard. A quale rango percentile
corrisponde il suo punteggio?
Per risolvere questi esercizi si devono considerare le tabelle delle matrici di Raven, che sono presenti sia
con che senza la nazionalità. Osservando quelle con la nazionalità vediamo che il suo punteggio corrisponde
al 50esimo percentile.
Vantaggi e svantaggi dei ranghi percentili

Si definisce rango percentile di un punteggio il valore x che lascia al di sotto lo i% di soggetti della
distribuzione. Consente di interpretare il punteggio di un individuo rispetto alla distribuzione osservata nel
campione normativo. I ranghi percentili si costituiscono così come un’altra forma di standardizzazione che
si basa sulle posizioni che i soggetti occupano nella distribuzione.
Il vantaggio che portano i ranghi percentili è quello di riuscire a primo impatto, con un colpo d’occhio, ad
avere una visione d’insieme riguardo come si collochi il soggetto nella distribuzione rispetto al campione
normativo. Uno svantaggio può essere invece il fatto che il rango percentile non permette di capire come si
distribuisce il punteggio nelle varie dimensioni, ma considera e raffigura solamente il costrutto generale
tralasciando l’analisi delle sottodimensioni.
In generale si può dire che il rango percentile è basato, più che sul risultato della performance
dell’individuo (il punteggio effettivo), sul confronto con gli altri. È dunque più adatto al confronto rispetto
ad una descrizione del singolo.
Come si valuta la stabilità nel tempo di un test?

La stabilità temporale di un test viene espressa con la correlazione r di Pearson, detta anche correlazione
test-retest, che misura il grado di accordo tra misurazioni avvenute a distanza di 3-4 settimane con lo stesso
campione. Il lasso di tempo tra due misurazioni non deve essere né troppo breve perché i soggetti
potrebbero ricordare le risposte, né troppo lungo perché potrebbero intervenire fattori esterni a modificare
il costrutto misurato. Secondo i criteri di interpretazione EFPA della correlazione r un valore: < 0.60
insufficiente; tra 0.60 e 0.70 adeguata; tra 0.70 e 0.80 buona; >0.80 eccellente. La stabilità temporale fa
parte, insieme alla coerenza interna (misurata con l’alfa di Cronbach o con il coefficiente KR-20), alle
misurazioni del costrutto ottenute con forme parallele dello stesso strumento (split-half) e all’accordo tra
valutatori, dell’attendibilità del test, e viene riportata per l’intero test e per le dimensioni che lo
costituiscono nel caso in cui ci siano.
Quali sono le caratteristiche di un campione normativo?

Relativamente ad una specifica caratteristica psicologica, un test psicologico consente di collocare un
individuo rispetto ad un gruppo di riferimento. Il test deve fornire indicazioni per poter confrontare il
punteggio ottenuto da un individuo con il campione di riferimento, considerato normativo perché
rappresentativo della popolazione di riferimento. Il campione normativo si dice anche di taratura, e deve
avere: adeguata distribuzione delle caratteristiche demografiche (età, genere, scolarità, residenza
geografica…) e adeguata ampiezza (n).
Cosa è il BDI? Da chi può essere somministrato?

Il Beck Depression Inventory è un test di self-report utilizzato per definire la gravità della depressione nelle
ultime due settimane in pazienti maggiori di 13 anni con diagnosi psichiatrica. Il test è composto da 21 item
e fornisce un punteggio totale e due punteggi nelle aree somatico-affettiva (perdita di interessi e di energie,
modificazioni nel sonno…) e cognitiva (pessimismo, senso di colpa, autocritica ecc.). Serve per valutare la
presenza e l’intensità dei sintomi depressivi, il rischio di suicidio e l’eventuale efficacia di interventi oltre
che per prevenzione; ha un tempo di somministrazione breve. Può essere somministrato solo da personale
con qualifica C, ovvero docenti universitari, psicologi iscritti alla sezione A dell’albo e medici con
specializzazione in neuropsichiatria infantile, psichiatria, psicologia clinica o psicoterapia.
Cosa indica il punteggio grezzo? Perché si trasforma?

Il punteggio grezzo è quello che si ottiene dopo lo scoring del test, guidato dalle istruzioni del test stesso, e
dopo aver sommato tra loro i punti totalizzati. Questo punteggio può essere interpretato direttamente,
senza bisogno di trasformazioni, come nel caso del test di screening per il gioco d’azzardo negli adolescenti
(SOGS-RA), oppure può necessitare di trasformazioni che permettono il confronto tra soggetti e
l’interpretazione del punteggio: nel caso dei test di intelligenza il punteggio ottenuto deve essere
trasformato ed espresso in termini di QI di deviazione; nell’HEXACO-60 e nel Big Five Questionnaire-2,
invece, il punteggio viene trasformato ed espresso in punti T. Il punteggio grezzo può necessitare di una
trasformazione anche nel caso in cui esistano delle norme del test in questione: nel caso del MOCA il
punteggio deve essere trasformato sulla base di norme basate sulla regressione che prendono in
considerazione l’effetto che le variabili età e scolarità hanno sul punteggio ottenuto dal soggetto.
Fare un esempio di scala di punteggio standardizzata

Un test psicologico è una situazione standardizzata in cui il comportamento di una persona viene
campionato, osservato e descritto, producendo una misura oggettiva e standardizzata. Assume così un
ruolo di prim’ordine per l’interpretazione di un test la standardizzazione. Questa serve a collocare un
punteggio all’interno della distribuzione: in termini di distanza dal punteggio dalla media e individuando la
parte della distribuzione che il punteggio lascia dietro di sé (percentili). La standardizzazione significa
riferire la misura (trasformandola) a una scala standard di cui sono noti i parametri (la scala standard ha
M=0 e var=1). Per passare dalla scala originaria in punti x a quella standardizzata, si trasformano tutti i
punteggi grezzi x in punti z con la formula: z= x-m / ds. Il punto z indica la distanza dalla media in deviazioni
standard del punteggio in esame. Un punto z fornisce inoltre indicazioni riguardo valore e segno: valore=
distanza del punteggio dalla M in ds; segno= positivo se il punteggio è sopra M, negativo se il punteggio è
sotto M.
Un esempio di scala standardizzata può essere quella del QI, la quale ha M=100, ds=15 e la trasformazione
avviene così: Y= 100+15Z. Oltre al QI possiamo trovare anche le scale T e Stanine.
Big Five Questionnaire

Il Big Five Questionnaire è un test di personalità che si basa sulla teoria dei Big Five, ovvero una teoria dei
tratti che si basa su 5
grandi fattori. Esso unisce due teorie psicologiche: la teoria lessicografica, secondo cui le differenze
individuali basilari e socialmente rilevanti sono rintracciabili nel linguaggio quotidiano; e la teoria
fattorialista, che indaga la struttura della personalità come tratto stabile e considera le differenze
individuali come una varietà di modi possibili di esprimere la propria personalità, anche se sono
riconducibili a un numero ridotto di dimensioni più ampie. La seconda versione del BFQ-2 è particolarmente
economica e pratica ed ha una struttura fattoriale più semplice della versione precedente. I fattori
individuati sono appunto 5 e sono:
- Energia (E), sottodimensioni: Dinamismo (Di), Dominanza (Do);
- Amicalità (A), sottodimensioni: Cooperatività/empatia (Cp), Cordialità/atteggiamento amichevole
(C);
- Coscienziosità (C), sottodimensioni: Scrupolosità (Sc), Perseveranza (Pe);
- Stabilità emotiva (S), sottodimensioni: Controllo dell’emozione (Ce), Controllo degli impulsi (Ci);
- Apertura mentale (M), sottodimensioni: Apertura alla cultura (Ac), Apertura all’esperienza (Ae);
Scala Lie (L) -> bias moralistici/egoistici. Esiste un punteggio soglia (T=46) oltre il quale il profilo che si
delinea viene considerato falsato.
Il questionario è costituito da 134 affermazioni rispetto a cui il soggetto deve esprimere il proprio giudizio
su una scala Likert a 5 punti, e la somministrazione può essere individuale o di gruppo. Il punteggio grezzo
viene trasformato in punti T, e così viene delineato un profilo del soggetto rispetto a queste 5 dimensioni,
che dovrà poi essere interpretato. Il BFQ-2 è utilizzato in molti ambiti, tra cui quello organizzativo e quello
clinico, in cui è usato a fini diagnostici, terapeutici e prognostici, oltre che come strumento per il terapeuta
per capire che tipo di interazione e relazione instaurare col paziente.
La principale differenza tra l’impostazione del BFQ-2 e dell’MMPI può essere colta anche osservando le
scale in cui si articolano i due test: mentre l’MMPI-2 è interessato agli aspetti patologici della personalità
(contenuti in modo particolare nelle 10 scale cliniche di base) e il fine è quello di individuare o escludere la
patologia del soggetto, le scale in cui si articola il BFQ-2 appaiono come “meno patologiche”, a prova del
fatto che il fine del BFQ-2 è quello di delineare le caratteristiche di un soggetto “normale”, non patologico.
Anche nella fase di costruzione del test stesso l’MMPI è stato sviluppato somministrando le stesse prove a
soggetti patologici e non patologici e quelle in cui si differenziavano sono state inserite nel test.
Commenta il seguente output. Il test è attendibile? Perché? Suggerisci eventuali modifiche al

test e motiva le tue scelte. Alfa di Cronbach=.894; numero di item=14 (esercizio I foto)
TEORIA: privilegiare il test con meno item, Alfa tende ad aumentare all’aumentare del numero
degli item. Se gli item sono pochi non è un problema. A parità di Alfa si sceglie il test con meno
item, il più breve.
Dato che il valore dell’Alfa di Cronbach è buono (compreso tra .80 e .90) e il numero di item del test non è
eccessivo, il test potrebbe risultare attendibile. Per valutare eventuali modifiche sarebbe necessario
conoscere il contributo di ogni singolo item tramite due valori: la correlazione item-totale cioè quanto il
singolo item contribuisce alla misurazione del costrutto, che deve essere maggiore o uguale di .30, e il
valore di Alfa se si esclude l’item. Se escludendo l’item Alfa aumenta significa che l’item non contribuisce
alla coerenza interna, e viceversa se Alfa diminuisce significa che l’item vi contribuisce. L’idea di fondo di
questo tipo di analisi è che il test deve avere il numero di item necessario a misurare il costrutto, dato che
aumentando eccessivamente il numero di item anche la coerenza interna tende ad aumentare, ma si tratta
di un aumento artificioso e non dovuto alle caratteristiche del test e alla sua attendibilità.
Tornando al caso in esame, considerato il numero degli item e presupponendo che la correlazione tra ogni
item e il totale sia maggiore o uguale a .30, e che ogni item sia rilevante per la coerenza interna del test, si
potrebbe dire che il test sia attendibile. Nel caso in cui la correlazione di qualche item fosse minore di .30
oppure che gli item non contribuissero alla coerenza interna, si dovrebbe provvedere ad eliminare gli item
che non rispettano queste condizioni.
Considerando i valori riportati, l’item CSSE7 non ha un’adeguata correlazione item-totale e anche il valore
di Alfa aumenta se si elimina l’item: date queste condizioni l’item può e deve essere eliminato.
COME VIENE FATTO LO SCORING DI UN TEST COGNITIVO CON DOMANDE APERTE? Fare un
esempio
Le domande aperte dei test cognitivi sono dei compiti o delle prove che sono utilizzate per valutare le
abilità cognitive del soggetto. Lo scoring in questi casi si articola in base alla correttezza della prestazione
fornita dal soggetto, e ci sono delle istruzioni che fanno parte del test che guidano colui che deve dare un
giudizio nell’assegnazione dei punteggi alle varie risposte fornite. Esempi di scoring cognitivo con domande
aperte sono ampiamente presenti nel MOCA, ad esempio nel test di denominazione, dove si attribuisce un
punto per ogni animale indovinato. Altri esempi sono il disegno con i cubi e il completamento di figure nelle
scale Wechsler.

Domande e Programma TTT

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Domande e Programma TTT

Caricato da

Copyright:

Formati disponibili

COME SI MISURANO LE CARATTERISTICHE PSICOLOGICHE?

La misurazione in psicologia si realizza attraverso la rilevazione di indicatori comportamentali, i quali

COME SI COSTRUISCE UN TEST PSICOLOGICO?

• Definizione teorica di una caratteristica psicologica, detta COSTRUTTO. Un costrutto è un concetto

ELENCARE E DECRIVERE LE PROPRIETA’ DEGLI ITEM

 La definizione teorica di una caratteristica psicologica;

 La scelta di indicatori in grado di rilevare la presenza del costrutto;

 La messa a punto di item che misurino il costrutto attraverso i suoi indicatori.

 Item a scelta alternativa (dicotomici/politomici),

 Item a risposta libera o item verbali/visivi.

COME POSSONO ESSERE CLASSIFICATI I TEST?

Esistono vari ambiti di applicazione dei test:

Ambito clinico: psicodiagnostico, valutazione cognitiva e salute (…).

Ambito educativo: valutazione profitto, difficoltà di apprendimento, orientamento e selezione (…).

Ambito giuridico: perizie e consulenze (…).

I test devono produrre una misurazione che consente di fare:

1. Test di personalità: misurazione delle caratteristiche psichiche e comportamentali che rimangono

TIPOLOGIA DI DOMANDE TEST COGNITIVI

Domande aperte = compiti/prove

SCALE WECHSLER (adulti)

 SCALE VERBALI “Qual è la capitale della Francia?” “Cos’è un cucchiaio?”

 SCELTA BINARIA → scelta fra due riposte.

TIPOLOGIA DI DOMANDE TEST NON COGNITIVI

Il self report avviene quindi secondo due tipologie di domande chiuse:

 Scelta binaria. (“Questo ti descrive sì o no?”)

Vediamo i test con scelta binaria, ci sono 2 possibilità:

 BINARIA 2 ALTERNATIVE = Vengono mostrate 2 affermazioni che descrivono comportamenti

Vediamo i test con scelta multipla:

I punti della scala Likert possono essere:

Test cognitivi somministrazione

Test non cognitivi somministrazione

 La spiegazione della scala di risposta,

 Il richiamo sull’importanza di rispondere sinceramente,

SINTESI SOMMINISTRAZIONE TEST COGNITIVI E TEST NON COGNITIVI

 Stimoli = materiali, prove, domande varie

 Istruzioni = indicazioni/consegne per svolgere il compito e per la compilazione (possono includere

Individuale = Auto-somministrato / Etero-somministrato

 Destinatario = i test sono adattati in base alle caratteristiche del rispondente.

TEST NON COGNITIVI

Individuale = Auto-somministrato / Etero-somministrato / Valutatore esterno

 Destinatario = i test sono adattati in base alle caratteristiche del rispondente.

BIAS, DISTORSIONI NELLA RISPOSTE

Acquiescenza/dissenso: tendenza ad essere d’accordo o disaccordo indipendentemente dal contenuto.

Ulteriori strategie per Response Bias dopo la costruzione del TEST:

 Osservazione delle risposte: incongruenze, pattern di risposte troppo omogenei.

COME SI MISURA L’INTELLIGENZA? Scoring per i test cognitivi

Matrici Progressive di Raven = teoria monodimensionale

Matrici Progressive Colorate = 0-36

Matrici Progressive Standard = 0-60

Matrici Progressive Avanzate = 0-12; 0-36

Le prove sono suddivise in due aree:

 Comprensione: domande circa la risoluzione di problemi quotidiani o su regole sociali.

 Analogie: spiegare somiglianze tra coppie di parole.

 QI di performance = indicazione complessiva dell’efficienza nell’organizzazione e elaborazione di

 QI verbale = indicazione complessiva delle capacità di comprendere materiale verbale.

 QI totale = riassume globalmente i due indicatori precedenti.

 WPPSI per età prescolare (4-7).

 WISC per l’età scolare (6-16).

 WAIS per gli adulti.

Obiettivo: evidenziare situazioni a rischio o problematiche, discriminando i giocatori non problematici da

 Thrill and Adventure Seeking (TAS)

 Experience Seeking (ES)

 Boredom Susceptibility (BS)