Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Le caratteristiche psicologiche non sono direttamente osservabili ma possono essere inferite dai
comportamenti. La misurazione avviene per deduzione, per cui il comportamento da indicazioni che
consentono di dedurre la proprietà astratta.
Per misurare una proprietà psicologica come intelligenza o estroversione, occorre usare strumenti che
consentono una rilevazione indiretta. Come si arriva quindi ad una quantificazione?
• Scelta di INDICATORI comportamentali in grado di rilevare la presenza del costrutto. Sono espressioni del
costrutto osservabili, detti anche variabili manifeste. Definiti in base ad una regola di corrispondenza che
definisce il passaggio dalla teoria al piano empirico, una definizione operativa. Tale passaggio implica una
perdita di informazione, quindi non ci sarà mai corrispondenza perfetta tra costrutto e indicatori. Un
costrutto può essere espresso attraverso pochi o molti indicatori.
• Messa a punto di ITEM che consentano di ottenere una misura del costrutto attraverso i suoi indicatori.
L’item è l’elemento minimale di un test psicologico che consente di ottenere una misura dell’indicatore e
del costrutto. Gli item rappresentano la domanda del test. Ciascun indicatore può essere misurato
attraverso uno o più item.
Per comprendere a fondo quest’ultima fase è necessario specificare cosa si intenda per Item. L’item è
l’elemento minimale di un test psicologico che consente di ottenere una misura dell’indicatore del
costrutto; gli item fungono dunque come semplificazione rispetto alla definizione teorica. Se gli item
riflettono il costrutto teorico si parla di indicatori riflessivi, se non accade si parla di indicatori formativi.
Infine si possono dividere in:
1. “situazione standardizzata” = Nel test gli stimoli (item) e le modalità di presentazione (istruzioni
per la somministrazione) sono sempre uguali.
2. “il comportamento viene campionato, osservato e descritto” = l’obiettivo è quello di rilevare
indicatori comportamentali attraverso il test; in questo senso le risposte agli item somministrati
costituiscono un campione dei comportamenti rappresentativi del costrutto che si intende
misurare.
3. “producendo una misura precisa e standardizzata” = un test, oltre alle istruzioni per la
somministrazione, deve presentare istruzioni sulla modalità attraverso cui ottenere un punteggio,
ovvero su come trasformare ogni risposta in un punteggio. I test presentano quindi procedure
predefinite per codificare le risposte agli item e generare un punteggio totale dell’individuo al test
(istruzioni sulla procedura di scoring, griglie per lo scoring).
Le risposte devono essere interpretate in modo oggettivo come indicatori di un costrutto
psicologico; per questo motivo è necessario stabilire regole e criteri per l’interpretazione dei
punteggi ottenuti dalle risposte, dette norme. [le istruzioni e le norme sono due cose ben diverse
nel caso dei test: le prime riguardano la somministrazione e il calcolo di un punteggio, la norma
riguarda l’interpretazione dei punteggi.]
Ambito lavorativo: selezione personale, marketing, spot professionale e counseling, condizioni lavorative,
ambiente lavorativo (…).
Classificazione
Diagnosi
Valutazione intervento
Nella pratica ci si concentra sull’osservazione del dato singolo. Nella ricerca sull’osservazione del dato
campionario.
Esistono due tipologie di test:
Test di massima performance (cognitivi): consistono in prove, compiti che prevedono una modalità corretta
di svolgimento. Essi suddividono in:
1. Test di livello: includono prove cognitive di varia natura (attenzione, verbali, ragionamento logico e
numerico, memoria, …)
2. Test attitudinali: includono una serie ristretta di prove cognitive selezionate in base ad un percorso
formativo o mansione lavorativa.
3. Test di rendimento o profitto: includono prove per valutare la competenza acquisita dopo un
periodo di formazione.
Nei test cognitivi lo scoring e l’interpretazione implicano una correzione, ovvero il giudicare giusta o
sbagliata una risposta.
Test di performance tipica (non cognitivi): richiamano le caratteristiche psicologiche individuali proprie di
una persona.
2. Test di atteggiamento della sfera affettiva, sociale, della percezione di sé, della motivazione (…).
Domande Aperte = Le domande aperte possono essere sia le classiche domande a cui rispondere in
base alle proprie conoscenze, sia compiti e prove.
Domande Chiuse = Queste ultime consistono nella proposta di alternative mutuamente escludentisi
tra le quali scegliere una risposta in maniera binaria oppure in maniera multipla; le alternative non
corrette presentate nella scelta multipla sono dette distrattori e sono generalmente definiti
graduando la loro plausibilità.
ATTENZIONE E PERCEZIONE (completamento di figure) “Guarda bene questa figura e dimmi cosa
manca.”
PERCEZIONE (disegno con i cubi: rotazione-riproduzione) “Guarda questi cubetti. Alcuni lati sono
tuti rossi o tutti bianchi, altri metà e metà. Possono esse combinati insieme. Prova a metterli
insieme come in questa figura.”
Domande chiuse = compiti/prove che propongono alternative mutuamente escludentisi tra le quali
scegliere una risposta:
RAGIONAMENTO LOGICO (adulti) Leggi attentamente e traccia una croce sul quadratino
corrispondente alla risposta che ritiene corretta.
SCELTA MULTIPLA → scelta fra tre o più risposte in cui le alternative sono dette distrattori,
generalmente definiti graduando la loro plausibilità. •
RAGIONAMENTO LOGICO (adulti) “Leggi attentamente e traccia una croce sul numero
corrispondente alla risposta che ritiene corretta.” •
MATRICI RAVEN (adulti) – INTELLIGENZA GENERALE “Come vede su questa tavola manca un pezzo.
Individui il pezzo mancante scegliendo tra gli otto riportati sotto.”
MATRICI RAVEN (bambini e anziani) – INTELLIGENZA GENERALE “Secondo te/lei quale è il pezzo
mancante tra questi riportati sotto la figura grande?”
SELF REPORT = Il suo assunto di base è che il modo migliore per indagare certi aspetti psicologici è quello di
chiedere in modo diretto ai rispondenti. La persona si auto-descrive indicando quali sono i comportamenti,
sensazioni, opinioni, idee che la rappresentano o descrivono.
HEXACO (adulti): PERSONALITY Per ciascuna delle seguenti affermazioni, si prega di scrivere il
numero che ritiene rappresenti meglio il suo grado di accordo. Utilizzi la seguente scala: 5 =
completamente d’accordo; 4 = molto d’accordo; 3 = né d’accordo né in disaccordo; 2 = molto in
disaccordo; 1 = completamente in disaccordo
FREQUENZA
TAI (bambini, adolescenti, adulti): TEST ANXIETY Per ciascuna delle seguenti affermazioni, traccia
una crocetta sul numero che meglio rappresenta la frequenza con la quale avverti le seguenti
sensazioni. Utilizza una scala dove 1 = quasi mai e 4 = quasi sempre
In relazione al contenuto della domanda la Scala Likert può anche essere di altri 3 fattori:
Probabilità
Importanza
Falsità/Veridicità
pari (4,6)
dispari (3, 5, 7)
SOMMINISTRAZIONE
I test possono essere auto-somministrati o etero-somministrati; alcune tipologie di test cognitivi devono
essere necessariamente somministrati da un esperto. L’etero-somministrazione può essere individuale o
collettiva; un test auto-somministrato può essere anche etero-somministrato, ma non viceversa.
Alcuni test cognitivi sono somministrati da esperti (psicologi, medici, logopedisti ecc..) che hanno seguito
una formazione specifica per la somministrazione = etero-somministrazione:
Individuale
Alcuni test cognitivi possono anche essere compilati dal rispondente se gli stimoli e le istruzioni lo
consentono = auto-somministrazione che può essere:
Individuale
Collettiva
I test cognitivi sono dotati di istruzioni sia per chi compila (test taker) sia per chi somministra (test user). La
presenza di istruzioni efficienti e precise è fondamentale per la somministrazione del test e per il suo
corretto svolgimento; esse devono essere dotate anche di una spiegazione della scala di risposta.
Infine, il test deve essere calibrato e definito sul destinatario, in relazione al quale muteranno gli item.
Per questa categoria di test viene generalmente utilizzata l’auto-somministrazione, individuale o collettiva,
cui precede, come per tutti i test psicologici, l’illustrazione di precise istruzioni:
la rassicurazione sul fatto che non esistono risposte giuste o sbagliate, migliori o peggiori.
Per i test non cognitivi, nel caso in cui il rispondente non possa eseguire il test a causa di malattie o
condizioni specifiche, nel caso in cui si vogliano ottenere maggiori informazioni o confronti sulla veridicità
delle risposte del rispondente, si può ricorrere a valutatori esterni che conoscono molto bene il soggetto.
Per i bambini saranno indicati genitori o insegnanti, per gli adulti i compagni, per gli anziani i figli, i
compagni o i caregiver.
Infine, il test deve essere calibrato e definito sul destinatario, in relazione al quale muteranno gli item.
TEST COGNITIVI
Somministrazione:
Collettiva = Auto-somministrato
Stimoli = domande che consistono in affermazioni alle quali possono essere associate diverse
modalità di risposta.
Istruzioni = indicazioni per la compilazione, per invogliare alla compilazione, per rassicurare, per
promuovere la sincerità.
Somministrazione:
Collettiva = Auto-somministrato
I Bias sono distorsioni sistematiche che implicano errori involontari di valutazione e mancanza di oggettività
di giudizio. Anche i test sono soggetti a bias di risposta, detti Response bias, i quali si possono suddividere
in:
Si parla di Response Set quando sono presenti delle risposte elicitate da specifici contenuti del test o da
particolari contesti. Ovvero quando viene chiesto qualcosa e il soggetto non si sente di rispondere in
maniera sincera. Quindi viene data una auto descrizione che non corrisponde alla realtà. Questa risposta
può essere espressa in maniera volontaria come involontaria. Quindi si parla di risposte falsate.
Per quanto riguarda i Response Set i più comuni sono:
Desiderabilità sociale: tendenza a fornire un’immagine di sé positiva, a dare una descrizione di sé
“aggiustata” sulle norme e sui valori socialmente condivisi, spesso propri del contesto specifico.
Inganno: tendenza a modificare o distorcere la realtà; la differenza dal primo tipo di bias è che l’inganno
può consistere in una distorsione positiva o negativa, in relazione ad uno specifico obiettivo (conscio o
inconscio) del rispondente. (es. rispondenti in età adolescenziale, ottenere un posto di lavoro (…)).
Response style: È definito dalle caratteristiche del rispondente, dal suo stile responsivo, dunque
indipendentemente dal contenuto degli item e più o meno costante nel tempo.
Si parla di Response Style quando il soggetto indipendentemente da ciò che gli viene chiesto adotta uno
stile di risposta. Il soggetto risponde nello stesso modo, non si fa attenzione al contenuto. Le risposte vanno
tutte nella stessa direzione.
Per quanto riguarda i Response Style i più comuni sono:
Per contrastare/rilevare queste tendenze/distorsioni/ Response bias lo si può fare a due livelli:
Nel primo caso Quando si costruisce il Test: Chi costruisce il test utilizza strategie funzionali a rilevare o
prendere consapevolezza delle distorsioni dovute ai Response bias: in primo luogo si possono utilizzare
degli item positivi, in linea con il costrutto che si intende misurare e degli item negativi, ovvero nella
direzione opposta del costrutto; questa strategia può rilevare la presenza di Response style quali
acquiescenza/dissenso.
In secondo luogo, si possono inserire degli item detti filler, che hanno la finalità di spezzare il test e la sua
possibile monotonia. Rappresentano item che non c’entrano niente con i costrutti da misurare; la finalità è
quella di non far comprendere palesemente gli obiettivi del test al rispondente per evitare che si verifichino
Response bias.
Un’ultima strategia è quella di evitare il punto centrale nelle alternative di risposta delle scale Likert.
Nel secondo caso si costruisce un test anonimato: Pero lo si può garantire quando si fanno delle rilevazioni
collettive ai fini della ricerca. Ma non è possibile farlo in tutti i contesti.
DEFINIZIONE DI INTELLIGENZA
Qual è la definizione di intelligenza? Non esiste una concezione univoca dell’intelligenza: i teorici si sono
susseguiti nel tempo e ne hanno proposto molteplici concezioni, fra cui quelle che sono divenute i costrutti
alla base dei test di intelligenza.
L’idea di fondo di tali teorie è che l’intelligenza sia la capacità globale di agire in maniera finalizzata, di
pensare razionalmente e di interagire efficacemente con il proprio ambiente; da ciò consegue la capacità di
acquisire e manipolare informazioni apprendendo dall’esperienza. Partendo da qui, è necessario definire gli
indicatori comportamentali di tali abilità.
Esistono due principali filoni teorici:
Le teorie monodimensionali sostengono l’idea di base che esista un fattore generale (g) che indichi
la capacità di ragionare, scoprire relazioni, pensare in modo astratto, risolvere compiti, imparare
dall’esperienza. l’esistenza di tale fattore fu teorizzata per la prima volta da Spearman nel 1904.
Le teorie multidimensionali invece, la cui prima teorizzazione fu di Cattell,1987, sostengono l’idea
che esistano più forme di intelligenza:
Intelligenza fluida: corrisponde al fattore g.
Intelligenza cristallizzata: capacità di utilizzare competenze, conoscenze ed esperienze educative e
culturali; sostanzialmente questa forma di intelligenza è legata al linguaggio, tali capacità
dipendono dalle capacità di linguaggio.
Le teorie multidimensionali teorizzano l’interazione e combinazione fra le due componenti dell’intelligenza.
Le abilità funzionali a risolvere le matrici di Raven sono indipendenti dalle capacità e caratteristiche
linguistiche; inoltre, le matrici di Raven sono considerate culture-free, ossia somministrabili
indipendentemente dalla cultura cui si appartiene.
Sono una serie di matrici (stimoli/item) ordinate in termini di difficoltà crescente. Esistono versioni distinte
da usare in base alle caratteristiche del rispondente:
Matrici Progressive Colorate (CPM; Raven, 1958) → tre set di 12 matrici da usare con bambini (5-11
anni) e anziani;
Matrici Progressive Standard (SPM; Raven, 1941) → cinque set di 12 matrici da usare dagli 11 anni e
adulti;
Matrici Progressive Avanzate (APM; Raven, 1962) → due serie di 12 (set A) e 36 (set B) matrici per
adulti con un buon livello di scolarità e se la SPM risultano troppo semplici.
Calcolo del punteggio totale: Ognuna ha una griglia di correzione che contiene l’elenco delle risposte
corrette e si assegna un punto per ciascuna risposta corretta (risposta alfa).
Scale di Performance = capacità di organizzazione percettiva e costruttiva. Le prove che ne fanno parte son
Completamento di figure: comprendere una serie di immagini a colori riguardanti scene comuni alle
quali manca un elemento da identificare.
Disegno con i cubi: si devono riprodurre con dei cubi una serie di immagini presentate
graficamente.
Riordinamento di storie raffigurate: si devono riordinare dei cartoncini con figure a colori in modo
da formare una breve storia.
Scale Verbali = capacità di comprendere e apprendere materiale verbale. Le prove che ne fanno parte sono:
Per il punteggio/scoring in questo caso occorre seguire le istruzioni che definiscono l’assegnazione dei
punti per ciascuna prova/domanda (da 0 a 2).
I punteggi alle varie prove confluiscono in tre misure di quoziente intellettivo (QI):
Per lo scoring i punteggi confluiscono in tre misure di QI: QI di performance, QI verbale, QI totale. Si delinea
così un profilo del soggetto da cui emergono anche i suoi punti di forza. L’interpretazione non deve essere
superficiale: si devono considerare la storia e lo stato d’animo del soggetto prima di trarre conclusioni
definitive a partire dal giudizio sul test.
Come per le matrici di Raven anche le Scale Wechsler si differenziano in base alle caratteristiche del
destinatario:
Un famoso e importante test che utilizza le scale Wechsler è il test MOCA (per molti aspetti simile al
WAIS, ma non è un test di intelligenza).
CHE COS’E’ UN TEST DI SCREENING? FARE UN ESEMPIO
Nei test di screening, o scala breve, si propone di rilevare con un numero ridotto di item e in un tempo
contenuto i fattori di rischio legati ad un disturbo/patologia o i primi segni del disturbo/patologia in un
largo numero di individui non clinici (popolazione). Si parla di test di screening perché è un test che
permette di cogliere certe eventuali limitazioni a partire dalle quali devo fare una ricerca più approfondita.
Test molto breve che consente di mettere in evidenza se sono presenti delle difficoltà. Inoltre consente di
vedere chi invece ha un funzionamento del tutto normale.
Un esempio di test di screening è il Montreal Cognitive Assessment (MOCA): test di screening per misurare
il funzionamento cognitivo generale per la fascia d’età dai 60 anni in poi. Il suo obiettivo è quello di
evidenziare il deterioramento cognitivo lieve che può essere indicativo di una situazione di rischio per
sviluppare patologie e quello di discriminare soggetti normali da soggetti con deterioramento lieve.
TEST NON COGNITIVI ESEMPI (NON I TEST DI PERSONALITA’). DESCRIVERE IL TEST E COME SI
ESEGUE LO SCORING.
South Oaks Gambling Screen-Revised for Adolescents (SOGS-RA; Winters et al., 1993)
Test di screening del comportamento problematico di gioco d’azzardo negli adolescenti. Il SOGS-RA è
costituito da 12 item che descrivono comportamenti e problemi legati al gioco d’azzardo. La tipologia di
domanda in questo test è chiusa ed è a scelta binaria.
Gli indicatori sono: mentire sul denaro persone, avere discussioni con familiari ed amici, giocare più di
quanto pianificato, chiedere in prestito denaro per giocare o per coprire i debiti di gioco.
Scoring: Assegnare 1 punto per ciascuna risposta affermativa (SI) e 0 punti alle negative (NO) che
rappresentano la presenza/assenza del comportamento (indicatore) descritto dall’item. Il punteggio totale
può essere compreso tra 0 e 12.
Sensation Seeking Scale Form V (SSS-V; Zuckerman, Eysenck & Eysenck, 1978) Scala/test per misurare la
Sensation Seeking (SS), caratteristica legata al ricercare sensazioni forti. La tipologia di domanda in questo
test è chiusa ed è a scelta binaria.
Gli indicatori sono: la tendenza a ricercare esperienze nuove, diverse ed intense (Thrill and Adventure
Seeking, TAS), la volontà deliberata di correre rischi per il piacere di tale esperienza (Experience Seeking,
ES), la disinibizione (Disinhibition, D) e l’insofferenza alla noia e alla ripetizione (Boredom Susceptibility, BS)
La scala è composta da 40 item (2 affermazioni x item) che definiscono 4 dimensioni (10 coppie x
dimensione):
Disinhibition (D)
Scoring: Assegnare 1 punto per ciascuna delle risposte che evidenziano SS e 0 punti in caso contrario. Il
punteggio totale può essere compreso tra 0 e 40, per ogni sottoscala da 0 a 10. Tanto più è alto il
punteggio, tanto più elevata è la Sensation Seeking e le sue componenti (TAS, ES, D, BS).
Ottimismo disposizionale
È la disposizione mentale ad attendersi esiti favorevoli, ovvero l’aspettativa nei confronti del futuro che
influenza il comportamento presente (Scheier e Carver, 1985). È un’aspettativa nei confronti del futuro che
influenza il comportamento presente perché definisce l’approccio nel raggiungimento dell’obiettivo, la
perseveranza e determina in qualche misura la sua realizzazione.
Gli indicatori sono: la fiducia rispetto al futuro, la percezione che le cose vadano nella direzione attesa, il
sentire di poter raggiungere il risultato desiderato e l’avere aspettative positive. La forma negativa di
quest’ultimi definisce il pessimismo.
Questa è la scala/strumento per misurare l’ottimismo disposizionale, è composta da 10 item che misurano
una sola dimensione; la modalità di risposta è su scala Likert a 5 punti. (1 = fortemente in disaccordo / 5 =
fortemente d’accordo). Punteggi alti indicano ottimismo, punteggi bassi indicano pessimismo.
Per evitare i bias nella risposta gli autori di questo test hanno inserito item “filler” (nello scoring non vanno
contati, funzionano anche da distrattori) e utilizzato anche item “reversed”, ovvero item il cui senso va nella
direzione opposta del costrutto che si misura, in questo caso dell’ottimismo disposizionale. In gergo si dice
che la polarità viene invertita; di fatti nello scoring si invertono i punteggi.
Scoring:
Possibili errori: • Item non rigirati • Filler inclusi nel punteggio • Errori di calcolo
È un test non cognitivo che misura l’auto-efficacia. La tipologia di risposta agli item è la risposta binaria ed è
composto da 30 item (23+7 filler) distribuiti in due sotto-scale:
Scoring: si tolgono i filler, si rigirano gli item, si calcolano i due punteggi e si sommano per ottenere il totale.
PERSONALITA’
La personalità è l’insieme delle caratteristiche psichiche stabili e delle modalità comportamentali che
definiscono l’individuo nella molteplicità dei contesti in cui si esprime e si trova ad agire.
Vista la complessità del costrutto, sono state elaborate nel tempo svariate teorie della personalità: in
particolare, riportiamo tre approcci:
Gli strumenti per la misura della personalità si rifanno alle diverse concezioni teoriche:
Le teorie psicodinamiche utilizzano i test proiettivi, fra tutti il test delle Macchie di Rorschach
(1921).
I sistemi empirico – intuitivi utilizzano il Minnesota Multiphasic Inventory- MMPI (Hathaway e
McKinley, 1989): MMPI-2 (versione corrente) e MMPI-A (versione per adolescenti). Gli item sono
circa 500, misurano moltissimi costrutti e la modalità di risposta è dicotomica. In origine questo test
fu elaborato per individuare e misurare aspetti patologici della personalità. All’interno di questo
test sono presenti anche scale per misurare i Response bias, mirate appunto a identificare e
collocare distorsioni dovute a bias.
Le teorie incentrate sui tratti e la teoria dei Big Five utilizzano il Sixteen Personality Factor- 16PF
(Cattel, 1961), il Neo Personality Inventory (Costa & McCrae, 1992) e, soprattutto, il Big Five
Questionnaire (BFQ-2, Caprara et al., 2008) suddiviso in cinque sotto-scale: estroversione,
amicalità, coscienziosità, stabilità emotiva e apertura mentale (o apertura all’esperienza).
L’approccio utilizzato nello studio della personalità, che viene utilizzato per costrutti articolati e multi-
determinati in genere, è l’approccio lessicale. L’idea alla base di tale approccio è rintracciabile nell’ipotesi
della sedimentazione di Cattel del 1945: “Le differenze individuali più salienti e socialmente rilevanti nella
vita delle persone sono codificate nel loro linguaggio; più è importante una differenza, più è probabile che
essa sia espressa con una singola parola”.
Ne consegue che attraverso lo studio del linguaggio possiamo trovare tutte le parole utili a definire le
differenze interindividuali; il lessico è considerato come un “serbatoio” di tutte le parole che descrivono le
differenze individuali di personalità. Procedendo in questo senso, si è creata una classificazione delle
principali caratteristiche di personalità ricavata dai termini contenuti nel linguaggio ordinario, comune. Ciò
che rende questa teoria valida è che essa non è tipica di un contesto linguistico: tale costrutto assume
universalità e estendibilità in quanto le ricerche condotte in contesti linguistici diversi ripropongono gli
stessi tratti, gli stessi termini delle ricerche iniziali. La tesi che si è sviluppata in relazione a tale prospettiva è
quella alla base della teoria dei Big Five: che la personalità possa essere descritta e analizzata basandosi su
cinque dimensioni, tratti universali. Tale modello è uno dei più condivisi e i relativi test sono fra i più
utilizzati.
Il nome riflette il numero dei fattori da cui è composto (Hexaco = 6) e i loro nomi:
• Honesty-Humility (H) • Emotionality (E) • eXtraversion (X) • Agreebleness (A) • Conscientiousness (C) •
Openness to Experience (O)
Test Set di 6 fattori emerso in 12 lingue: inglese, olandese, francese, tedesca, ungherese, italiana, coreana,
polacca, greca, croata, turca, filippina. HEXACO Personality Inventory (HEXACO-PI) Esistono versioni in
molte lingue tra cui quella italiana.
HEXACO-60 (Lee & Ashton, 2009) I test HEXACO sono stati rivisti nel tempo e ridefiniti rispetto al numero di
item (200, 100, 60). Quello più breve è l’HEXACO-60, usato principalmente per scopri di ricerca.
• 60 item 6 scale con 10 item ciascuna: 24 sotto scale con 2/3 item ciascuna.
Con il confronto normativo si collocano i punteggi rispetto ai percentili del campione di taratura; attraverso
il confronto ipsativo invece si collocano i punteggi nelle sotto scale del test confrontando i percentili tra
loro, ciò è usato soprattutto per confrontare differenze significative nei punteggi dei subtest. Nel confronto
normativo si compara il soggetto con altri soggetti (il campione normativo), nel confronto ipsativo invece il
soggetto è comparato con sé stesso nelle varie scale, questo per vedere ed evidenziare i punti di forza e
altre caratterizzazioni del soggetto.
Un esempio di utilizzo di misure ipsative si ha nel “Time Perspective Inventory”, nel quale si confrontano i
punteggi di una stessa persona su diverse prospettive temporali per delinearne il profilo psicologico
In sintesi:
Nei test cognitivi, il calcolo del punteggio si basa sulle risposte corrette:
Istruzioni per definire la correttezza o il grado di correttezza con il relativo punteggio (domande
aperte).
Griglia di correzione con i relativi punteggi (domande chiuse).
Nei test non cognitivi, il calcolo del punteggio dipende dalla modalità prevista per la risposta:
Istruzioni sui punteggi da assegnare alla risposta “vero”, “si” ecc. (scelta binaria).
Istruzioni definite in base alla direzione degli item e alla polarità della modalità di risposta (scala
Likert).
Sia per i test cognitivi che non cognitivi occorre sapere se gli item confluiscono in:
Inoltre per considerare un test “buono” ci sono altri 4 aspetti importanti da valutare:
Le norme di un test nel loro complesso costituiscono la “normatività”. Per normatività si intende la
possibilità, fornita da un test, di collocare un individuo rispetto a un gruppo di riferimento. Delle norme
fanno quindi parte le indicazioni, sempre associate al test stesso, per confrontare il punteggio ottenuto da
un individuo con il campione di riferimento, che si chiama appunto campione normativo perché
rappresenta le caratteristiche della popolazione di riferimento, a cui è rivolto il test.
Col termine di norme, quindi, si intende un insieme di regole che permettono l’interpretazione dei risultati
di un test e che sono connesse direttamente con il processo che è stato seguito per la costruzione del test
stesso.
Il confronto del un punteggio ottenuto con quello del campione normativo avviene tramite la
standardizzazione del punteggio con l’utilizzo dei punti Z oppure tramite il calcolo del rango percentile in
cui si colloca la prestazione. Oltre all’interpretazione del punteggio le norme servono anche alla
classificazione in categorie (scala ordinale) e in base a una soglia (scala dicotomica e punteggio di cut-off
per stabilire lo scostamento del soggetto dalla norma).
Per costruire queste norme appunto devo partire da un Campione detto normativo o di taratura che mi
consenta di avere questi parametri di riferimento. Teoricamente per costruire le norme bisognerebbe avere
a disposizione i dati dell’intera popolazione però per motivi pratici questo è impossibile, quindi per questo
si utilizza un campione (rappresentativo). Quest’ultimo deve avere le caratteristiche principali della
popolazione alla quale io mi sto riferendo. Queste caratteristiche sono:
Età /Genere/ Scolarità/ Area geografica/ Ampiezza adeguata (con campioni piccoli è più facile
discostarsi dalle caratteristiche generali della popolazione di riferimento).
Sia il costrutto che intendo misurare che anche le indicazioni necessarie per l’interpretazione del
punteggio sono dunque fornite dalla base teorica su cui si poggia e su cui viene costruito il test.
COME SI PROCEDE PER LA TARATURA
Come si procede per la taratura (ovvero la costruzione delle norme) di un test:
2. Si calcolano le statistiche dei punteggi ottenuti: - Distribuzione - Indici di tendenza centrale, dispersione e
posizione (media, deviazione standard, mediana, percentili)
3. Si usano le statistiche per standardizzare i punteggi al test, ovvero per collocare il punteggio all’interno
della distribuzione di riferimento e in base a come si colloca le possiamo trarre delle indicazioni sul
significato del punteggio, e quindi sulle caratteristiche della persona che lo ha ottenuto
Punti z (e trasformazioni)
Ranghi percentili
Tutto questo vale sia per i test cognitivi che non cognitivi, sia che si parli di massima performance che si
performance tipica.
DEFINIZIONE DI STANDARDIZZAZIONE
Un test psicologico è una situazione standardizzata in cui il comportamento di una persona viene
campionato, osservato e descritto, producendo una misura oggettiva e standardizzata.
Assume così un ruolo di prim’ordine per l’interpretazione di un test la standardizzazione. Questa serve a
collocare un punteggio all’interno della distribuzione: in termini di distanza del punteggio dalla media e
individuando la parte della distribuzione che il punteggio lascia dietro di sé (percentili).
La standardizzazione significa riferire la misura (trasformandola) a una scala standard di cui sono noti i
parametri (la scala standard o distribuzione normale standardizzata ha M = 0 e ds = 1).
Per passare dalla scala originaria in punti x a quella standardizzata, si trasformano tutti i punteggi grezzi x in
punti z con la formula: z= x-m / ds. Il punto z indica la distanza dalla media espressa in deviazioni standard
(unità di misura) del punteggio in esame. Un punto z fornisce inoltre indicazioni riguardo valore e segno:
valore= distanza del punteggio dalla M in ds; segno= positivo se il punteggio è sopra M, negativo se il
punteggio è sotto M.
PUNTI Z
Il punto z consente di riferire un punteggio ad una distribuzione normale particolare che è la distribuzione
normale standardizzata. Questa distruzione è teorica ed ha come media = 0 e deviazione standard = 1.
La media e la deviazione standard della popolazione sono quelli che si chiamano i dati normativi o di
taratura che si calcolano quando si costruiscono le norme del test.
Questo tipo di operazione consente di trasformare il punteggio X al test (punteggio grezzo) in Z per poter
dire quanto questo punteggio si discosta da quella che è la media della popolazione. Questa distanza si
misura in deviazione standard. Uso l’indice di dispersione che è la deviazione standard come unità di
misura. Cosi da quantificare in termini più precisi questa distanza dalla media.
Un punto z fornisce indicazione attraverso:
Sapendo poi che una distribuzione normale (o normale standardizzata) ha queste specifiche caratteristiche
possiamo fornire un’interpretazione del nostro punteggio:
Tra + e – 1s intorno alla media ci sta circa il 70% della distribuzione (34% sotto e 34% sopra), tra + e
– 2s oltre il 95% (48% sopra e 48% sotto) e infine, tra + e – 3s oltre il 99% (49,8% sopra e 49,8%
sotto)
Alcuni costrutti si distribuiscono in maniera simmetrica con un andamento che è approssimabile a quello
della distribuzione normale (la distribuzione normale è un concetto teorico quindi la forma non sarà
perfettamente la stessa).
Per esempio sia l’intelligenza che tutti i tratti di personalità hanno questo tipo di distribuzione. Quindi la
maggior parte dei casi si concentra intorno alla media (sia sotto che sopra). Piu ci si allontana dalla media
più le frequenze diminuiscono e si vanno a definire le code della distribuzione (dove sono presenti un minor
numero di casi).
Questa distribuzione è simmetrica perché la tendenza centrale divide a metà la distribuzione. Quindi ho un
numero più o meno uguale di casi a destra che a sinistra della media. Questo fa sì che in questo tipo di
distribuzione media e mediana coincidono.
Pero ci sono dei costrutti che non hanno questo tipo distribuzione simmetrica ma sono invece
asimmetriche.
Asimmetria positiva:
Positiva perché la coda della distribuzione è sui valori alti del punteggio al test. Essendoci una
concentrazione sui valori bassi la mediana e la media non coincidono più. La media è leggermente maggiore
perché esistono punteggi estremamente elevati.
Quali sono i costrutti che si distribuiscono in questo modo per esempio?
Il ragionamento sillogistico sono prove (che fanno parte dei test cognitivi) estremamente
complesse. Per cui nella popolazione non si osserva una distribuzione normale ma osservo che la
maggior parte dei soggetti ha punteggi bassi e solo pochi riescono ad avere punteggi elevati.
Disturbo patologico del gioco d’azzardo si distribuisce in questo modo (con un andamento
asimmetrico positivo). Perché la maggior parte della popolazione non è affetta da questo disturbo.
Asimmetria negativa:
Negativa perché la coda si colloca sui valori bassi del punteggio al test. Quindi la maggior parte delle
persone si colloca nei punteggi alti. Questa fa sì come al solito che media e mediana non coincidono più e
che la media sia più bassa della mediana perché è abbassata dai valori bassi che stanno nella coda.
Test che misurano deficit cognitivi di apprendimento . Sono test somministrati per esempio ai
bambini per la capacità di lettura. Naturalmente la maggior parte dei bambini supera il test (ottiene
punteggi alti). Cosi da identificare il deficit nella coda della distribuzione.
Ansia per l’esame. Anche questo costrutto non si distribuisce normalmente perché
tendenzialmente le persone si collocano sui valori alti. Quando c’è una valutazione di solito le
persone tendono ad essere ansiose. Solo pochi rimangono impassibili.
La prima strategia si può attuare solamente nel caso di una distribuzione normale. La seconda strategia si
può attuare in entrambi i casi (simmetrica e asimmetrica).
PUNTI T
Proprio come da definizione, è cruciale per un’adeguata interpretazione di un test psicologico la
standardizzazione dei punteggi. Questa serve a collocare un punteggio all’interno della distribuzione della
popolazione di riferimento al quale il soggetto appartiene: in termini di distanza del punteggio dalla media
e individuando la parte della distribuzione che il punteggio lascia dietro di sé (percentili).
La standardizzazione consiste nella trasformazione dei punteggi grezzi x, in punteggi standardizzati z; questi
punteggi che prendono il nome di punti z, possono assumere ulteriori trasformazioni lineari che facilitano le
operazioni di calcolo. Nel caso dei test non cognitivi, come il caso dell’HEXACO, ma anche dell’MMPI e del
BFQ, l’interpretazione avviene trasformando i punteggi Z in punti T e interpretandoli in termini di distanza
dalla media. La scala T ha media=50 e deviazione standard=10, la trasformazione segue la seguente
formula: Y= 50 + 10Z.
QI DI DEVIAZIONE
QI di deviazione Wechsler ha messo a punto un QI di deviazione che consente il confronto tra la
performance ottenuta dall’individuo con quella del campione normativo di riferimento. Si tratta di una
trasformazione lineare eseguita per convenzione.
Queste trasformazioni ci consentono di avere a che fare con valori tutti positivi e questo facilita la gestione
e la praticità nei punteggi.
Calcolare z = qui la media e la deviazione standard sono i dati normativi della popolazione di
riferimento.
Il punteggio finale ottenuto da elisa si discosta di appena 0,6 ds al di sotto della media. Quindi il suo
punteggio lineare T assume un valore di 91 punti. Quindi possiamo dire che il suo punteggio è in linea con la
tendenza centrale della distribuzione campionaria di riferimento, ovvero che il suo QI di deviazione è da
considerarsi nella media.
RANGHI PERCENTILI
Si definisce rango percentile (numero cardinale “1,2, 3…”) o percentile (numero ordinale “primo, secondo,
terzo...”) il valore che indica la porzione del campione normativo che ha ottenuto un risultato inferiore al
punteggio in questione. Consentono di capire dove si colloca un punteggio rispetto agli altri ma, mentre
prima lo facevo utilizzando media e deviazione standard, qui mi baso esclusivamente sulla distribuzione di
frequenza e, nello specifico, vado a vedere quanta parte della distribuzione il punteggio lascia dietro di sé
Alcuni test prevedono che il punteggio venga corretto in relazione alle variabili che hanno un’influenza sul
punteggio come età, scolarità, genere ecc... Pensate alle matrici di Raven o alle scale Wechsler, l’età ha un
peso sul punteggio ottenuto perciò lo trasformo in base alle norme in un percentile o in QI di deviazione che
tiene conto di questa variabile (ovvero vado a vedere cosa significa il punteggio rispetto all’età).
Esistono invece, sempre per fare un esempio, test che misurano la depressione dove il genere è la variabile
che ha un effetto sul punteggio; perciò, trasformo il punteggio in un percentile in base alle norme per
sapere cosa significa il punteggio se sei uomo o cosa significa se sei donna. Quando usiamo le norme basate
sulla regressione, il significato è lo stesso ma invece di trasformare il punteggio in qualcos’altro (un
percentile, punto z, punto T o QI) faccio una correzione sul punteggio stesso utilizzando una procedura
dell’analisi di regressione.
REGRESSIONE LINEARE
Nella regressione lineare si analizza la relazione lineare tra una o più variabili:
Variabili esplicative dette predittori (X) → variabile indipendente (può essere una o più di una)
Conoscendo il predittore posso predire cosa accadrà alla mia variabile criterio. Si parla di regressione lineare
perché la relazione fra X e Y è rappresentabile attraverso una retta. Si misura il grado/forza dell’impatto
della variabile X su Y. L’obiettivo, quindi, è trovare l’equazione lineare che lega Y a X in una relazione causale.
REGRESSIONE SEMPLICE
Nella regressione semplice le variabili sono solo due: un predittore e un criterio. L’obiettivo è trovare
l’equazione della retta che meglio rappresenta i dati. L’equazione di regressione definisce per ogni
variazione di X la corrispondente variazione di Y. La formula è la seguente:
Y = α+βX
α → intercetta: punto in cui la retta incontra l’asse delle Y; rappresenta il valore di Y se X=0
Attraverso l’analisi di regressione possiamo identificare quali variabili hanno un effetto sul punteggio.
Possiamo così correggere i punteggi definendo una formula che ci dice come dobbiamo modificare il
punteggio in base alle caratteristiche del rispondente.
Alcuni test prevedono che il punteggio venga corretto aggiungendo o togliendo una quantità, in modo da
tenere sotto controllo l’eventuale effetto di una o più di queste variabili che possono influire sul punteggio.
In base all’effetto devo apportare una correzione.
CORREZIONE MOCA
Il MOCA, test che ormai conosciamo bene e che misura il funzionamento cognitivo negli anziani prevede
delle norme, nella sua taratura italiana, basate sulla regressione. Ci sono due variabili predittore (x) che
influiscono sul punteggio, età e scolarità. A questo punto quindi occorre aggiustare il punteggio in base alla
regressione per controllare le due variabili predittore età e scolarità. Ne consegue che aggiungo o tolgo una
quantità in base a ciascuna delle variabili. Prendiamo come esempio una popolazione di anziani di età
diverse che si sottopone ad un test MOCA che misura le capacità di calcolo.
X corretto = x + 0.175 (età – 70.08) + 24.3 (1/scolarità – 0.126)
In base all’analisi di regressione fatte sui dati del campione l’età ha un effetto sul punteggio: all’aumentare
dell’età diminuisce il punteggio. Anche la scolarità ha un effetto sul punteggio: più sono scolarizzato, più alto
è il punteggio. I valori 0.175 e 24.3 (i beta) sono i coefficienti di regressione, che definiscono la relazione
lineare tra età e punteggio al MOCA e età media (70 anni) del campione normativo (il primo) e tra scolarità
e punteggio al moca e scolarità media (0.126, circa 8 anni) (il secondo).
La logica è:
• Se l’età è maggiore di 70 dovrò aggiungere qualcosa al punteggio (l’età penalizza il rispondente e quindi gli
aumento di una certa quantità il punteggio) e viceversa.
• Se la scolarità è maggiore di 8, dovrò togliere qualcosa al punteggio (la scolarità avvantaggia il rispondente
quindi diminuisco di una certa quantità il punteggio) e viceversa.
• Aggiungo in entrambi i casi se entrambe le variabili penalizzano nel punteggio (molto anziano con bassa
scolarità)
• Tolgo in entrambi i casi se entrambe le variabili avvantaggiano nel punteggio (giovane anziano con
scolarità elevata)
• Aggiungo e tolgo se una variabile penalizza e una avvantaggia (molto anziano con scolarità elevata)
• Tolgo e aggiungo se una variabile avvantaggia e l’altra penalizza (giovane anziano con bassa scolarità)
INTERPRETAZIONE
Un test è corredato da norme che definiscono i criteri di lettura dei punteggi ottenuti. Il primo passo per
l’interpretazione del punteggio consiste nella classificazione in categorie, ovvero fasce di punteggio che
rappresentano distinti livelli del costrutto in esame.
Occorre che il test abbia una fondatezza teoria e metodologica che supporta le decisioni prese sulle
categorie. La teoria relativa al costrutto mirato e le tecniche di analisi sono in continua interazione nella
definizione del test e delle sue norme.
CLASSIFICAZIONE IN CATEGORIE
Le categorie, come detto prima, sono fasce di punteggio che rappresentano distinti livelli della caratteristica
in esame. Le categorie si definiscono in base alla distribuzione della caratteristica nel campione attraverso i
valori:
Percentili
I livelli di interesse talvolta possono essere soltanto due; in quest’ultimo caso si parla di classificazione in
base a una soglia. La soglia è un punteggio al di sopra o al di sotto del quale la caratteristica in esame è
presente, non presente oppure nella norma, deficitaria o patologica.
La teoria e la metodologia consentono di definire queste soglie e di specificare cosa significano, quindi la
teoria e le tecniche psicometriche si combinano per costruire un test.
DUE CATEGORIE
La soglia generalmente si collocale nelle code della distribuzione che possono configurare situazioni di
disagio, disturbo, deficit rispetto al costrutto misurato e al dato normativo della popolazione.
Le due categorie vengono individuate identificando un punteggio detto cut-off, rispetto al quale si ritiene
che la caratteristica in esame non sia posseduta (assente), non sia sufficiente (livello troppo basso) o sia
patologica (livello troppo elevato). Quindi il cut-off rappresenta la soglia.
SPECIFICITA’ E SENSIBILITA’
La definizione del cut-off di un test può avvenire applicando tecniche che consentono di individuare la
sensibilità del test (Sn), ovvero il punteggio sopra/sotto il quale viene indicata la presenza del disturbo, e la
specificità del test (Sp), ovvero il punteggio sopra/sotto il quale viene indicata l’assenza del disturbo. Il test
deve quindi essere sensibile nell’identificare i casi positivi e specifico nell’escludere i casi negativi. Inoltre, il
test deve essere in grado di limitare gli errori, come i falsi positivi e i falsi negativi.
Sn = veri positivi/ veri positivi + omissioni;
Sp = veri negativi/veri negativi + falsi allarmi
Sn e Sp sono in relazione tra loro e devo tenerne conto nella definizione della soglia. Nel definire la soglia
devo trovare quel valore che massimizza la Sn e Sp del test e minimizza falsi allarmi e omissioni.
Purtroppo, questi sono inversamente legati tra loro:
Se prendi una soglia alta, sono sicura di avere un’elevata specificità (identifico bene i negativi), ma
diminuisce la sensibilità perché aumentano le omissioni.
Se prendo una soglia bassa, la sensibilità aumenta, ma diminuisce la specificità perché crescono i
falsi allarmi.
Per definire la soglia che consente la classificazione più accurata occorre somministrare il test che misura
un certo disturbo/deficit a:
Campione di persone SENZA il disturbo/deficit, classificate come tali indipendentemente dal test.
Campione di persone CON il disturbo/deficit, classificate come tali indipendentemente dal test.
Il campione normativo viene definito includendo persone che non presentano il disturbo/deficit e persone
che invece lo presentano. Questo lo si fa utilizzando altri tipi di valutazione rispetto al test per il quale
vogliamo definire la soglia. In fase di taratura usiamo un campione “particolare” per il quale già sappiamo
chi appartiene ad una categoria e chi all’altra. A questo punto, a tutti viene somministrato il test e calcolato
il loro punteggio. Partendo da un primo valore di soglia (deciso inizialmente su presupposti teorici o a caso),
vado a vedere la classificazione che mi consente di fare il test a confronto con quella “vera”, ovvero con
quella distribuzione del campione normativo che già conosco. Partendo dal presupposto che l’errore non
può essere eliminato definitivamente, confrontando realtà e misura possono verificarsi queste quattro
situazioni:
C’è un disturbo/deficit quando c’è / Non c’è un disturbo/deficit quando non c’è / C’è un disturbo quando
non c’è → falso positivo/falso allarme / Non c’è un disturbo/deficit quando invece c’è → falso
negativo/omissione
Il fatto che un test mi porti a prendere decisioni corrette è fondamentale perché l’errore ha un costo
elevato. Non individuare una patologia (omissione) significa non intervenire, con le conseguenze che
questo può avere. Analogamente, dire ad una persona che è malata quando non è vero (falso allarme), può
essere fortemente destabilizzante.
Per decidere la soglia più adeguata a un determinato disturbo o ad un determinato deficit devo calcolare
Sn e Sp variando il cut-off e, solo in seguito, confrontare i valori che si ottengono per cercare di
massimizzare la sensibilità e la specificità del test e di minimizzare i falsi allarmi e le omissioni.
MOCA
MOCA sta per “Montreal Cognitive Assesment”: si tratta di un test per monitorare il deterioramento
cognitivo (“Mild cognitive impairment”, MCI) di individui oltre i 60 anni di età.
Valuta diversi domini cognitivi: attenzione e concentrazione, funzioni esecutive, memoria,
linguaggio, abilità visuocostruttive, astrazione, calcolo e orientamento
Utilizzato in tutto il mondo: tradotto in 36 lingue e dialetti.
Obiettivo = evidenziare il deterioramento cognitivo lieve (Mild cognitive impairment) che
può essere indicativo di una situazione di rischio per sviluppare patologie, discriminando
soggetti normali da soggetti con deterioramento lieve.
Nelle slide “Lab-MOCA” sono riportati tutti i domini considerati e i relativi subtest. È un test di screening
che necessita di una correzione in fase di calcolo del punteggio. Si è osservato infatti che nella popolazione
italiana due fattori in particolare influenzano il punteggio ottenuto: la scolarità e l’età del soggetto che si
sottopone al test. Ci sono quindi delle norme basate sulla regressione ideate per questo test, per passare
dal punteggio grezzo (X) a quello corretto (X corretto) si deve seguire questa formula:
X corretto = x + 0.175 (età – 70.08) + 24.3 (1/scolarità – 0.126)
Una volta calcolato il punteggio corretto con i valori di scolarità ed età si deve interpretare il punteggio
ottenuto collocando il soggetto nella categoria corrispondente. Le categorie sono:
0-17,362 sotto norma/ 17,363-19,500 Border line / >19,501 nella norma
Esistono molte versioni linguistiche del test MOCA per le quali sono state identificate soglia e categorie per
la definizione del funzionamento cognitivo normale e deficitario. La procedura descritta prima è stata
applicata per il test MOCA nei suoi vari adattamenti per popolazioni diverse. Infatti, nelle norme del test,
oltre alla correzione sulla regressione, ci sono indicazioni per classificare in base al livello di deterioramento
cognitivo poiché questo è il fine ultimo del test: screening, per capire se una persona anziana ha abilità
cognitive nella norma o se presenta decadimento cognitivo.
Per definire la soglia, il campione normativo o di taratura è stato formato includendo individui che sono
stati classificati (prima del test MOCA) come:
Con questi studi per identificare il cut-off sono state identificate tante soglie diverse a seconda della
popolazione di riferimento. Per la versione italiana del MOCA, la soglia proposta dai costruttori del test
portava a classificare deficit cognitivi per il 74% del sottogruppo precedentemente definito nella norma.
Questo vuol dire che quella soglia è eccessivamente alta per la popolazione italiana e quindi gli autori della
taratura italiana ne hanno proposta un’altra, molto più bassa. I criteri forniti per classificare i rispondenti
sono questi: la soglia è 17.362, ovvero al di sotto di questo valore (categoria 0) la persona presenta un
deterioramento cognitivo. Il test MOCA ha il cut-off al valore 17.362 e definisce 5 categorie:
Prima devo correggere il punteggio, poi cercarlo nella tabella per definire:
Se è sopra o sotto soglia
A quale categoria appartiene
Tuttavia alcuni test non hanno una vera e propria taratura (norme) e sono:
Test non diagnostici
Test utilizzati per scopi di ricerca
Test con punteggio interpretato in base al campo di variazione teorico
Esistono test senza norme chaimati test non standardizzati e sono limitati a certi contesti, soprattutto in
ambito di ricerca. Cioè quando voglio studiare dei costrutti e le loro relazioni e non c’è l’interesse a fare una
classificazione o di identificare le specifiche caratteristiche di un individuo.
BECK DEPRESSION INVENTORY-II
Il BDI-II è uno strumento self-report che misura la depressione a partire dai 13 anni di età. Si compone di 21
item che descrivono i sintomi e la loro gravità (scala da 0 a 3) secondo la definizione di depressione della 4°
edizione del manuale diagnostico statistico dei disturbi mentali (DSM-IV). Gli item possono essere:
Item relativi all’area somatico affettiva: alterazioni del sonno, dell’appetito, perdita di energie e
piacere.
Item relativi all’area cognitiva: pessimismo, autocritica, senso di colpa, senso di fallimento.
Il totale dei punteggi è poi trasformato in percentili. Un punteggio totale al BDI-II corrispondente ad un
percentile:
Tra l’85° e il 90° (rischio) → indica una condizione di disforia (alterazione dell’umore in senso
negativo) al confine con aspetti di tipo patologico; la persona è vulnerabile alla depressione ed è
possibile un’evoluzione in senso patologico; non si esclude che la persona possa rientrare sotto-
soglia senza particolari interventi.
Tra il 91° e il 95° (lieve) → situazione di disforia che comporta chiaramente un disagio e difficoltà
per la persona; è auspicabile una valutazione più specifica sui singoli item del test per valutare gli
aspetti specifici che sono fonte di maggiore sofferenza per la persona.
Oltre il 95° (da moderata a grave) → indica una situazione di particolare difficoltà e una condizione
depressiva che in alcuni casi potrebbe essere particolarmente grave; necessità di una indagine più
approfondita e di intervento specialistico.
Anche il test SOGS-RA, che misura il comportamento problematico nel gioco d’azzardo negli adolescenti,
interpreta i punteggi trasformandoli in percentili:
• Inferiore all’85° (non problematico) → assenza o presenza irrilevante di sintomi di rischio o dipendenza.
• Tra l’85° e il 94° (a rischio) → presenza di alcuni sintomi indici di dipendenza che possono rappresentare
un fattore di rischio; il numero limitato di sintomi non consente di configurare la condizione come
patologica ma identifica una situazione di potenziale criticità.
In base al costrutto e alle sue caratteristiche devo giustificare e spiegare i livelli definiti dal test, quindi cosa
significa appartenere ad una categoria piuttosto che ad un’altra.
CHE COSA SI INTENDE PER PUNTEGGIO VERO? TCT, LE SUE ASSUNZIONI, L’ERRORE CASUALE
La Teoria Classica dei Test (TCT) definisce l’errore casuale come un errore che non può essere identificato e
evitato, che si presenta in modo imprevedibile e varia da misurazione a misurazione. Alla base di questa
teoria abbiamo il concetto che l’errore varia in modo casuale. Il punto di partenza della TCT è: ogni misura
ottenuta attraverso un test è composta da una parte vera e una parte di errore. La TCT è composta di tre
assunzioni:
Assunzione I La media degli errori (E) di misurazione è uguale a 0 = siccome variano da misura a misura e
possono essere in eccesso e difetto, tendono ad annullarsi. In teoria, avrei la lunghezza vera se facessi
misure infinite, in pratica quello che posso fare è avere un certo numero di misurazioni (più sono e più
precisa sarà la misurazione) per ottenere una buona approssimazione della misura vera e limitare l’errore.
Assunzione II I punteggi veri (V) e gli errori (E) di misurazione sono tra loro indipendenti → l’errore non ha
nessuna relazione con la quantità/caratteristica che sto misurando.
Assunzione III Gli errori di misurazione (E) in somministrazioni indipendenti sono indipendenti → l’errore
casuale non è lo stesso da una rilevazione all’altra.
La parte vera è quindi il valore reale del costrutto che si intende misurare, ma non viene mai ottenuto da
una misurazione tramite test proprio per la presenza dell’errore casuale che, essendo ineliminabile, può
solo essere contenuto (somministrando più item per misurare uno stesso costrutto e i suoi indicatori) e
quantificato (più somministrazioni dello stesso test alla stessa persona o a persone diverse).
ERRORE CASUALE = Non può essere previsto ed evitato, si presenta in modo imprevedibile, varia da
misurazione a misurazione.
L’errore casuale rende la misura imprecisa, quindi quando si costruisce il test occorre trovare un modo per
contenerlo, visto che non si può eliminare, e cercare anche di quantificarlo in qualche modo al fine di avere
un’idea su quanto è precisa la misurazione ottenuta attraverso il test.
• Per contenere l’errore casuale nel test dobbiamo ripetere più volte le misure sapendo che quante più
misurazioni faccio, tanto migliore sarà la misura finale perché gli errori si annullano. In un test infatti
abbiamo più item (domande) che misurano un costrutto al fine di contrastare l’impatto dell’errore di
misura.
• Per quantificare l’errore nel test facciamo delle analisi su misurazioni ottenute da persone diverse, oppure
considerando misure ripetute più volte con le stesse persone.
Per quantificare l’errore casuale, e quindi la precisione dello strumento a fronte di E, si utilizza il
coefficiente rtt di attendibilità, che è utilizzato anche nella formula per stimare il punteggio vero: V=Mx +
rtt(x-Mx), dove Mx è la media del test e x è il punteggio ottenuto.
ERRORI SISTEMATICI
ERRORE NON CASUALE O SISTEMATICO = Componente di errore che va sempre nella stessa direzione.
L’errore non casuale nella somministrazione di un test può e deve essere corretto. Quali possono essere le
fonti dell’erroe sistematico? Possono essere a carico:
Intervistatore (1)
Intervistato (2)
Strumento (3)
Situazione nella quale io somministro il test (4)
1. SOMMINISTRAZIONE = L’intervistatore fornisce delle istruzioni scorrette a chi deve rispondere.
Oppure raccoglie le risposte/dati in modo sbagliato.
SCORING = L’intervistatore applica istruzioni in modo scorretto nella correzione di un test. Oppure
più banalmente commette degli errori di calcolo del punteggio.
Quindi questi errore vanno individuati e corretti. Quello che invece non si può fare con l’errore casuale
perché io non lo posso identificare, si presenta in modo imprevedibile e varia da misurazione a misurazione.
L’ATTENDIBILITA’
L’Attendibilità (Reliability) o Affidabilità o Fedeltà è la proprietà psicometrica del test che riguarda la
precisione con cui lo strumento misura un costrutto a fronte dell’errore casuale di misurazione. Questo lo si
fa esaminando la variabilità (varianza) nei punteggi osservati per stabilire se il punteggio del test è una
misura attendibile, ovvero di capire quanta parte della misura osservata è riconducibile alla parte vera e
quanta all’errore. Se X = V + E, dato un insieme di punteggi:
Ricordando che il punteggio X (σ²x) è dato dalla somma della parte vera V e dall’errore E, la varianza dei
punteggi X sarà data dalla somma della varianza di V(σ²v) e di E(σ²E). Quindi posso pensare che la misura sia
attendibile se la varianza di V è grande e quella di E è piccola. Ciò significa che la variabilità nei punteggi è
frutto delle vere differenze individuali e dipende in minima parte dalla componente di errore, ovvero dalle
variazioni dovute al caso. Un test deve cogliere le reali differenze che esistono nelle abilità, nei tratti, negli
atteggiamenti e nelle attitudini delle persone, e le differenze nei punteggi devono esprimere queste
differenze e solo in minima parte dovute all’errore casuale di cui la misura è affetta. Quindi per cercare di
capire se un test è attendibile devo cercare di capire quanto è la varianza vera e quella d’errore.
Come si vede dalla formula, è dato dal rapporto tra varianza vera e varianza dei punteggi osservati. Questo
rapporto può andare da 0 a 1, essendo il rapporto tra due quantità uguali (σ²v) con l’aggiunta a
denominatore della varianza di E. Da qui si capisce che tanto è più piccola σ ² E, tanto più questo valore si
avvicina a 1, senza mai raggiungerlo perché l’errore c’è sempre. Il problema è che non posso quantificare
né l’una né l’altra poiché l’errore casuale è incontrollabile, inevitabile e imprevedibile e, di conseguenza,
non posso conoscere esattamente la parte vera. L’unica cosa che sappiamo è la varianza di X, ovvero dei
punteggi osservati. Se la varianza vera non possiamo conoscerla, possiamo però utilizzare misure di
covarianza o correlazione tra i valori X perché applicando la II e III assunzione della TCT sappiamo che la
parte vera è indipendente dall’errore e gli errori, in misurazioni diverse, sono indipendenti tra di loro.
Questo vuol dire che se misure dello stesso costrutto covariano o correlano tra loro, l’entità o la forza della
covariazione/correlazione dipende esclusivamente dalla parte vera dal momento che, per definizione, gli
errori sono tra loro indipendenti.
Quindi l’attendibilità di un test si valuta andando a vedere se misure dello stesso costrutto sono in relazione
tra di loro. Se lo sono vuol dire che sto misurando in modo preciso la parte vera che è l’unica responsabile
della covariazione/correlazione, sapendo che gli errori non sono in relazione tra loro. Se la correlazione è
alta significa che sto misurando bene, se la correlazione è bassa vuol dire che c’è tanto errore nelle misure.
Come si ottengono più misure dello stesso costrutto con un test?
Coerenza interna
Si utilizzano più item della stessa scala come indicatori del costrutto. La coerenza interna è un indice
dell’attendibilità del test poiché si va ad indagare quanto covariano tra loro gli item che lo compongono.
Misurando la coerenza interna si pone l’attenzione sui singoli item. La covarianza tra item sarà tanto più
elevata tanto più gli item condividono la parte vera poiché, per la II e III assunzione della TCT, gli errori sono
indipendenti (non variano tra loro). Si calcolano dei coefficienti che esprimono quantitativamente la
precisione/attendibilità del test. Ci sono diversi indici di coerenza interna, il più famoso è l’Alfa di Cronbach:
Questo indice infatti, per come è calcolato matematicamente, dipende dal numero di item: all’aumentare
del numero di item la coerenza interna aumenta indipendentemente da quanto siano buoni gli item o
preciso il test. Ciò vuol dire che tanti più elementi metto, tanto più alfa aumenta, ma non è detto che
questo corrisponda ad un effettivo aumento dell’attendibilità del test nel suo complesso. Nella costruzione
del test l’obiettivo è:
Definire il numero di item necessari per misurare il costrutto riducendo l’impatto dell’errore
casuale.
Evitare che il numero di item sia tale da aumentare in modo artificiale la coerenza interna.
Criteri per l’interpretazione dell’Alfa di Cronbach: • α < .70 → insufficiente • .70 < α < .80 → adeguata • .80
< α < .90 → buona • α > .90 → eccellente → il valore minimo è .70
Quando valuto la coerenza interna del test posso considerare l’indice complessivo (alfa di Cronbach) e
posso anche stabilire quanto ogni item del test contribuisce alla precisione del test andando a vedere due
cose:
Quanto l’item correla con il punteggio totale calcolato senza considerare quell’item;
1. Se alfa aumenta significa che l’item non contribuisce alla coerenza interna
2. Se alfa diminuisce significa che l’item contribuisce alla coerenza interna
Quindi:
La correlazione item totale deve essere > .30 perché si possa dire che l’item contribuisce alla
coerenza del test. Altrimenti è come dire che quell’item non covaria con gli altri, quindi non
contribuisce alla precisione della misura (è alta la componente di errore nelle risposte a quell’item).
L’alfa, se l’item è escluso, non ha una soglia di riferimento ma dipende dall’alfa calcolato per il test
e si valuta se quello che si ottiene quando l’item è escluso è minore o maggiore di quell’alfa.
Troppo breve perché si ricordano le precedenti risposte e il coefficiente risulta essere una sovra-
stima dell’effettiva stabilità della misura.
Troppo lungo perché possono intervenire fattori che modificano il costrutto misurato. In questo
caso si considera il punteggio totale e non i singoli item e si correlano le misure ottenute al tempo 0
(test) e al tempo 1 (retest).
La misura dell’attendibilità test-retest è data dalla correlazione di r di Pearson tra i punteggi delle due
somministrazioni. I punteggi saranno correlati tra loro nella misura in cui condividono la parte vera (per la
III assunzione). Siccome è la parte vera che correla, tanto più sarà alta questa correlazione tra misura
rilevate in tempi diversi, tanto maggiore sarà la precisione dello strumento. Come dice la III assunzione, gli
errori in misure raccolte in tempi diversi sono tra loro indipendenti (non correlano).
I criteri per l’interpretazione per l’r di Pearson sono: • r < .60 → insufficiente • .60 < r < .70 → adeguata
• .70 < r < .80 → buona • r > .80 → eccellente → il valore minimo è .60
Se un test ha una sola dimensione (Matrici Raven o LOT-R test), avrò un solo indice di coerenza
interna o stabilità temporale.
Se invece il test prevede due o più scale e un totale (scale Wechsler o SES test), gli indici di
attendibilità devono essere riportati per l’intero test e per ogni dimensione.
Infine, se il test ha scale non sommabili (HEXACO test o Time Perspective Inventory), devo riportare
gli indici per ogni dimensione misurata dal test, ma ovviamente non per il totale che non viene
calcolato.
Quando il test si compone di scale e sotto-scale come nel test HEXACO, gli indici di attendibilità vengono
riportati per ognuna scala e sotto-scala. Poiché il totale non è previsto, non esiste un indice di attendibilità
totale. Talvolta l’attendibilità viene calcolata su campioni diversi ma che hanno un senso rispetto al
costrutto misurato.
L’indice di attendibilità, qualsiasi esso sia, può servire per calcolare la stima puntuale di V. Per calcolarlo
occorre conoscere: • Media del test Mx • Indice di attendibilità rtt • Punteggio osservato
X Errore standard di misurazione σE
L’indice di attendibilità, qualsiasi esso sia, può anche servire per calcolare l’errore standard di misurazione
che definisce la variabilità dei punteggi osservati attorno a quello vero. Per calcolarlo occorre conoscere:
Possiamo definire un intervallo, detto intervallo di fiducia, l’intervallo entro il quale ricade il punteggio vero
con una determinata probabilità. Con la stima intervallare stimo gli estremi di un intervallo di valori entro il
quale probabilmente ricade il punteggio vero. Gli estremi sono detti limiti di fiducia:
Il livello di fiducia è la probabilità che il punteggio ricada nell’intervallo definito dai limiti di fiducia.
Dalla formula si vede che il limite inferiore e superiore sono due valori sotto/sopra il punteggio osservato X
ed equidistanti da esso. Infatti da X devo togliere o aggiungere una stessa quantità. Come ottengo questa
quantità?
Rifacendomi alla proprietà della distribuzione normale, che mi consentono di identificare un valore
zeta corrispondente al livello di fiducia scelto. Questi valori di z sono fissi.
Valori di z:
Livello del 90% → z = -1.65; z = +1.65 → Corrispondenti alla porzione di area attorno alla media
uguale al 90% della distribuzione.
Livello del 95% → z = -1.96; z = +1.96 → Corrispondenti alla porzione di area attorno alla media
uguale al 95% della distribuzione.
Livello del 99% → z = -2.58; z = +2.58 → Corrispondenti alla porzione di area attorno alla media
uguale al 99% della distribuzione.
COSA VALUTA L’ALFA DI CRONBACH
Lo studio delle proprietà psicometriche permette di capire se un test misura realmente ciò che dice di
misurare e se lo fa in modo accurato attraverso i suoi indicatori: validità e attendibilità. Tra i metodi di
studio dell’attendibilità si trova quello relativo alla coerenza interna, ovvero il grado di coerenza o
concordanza tra gli item che compongono un test. Ciò si può studiare e quantificare attraverso l’alfa di
Cronbach, un indice (usato per gli item su scala metrica).
L’alfa di Cronbach tende ad aumentare all’aumentare del numero degli item, i quali fanno alzare il livello
indipendentemente dalla precisione. L’alfa di Cronbach ha dei criteri per stabilire l’attendibilità: <0.70
insufficiente; tra 0.70 e 0.80 adeguata; tra 0.80 e 0.90 buona; >0.90 eccellente.
Quando valuto la coerenza interna del test posso considerare l’indice complessivo (alfa di Cronbach) e
posso anche stabilire quanto ogni item del test contribuisce alla precisione del test andando ad osservare
due fattori:
• Quanto l’item correla con il punteggio totale calcolato senza considerare quell’item;
1. Se alfa aumenta significa che l’item non contribuisce alla coerenza interna
2. Se alfa diminuisce significa che l’item contribuisce alla coerenza interna
COS’E’ LA CORRELAZIONE?
Per correlazione si intende la relazione tra due variabili tale che a ciascun valore della prima corrisponda un
valore della seconda, seguendo una certa regolarità. Questo può essere inteso anche tra due eventi: al
verificarsi dell’uno si registra l’avvenirsi anche dell’altro. A proposito dei test la correlazione entra in gioco a
riguardo della validità di criterio, la quale può essere misurata mediante il coefficiente di correlazione: tra
0.20 e 0.34 adeguata; tra 0.35 e 0.50 buona; >0.50 eccellente.
Entra in gioco anche nella validità di costrutto, infatti per misurare la validità convergente e quella
discriminante si usa il coefficiente di correlazione: una correlazione elevata con misure dello stesso
costrutto è indice di validità convergente; una correlazione bassa con misure di costrutti diversi indica una
validità discriminante.
Per indice di correlazione spesso si usa la “correlazione R di Pearson” tra punteggi di due somministrazioni
diverse. La correlazione va da 0 a 1: <0.60 insufficiente; tra 0.60 e 0.70 adeguata; tra 0.70 e 0.80 buona;
>0.80 eccellente.
CHE COSA SI INTENDE PER VALIDITA’DI UN TEST? SPIEGA TUTTE LE SUE CLASSIFICAZIONI.
La validità di contenuto si riferisce alla misura in cui gli item del test costituiscono un campione
rappresentativo degli indicatori comportamentali del costrutto che si intende misurare.
Questo tipo di validità è valutata da persone esperte come psicologi e psichiatri e sarà alta se il costrutto è
rappresentato dal test in maniera esaustiva; spesso il criterio di valutazione è il DSM (Diagnostic and
Statistical Manual of Mental Disorders), in cui i costrutti sono definiti nelle loro caratteristiche e nei loro
sintomi.
La validità di contenuto è inerente al grado con cui gli item del test costituiscono un campione
rappresentativo degli indicatori comportamentali del costrutto che si vuol misurare. Esiste un passaggio
dalla definizione teorica a quella operativa che include la specificazione degli indicatori che poi saranno
tradotti in item.
La validità di costrutto è inerente al grado in cui il test misura adeguatamente ciò che intende misurare.
Viene dimostrata provando che il test misura un certo costrutto perché è ben rappresentato rispetto alle
sue specifiche caratteristiche e che misura proprio quel costrutto e non altri.
La validità di costrutto è soddisfatta quando si hanno prove del fatto che il test ha:
La validità fattoriale/interna si misura studiando la dimensionalità del test tramite analisi fattoriale, che
permette di capire tramite le covariazioni di più variabili se è presente una variabile latente (il costrutto
misurato) che determina le risposte e che può a sua volta essere costituita da più fattori. Se la struttura che
si crea rispetta le attese e la definizione teorica del costrutto allora la validità fattoriale è alta.
È relativa al grado in cui il test rappresenta il costrutto ricalcandone la definizione teorica. Come sappiamo,
ci sono costrutti che hanno una sola dimensione, mentre altri hanno più dimensioni. Questo vuol dire che
un test si compone di tanti item che confluiscono in un’unica misurazione, oppure da tanti item che si
raggruppano in sotto-scale diverse e che misurano le varie dimensioni del costrutto. La validità intera o
fattoriale riguarda quindi lo studio della dimensionalità del test che deve riprodurre le dimensioni del
costrutto.
Al solito, ci si riallaccia all’intreccio tra teoria e misura. La teoria ci dà indicazioni per costruire uno
strumento per misurare un certo costrutto. Una volta definito lo strumento raccogliamo le misure
attraverso i suoi item e dall’analisi di queste dobbiamo capire se ritroviamo il costrutto che volevamo
misurare. Rispetto alla validità di contenuto in cui facciamo un’analisi prima di somministrare il test per
capire se rappresenta bene il costrutto, con la validità di fattoriale facciamo un’analisi dopo aver
somministrato il test, sempre per capire se rappresenta bene il costrutto.
Dimensionalità: L’analisi della dimensionalità fornisce prove alla validità di costrutto interna. Per portare
prove a favore della validità interna o fattoriale si usa l’analisi fattoriale, un’analisi statistica che consente di
analizzare le risposte agli item per risalire al costrutto. Esiste quindi un’ulteriore differenza con la validità di
contenuto. La validità di contenuto richiede un’analisi qualitativa di quanto il test rappresenta bene il
costrutto, mentre la validità di costrutto richiede un’analisi quantitativa per dimostrare la stessa cosa.
• Validità convergente Rappresenta un accordo tra la misura ottenuta con il test e altre misure dello stesso
costrutto ottenute con altri test. Uso il coefficiente di correlazione: se il test misura quello che dice di
misurare devo osservare una correlazione forte con misure dello stesso costrutto. La validità di un costrutto
convergente si interpreta: • valori < di .55 → inadeguata • valori tra .55 e .64 → adeguata • valori tra .65
e .75 → buona • valori > .75 → eccellente
• Validità discriminante Rappresenta la distinzione tra la misura ottenuta con il test e misure di altri
costrutti ottenute con altri test. Uso il coefficiente di correlazione: se il test misura quello che dice di
misurare devo osservare una correlazione debole con misure di costrutti diversi. La validità di un costrutto
discriminante non si interpreta in base a criteri fissi poiché dipende da quali sono gli altri costrutti.
La validità di criterio si valuta rispetto ad un criterio, ovvero un costrutto esterno ritenuto teoricamente
connesso con il costrutto misurato dal test. Il criterio, in termini statistici, è rappresentato da una variabile
che si voglia spiegare e/o predire in base ad un’altra.
Il test per il quale devo dimostrare la validità di criterio misura il predittore. La scelta del criterio è cruciale:
• La teoria deve supportare la definizione di ipotesi in merito alla relazione tra test e criterio/i
• Validità di criterio concorrente Comporta la rilevazione contemporanea del predittore e del criterio
• Validità di criterio predittiva Comporta la rilevazione del predittore a cui segue a distanza di tempo la
rilevazione al criterio La validità di criterio può essere misurata mediante la regressione o il coefficiente di
correlazione. I valori si interpretano così: • valori tra .20 e .34 → adeguata • valori tra .35 e .50 → buona •
valori > .50 → eccellente
DIMENSIONALITA’
La validità intera o fattoriale riguarda quindi lo studio della dimensionalità del test che deve riprodurre le
dimensioni del costrutto. Dimensionalità: L’analisi della dimensionalità fornisce prove alla validità di
costrutto interna. Per portare prove a favore della validità interna o fattoriale si usa l’analisi fattoriale,
un’analisi statistica che consente di analizzare le risposte agli item per risalire al costrutto. Esiste quindi
un’ulteriore differenza con la validità di contenuto. La validità di contenuto richiede un’analisi qualitativa di
quanto il test rappresenta bene il costrutto, mentre la validità di costrutto richiede un’analisi quantitativa
per dimostrare la stessa cosa.
• Una dimensione = indice unico Punteggio totale se osservo un solo fattore/dimensione Quando vado a
verificare l’attendibilità devo considerare tutti gli item insieme sotto un indice unico.
• Dimensioni correlate = indice unico e per ciascuna dimensione Punteggi per le sotto-scale e la possibilità
di sommarli in un totale se osservo fattori/dimensioni non correlati/e Quando vado a verificare
l’attendibilità devo calcolare l’indice per ogni sotto scala e un indice per il totale.
• Dimensioni non correlate = indice per ciascuna dimensione Punteggi per le scale che non possono essere
sommati se osservo fattori/dimensioni non correlati/e Quando vado a verificare l’attendibilità devo
calcolare un indice per ogni scala.
ANALISI FATTORIALE
Attraverso l’analisi fattoriale si esamina la varianza comune (covariazioni) ad un insieme di variabili
osservate (risposte agli item), riconducendola ad una variabile latente (costrutto misurato) che causa le
risposte e che può essere costituito da una o più dimensioni (fattore/i). In sintesi, esaminiamo le risposte
per identificare se c’è un fattore/i che le causa.
Si opera un passaggio da uno spazio con n dimensioni (n = numero delle risposte agli item) a uno più ridotto
con m dimensioni (m = numero dei fattori identificati dall’analisi). Il risultato può indicare uno, due, tre o
più fattori che dovranno poi corrispondere alla/e dimensione/i descritte nella definizione teorica del
costrutto. I risultati dell’analisi fattoriale devono corrispondere alle attese:
• Costrutto = fattore/i. Analizzando le relazioni tra le risposte agli item, ritrovo le dimensioni del costrutto?
• Indicatori (item) = fattore. Analizzando le relazioni tra le risposte agli item, ritrovo che ogni dimensione
del costrutto è misurata attraverso i suoi indicatori?
Se osservo/confermo queste corrispondenze, il test ha validità di costrutto interna. Nel caso ci siano più
fattori, l’analisi fattoriale mi dice anche se:
• Sono in relazione tra loro (freccia bidirezionale), ovvero se il costrutto si compone di due dimensioni
correlate.
• Non sono in relazione tra loro (nessuna freccia), ovvero se il costrutto si compone di due dimensioni non
correlate.
MMPI
MMPI sta per “Minnesota Multiphasic Personality Inventory”. Sono presenti due versioni del test, una per
adulti (l’MMPI-2), ottenuta a seguito di una revisione interna ed esterna dell’MMPI originario, e un’altra per
adolescenti (l’MMPI-A). Gli item sono circa 500 per questo test. La modalità di risposta è dicotomica.
Si tratta di un test utilizzato per valutare le maggiori caratteristiche strutturali di personalità e i disordini di
tipo emotivo con necessità di un colloquio clinico affiancato. È composto da diversi tipi di scale:
6 SCALE DI VALIDITA’: utili per capire l’accettabilità del protocollo e la difesa attuata dal soggetto
(scala LIE, scala K (correzione), scala VRIN/TRIN (incoerenza risposte).
1. Passato negativo: 10 item; chi ha elevati valori di PN è focalizzato sul passato negativo, vale a dire
che tende a pensare e rivivere esperienze del passato - realmente negative o anche solo vissute e
rappresentate negativamente – provocando stati d’animo negativi nel presente.
2. Passato positivo: 15 item; chi ha elevati valori di PP è focalizzato sul passato positivo, vale a dire che
tende a pensare e rivivere esperienze passate, ma si focalizza su eventi ed esperienze vissute e
rappresentate positivamente. Questo tipo di orientamento temporale provoca sostegno e stati
d’animo positivi nel presente e può essere associato alla progettualità futura.
3. Presente fatalista: 13 item; chi ha elevati valori di PF è focalizzato sul presente, ma presenta un
atteggiamento fatalista, vale a dire che tende a credere di avere molto meno controllo e capacità di
cambiare il presente di quanto realmente abbia e si lascia guidare passivamente dagli eventi esterni.
Solitamente attribuisce la causalità degli eventi al caso e di focalizza sull’inutilità dell’agire.
4. Presente edonista: 9 item; chi ha elevati valori di PE è focalizzato sul presente e presenta un
atteggiamento edonista, vale a dire che tende a dare priorità al piacere e alla gratificazione
immediata nel prendere decisioni e non da molto peso alle conseguenze future. In genere evita
situazioni difficili, impegnative e spiacevoli, in quanto tende a volersi “godere la vita” senza
preoccupazioni. Secondo Zimbardo questa componente non è negativa, anzi deve essere presente
nel profilo di orientamento temporale di un individuo; quest’ultimo non deve essere sempre
focalizzato sulla pianificazione, deve anche presentare questa parte di edonismo necessaria per
ottenere un buon livello di benessere.
5. Futuro: 9 item; chi ha elevati valori di F è focalizzato sul futuro e orientato ad esso, vale a dire che
tende a soppesare vantaggi e svantaggi, fissare obiettivi e ragionare sulle conseguenze delle proprie
azioni. Solitamente è disposto e sacrificarsi, lavorare duro e rinviare le gratificazioni.
Ognuno di noi presenta caratteristiche di orientamento temporale differenti e non riassumibili in una sola
dimensione, per questo motivo dalla combinazione delle sei componenti si ottiene un profilo individuale.
Per lo scoring dobbiamo dividere ciascun punteggio per il numero di item, individuare i percentili e
ricordarsi che il punteggio ottenuto in ogni scala è quasi totalmente indipendente dalle altre
Jack (UK) ha 48 anni e ha ottenuto 51 alle matrici di Raven Standard. A quale rango percentile
corrisponde il suo punteggio?
Per risolvere questi esercizi si devono considerare le tabelle delle matrici di Raven, che sono presenti sia
con che senza la nazionalità. Osservando quelle con la nazionalità vediamo che il suo punteggio corrisponde
al 50esimo percentile.
Il questionario è costituito da 134 affermazioni rispetto a cui il soggetto deve esprimere il proprio giudizio
su una scala Likert a 5 punti, e la somministrazione può essere individuale o di gruppo. Il punteggio grezzo
viene trasformato in punti T, e così viene delineato un profilo del soggetto rispetto a queste 5 dimensioni,
che dovrà poi essere interpretato. Il BFQ-2 è utilizzato in molti ambiti, tra cui quello organizzativo e quello
clinico, in cui è usato a fini diagnostici, terapeutici e prognostici, oltre che come strumento per il terapeuta
per capire che tipo di interazione e relazione instaurare col paziente.
La principale differenza tra l’impostazione del BFQ-2 e dell’MMPI può essere colta anche osservando le
scale in cui si articolano i due test: mentre l’MMPI-2 è interessato agli aspetti patologici della personalità
(contenuti in modo particolare nelle 10 scale cliniche di base) e il fine è quello di individuare o escludere la
patologia del soggetto, le scale in cui si articola il BFQ-2 appaiono come “meno patologiche”, a prova del
fatto che il fine del BFQ-2 è quello di delineare le caratteristiche di un soggetto “normale”, non patologico.
Anche nella fase di costruzione del test stesso l’MMPI è stato sviluppato somministrando le stesse prove a
soggetti patologici e non patologici e quelle in cui si differenziavano sono state inserite nel test.
Tornando al caso in esame, considerato il numero degli item e presupponendo che la correlazione tra ogni
item e il totale sia maggiore o uguale a .30, e che ogni item sia rilevante per la coerenza interna del test, si
potrebbe dire che il test sia attendibile. Nel caso in cui la correlazione di qualche item fosse minore di .30
oppure che gli item non contribuissero alla coerenza interna, si dovrebbe provvedere ad eliminare gli item
che non rispettano queste condizioni.
Considerando i valori riportati, l’item CSSE7 non ha un’adeguata correlazione item-totale e anche il valore
di Alfa aumenta se si elimina l’item: date queste condizioni l’item può e deve essere eliminato.
COME VIENE FATTO LO SCORING DI UN TEST COGNITIVO CON DOMANDE APERTE? Fare un
esempio
Le domande aperte dei test cognitivi sono dei compiti o delle prove che sono utilizzate per valutare le
abilità cognitive del soggetto. Lo scoring in questi casi si articola in base alla correttezza della prestazione
fornita dal soggetto, e ci sono delle istruzioni che fanno parte del test che guidano colui che deve dare un
giudizio nell’assegnazione dei punteggi alle varie risposte fornite. Esempi di scoring cognitivo con domande
aperte sono ampiamente presenti nel MOCA, ad esempio nel test di denominazione, dove si attribuisce un
punto per ogni animale indovinato. Altri esempi sono il disegno con i cubi e il completamento di figure nelle
scale Wechsler.