Sei sulla pagina 1di 32

LA MISURA IN PSICOLOGIA

INTRODUZIONE AI TEST PSICOLOGICI


A. P. ERCOLANI, M. PERUGINI

1. LA MISURA DEL COMPORTAMENTO


La psicologia studia il comportamento umano per cercare di spiegarne le cause sulla base di osservazioni
sistematiche: la costruzione di modelli di comportamento è essenzialmente induttiva, basata su
osservazioni empiriche e intuizioni circa il comportamento che ci si aspetta in varie circostanze.

1. IL CONCETTO DI MISURA
Kant distingueva tra:
• Grandezze estensive: suscettibili di essere scomposte in parti direttamente misurabili
• Grandezze intensive: determinate in via indiretta e suscettibili di essere descritte da relazioni di
ordine.

Misura: procedura di classificazione che consenta di attribuire un oggetto ad una determinata classe e di
costruire all’interno di questa classe una relazione di ordine, anche non quantitativa. Prima di ogni misura
vera e propria viene a crearsi una rappresentazione del mondo in categorie fenomeniche connesse da un
insieme di relazioni traducibili in linguaggio numerico.

2. LA MISURA IN PSICOLOGIA
In psicologia non esiste una teoria unificata riguardante la misurazione, ma esistono due distinte tradizioni
di ricerca:
• Approccio formale e assiomatico: fa riferimento ai modelli della psicologia matematica
• Approccio pratico: in grado di dare soluzioni praticabili a problemi empirici concreti

Il materiale empirico sul quale si lavora nel campo della psicologia sperimentale o applicata è un insieme di
dati relativi a giudizi di valore che devono essere trasformati, in base a modelli spaziali affini, attraverso un
sistema relazionale empirico.

L’analisi bibliografica non trova analogo interesse per problemi connessi al «come» si misura e, qualche
volta, nemmeno al «cosa» si misura.
Le aree nelle quali è necessaria una maggiore integrazione tra teoria e prassi sono tre:
1. Il problema del tipo di scale di misura
2. Il campionamento
3. Le tecniche di analisi dei dati
Il problema sta nel fatto che le caratteristiche psicologiche non sono direttamente misurabili: si tratta di
variabili «latenti» inferite, sulla base di qualche teoria, dal comportamento dell’individuo.

Coombs sostiene che «un modello di misura è in realtà una teoria» e che «i fatti sono inferenze, così come i
dati, le misurazioni e le scale». I dati vengono definiti come relazioni tra punti nello spazio che deve essere
tale da consentire la rappresentazione di proprietà psicologiche non direttamente metriche; il modello
consente di rappresentare tutte le relazioni definite sulle osservazioni in base a due sole relazioni:
• Relazioni di ordine
• Relazioni di distanza
A queste relazioni geometriche fa corrispondere le relazioni psicologiche di dominanza e prossimità.

1
La ricerca successiva non ha sostanzialmente modificato l’impostazione di Coombs anche se ha sostituito
ad una classificazione dicotomica classificazioni più complesse. L’applicazione in concreto di tali modelli
tuttavia non ha trovato largo consenso: i ricercatori continuano a utilizzare la teoria classica della misura.

Il modello più frequentemente utilizzato è quello di una corrispondenza tra le risposte dei soggetti e la
scala dei numeri naturali, senza curarsi di approfondire né le caratteristiche del sistema metrico utilizzato
né la sua corrispondenza con il fenomeno studiato.

3. CHE COSA MISURIAMO


Tutte le misure psicologiche sono basate sull’osservazione del comportamento: da questa osservazione
vengono inferite le caratteristiche che si vogliono misurare.
Più il comportamento è complesso, più difficile sarà inferire tali caratteristiche: il rapporto tra la teoria e il
costrutto che vogliamo misurare deve essere molto stretto.
Tutti i costrutti psicologici sono la “sintesi” di serie di comportamenti direttamente osservabili: così il
costrutto «intelligente» sarà la sintesi di un certo numero di comportamenti intelligenti.
Si tratterà di decidere come campionare tali comportamenti in modo che siano rappresentativi per
descrivere in modo sufficiente il costrutto.

Gli strumenti di misura si basano sull’osservazione, in situazioni più o meno controllate, delle reazioni degli
individui a stimoli più o meno standardizzati, ovvero stimoli per i quali sono già previste le modalità di
risposta. Sarebbe quindi auspicabile lo sviluppo di appropriati modi di costruire strumenti in relazione alle
diverse aree psicologiche.

Tutte le osservazioni del comportamento conducono fondamentalmente a quattro tipi di misure:


• Latenza: intervallo di tempo che intercorre tra lo stimolo ed il verificarsi di uno specifico evento.
• Frequenza: numero delle volte che si presenta un determinato evento. È forse il modo più comune di
misura del comportamento: normalmente, il punteggio finale viene calcolato sulla base del numero di
risposte corrette fornite dal soggetto. Se l’osservazione avviene in una situazione non controllata, la
frequenza deve essere rapportata alla durata dell’osservazione.
• Durata: quantità di tempo in cui un singolo comportamento viene mantenuto. Deve sempre essere
riferita alla durata totale dell’osservazione.
• Intensità: caratteristica del comportamento più difficile da definire e misurare e viene spesso confusa
con la frequenza.

4. L’ERRORE
La prima fonte di incertezza insita nella misura deriva dall’inadeguatezza del modello che usiamo per
descrivere la realtà da misurare.

Altre due fonti di incertezza della misura sono note come:


• Errori accidentali: dovuti all’effetto del caso, cioè alla consapevolezza che i risultati che si ottengono
ripetendo lo stesso processo di misura più volte sullo stesso oggetto sono diversi.
• Errori sistematici: riguardano più specificamente lo strumento di misura: operano una distorsione nel
passaggio tra il modello del reale, gli indicatori che utilizziamo e la struttura numerica.

5. I TIPI DI VARIABILE
L’oggetto della misura può essere qualsiasi fenomeno o qualsiasi evento nella sua complessità. Si deve
cominciare a ridurne la complessità cercando di definire quali caratteristiche dell’evento riteniamo
importanti e quali trascurabili: queste vengono definite variabili.

2
La più classica distinzione è in:
• Variabili indipendenti: considerate le cause del comportamento o della reazione dei soggetti.
Dovrebbero essere manipolate dallo sperimentatore a garanzia che influenzino direttamente la
risposta dei soggetti, modificandone i comportamenti.
• Variabili dipendenti: misura della risposta del soggetto.
• Variabili di disturbo: si tratta di una distinzione riferita tipicamente ad una situazione di ricerca. Sono
compresenti nell’osservazione del comportamento ma non si ritengono rilevanti nello studio della
relazione tra variabile indipendente e variabile dipendente.

Un’altra distinzione frequente è tra:


• Variabili quantitative: vengono rappresentate su scale numeriche, come il tempo di reazione a uno
stimolo o il punteggio ad un test.
• Variabili qualitative: si riferiscono a categorie e vengono rappresentate su scale categoriali.
Spesso, variabili che a prima vista sono considerate qualitative, possono diventare quantitative se il livello
di analisi diventa più sofisticato.
Tutte le variabili sono in linea di principio misurabili e perciò quantificabili. Anche la più qualitativa può
essere codificata perlomeno in termini di presenza/assenza, e quindi in termini di frequenza.

6. LE SCALE DI MISURA
Le scale di misura si basano su tre elementi:
• Sistema empirico: insieme di entità non numeriche, come insiemi di persone, insiemi di stimoli,
insiemi di item, ecc.
• Sistema numerico
• Una regola che consenta di passare dall’uno all’altro

SCALA NOMINALE
Quando il sistema empirico è un sistema in cui esiste solamente la suddivisione in categorie distinte e
mutualmente escludentesi, cioè un sistema empirico classificatorio, allora la sua misura (sistema
numerico) consiste nell’attribuire numeri uguali agli elementi della stessa categoria e numeri diversi ad
elementi appartenenti a categorie diverse (regola).
Il sistema numerico in questo caso ha la sola proprietà di simbolo, e la scala di misura prende il nome di
scala nominale poiché i numeri costituiscono solo delle denominazioni delle categorie.

SCALA ORDINALE
Un sistema empirico nel quale gli elementi componenti godono della stessa caratteristica ma in quantità o
grado diverso, ordinabile rispetto a tale grado, si chiama sistema empirico ordinato. Il sistema numerico
che si utilizza indica la posizione reciproca degli elementi: non si avrà nessuna informazione sulla distanza
o il rapporto tra le due quantità di caratteristica presenti. La regola sarà allora che ad uno stesso numero è
associata una stessa quantità di caratteristica e che i numeri indicano solamente una graduatoria tra le
quantità di caratteristica presenti.
Questa scala viene chiamata scala ordinale.

SCALA INTERVALLARE O A INTERVALLI EQUIVALENTI


Quando nel sistema empirico è possibile stabilire un’unità di misura, allora nel sistema numerico
corrispondente è possibile stabilire l’entità delle differenze di intensità della caratteristica.
Questa scala viene chiamata scala ad intervallo.
Esempi concreti sono la scala delle temperature e, in psicologia, le scale di atteggiamenti e molti test.
Mentre per la scala delle temperature è chiaro che esista un’unità di misura costante lungo tutto l’intervallo
della scala ed esista uno «zero» fissato arbitrariamente, questo non è sempre sostenibile per le scale di
atteggiamenti e anche per i test: per esempio, in un test di intelligenza è molto difficile sostenere e

3
dimostrare che l’unità di misura non cambia lungo il continuum o definire chiaramente cosa vuol dire un
Q.I. uguale a zero.

SCALA RAZIONALE O A RAPPORTI


Quando nel sistema empirico è possibile identificare, oltre all’unità di misura, anche un elemento di
intensità nulla, il sistema viene chiamato additivo. Il sistema numerico allora godrà di tutte le proprietà
dei numeri reali e la regola di trasformazione potrà comprendere anche l’uguaglianza del rapporto tra due
elementi.
I rapporti tra i valori attribuiti agli elementi rimangono costanti anche cambiando unità di misura. Queste
scale vengono appunto chiamate scale razionali o scale di rapporto.

In tutti i test di statistica per psicologi si mettono in relazione le diverse scale di misura con le tecniche
statistiche da utilizzare senza approfondire il perché di questa corrispondenza. Solo recentemente si fa
cenno al disaccordo da parte degli statistici sull’automaticità della relazione tra tipo di scala e tipo di
statistica da adottare senza, tuttavia, giustificare il perché gli statistici non siano d’accordo.
La ragione vera del dibattito sta nel concetto di trasformazione permissibile e nelle difficoltà che sorgono
nell’estendere i risultati dell’analisi statistica a diverse trasformazioni di scala di uno stesso fenomeno.
Possiamo distinguere tra statistiche invarianti rispetto alla trasformazione di scala e quelle che invece
portano a risultati differenti se viene cambiata la scala. La verità è che ogni cambiamento di scala,
modificando la struttura numerica, cambia anche l’immagine del mondo che descrive.

7. CONCETTI STATISTICI DI BASE

CAMPIONE E POPOLAZIONE
La popolazione rappresenta l’insieme dei componenti cui l’indagine del ricercatore è rivolta.
Il campione è un sottoinsieme della popolazione composto da un numero inferiore, n, di unità.
La ricerca in psicologia viene quasi sempre effettuata con campioni. Dai risultati così ottenuti, si
inferiscono poi caratteristiche che riguardano la popolazione corrispondente. Risulta perciò chiara
l’importanza di lavorare con campioni che siano rappresentativi della popolazione.

DISTRIBUZIONE DELLE VARIABILI


Le variabili raccolte in uno studio vanno anzitutto esaminate rispetto alla loro distribuzione.
Una distinzione iniziale riguarda:
• Variabili di tipo continuo: si intendono quelle variabili che possono assumere un numero
tendenzialmente infinito (o molto elevato) di valori.
• Variabili di tipo discreto: variabili che assumono soltanto un certo numero di valori, solitamente non
frazionali. Nel campo dei test psicologici si hanno solitamente variabili discrete, perché i valori sono
limitati solo ad alcuni dei valori possibili.
La variabile sottostante può essere considerata continua anche se la misura che effettuiamo è
necessariamente discreta: per esempio possiamo pensare che esistano infiniti gradi di ansia, anche se,
attraverso un test, possiamo avere solo valori discreti.

La rappresentazione grafica del numero di soggetti che presentano i diversi gradi nei quali abbiamo
misurato l’ansia si chiama distribuzione di frequenza.
Nel caso di variabili continue, la distribuzione si rappresenta con una curva dove sull’asse delle ascisse
sono riportati i valori della variabile e sull’asse delle ordinate è riportata la frequenza di tali valori.
Se la variabile è discreta, la rappresentazione grafica della sua distribuzione invece è chiamata
istogramma. I valori saranno classi di punteggi che verranno rappresentate graficamente da rettangoli
proporzionali alla frequenza dei valori.

4
INDICATORI DI TENDENZA CENTRALE
È possibile valutare la distribuzione della variabile anche tramite dei parametri statistici più informativi.
Anzitutto, possiamo calcolare i cosiddetti indicatori di tendenza centrale.
Se ne distinguono tre tipi principali:
• Moda: definita come il valore che occorre con la maggior frequenza in un insieme di dati di una
variabile. Una distribuzione di frequenza può avere più di una moda.
• Mediana: quel valore che divide in due parti uguali la distribuzione di frequenza di una variabile. Vale a
dire, quel valore al di sotto e al di sopra del quale deve essere contenuto il 50% delle frequenze.
• Media: rappresenta il valore medio di tutte le osservazioni raccolte di una certa variabile. Si calcola
sommando tutte le osservazioni della variabile, cioè tutti i punteggi dati dai soggetti, e le dividiamo
per numero di soggetti.

INDICATORI DI DISPERSIONE
Altre informazioni importanti vengono dalla dispersione dei punteggi.
I più importanti tra gli indicatori di dispersione sono:
• Campo di variazione: indicatore molto grossolano della variabilità di una distribuzione: si ottiene
sottraendo dal valore più alto osservato della distribuzione il valore più basso.
L’informazione che otteniamo è molto generica e soprattutto basata sui soli valori estremi della
distribuzione che potrebbero essere valori eccezionali rispetto agli altri.
• Varianza: parametro statistico della variabilità di una distribuzione basato sul concetto di scostamento
della media. La varianza di un punteggio X è uguale alla sommatoria degli scostamenti dei punteggi di
tutte le osservazioni dalla media elevati al quadrato, diviso il numero di osservazioni.
Essa sarà un indicatore globale di quanto i singoli punteggi si disperdono rispetto al valore medio della
distribuzione. Più dispersi saranno i punteggi, più elevato sarà il valore della varianza.
• Deviazione standard: è semplicemente la radice quadrata della varianza. Ha però il vantaggio di
condividere la stessa unità di misura della media, cosa che non succede per la varianza che è basata,
come abbiamo detto, sul quadrato degli scostamenti della media.

DISTRIBUZIONE NORMALE
Le distribuzioni delle variabili possono assumere, sia nel campione sia nella popolazione, delle forme
differenti. La forma classica della distribuzione sulla quale è basata la teoria statistica è quella normale,
chiamata anche curva a campana o curva Gaussiana.
Molte variabili psicologiche presentano una distribuzione normale o approssimativamente normale.
Le distribuzioni normali differiscono per media e variabilità, ma per renderle confrontabili si fa ricorso alla
distribuzione normale standardizzata. Tutte le distribuzioni normali possono essere standardizzate
trasformando i punteggi grezzi osservati in punti standard (z).
Inoltre è possibile calcolare l’area sottesa tra due qualsiasi punti della distribuzione: tale area rappresenta
la proporzione di punteggi che si dovrebbero trovare tra quei due punti.
Una caratteristica fondamentale della curva della distribuzione normale è la sua simmetria rispetto alla
media. Questa proprietà fa sì che moda, mediana e media coincidano con lo stesso valore.

INDICATORI DELLA FORMA DI UNA DISTRIBUZIONE


Per verificare se la forma della variabile è normale, è possibile utilizzare due indicatori statistici:
• Asimmetria: ci informa di quanto la curva sia sbilanciata verso destra o verso sinistra, vale a dire di
quanto le frequenze dei punteggi alti o bassi siano relativamente più elevate di quanto dovrebbero
essere se la distribuzione fosse normale.
• Curtosi: indica quanto i punteggi siano concentrati in un punto particolare della distribuzione o di
quanto essi siano uniformi, sempre relativamente alla frequenza che dovrebbero avere in una
distribuzione normale.
Entrambi i paramenti variano tra più e meno infinito (±∞) e quando assumono valore uguale a zero
indicano una distribuzione perfettamente normale della variabile.

5
Nella prassi, possiamo considerare una variabile come approssimativamente normale quando presenta
una asimmetria ed una curtosi comprese tra -1 e +1.

CORRELAZIONE
La relazione tra due variabili indica quanto l’andamento nei punteggi di una variabile sia collegato
all’andamento nei punteggi di un’altra variabile, quanto cioè le due variabili covarino.
È possibile rappresentare graficamente la relazione tra due variabili tramite diagrammi di dispersione
(scatterplot).
Per descrivere con un numero l’entità della relazione bisogna calcolare un coefficiente di correlazione.
Possono esserne calcolati diversi: il più usato è il coefficiente di correlazione di Bravais-Pearson: si
applica quando le variabili sono misurate almeno al livello di scala ad intervalli equivalenti.
I suoi valori possono variare tra -1 e +1: il valore -1 indica una relazione negativa perfetta, il valore di 0 una
completa mancanza di relazione, il valore di +1 una relazione positiva perfetta.
Questo coefficiente è in grado di cogliere solo relazioni di tipo lineare. Relazioni non lineari non sarebbero
individuate.
È anche possibile pensare alla relazione tra due variabili in termini di «previsione» dell’una in funzione
dell’altra: se esiste una relazione positiva, misurando l’una potrei essere in grado di prevedere o stimare la
misura dell’altra.

2. I TEST PSICOLOGICI E LE SCALE DI MISURA DEGLI ATTEGGIAMENTI

1. I TEST PSICOLOGICI
I test psicologici nascono dall’interesse, presente fin dai tempi antichi, per le differenze individuali, ma è
verso la fine del 1800 che questo interesse di concretizza in un lavoro più sistematico ad opera di Galton,
Fechner, Cattel, Spearman per giungere alla prima scala di misura dell’intelligenza di Binet-Simon,
commissionata ai due studiosi dal Ministero francese per la pubblica istruzione con lo scopo di sviluppare
un metodo per individuare i bambini che non imparavano in modo sufficiente nelle normali classi
scolastiche. Il primo test era composto da 30 problemi organizzati in ordine di difficoltà crescente e basati
sulla capacità di capire e ragionare. Successivamente furono apportate varie modifiche, e nella revisione
della scala pubblicata nel 1908 venne introdotto il concetto di età mentale.

Altri studiosi hanno contribuito allo sviluppo della teoria e della pratica dei test psicologici.
La gamma di test psicologici attualmente disponibile è molto ampia, soprattutto per quanto riguarda i test
in lingua inglese. In Italia esiste una società privata, Organizzazioni Speciali, che pubblica e diffonde test
psicologici in lingua italiana, sia originali che tradotti.
Naturalmente i test psicologici non sono in libera vendita, ma possono essere acquistati solo da
professionisti accreditati all’uso di tali strumenti.

Costruire un test non è un lavoro né breve, né facile e nemmeno poco costoso. Le procedure che si
seguono sono diverse in relazione allo scopo che il test si prefigge. Tuttavia, alcune procedure sono comuni
a tutti i test.

2. DEFINIZIONE E CLASSIFICAZIONE DEI TEST PSICOLOGICI


Si definisce test o reattivo psicologico una situazione standardizzata nella quale il comportamento di una
persona viene campionato, osservato e descritto producendo una misura oggettiva e standardizzata di un
campione di comportamento.
I test sono, di solito, costituiti da più unità, affermazioni, problemi, ecc., che vengono comunemente
chiamati item. La risposta che indica la presenza dell’attributo psicologico che il test si propone di misurare
viene chiamata risposta «alfa».

6
Esistono molti criteri per classificare i test psicologici:
1. Area psicologica che si propongono di misurare:
• Test cognitivi: test di intelligenza, attitudine e profitto.
• Test non cognitivi: scale di atteggiamento e test di personalità. I test di personalità si suddividono
a loro volta in:
▪ Test proiettivi: si presentano ai soggetti stimoli da completare o da interpretare
▪ Test non proiettivi: si propongono ai soggetti problemi da risolvere, frasi cui dare o meno il
proprio assenso. Vengono anche chiamati test obiettivi poiché il punteggio da attribuire alle
risposte è standardizzato a priori.
2. Mezzo utilizzato per l’applicazione:
• Test carta e matita: si fornisce al soggetto un modulo in cui sono stampate le prove cui deve
rispondere e un modulo di risposta.
• Test strumentali: si richiede al soggetto di manipolare oggetti, disegni, apparecchiature.
3. Modo utilizzato per la somministrazione:
• Test individuali: vengono somministrati ad un soggetto alla volta.
• Test di gruppo o collettivi: possono essere somministrati a più soggetto contemporaneamente.
4. Un’ulteriore distinzione può essere fatta tra:
• Test verbali: sia le istruzioni sia le risposte vengono date attraverso l’uso di una lingua.
• Test non verbali: le istruzioni e le risposte vengono date attraverso gesti, diagrammi, grafici. Sono
molto poco usati, ma si rivelano molto utili nel caso di analfabeti o di coloro che parlano una lingua
straniera poco nota.
5. Esistono anche:
• Test di velocità: normalmente costituiti da prove molto facili che devono essere risolte in un
tempo molto limitato, cosicché nessuno è in grado di rispondere a tutto.
• Test di efficienza: concedono un tempo maggiore per permettere a ciascuno di tentare di
rispondere a tutte le domande, ma prevedono prove a difficoltà rapidamente crescente. Sono
comprese prove così difficili che nessuno può raggiungere il punteggio massimo.
In realtà non esistono test di sola velocità o test di sola efficienza, di solito le caratteristiche sono
ambedue presenti in proporzioni differenti.
6. Possiamo anche distinguere tra:
• Test nomotetici: costruiti per poter stabilire leggi comuni a tutti gli individui. La psicometria,
come branca della psicologia, si occupa in particolare di essi.
• Test idiografici: sono più preoccupati di cogliere ciò che è unico o specifico e che l’individuo non
condivide con nessun altro.

3. I TEST DI INTELLIGENZA
Spearman propose per la prima volta un metodo di analisi delle abilità umane, l’analisi fattoriale,
sostenendo che tali abilità sono spiegabili in funzione di un fattore generale, detto fattore g, e uno o più
fattori specifici riguardanti quella particolare abilità.
Il concetto di intelligenza per Spearman era legato a questo fattore generale e, ancora oggi, i moderni test
di intelligenza cercano di misurare questo fattore. L’insieme delle ricerche condotte su questo argomento
in questi anni ha fatto propendere gli studiosi per l’individuazione di due aspetti del fattore g, chiamati gf e
gc, cioè:
• Abilità fluida: dovrebbe rappresentare la capacità di ragionamento di base.
• Abilità cristallizzata: dovrebbe essere costituita da aspetti più propriamente legati alla cultura, in
particolare l’influenza della cultura sulle abilità primarie.

Un test di intelligenza è costituito da un insieme di compiti la cui soluzione richiede al soggetto una
capacità di ragionamento primaria o una «abilità cognitiva generale» che viene misurata dal numero di
compiti eseguiti correttamente.
La differenza tra intelligenza fluida e intelligenza cristallizzata conduce alla differenziazione degli item che
misurano i due fattori.

7
Per il primo, gli item dovranno costituire compiti insoliti oppure basati su materiale talmente noto da poter
escludere l’influenza sui risultati di differenze individuali dovute all’apprendimento o all’acculturazione.
Per il secondo, gli item dovrebbero rispecchiare particolari abilità culturalmente acquisite: dovremmo
quindi trovare differenze dovute alla scolarizzazione o all’appartenenza a livelli socio-economici diversi.

L’indice di difficoltà di un item viene calcolato sulla base della percentuale di risposte corrette fornite dai
soggetti-campione: tale indice consente di graduare la difficoltà degli item all’interno del test.
Nei test cognitivi si parte da item più facili per arrivare a quelli più difficili, inserendo a intervalli item più
facili di quelli precedenti: si ottiene così una caratteristica distribuzione di difficoltà crescente «a sega».

ITEM A ESCLUSIONE
Si tratta di un insieme di nomi o oggetti o forme o numeri che rientrano tutti in una categoria non
specificata: il soggetto viene invitato ad individuare l’elemento che non appartiene all’insieme.
Il soggetto è implicitamente invitato a identificare la categoria che accomuna tutti gli elementi tranne uno
e cioè ad identificare la relazione di somiglianza e differenza tra gli elementi dell’insieme.
Questo tipo di item è molto flessibile, nel senso che si può renderlo difficile quanto si vuole variando il
contenuto senza variarne la struttura.
Misura più facilmente il fattore di abilità cristallizzata poiché la categorizzazione è legata alla cultura e
all’informazione che il soggetto ha acquistato.

ITEM ANALOGICI
Il soggetto deve dedurre, sulla base di un esempio che viene fornito, la relazione che intercorre tra due
parole, una delle quali fornita dal test e l’altra da scegliere tra una serie di alternative.
Sono molto usati perché flessibili e quindi graduabili per difficoltà e diversificabili per contenuto. Può
essere costruito con parole, figure, lettere, numeri. Il livello di difficoltà deriva dalla complessità della
relazione da dedurre.
Anche se il contenuto può renderlo adatto a misurare l’abilità cristallizzata, il tipo di ragionamento
richiesto sembra essere correlato in maniera rilevante anche con l’abilità fluida.

ITEM A SEQUENZA
Costituiti da serie di numeri, figure o, più raramente, parole in un determinato ordine: viene richiesto di
inserire il numero, la figura o la parola mancante dalla serie. Vengono di solito fornite delle alternative di
risposta, ma può anche succedere, specialmente se si tratta di numeri o lettere, che non siano previste
alternative predisposte, cosicché diventa impossibile indovinare per caso.

ITEM DI VOCABOLARIO
Misurano l’abilità e la fluidità verbale: si tratta di riconoscere il significato di parole, di identificarne
sinonimi o contrati, oppure di produrre in un tempo limitato il maggior numero di parole con certe
caratteristiche.
Questi item non devono essere confusi con gli item di profitto che invece tendono a valutare soprattutto la
conoscenza della grammatica e della sintassi.

ITEM DI ABILITÀ SPAZIALE


Basati sull’abilità di visualizzare figure bi- o tridimensionali anche se cambia l’orientamento.
Altri item di tipo spaziale sono costituiti da costruzioni di altezza diversa fatte con cubi: al soggetto viene
chiesto di calcolare il numero di cubi usati per la costruzione; oppure si richiede di contare il numero di
facce presenti in determinate figure geometriche.

8
Un problema importante che riguarda tutti gli item è la scelta delle alternative o distrattori: non si
possono scegliere alternative troppo diverse o improbabili rispetto alla risposta esatta per non facilitare la
risposta del soggetto; inoltre i distrattori devono essere in numero sufficiente a rendere la risposta a caso
non troppo probabile.

La distinzione tra intelligenza fluida e intelligenza cristallizzata non sempre viene rispecchiata in egual
misura nei test di intelligenza: è molto più facile costruire test che misurino l’intelligenza cristallizzata,
privilegiando così i soggetti più scolarizzati. È necessario perciò utilizzare test che comprendano un certo
numero di item basati sulla relazione fra stimoli non verbali di contenuto familiare a tutti gli individui per
essere certi di misurare anche l’intelligenza fluida.

4. I TEST DI PERSONALITÀ
Anche nel caso della personalità, gli strumenti utilizzati per la sua valutazione sono costruiti in funzione di
teorie non sempre condivise. Solo relativamente di recente si è cercato di stabilire quali siano i tratti di
personalità che vengono sempre individuati in base ai risultati delle ricerche: i cosiddetti Big Five
sembrano essere il risultato di questa sintesi.

INTERVISTA
È forse il modo più tradizionale e comune di valutazione della personalità anche se, dal punto di vista
psicometrico, si tratta di un metodo troppo legato alla soggettività e all’abilità dell’intervistatore. In
generale si ottengono risultati difficilmente ripetibili sia in situazioni diverse sia da parte di intervistatori
diversi.
Attraverso queste si possono cogliere aspetti della personalità che non emergerebbero da test più
standardizzati, ma il fatto di non fare garanzie di ripetibilità non consente di considerarli veri e propri
strumenti di misura anche se è possibile, con molte cautele, rendere in forma quantitativa le informazioni
raccolte.

SCALE DI VALUTAZIONE
Questo approccio si avvale di esperti che siano in grado di classificare caratteristiche di personalità
predefinite su scale a cinque o sette punti.
Gli svantaggi di questo tipo di strumento sono molteplici: sarebbe necessaria un’osservazione per lunghi
periodi e in situazioni diverse per poter effettuare una valutazione stabile della personalità; inoltre esiste il
cosiddetto «effetto alone»: se un soggetto viene classificato con un punteggio elevato in una scala tende
ad esserlo anche nelle altre; sarebbe necessario che più esaminatori valutassero lo stesso soggetto.

GRIGLIE DI REPERTORI
Costruite sulla base dei costrutti personali di Kelly, hanno lo scopo di valutare i rapporti interpersonali
mediante la valutazione incrociata di elementi, di solito persone, e di costrutti, strutture concettuali
utilizzate dai singoli individui o da gruppi.
Anche se questa metodologia è nata nel campo della psicologia sociale, attualmente viene usata anche in
altri campi, come la psicologia del lavoro e la psicologia clinica: si tratta infatti di una procedura molto
flessibile che può essere adattata a varie situazioni.
Si presentano al soggetto contemporaneamente tre o più elementi e gli si chiede su quali costrutti due di
essi siano simili tra loro e diversi dal terzo, e così via.
Gli elementi vengono individuati tra quelli che si ritengono importanti rispetto a ciò che si vuole indagare.
La griglia è in realtà una specie di intervista formalizzata, pertanto, dal punto di vista psicometrico, ne ha
gli stessi limiti, anche se è possibile procedere ad elaborazioni statistiche molto complesse che non sono
possibili con una semplice intervista.

9
QUESTIONARI DI PERSONALITÀ
Consiste in un insieme di item sotto forma di affermazioni riguardanti comportamenti o sentimenti cui il
soggetto deve rispondere dichiarando il suo assenso o meno.
Il problema consiste nel dimostrare che misurano realmente la personalità poiché si tratta di mettersi
d’accordo su quali sono le variabili o i tratti da misurare.
Un item di un questionario di personalità è di solito un’affermazione cui il soggetto è invitato a rispondere.
La difficoltà, in questo caso, non sta nel come risolvere il problema da parte del soggetto, ma piuttosto nel
come scrivere l’item da parte del testista.

Gli item tipici della maggior parte dei test di personalità sono dei seguenti tipi:
• Item vero-falso: enunciati cui si chiede di rispondere vero o falso. Vengono chiamati dicotomici
perché prevedono solo due possibili risposte. Il loro limite sta nel fatto di dare poco spazio alle
eventuali graduazioni che il soggetto si sente di dare in risposta all’item medesimo. Spesso tuttavia
viene preferito perché è più semplice da scrivere e molto semplice da comprendere.
• Item si-no: hanno le stesse caratteristiche degli item dicotomici.
• Item tricotomici: per rendere meno drastica la scelta negli item dicotomici è stato suggerito di
prevedere un terzo punto della scala. Il vantaggio è solo apparente poiché la categoria intermedia è
scarsamente informativa e può complicare notevolmente le elaborazioni statistiche.
• Item con scale di valutazione: molti dei più moderni questionari di personalità impiegano enunciati
seguiti da scale di valutazione che prevedono da 5 a 7 punti. Altre scale possono andare da «mai» a
«sempre». Il vantaggio di questi item è quello di offrire una maggiore gamma di gradazioni nella
risposta, inoltre il maggior numero di possibili risposte favorisce la variabilità e la discriminatività delle
distribuzioni di frequenza.
Un problema è costituito da quello che viene chiamato stile di risposta: spesso i soggetti tendono ad
attestarsi sulle risposte alle estremità della scala, ovvero a scegliere il punto intermedio. Inoltre non si
può essere sicuri che due soggetti interpretino nello stesso modo i diversi punti della scala.

Il contenuto degli può variare moltissimo poiché riguarda infiniti comportamenti dell’individuo.
Generalmente riguarda descrizioni di reazioni, desideri e interessi, atteggiamenti, convinzioni, eventi
biografici.
Un problema sempre presente riguarda la desiderabilità sociale: poiché i questionari di personalità
prevedono che sia lo stesso soggetto a rispondere, esiste la possibilità che tale risposta sia formulata in
base a quello che è socialmente desiderabile piuttosto che a quello che il soggetto ritiene di essere o pensa
veramente.

TEST PROIETTIVI
I questionari di personalità non riescono a cogliere le caratteristiche più profonde restando ad un livello
troppo superficiale per un’analisi accurata della personalità di un individuo. La distinzione dei due tipi di
approcci sta nella differenza tra test nomotetici e test idiografici.
Al secondo gruppo appartengono i test proiettivi, che sembrano più utili per lo studio individuale, ma che
vengono molto criticati a causa della loro non dimostrata attendibilità e validità.
Un test proiettivo è costituito da un insieme di stimoli, di solito ambigui, che il soggetto è invitato a
descrivere. Si fondano sull’ipotesi che le descrizioni dei soggetti di fronte ad uno stimolo incerto riflettano
qualcosa dei loro pensieri e sentimenti più nascosti.

Il più famoso test proiettivo è il Test di Rorschach, basato su un insieme di 10 tavole, alcune delle quali a
colori, che contengono ciascuna una macchia di inchiostro simmetrica.
Altri test proiettivi si basano sul completamento di frasi o sul disegno a mano libera vuoi della figura
umana, vuoi della famiglia, vuoi di un albero; altri ancora sono basati sulla manipolazione di oggetti con i
quali si chiede di costruire una situazione.

10
Spesso l’accordo nelle interpretazioni di protocolli ottenuti attraverso test proiettivi, anche a parità di
competenza dei valutatori, è scadente. Un’ulteriore appunto riguarda il sistema di codifica.
Nonostante tutte le critiche siamo del parere che l’uso dei test proiettivi sia molto utile per la ricchezza e
l’unicità dei dati che se ne possono ricavare: inoltre è possibile migliorare il sistema di codifica mettendo a
punto sistemi più oggettivi e abbinare tale codifica ad analisi statistiche sofisticate.

Molto spesso si tende ad utilizzare traduzioni di test già costruiti: questo è un grosso vantaggio ma porta
anche alcuni rischi rilevanti.
Innanzitutto un possibile errore deriva dalla non equivalenza dei costrutti misurati nelle diverse aree
culturali: il contenuto degli item deve perciò fare riferimento al comportamento valido per quella società.
Una seconda fonte di errore può derivare da problemi di somministrazione del test: per esempio le risposte
in chiave di desiderabilità sociale possono essere molto differenti e anche gli stili di risposta possono
differire da cultura a cultura.
Infine una terza fonte di errore può derivare dalla traduzione degli stessi item: una traduzione poco
accurata o un contenuto dell’item inappropriato al gruppo culturale o, ancora, l’impossibilità di tradurre in
modo adeguato il significato dell’item possono distorcere i risultati.

5. LE SCALE DI MISURA DEGLI ATTEGGIAM ENTI


Le scale di misura degli atteggiamenti sono, di regola, costituite da insiemi di affermazioni o item ai quali
il soggetto è invitato a dare o meno il suo assenso: l’ipotesi sottostante è che sia possibile misurare
l’atteggiamento del soggetto rispetto ad un dato argomento lungo un continuum di favorevolezza-
sfavorevolezza.

SCALA DI THURSTONE
Thurstone suggerì che si potesse misurare anche l’intensità degli atteggiamenti verso qualsiasi oggetto
sociale. Ha previsto tre fasi per la costruzione di una scala:
1. Formulare una gran quantità di affermazioni riguardanti l’oggetto dell’atteggiamento.
2. Far valutare tali affermazioni ad un numero sufficientemente elevato di «giudici» su una scala a 11
punti, da «molto favorevole» all’oggetto dell’atteggiamento a «molto sfavorevole».
3. Selezionare un congruo numero di affermazioni (da 10 a 20 almeno) che coprano l’intera gamma di
valutazione dell’atteggiamento sulle quali i giudici siano sostanzialmente d’accordo.
Ogni affermazione avrà così un valore di scala: il punteggio di ciascun soggetto verrà calcolato sulla base
del più alto valore di scala dell’affermazione che egli approva oppure sulla media dei valori di scala delle
affermazioni che il soggetto approva.
Il modello di Thurstone si basa sull’assunzione che le distribuzioni intorno alle singole affermazioni siano
del tipo «a campana» (Gauss).

SCALA DI GUTTMAN
L’obiettivo di una scala di Guttman è costruire una scala composta da item selezionati in modo che se un
soggetto supera, o risponde affermativamente ad un item, avrà superato o avrà risposto affermativamente
anche a quelli precedenti. Il punteggio è pari al numero corrispondente all’item al quale ha risposto
affermativamente.
Questa scala fa parte di una famiglia di modelli che vengono chiamati deterministici.
Non è facile da costruire poiché necessita di una gran quantità di item e, di conseguenza, una grande
quantità di soggetti. È più facile costruire una buona scala di Guttman se il contenuto o l’attributo che
vogliamo misurare è suscettibile di ordinamento.

Uno dei vantaggi sta nella perfetta riproducibilità della scala partendo dal punteggio del soggetto. Se un
soggetto ottiene un punteggio di 20 ad una scala di tipo sommativo non possiamo sapere, sulla base del
solo punteggio-somma, a quali item il soggetto abbia risposto in maniera affermativa e a quali no.

11
Il problema principale, oltre all’onerosità della sua costruzione, è quello di non garantirne
l’unidimensionalità ed è quindi molto difficile costruire scale il cui punteggio sia esattamente riproducibile
perché due item, anche se sembrano logicamente ordinati, possono non esserlo psicologicamente.

SCALA DI LIKERT
Si tratta di scale costruire sulla base di un insieme di affermazioni alle quali il soggetto è invitato a
rispondere sulla base di una scala di valutazione a 5 o 7 punti, da «completamente d’accordo» a
«completamente in disaccordo». Qualche volta vengono usate scale a 6 punti per evitare che il soggetto si
posizioni su un punteggio centrale neutro rispetto all’oggetto dell’atteggiamento.
Il modello si basa sull’assunzione che esista una relazione monotòna tra ciascun item e l’atteggiamento
che si vuole misurare. Si parla di relazione monotòna tra due variabili quando il crescere di una di esse
porta all’incremento dell’altra, o viceversa: tale relazione può non essere lineare ma è comunque
crescente. Infine la scala deve essere unidimensionale, cioè gli item devono misurare tutti lo stesso
atteggiamento.
Il punteggio attribuito ai soggetti è dunque la somma delle valutazioni date dal soggetto a ciascun item.

La costruzione di una scala di Likert prevede di raccogliere o scrivere una serie, generalmente molto
nutrita, di affermazioni circa l’oggetto di atteggiamento o l’attributo che si vuole misurare.
Gli item ideali sono moderatamente positivi o negativi verso l’oggetto rendendo meno ovvia la risposta ed
evitando quel fenomeno chiamato acquiescenza, che consiste nel tendere a rispondere più
frequentemente in maniera affermativa indipendentemente dal contenuto dell’item.

DIFFERENZIALE SEMANTICO
Consiste in un insieme di scale bipolari ancorate a ciascun polo tramite un aggettivo descrittivo del lato del
continuum semantico. Al soggetto viene chiesto di valutare un concetto ponendo un segno su un punto
della scala che separa i due aggettivi che funzionano come polo.
Lo scopo è quello di ottenere una valutazione del significato connotativo che il soggetto attribuisce al
concetto valutato: generalmente si chiede ai soggetti di valutare più concetti in modo da ottenere una
valutazione “differenziale” dei concetti medesimi.
Gli autori di questo strumento hanno trovato che il significato connotativo della maggior parte dei concetti
poteva essere valutato sulla base di tre dimensioni: valutativa (buono-cattivo), di potenza (forte-debole) e
di attività (attivo-passivo).
Un vantaggio è quello di poter essere usata intra-individualmente: è possibile così misurare un
cambiamento di atteggiamento.

6. ALTRI TIPI DI TEST

TEST DI ABILITÀ E DI ATTITUDINE


A parte qualche abilità particolare, come quella musicale o quelle psicomotorie, i test di abilità misurano
l’abilità verbale, quella spaziale, il ragionamento induttivo, la rapidità percettiva, ecc., misurano cioè dei
fattori specifici che correlano con l’abilità cognitiva generale, ma che danno informazioni ulteriori su
qualche abilità particolare.
Il più famoso è il test di Bayley: misura lo sviluppo mentale, motorio e sociale dell’infante da 2 a 30 mesi
attraverso prove che non hanno la caratteristica formale degli item, ma che consistono prevalentemente in
manipolazione di oggetti o in reazioni a particolari stimoli.
È molto usato, soprattutto negli Stati Uniti, anche il test di Fagan: misura la capacità del neonato di
codificare, ritenere, categorizzare e recuperare informazioni visive attraverso la registrazione dei tempi di
fissazione di stimoli visivi. Componente base è il problema della novità: il test si propone di studiare la
percezione visiva dell’infante valutandone la fissazione preferenziale per coppie di stimoli visivi, presentati
contemporaneamente, dei quali uno è familiare e uno è nuovo.

12
Quando si parla di attitudine, invece, ci si riferisce a potenzialità dell’individuo, cioè si fanno ipotesi sulla
sua capacità di far progressi in una certa abilità.

TEST DI PROFITTO
Cercano di misurare quanto i soggetti abbiano imparato in un determinato campo.
È molto difficile costruire un buon test di profitto. Si tratta in genere di item a scelta multipla nei quali una
sola risposta è quella corretta.
Talvolta accade che la domanda viene interpretata in maniera diversa da quella che intendeva il
costruttore del test, e quindi emerge un’altra risposta possibile; in questi casi è meglio scartare l’item o
cambiare il distrattore.
Viene anche impiegato un tipo particolare di domanda che tende a valutare la comprensione di un testo o
di un grafico. Si tratta di presentare ai soggetti un brano da leggere seguito da una serie di affermazioni,
riguardanti il brano, alle quali il soggetto è invitato a rispondere vero-falso.
Un limite è che spesso non riescono a coprire l’intero contenuto della materia sulla quale si vuole
conoscere la competenza del soggetto e, quindi, un soggetto potrebbe ottenere un buon punteggio
conoscendo solo parte della materia.

TEST SPECIALI
I test vengono utilizzati per ragioni particolari: sono prove per soggetti cerebrolesi, ovvero per
monitoraggio di particolari disabilità o ancora test costruiti per studiare popolazioni a rischio o individuare
precocemente particolari deficit e sono utili per fare diagnosi o per suggerire terapie e programmi di
riabilitazione.

3. TEORIE E MODELLI DI COSTRUZIONE DEI TEST PSICOLOGICI

1. LA STRUTTURA DI UNA TEORIA


La costruzione di un test psicologico è un’operazione complessa nella quale devono essere tenuti in
considerazione diversi livelli di astrazione.
Secondo il modello suggerito da Bagozzi, possiamo individuare tre livelli di astrazione:
1. Livello di astrazione teorico: è quello della teoria pura, formato da un sistema di idee e di
considerazioni legate in maniera coerente tra di loro. I legami sono chiamati proposizioni non
osservabili. Il linguaggio adottato per esplicitarle è quello della matematica o della logica. Raramente
nella psicologia si arriva a questo livello di avanzamento: la maggioranza delle teorie psicologiche usa il
linguaggio comune corredato di termini comprensibili alla comunità scientifica. Il linguaggio corrente
presenta una notevole indeterminatezza che provoca effetti quali l’incapacità di confrontare due
teorie, di trovarne i nuclei comuni e le parti realmente diverse.
Un esempio classico di teoria psicologica è la teoria della frustrazione-aggressione di Dollard, nella
quale la frustrazione viene ipotizzata come causa fondamentale dell’aggressione, che viene a sua volta
definita come comportamento atto a danneggiare una persona e causato da una frustrazione.
2. Livello di astrazione dei concetti derivati: i concetti derivati sono dei concetti astratti, più dettagliati
dei primi. La relazione tra concetti teorici e concetti derivati è chiamata definizione teorica e dà vita
ad un costrutto teorico. Per costrutto teorico si intende una nozione teorica tale che se ne possa poi
dare una definizione empirica. La fase di definizione di un costrutto teorico è molto delicata: essa deve
specificare cosa sia un certo concetto teorico e anche quello che non è.
3. Livello di astrazione dei concetti empirici: a questo livello le regole di corrispondenza rappresentano
la relazione tra un concetto teorico ed un concetto empirico. Il loro ruolo è cruciale per la
specificazione della definizione operativa, cioè indichiamo chiaramente come esso può essere
misurato.

13
4. L’ultimo tipo di relazione è quello tra i concetti empirici e la realtà osservata, ed è chiamata definizione
empirica: con questa esplicitiamo la specifica operazione che compiamo per raccogliere i dati.
Potremmo definirla come la spiegazione del metodo da noi utilizzato.
In questo livello ci poniamo su un piano empirico, osservabile e misurabile.
Spesso, nella teoria e nella prassi, vengono utilizzati solo due di questi livelli di astrazione. Le conseguenze
della mancata distinzione del livello intermedio tra il teorico e l’empirico, quello derivato.
Utilizzando tre diversi livelli di astrazione è possibile invece conciliare l’esistenza di misurazioni diverse (o
metodi diversi) senza che ciò comporti una moltiplicazione di costrutti.

2. INDICATORI E COSTRUTTO
Per indicatore si intende una misura empirica che, tramite una regola di corrispondenza, si pone in
relazione al costrutto teorico. È una variabile osservata che si ipotizza cogliere il costrutto teorico, o parte
di esso. Data la necessaria maggiore astrazione di un costrutto teorico, solitamente ci sono molti indicatori
per ogni costrutto. Questa molteplicità è una caratteristica cruciale per uno studio delle proprietà
empiriche del nostro costrutto.
La regola di corrispondenza tra indicatori e costrutti ci indica come i primi rappresentino su un piano
empirico (misurino) i secondi. Gli indicatori, evidentemente, definiscono implicitamente anche il costrutto,
perlomeno sul piano empirico. È cruciale perciò che ci sia il massimo raccordo tra definizione teorica e
definizione empirica. La scelta degli indicatori deve quindi essere strettamente collegata alla definizione
teorica.

In realtà, data la complessità dei costrutti di natura psicologica, è molto più utile immaginare due livelli di
astrazione:
• Uno formato dall’insieme delle variabili che misurano un costrutto utilizzando un certo metodo.
• L’altro formato dalle relazioni tra queste misure ed il costrutto teorico, cercando se possibile di
distinguere la parte dovuta al metodo di misura dalla parte dovuta al costrutto vero e proprio.

3. MODELLI DI COSTRUZIONE DI TEST PSICOLOGICI


Per procedere ad una operalizzazione del costrutto teorico abbiamo bisogno di definire un concetto
empirico. La misura di questo concetto empirico si otterrà con un test psicologico. Per costruire tale
strumento abbiamo bisogno di utilizzare un modello.
I modelli di costruzione di test psicologici possono essere definiti come regole di corrispondenza tra
indicatori e costrutti teorici.

TEORIA DELL’ERRORE CASUALE


La teoria dell’errore casuale è oggi l’approccio più usato nella prassi psicometrica.
L’essenza di questa teoria è nella scomposizione del punteggio ottenuto in due componenti ipotetiche: il
punteggio vero e l’errore casuale, cioè:
X=V+E
L’idea sottostante è che il punteggio osservato ad un test non sia il punteggio vero, ma comprenda una
porzione di errore inerente all’atto di misurare. L’operazione di misurazione perciò implica
necessariamente un errore.
Secondo questa teoria, gli errori possono essere distinti in due tipi:
• Errore sistematico: quando il suo effetto influenza sistematicamente tutti i punteggi raccolti ad un
test, cioè tutti i soggetti sottoposti al test. Avrà quindi la caratteristica di essere uguale per tutti i
soggetti: sarà come aggiungere una costante ad una variabile e non modificherò le nostre inferenze
derivanti dal comparare i soggetti tra di loro.
In generale, almeno per quanta riguarda le variabili psicologiche, l’errore sistematico è meno
fuorviante dell’errore casuale.
• Errore casuale: agisce in modo diverso per soggetti diversi sottoposti ad uno stesso test. Queste
ambiguità comporteranno la presenza di un errore nei punteggi dei soggetti di natura non sistematica,

14
perché non siamo in grado di prevederne la direzione e varierà da soggetto a soggetto in funzione di
come egli interpreta la frase.
A questo errore casuale si aggiungeranno atri errori casuali dipendenti da fattori quali l’umore dei
soggetti, la loro stanchezza, il somministratore e così via. Questo tipo di errore in generale può avere
degli effetti devastanti sull’attendibilità e sulla validità del test. Per questa ragione un buon ricercatore
dovrà cercare di ridurre il loro peso tramite accorgimenti di natura metodologica.

Se è vero che ogni misurazione ha un errore, allora il punteggio di un soggetto ad un test non sarà mai
il punteggio vero ma un punteggio, quello osservato. Il punteggio osservato è una variabile che
assume i suoi valori secondo una distribuzione di probabilità che contiene il punteggio vero.
L’idea dietro a questa impostazione è che, data una serie infinita di misurazioni, l’errore di misurazione
scompare ed il punteggio derivante dalla media di tutti i punteggi osservati è il punteggio vero.
Ma nella realtà, non è possibile fare una serie infinita di misurazioni. Perciò, l’errore di misurazione è
inevitabile.

Ci sono una serie di parametri statistici che discendono da questo approccio.


Anzitutto, si assume una distinzione tra campione e popolazione. Il punteggio di un soggetto al test è
considerato un campione proveniente da una popolazione di punteggi possibili contenente il
punteggio vero. Di conseguenza, tanti più campionamenti effettueremo tanto più la media dei
campioni tenderà alla media della popolazione.

Errore standard di misura: rappresenta una misura della variabilità dei punteggi osservati. Se un
punteggio osservato è un campione casuale che proviene da una popolazione, prendendo più campioni
noi avremo una distribuzione dei punteggi osservati, all’interno della quale sarà contenuto il punteggio
vero. Da questa distribuzione potremo inferire un parametro che ci quantifichi la variabilità dei
punteggi all’interno dei quali con un certo livello di probabilità possiamo dire che è contenuto il valore
vero.

TEORIA DELLA GENERALIZZABILITÀ


Il punto focale della teoria della generalizzabilità è rappresentato da un’analisi più avanzata del concetto
di errore di misura.
Per questa teoria, esistono tanti errori quante sono le sfaccettature implicate nell’operazione specifica di
misurazione. La variabilità complessiva di un punteggio viene quindi scomposta in tante fonti distinte
quanti sono i fattori implicati noti. In sostanza, parlare di attendibilità di un punteggio (e quindi di errore di
misurazione) è qualcosa di generico e vago se non si specifica rispetto a quale dominio.

L’esempio più calzante di test costruiti secondo questa teoria è fornito dai cosiddetti test S-R, il più
famoso dei quali è quello di ansietà di Endler.
Essi sono composti da un campionamento sistematico di diverse situazioni (S) nelle quali è possibile
mettere in atto diverse modalità di risposta (R) che rimandano tutte ad uno stesso costrutto latente. Per
costrutto latente si intende un costrutto non osservato, inferito in base ad una serie di indicatori osservati.
Il punteggio dato un soggetto potrà allora essere scomposto in più fonti:
1. Quanta parte di esso dipende dalla particolare situazione
2. Quanta dalla particolare modalità di risposta
3. Quanta da una sua stabilità che prescinde dai primi due
Avremo perciò che il punteggio osservato di un soggetto è scomponibile in punteggio derivante da
ciascuno dei fattori, ed una parte rimanente di errore.

Essendo di natura più generale e completa del modello dell’errore casuale ed includendo quest’ultimo
come un caso particolare, ci si potrebbe aspettare che la teoria della generalizzabilità sia ormai divenuto
l’approccio dominante nella ricerca psicologica. Ciò non è accaduto, e la spiegazione più plausibile risiede

15
nella complessità dell’approccio, poiché risulta incomprensibile a chi non abbia una conoscenza robusta di
matematica e statistica.

TEORIA RAPPRESENTAZIONALE DELLA MISURAZIONE


Per gli esponenti della teoria rappresentazionale della misurazione, l’operazione di misurazione consiste
nella rappresentazione fedele (cioè isomorfica) di un sistema di relazioni empiriche in un sistema di
relazioni formali tra gli attributi numerici, laddove per isomorfismo si intende una corrispondenza
biunivoca tra proprietà del sistema empirico e proprietà del sistema numerico.

Innanzitutto, va evidenziata la possibilità di misurare quella data caratteristica. Il passaggio successivo è la


definizione esplicita di quali siano i criteri necessari e sufficienti perché sia possibile la misurazione. Essi
sono stati formulati tramite una serie di assiomi matematici il cui rispetto garantisce la possibilità di
misurazione. Questi assiomi possono (e devono) essere almeno parzialmente verificati.
Un esempio di misurazione sviluppata dai rappresentazionalisti è la misurazione congiunta, che si basa su
una procedura di ordinamento di livelli differenti di due stimoli.

Questo approccio è largamente minoritario in Psicologia mentre è il più influente in altri ambiti disciplinari,
probabilmente per la sua complessità.
Un’altra ragione può essere data dalla validità limitata di questi metodi. Se seguisse l’approccio
rappresentazionale, un ricercatore dovrebbe ogni volta dimostrare che una certa caratteristica è
misurabile prima di procedere ad una misurazione e dovrebbe ogni volta utilizzare tecniche che non
consentono l’esame di molte caratteristiche in contemporanea.

TEORIA DELLA RISPOSTA ALL’ITEM (ITEM RESPONSE THEORY)


L’approccio dell’Item response theory è in realtà una famiglia di modelli sviluppati nell’arco degli ultimi 30
anni, tra i quali il più famoso è il modello di Rasch. I vari modelli postulano inizialmente un modello
matematico che rispecchi il processo psicologico che sottostà alla risposta di una persona ad un item. Essa
può essere spiegata da un numero di tratti latenti molto minore degli item di partenza, dove per tratto
latente si intende un costrutto non osservato, che viene inferito in base ad una serie di indicatori osservati
di cui esso è causa.

In realtà, la maggior parte dei modelli e delle applicazioni assume un unico tratto latente come spiegazione
delle risposte ad una serie di item. Lo sviluppo matematico dei modelli consente quindi la conoscenza di
alcuni parametri estremamente informativi degli item.
La probabilità di rispondere correttamente ad un item g, da parte di un soggetto con abilità nel tratto
latente ad un livello k, dipenderà, secondo una funzione logistica, dai valori relativi al livello di abilità del
soggetto e alla difficoltà dell’item, che sono gli unici parametri della funzione logistica.

Questo tipo di modellistica non sempre si può applicare con vantaggio e presenta anche delle
controindicazioni. Ad esempio, per una stima corretta dei parametri è necessario un numero molto elevato
di soggetti, bisogna essere a conoscenza della dimensionalità degli item prima di applicare i modelli, in
certe condizioni i risultati possono essere fuorvianti.
Quest’approccio è più fruttuoso quando si sta lavorando su una dimensione semplice di abilità cognitiva,
quando questa abilità sia gerarchica o cumulativa, e quando si usano campioni di dimensioni rilevanti.

TEORIE «INGENUE»
Non sempre i costruttori di test psicologici esplicitano chiaramente quale modello di costruzione stanno
utilizzando. Ancora più frequente è il caso in cui si dice di far uso di una certa teoria di costruzione e poi
nella pratica si compiono scelte che non si possono giustificare con quella teoria.
Spesso, invece, su riviste e giornali vengono spacciati per test psicologici degli agglomerati di domande.
Tipicamente, per ogni domanda ci sono tre o quattro risposte alternative. Alla fine viene presentata una

16
griglia di attribuzione dei punteggi, e sulla base dei punteggi sommati si ottiene un punteggio globale.
Vengono poi presentati alcuni “profili” di personalità in funzione della somma ottenuta.

4. INDICATORI RIFLETTIVI E FORMATIVI


Gli indicatori riflettivi sono così chiamati perché si ipotizza che essi riflettano l’effetto del costrutto
teorico. Si ipotizza il costrutto teorico come costrutto latente e gli indicatori come variabili misurate che
sono causate dai primi.
Si ipotizza invece che gli indicatori formativi vadano a formare il costrutto latente che risulta dunque la
somma lineare di una serie di indicatori e quindi funzione di essi.

Le conseguenze di questa distinzione tra i due tipi di indicatori sono molteplici a livello empirico e teorico,
e riguardano sia i modelli ed i metodi di costruzione dei test adottati, sia l’esame di attendibilità e della
validità.
Mentre gli indicatori riflettivi sono effetto di un fattore comune e quindi ci si può e deve attendere che
siano correlati, è l’insieme di quelli formativi che forma il costrutto e quindi non è necessario che ci sia
correlazione. D’altro canto, avere degli indicatori riflettivi consente di studiare alcune proprietà del test
psicologico che risultano di enorme importanza nella sua valutazione. Gli indicatori formativi forniscono
meno informazioni e si prestano più facilmente ad arbìtri e alla costruzione di test non valutabili
scientificamente.

Dovrebbe comunque essere compito di ogni buon ricercatore specificare chiaramente lo status degli
indicatori che vengono utilizzati per costruire un test psicologico. Spesso la definizione è lasciata implicita,
anche perché nella prassi psicologica gli indicatori riflettivi sono preponderanti.

5. MODELLI REGRESSIVI E FATTORIALI


Se gli indicatori sono riflettivi, allora il modello sarà fattoriale, se sono formativi sarà invece regressivo.

L’analisi fattoriale è una tecnica statistica che consente di individuare dimensioni latenti ad una serie di
item o variabili. Se alcune variabili correlano tra loro, possiamo pensare che ci sia qualcosa che le
accomuna.
Utilizzando l’analisi fattoriale cerchiamo anzitutto di vedere se queste correlazioni sono sufficientemente
elevate e coese da consentire l’emergenza di una dimensione (o più di una) che le accomuni. Sulla base di
quante e quali di queste variabili sono accomunate, cerchiamo di capire quale sia questa dimensione e se
essa corrisponde a quanto in partenza abbiamo ipotizzato.
I comportamenti sono perciò il risultato dell’effetto della dimensione, cioè ne riflettono l’effetto. Questa è
solitamente l’assunzione sottostante alla grande maggioranza dei test psicologici.

Il modello regressivo si basa sulla tecnica statistica nota come regressione multipla.
Nella regressione multipla si distingue tra variabili che predicono (o variabili indipendenti) e variabile che
viene predetta (o variabile dipendente). Con questa tecnica, oltre al loro potere predittivo complessivo,
possiamo valutare anche l’importanza relativa di ciascuna variabile predittrice. Per noi non ha alcun
interesse che le variabili indipendenti siano correlate tra di loro: quello che invece conta è che esse siano
correlate con la variabile dipendente.
In questo caso gli indicatori formano la variabile dipendente: essi ne sono la causa.
Il modello regressivo si presta facilmente ad abusi che rendono scadente la qualità del test. Per il rischio di
un facile utilizzo del tutto arbitrario, se si vuole adottare un modello regressivo lo si deve giustificare in
maniera convincente ed articolata.

17
4. METODI DI COSTRUZIONE DEI TEST PSICOLOGICI

1. IL PROCESSO DI COSTRUZIONE DI UN TEST


Un buon test è il risultato finale di un processo di costruzione che può essere suddiviso in 6 parti:
1. Determinazione del costrutto da misurare:
viene definito chiaramente il costrutto psicologico che si vuole misurare.
2. Preparazione della prima versione del test:
viene generato un insieme di item che costituisce la prima versione provvisoria del test.
3. Prove preliminari del test:
gli item vengono sottoposti ad una prima revisione che consente di rifinire ulteriormente la prima
versione del test.
4. Somministrazione del test:
la prima versione del test viene infine somministrata ad un campione adeguato di soggetti.
5. Selezione degli item:
sulla base dei risultati ottenuti vengono selezionati gli item che comporranno la versione definitiva. I
passi 4 e 5 vengono ripetuti in maniera iterativa finché non si sia raggiunta la convinzione che il test
abbia delle caratteristiche adeguate, predisponendone una versione finale.
6. Caratteristiche della versione finale del test:
la versione finale viene somministrata ad un campione adeguato allo scopo di averne una sua taratura.
Vengono anche verificate le caratteristiche psicometriche del test finale, vengono forniti i punteggi di
riferimento, vengono descritte accuratamente le modalità di somministrazione. Solitamente viene
prodotto un manuale che raccoglie tutti i risultati rilevanti della fase di sviluppo e di taratura e le
informazioni necessarie per un suo uso corretto.

2. DETERMINAZIONE DEL COSTRUTTO


Il primo punto di un processo di misurazione è la scelta di cosa si vuole misurare.
La scelta di misurare un certo costrutto dipende anzitutto dai nostri interessi teorici. Solitamente, se
arriviamo a decidere di costruirne uno strumento di misura è perché, a torto o a ragione, riteniamo il
costrutto importante all’interno del campo teorico di cui ci occupiamo.
Il secondo passaggio è la definizione chiara del costrutto che si è deciso misurare.
Una teoria è un insieme di affermazioni nelle quali gli elementi di soggettività sono ineliminabili; la scelta
di un determinato metodo statistico e le particolari scelte all’interno del metodo stesso sono anch’esse
soggettive; la definizione di un costrutto comporta forti elementi di soggettività, ma non per questo il
processo è conseguentemente arbitrario.
La ricerca scientifica è, in tutte le sue fasi, intrisa di scelte soggettive. L’arbitrarietà è una caratteristica che
definisce solo alcune scelte soggettive, quelle senza giustificazione.

Prima di fornirne una definizione specifica, dovremo passare in rassegna tutti i lavori teorici e le ricerche
principali che, nel panorama scientifico internazionale, si sono direttamente o indirettamente interessate
di questo costrutto. Si tratta di comprendere come altri autori hanno affrontato questo problema, se già
esista una definizione ed una scala di misura adeguata del costrutto, e così via.
Ecco perché un buon costrutto non è arbitrario: dovremo e potremo giustificare la sua definizione in base a
lavori precedenti. A seconda dei casi, si utilizzeranno definizioni già presenti nella letteratura, oppure si
proporranno delle definizioni modificate; assai raramente si proporranno definizioni completamente
nuove.

Dall’insieme di questo processo lungo e laborioso, emergerà infine il costrutto teorico che noi intendiamo
misurare, inserito nella letteratura teorica rilevante, chiaramente definito e pronto ad essere
operazionalizzato empiricamente.

18
3. PREPARAZIONE DELLA PRIMA VERSIONE DE L TEST
Il passo successivo è la creazione di una versione preliminare del test. Ciò comporta lo sviluppo di item che
catturino il significato del costrutto psicologico da noi definito.
La prima fase consiste in due passaggi: l’effettuazione di uno studio prototipico e la definizione dei criteri
generatori.

Lo studio prototipico può essere effettuato in modi diversi, ma l’obiettivo rimane lo stesso: avere
elementi di conoscenza che possano ampliare la nostra conoscenza teorica del costrutto.
Un ricercatore può avere delle conoscenze maggiori e più articolate di una persona qualunque, ma non può
pretendere di sapere tutto. Allora il ricorrere ad altre persone, contribuisce certamente alla comprensione
di quei comportamenti che si associano al costrutto e che da esso scaturiscono. Alla fine di studi di questo
tipo, i criteri generatori degli item saranno certamente più raffinati.
L’esempio più immediato può essere quello della discussione approfondita con colleghi che studiano
costrutti simili o che comunque riteniamo possano fornirci elementi interessanti di riflessione.

Il metodo del focus group consiste nell’organizzare dei piccoli gruppi di discussione (tra le 5 e le 10
persone) composti di persone assimilabili ai soggetti per i quali il test finale è mirato.
Questi gruppi di discussione saranno organizzati tematicamente. Il ricercatore registrerà i contenuti delle
discussioni per poi analizzarli e ricavarne suggerimenti su criteri generatori specifici per la costruzione di
item.

Nel caso della descrizione prototipica degli elementi salienti, si potrebbe chiedere ad un gruppo di un
certo numero di soggetti, di elencare comportamenti, aggettivi, verbi, frasi, che si associano al costrutto,
fornendo loro una breve descrizione. Si potrebbe dare un tempo limite oppure un numero limite di
produzioni. Una volta raccolti questi dati ed opportunamente accorpate descrizioni molto simili in un
elenco, si potrebbe somministrare questo elenco ad un altro gruppo di 30 soggetti. Questa volta ai soggetti
chiederemmo di scegliere tra queste descrizioni quelle che ritengono più calzanti per il costrutto.
Sulla base dei dati ottenuti, potremo poi andare ad individuare quali sono quelle caratteristiche, quei
comportamenti, ecc. che vengono ritenuti più descrittivi del costrutto.
Sulla base della nostra analisi teorica iniziale, opportunamente integrata con i risultati dello studio
prototipico, saremo quindi in grado di elencare una serie di criteri generatori che faciliteranno e
sistematizzeranno la creazione di item.

Una volta definiti i criteri generatori, cercheremo di produrre un numero approssimativamente uguale di
item per ognuno di essi. In una situazione ideale di costruzione, incroceremo tra di loro i diversi criteri
generatori producendo un ugual numero di item per ogni combinazione. Un altro criterio del quale
dobbiamo tener conto a priori è relativo alla formulazione dell’item in negativo o in positivo.
La seconda fase consiste nello scegliere il formato di risposta: a seconda del formato dovremo formulare
gli item in un modo o in un altro.
La terza fase è la scelta del numero di item che dovrà contenere la versione finale del test. Questa scelta
deve contemperare una serie di considerazioni. In generale, l’attendibilità di un test aumenta con
l’aumentare del numero di item. D’altronde, quando il numero degli item e la durata di compilazione del
test sono eccessive, la validità del test diminuisce.

Il tempo di compilazione dovrebbe risultare tra i 15 e i 30 minuti. Per avere un’attendibilità minimamente
sufficiente, di solito conviene utilizzare almeno 10 item per ogni dimensione. Se vogliamo misurare anche
delle sottodimensioni, ognuna deve prevedere almeno 10 item.
Per la versione preliminare si dovrà produrre almeno il doppio degli item, per avere la possibilità di
selezionare dal nostro insieme iniziale gli item migliori, cioè quelli che rispondono ai criteri metodologici e
statistici seguiti nella costruzione del test.

19
La modalità di formulazione specifica degli item differirà a seconda del tipo di test che si sta costruendo.
Tuttavia, alcuni accorgimenti valgono per tutti i tipi di item:
1. Vanno evitate affermazioni ambigue, ovvero interpretabili in più modi.
2. Affermazioni che non differenziano a sufficienza tra i soggetti sono item inutili ad una misurazione
psicometrica.
3. I termini di frequenza vanno evitati, in quanto nella scala di risposta c’è già la possibilità di modulare il
grado di adeguatezza della descrizione.
4. Le doppie negazioni vanno evitate, perché spesso introducono ambiguità interpretative.
5. Il linguaggio deve essere chiaro, diretto e semplice, utilizzando espressioni comprensibili ai soggetti
che compileranno il test.
6. Le frasi devono essere corte.
7. In una frase va inserito un solo concetto.
8. I comportamenti devono essere specifici e non generali.
9. Non vanno utilizzate espressioni di valutazione generale, ma espressioni relative al comportamento
della persona.
10. Le affermazioni devono riguardare comportamenti che hanno una certa probabilità di accadere.

4. PROVE PRELIMINARI DEL TEST


Una volta generato il gruppo iniziale di item, è opportuno effettuare delle prove preliminari del test.
L’obiettivo è rifinire la formulazione degli item, eliminando o riformulando opportunamente quelli che,
nonostante tutti gli accorgimenti messi in atto, risultano ambigui o di difficile comprensione. Possiamo
perciò pianificare un piccolo studio pilota nel quale indagheremo la comprensibilità degli item generati.
In questo processo di rifinitura degli item potremmo decidere di perdere alcuni di quelli generati
inizialmente oppure potremmo decidere di crearne di nuovi che a loro volta verranno passati al vaglio di
una procedura come quella appena descritta.

Per completare la preparazione del test preliminare, vanno scritte in chiaro le istruzioni per la sua
somministrazione. Il soggetto avrà così a sua disposizione un testo che gli consentirà di chiarire eventuali
dubbi circa la modalità di compilazione. In queste istruzioni va spiegata anche la ragione della ricerca,
anche se può essere conveniente dare una spiegazione generica per evitare di influenzare le risposte del
soggetto. Deve essere spiegata chiaramente la modalità di risposta al test, fornendo esempi chiarificatori,
e va spiegata con attenzione la scala di risposta.
Inoltre, va garantita l’anonimità e la riservatezza delle risposte fornite dal soggetto.
Se il test è di personalità o di atteggiamento, è preferibile invitare, con enfasi, il soggetto a rispondere
sinceramente. Generalmente, lo si invita a rispondere con la prima risposta che gli viene in mente.
Se il questionario è di personalità, il soggetto va esplicitamente invitato a considerare se la frase di solito lo
descrive oppure no.
Se ritenuto opportuno, vanno richieste ulteriori informazioni descrittive sul soggetto. Ad esempio, è
norma comune chiedere perlomeno l’età, il sesso e la professione. Infine, i soggetti vanno ringraziati
calorosamente per la loro collaborazione.
Una volta preparate le istruzioni, è buona regola chiedere il parere di qualche collega per verificare che
queste siano chiare e non introducano eventuali effetti non desiderati.

5. SOMMINISTRAZIONE DEL TEST


A questo punto il test è stato preparato e siamo pronti alla sua prima somministrazione. Dai dati ricavati da
questa prima somministrazione dovremo poi selezionare gli item, in un percorso iterativo che ci porterà
infine alla versione finale.
Se le risorse fossero infinite, allora il campione dovrebbe essere molto vasto. Purtroppo, nella realtà della
ricerca le risorse sono limitate, e il ricercatore è costretto quotidianamente a compromessi in termini di
rapporto tra costi e benefici.
È buona regola avere un rapporto tra numero di item e soggetti di almeno 1 a 3, cioè avere 3 soggetti per
ogni item, e comunque non scendere sotto i 100 soggetti.

20
Queste regole pratiche servono per garantire che l’applicazione di alcuni metodi statistici, quali l’analisi
fattoriale, diano risultati minimamente affidabili.
L’obiettivo è comunque quello di raccogliere un campione di soggetti che tenga conto delle possibili
variabili descrittive e demografiche che possono influenzare le risposte e cerchi di essere bilanciato al
riguardo. Rispetto alla stratificazione del campione, è indispensabile effettuare almeno quella
relativamente al sesso, raccogliendo un campione composto approssimativamente da metà maschi e metà
femmine. Rispetto ad altre variabili, si può cercare di raccogliere persone di età differente. Più difficile
risulta la variazione geografica.

6. SELEZIONE DEGLI ITEM


Una volta raccolti i dati sul campione di soggetti, inizia la fase di selezione vera e propria degli item per
giungere alla versione finale.
Il processo è iterativo ed è bene preventivare almeno due fasi di raccolta di soggetti e due fasi di selezione
degli item. Le modalità di selezione sono molto diverse a seconda del tipo di test.
La prima grande distinzione riguarda se il test prevede una risposta esatta oppure no. I test di personalità e
le scale di atteggiamento, ad esempio, non prevedono risposte esatte. Invece quelli di intelligenza o di
profitto prevedono risposte esatte e risposte sbagliate.
In entrambi i casi, le proprietà distributive degli item che interessano per la selezione riguardano
fondamentalmente la loro capacità discriminativa.

ITEM CON RISPOSTE ESATTE


Gli item dei test possono essere:
• Dicotomici: possono assumere solo due valori, giusto o sbagliato.
• Politomici: possono assumere più di due valori.
La prima informazione di cui disponiamo per ognuno degli item sarà perciò il numero delle persone che
rispondono correttamente (Np) ed il numero di persone che sbagliano (Nq).

Nel caso di un item dicotomico, se dividiamo il numero delle persone che rispondono correttamente ad un
item per il numero totale delle persone avremo la media dell’item. Questo valore è noto anche come
indice di difficoltà dell’item: esso varia tra 0 e 1.
La distribuzione degli item dicotomici si chiama distribuzione binomiale: tale distribuzione ha media p e
varianza p*q. La varianza di un item è la proporzione di risposte corrette per quella di risposte sbagliate.
Assume la capacità discriminativa massima quando p = q = .50.
Un primo criterio sarà quindi eliminare gli item che discriminano poco, cioè quelli ai quali molti soggetti
rispondono correttamente o erroneamente. Possiamo crearci un intervallo di p all’interno del quale
selezionare gli item. Solitamente, questo intervallo viene posto tra .2 e .8, e vengono cioè selezionati
quegli item ai quali risponde correttamente tra il 20% e l’80% dei soggetti.

Altri criteri si basano sui rapporti tra un singolo item ed il punteggio totale del test di cui l’item è parte. Un
parametro ampiamente usato è l’indice di discriminazione. Viene calcolato il punteggio totale al test,
vengono poi divisi i soggetti in funzione del punteggio totale in due gruppi: soggetti con basso punteggio e
soggetti con alto punteggio.
L’indice di discriminazione (D) si calcola come D = p(a) - p(b), cioè la proporzione di risposte corrette nei
soggetti con alto punteggio meno la proporzione di risposte corrette nei soggetti con basso punteggio. I
valori possibili di D saranno compresi tra -1 e +1.
Valori positivi indicano che l’item discrimina nel verso corretto, mentre valori negativi indicano che l’item
discrimina al contrario. Nella pratica, vengono raccomandate alcune soglie: con D maggiore di .30 l’item
discrimina in maniera efficace, con D compreso tra .20 e .30 la sua capacità discriminativa è intermedia,
con D minore di .20 l’item dovrebbe essere eliminato o riformulato completamente.

21
Infine, un ulteriore criterio è rappresentato dalla correlazione tra l’item e il punteggio totale del test. Tra i
diversi coefficienti di correlazione che potrebbero essere applicati, il più adeguato è il coefficiente di
correlazione punto-biseriale: numericamente esso equivale al coefficiente di correlazione di Bravais-
Pearson.
Vengono suggeriti valori superiori a .30 come indicativi di una buona correlazione. Comunque, dato un test
di lunghezza tra i 20 e i 30 item, una correlazione superiore a .25 può già essere considerata come soglia
minima da raggiungere.
Bisognerebbe correggere il valore ottenuto della correlazione utilizzando una formula di correzione, dato
che l’item in questione viene considerato due volte (da solo e nel punteggio totale del test).

Un approccio diverso alla selezione degli item viene fornito dalla Item Response Theory. Tramite questa
famiglia di modelli possono essere ricavati dei parametri dell’item molto informativi. È possibile esprimere
la probabilità che si risponda correttamente ad un item in funzione del livello di conoscenza del soggetto.
La differenza tra i modelli con diversi parametri sta nel “ripulire” questa probabilità rispetto a fattori quali
la discriminatività dell’item, i tentativi di indovinare, o gli sbagli per caso.

ITEM SENZA RISPOSTE ESATTE


Quando il test è un test di personalità o una scala di atteggiamento, non ci sono risposte esatte o sbagliate.
Anche in questo caso, studieremo le proprietà distributive degli item per una loro selezione, ma in modo
differente dal caso di item con risposte esatte, pur rimanendo fermo l’obiettivo di scegliere item con
elevate capacità discriminative.
Dovremo quindi valutare i parametri pertinenti della loro distribuzione. Sappiamo che il potere
discriminativo di un item è legato alla dispersione dei punteggi. La distribuzione dei punteggi che rende
massima la dispersione è quella rettangolare: nel caso di questa distribuzione la media sarà uguale a 4,
come si può verificare facilmente facendo la somma delle frequenze dei punteggi e dividendola per il
numero totale delle osservazioni. La deviazione standard, indice principale di dispersione dei punteggi,
sarà approssimativamente uguale a 2.

Per ragioni legate alle tecniche statistiche che si utilizzano nel processo di validazione di un test, si
preferisce avere una distribuzione normale: questa garantisce comunque una dispersione elevata e
adeguata dei punteggi e presenta dei vantaggi di tipo statistico. La media sarà uguale a 4, la deviazione
standard sarà approssimativamente uguale a 1. La regola convenzionalmente utilizzata consiste nel creare
un intervallo di fiducia di 1,5 deviazioni standard dal valore medio teorico.
Abbiamo così un primo criterio: selezioneremo gli item che hanno una media compresa tra 2.5 e 5.5. Per
quanto riguarda la deviazione standard, più grande è meglio è, purché la curva non si discosti molto dalla
normale.

Possiamo calcolare anche altri parametri della distribuzione, in particolare asimmetria e curtosi. Questi
due parametri sono informativi rispetto alla forma della distribuzione.
Possiamo suggerire di considerare valori compresi tra -1 e +1 come indicanti una distribuzione non molto
distante dalla normale, e quindi accettabile. Quanto più i valori si allontaneranno da questi, tanto più l’item
avrà basso potere discriminativo e dovrà quindi essere eliminato.

Infine, anche in questo caso, un criterio che può essere utilizzato riguarda la correlazione tra item e
punteggio totale del test, attraverso il coefficiente di correlazione di Bravais-Pearson: verranno
selezionate delle soglie intorno a .25 e .30 per scegliere gli item da conservare rispetto a quelli da
eliminare.

22
5. DIMENSIONALITÀ, ATTENDIBILITÀ E VALIDITÀ

1. DIMENSIONALITÀ DI UN TEST
L’analisi fattoriale è la tecnica statistica d’elezione per lo studio della dimensionalità.
Questa tecnica è un modello fattoriale e perciò si applica quando gli indicatori sono riflettivi. Vale a dire,
ipotizziamo che gli item siano il riflesso osservabile del costrutto latente.
Serve per identificare i fattori latenti che spiegano le correlazioni tra delle variabili osservate. Il numero di
fattori è infatti sempre minore rispetto al numero di item di partenza.
Esistono diversi metodi di analisi fattoriale. In breve, si tratta anzitutto di scegliere il tipo specifico di
tecnica da usare, il numero dei fattori da estrarre, ed il tipo di rotazione fattoriale da effettuare.
La rotazione fattoriale è una procedura usata per consentire una interpretazione migliore dei risultati: la
soluzione fattoriale estratta viene ruotata tramite un algoritmo che ne consente una sua riproduzione nella
quale la lettura e l’interpretazione dei risultati è resa più facile. Si effettua esclusivamente quando sono
stati estratti almeno due fattori.
Ne esistono due tipi fondamentali:
• Rotazione ortogonale: si effettua quando si ipotizza o si sceglie che i fattori estratti non siano correlati
tra loro.
• Rotazione obliqua: si effettua quando i fattori estratti sono correlati.
Dopo questi primi passaggi, devono eventualmente essere scartati alcuni item sulla base di una scarsa
relazione con i fattori estratti oppure deve essere riconsiderato il numero di fattori da estrarre, deve essere
ripetuta l’analisi fattoriale nel caso siano stati scartati alcuni item o si sia deciso di estrarre un numero
diverso di fattori. Questi due ultimi passi vanno ripetuti iterativamente finché il ricercatore non giudichi
soddisfacente la soluzione fattoriale.

I risultati di un’analisi fattoriale possono essere letti a più livelli:


1. A livello della capacità della soluzione fattoriale prescelta di rendere ragione delle correlazioni tra gli
item, va considerata la percentuale di varianza spiegata complessivamente. La soluzione fattoriale
comporta l’identificazione di un numero di dimensioni latenti: bisogna considerare la percentuale di
varianza spiegata da ciascuna di esse.
2. A livello dell’entità delle comunalità (che rappresentano la percentuale di varianza di ogni item
spiegata dalle dimensioni prescelte) possiamo valutare quanto gli item sono, nel complesso,
rappresentati dalla soluzione fattoriale.
3. A livello di correlazione tra le dimensioni possiamo decidere se ruotarle ortogonalmente o
obliquamente.

Al di là degli aspetti tecnico-procedurali che non possono essere approfonditi in questa sede, tramite
l’analisi fattoriale possiamo, in sostanza, sia comprendere la dimensionalità di un test, e perciò verificare la
validità della nostra ipotesi, sia selezionare gli item migliori, laddove per migliori si intende quelli che
maggiormente sono riferibili alle dimensioni latenti.

SELEZIONE DEGLI ITEM TRAMITE ANALISI FATTORIALE


È proficuo impostare la selezione degli item come un processo iterativo nel quale di volta in volta alcuni
item vengono eliminati, viene nuovamente effettuata un’analisi fattoriale, vengono eliminati altri item, e
così via finché la soluzione finale non sia soddisfacente.
I criteri specifici che potremo utilizzare possono essere fondamentalmente due:
1. Che un item saturi in maniera sufficientemente elevata sul fattore di pertinenza: può essere
operazionalizzato ponendo una soglia di saturazione minima sul fattore pertinente.
2. Che un item non saturi significativamente sull’altro fattore: può essere operazionalizzato ponendo una
soglia legata al rapporto tra saturazione sul fattore pertinente e saturazione su quello non pertinente.
Questi due criteri ci garantiscono che gli item selezionati siano riferibili al fattore e, quindi, alla
dimensionalità pertinente e solo a quella.

23
2. ATTENDIBILITÀ DELLE DIMENSIONI DI UN TEST
L’attendibilità o affidabilità di un test può essere definita come l’accordo tra tentativi indipendenti di
misurare lo stesso concetto teorico.
Nel caso della psicometria i test non sono in grado di dare una misura così precisa come quella dei metri
fisici. Abbiamo quindi un errore di misurazione di dimensioni considerevoli, che dipende in gran parte
dall’oggetto studiato: i costrutti di natura psicologica sono inferiti e non deve perciò stupire la presenza di
errore nel processo di misurazione. Un buon test dovrà essere costruito in modo tale da consentire
comunque un grado sufficiente di affidabilità della misura.
Se torniamo all’equazione della teoria classica dei test e alla definizione di errore casuale, possiamo
affermare che:
1. La media degli errori casuali deve essere nulla, altrimenti sarebbe un errore sistematico.
2. La correlazione tra il punteggio vero e l’errore casuale deve essere nulla. Si deve supporre la stessa
probabilità di commettere errori grandi o piccoli in relazione a quantità grandi o piccole della
caratteristica. Se a quantità grandi corrispondessero errori grandi e a quantità piccole errori piccoli o
viceversa, l’errore non potrebbe essere considerato casuale, ma sarebbe sistematico.
3. La correlazione tra due errori qualsiasi deve essere nulla: non è pensabile che un errore, se casuale,
possa essere in qualche modo legato all’errore commesso nella misura precedente o successiva o a
qualsiasi altro.
Quindi l’attendibilità di uno strumento di misura si definisce come rapporto tra la varianza della parte vera
e la varianza del punteggio osservato, ovvero come complemento a 1 del rapporto tra varianza d’errore e
varianza totale. Da questa formula si evince che minore sarà la varianza dell’errore più vicina a 1 sarà
l’attendibilità del test, e più preciso sarà lo strumento.

Possiamo anche definire l’attendibilità in funzione della correlazione tra il punteggio vero e il punteggio
osservato. La correlazione tra il punteggio vero e il punteggio osservato è la radica del coefficiente di
attendibilità, chiamato indice di attendibilità.
La porzione di punteggio vero rappresenta la parte attendibile di un punteggio. Vale sia per il punteggio
ottenuto per ogni singolo item sia per il punteggio al test complessivo che generalmente si ottiene come
somma algebrica dei punteggi di ogni singolo item. L’attendibilità di un test sarà perciò relativa al
punteggio totale fornito dalla somma degli item che compongono il test.

Un altro aspetto ben noto dell’attendibilità riguarda l’utilizzo di due forme parallele di un test. Si
intendono due forme dello stesso test che si propongano di misurare in maniera interscambiabile lo stesso
costrutto psicologico. Saranno formate da un numero uguale di item che dovranno avere le stesse
caratteristiche psicometriche al fine di assicurare una misura egualmente valida del costrutto. La
correlazione tra i punteggi in questi due test, opportunamente corretta con la formula profetica di
Spearman-Brown, ci darà l’attendibilità intesa come parallelismo di due forme dello stesso test.

Se ci riferiamo all’attendibilità intesa come stabilità delle misure nel tempo, attendibilità test-retest, una
misura attendibile deve mostrare un certo grado di stabilità temporale.
Basterà quindi somministrare lo stesso strumento agli stessi soggetti in due occasioni a una certa distanza
di tempo l’una dall’altra, e correlare i punteggi ottenuti, tramite un coefficiente di correlazione di Bravais-
Pearson.

Se ci riferiamo all’attendibilità in termini di coerenza interna del costrutto misurato, essa riflette il grado di
accordo tra più misure dello stesso concetto teorico ottenute nello stesso momento di somministrazione
con uno stesso metodo. Questa accezione risulta dall’estensione della logica delle forme parallele. Se
immaginiamo che un test può essere diviso in due forme parallele, possiamo estendere la divisione
arrivando a considerare ogni item una forma parallela di tutti gli altri. possiamo porci nell’ottica di
verificare quanto essi siano tra loro coerenti poiché li ipotizziamo come misure parallele di uno stesso
costrutto.

24
La misura più usata a tale riguardo è il coefficiente Alfa di Cronbach: si tratta di una misura del peso
relativo della variabilità associata agli item rispetto alla variabilità associata alla loro somma, cioè al
punteggio della dimensione misurata dal test. I valori di Alfa variano tra 0 e 1. Nella prassi, valori superiori a
.90 sono considerati ottini, tra .80 e .90 buoni, tra .70 e .80 discreti, tra .60 e .70 al margine della
sufficienza, inferiori a .60 deficitari.

Un’ultima proprietà del coefficiente di attendibilità è la sua relazione con il numero gli item che
compongono un test: all’aumentare del numero degli item aumenta il valore del coefficiente di
attendibilità. La formula che pone in relazione la lunghezza del test e il valore dell’attendibilità è nota
come formula profetica di Spearman-Brown: tramite questa formula è possibile stimare l’attendibilità di
un test in funzione dell’aumento del numero di item che lo compongono oppure, utilizzandola all’inverso, è
possibile stimare quanti item dovrebbero essere aggiunti ad un test per ottenere un certo livello di
attendibilità. L’attendibilità aumenta all’aumentare del numero di item.

SELEZIONE DEGLI ITEM TRAMITE ATTENDIBILITÀ


Il metodo consiste nel verificare il contributo di ogni singolo item al coefficiente Alfa di Cronbach e
nell’eliminare quegli item che tendono a far decrescere l’Alfa calcolata sul punteggio totale della
dimensione.
La logica è eliminare quegli item che contribuiscono meno o addirittura in senso negativo all’attendibilità
del test. In questo modo, gli item selezionati saranno quelli più coerenti all’interno della dimensione
considerata. In realtà, è più utile selezionare gli item tramite l’analisi fattoriale descritta in precedenza. Le
informazioni fornite dall’analisi fattoriale sono migliori di quelle fornite dall’attendibilità che risulta
dall’Alfa di Cronbach.

La differenza però è che con l’analisi fattoriale possiamo distinguere tra dimensioni diverse e possiamo
perciò individuare quegli item che, saturando contemporaneamente su più fattori, sono da eliminare
perché risultano «spuri», mentre non è possibile effettuare questa distinzione usando l’Alfa.
La differenza è nel concetto di dimensionalità: l’attendibilità ha senso su una sola dimensione alla volta,
mentre l’analisi fattoriale consente di avere informazioni su più dimensioni contemporaneamente.

3. VALIDITÀ
La validità rappresenta il grado in cui uno strumento misura effettivamente quello che dovrebbe misurare.
Perché ci sia validità di una misura di un costrutto è condizione necessaria ma non sufficiente che la misura
sia attendibile: perché sia anche valida serve qualcosa di più.
La validità generale di un costrutto sarà riferibile al grado in cui questi diversi aspetti vengono soddisfatti
contemporaneamente. In letteratura sono state proposte molte distinzioni. La distinzione proposta da
Bagozzi consiste in 5 aspetti diversi:
1. La significatività teorica ed osservativa di un costrutto
2. L’attendibilità
3. La validità di criterio, ulteriormente distinguibile in:
• Validità concorrente
• Validità predittiva
4. La validità di costrutto, specificabile in:
• Validità convergente
• Validità discriminante
5. La validità nomologica

SIGNIFICATIVITÀ TEORICA ED OSSERVATIVA DI UN COSTRUTTO


Per significatività teorica si intende un giudizio sulla natura e la coerenza interna del linguaggio usato per
rappresentare il costrutto. Riguarda la definizione dei termini che specificano il costrutto e le connessioni
di quest’ultimo con altri costrutti nella struttura teorica più ampia di cui esso è parte.

25
Per significatività osservativa si fa riferimento alla natura delle relazioni tra termini teorici e definizione
empirica, vale a dire alle regole di corrispondenza.
Per la complessità che è intrinseca a questo aspetto della misurazione, a volte quest’aspetto della validità
viene tralasciato. Questo è un grave errore, poiché un buon costrutto è, anzitutto, un buon costrutto
teorico con chiari e cogenti nessi con il piano empirico.
Spesso nella letteratura viene usato il termine validità di contenuto.

ATTENDIBILITÀ
Una misura deve anzitutto essere attendibile, successivamente possiamo verificare se e quanto essa sia
valida. L’attendibilità è il rapporto tra la varianza del punteggio vero e la varianza totale. A sua volta, la
varianza del punteggio vero può essere distinta in varianza valida e varianza non valida.
Può accadere che una misura abbia un’attendibilità elevata eppure una validità nulla. Ciò accade
solitamente quando gli item sono coerenti per motivi diversi da quelli per cui lo dovrebbero essere e
quando il primo aspetto della validità è deficitario.

VALIDITÀ DI CRITERIO
La validità di criterio può essere definita come il grado di corrispondenza o relazione tra una misura ed un
criterio di riferimento. Si distingue tra:
• Validità concorrente: quando misura e criterio vengono misurate nello stesso momento.
• Validità predittiva: quando il criterio viene rilevato successivamente.
Il punto focale di questo tipo di validità risiede nella scelta del criterio di riferimento. È una scelta che sarà
inevitabilmente soggettiva ma non dovrà essere arbitraria.
Si potranno anche usare più criteri a seconda dei casi. Spesso si è utilizzato come coefficiente di validità la
correlazione tra una misura e un criterio. In realtà, questo utilizzo confonde tra misura e costrutto. La
validità è un concetto che riguarda un costrutto per come emerge dalla misura, non la misura in quanto
tale. Il giusto livello sarà perciò quello della relazione tra costrutti diversi, quello che stiamo validando ed il
criterio. Bisognerà perciò tenere contro dell’errore di misurazione di entrambi i costrutti.
La formula che rende l’idea dell’impatto dell’errore di misurazione sulla stima del coefficiente di validità a
livello dei costrutti è quella della correzione della correlazione per l’attenuazione dovuta all’errore di
misurazione: la correlazione tra due costrutti è uguale alla correlazione tra le due misure dei costrutti,
diviso la radice quadrata del prodotto tra le attendibilità delle misure.
Solo quando l’errore di misurazione è nullo la correlazione tra le misure è uguale a quella tra i costrutti.

VALIDITÀ DI COSTRUTTO
La validità di costrutto viene spesso definita come il grado in cui uno strumento misura il costrutto che
dovrebbe misurare. Può essere distinta in due aspetti:
• Validità convergente: indica il grado di accordo tra diverse misure dello stesso costrutto.
• Validità discriminante: riguarda il grado di distinzione tra misure di costrutti diversi.
La logica che sottende queste due accezioni della validità è che due o più misure di uno stesso costrutto
dovrebbero avere una correlazione elevata perché possano essere considerate delle misure valide di quel
costrutto, e misure di costrutti diversi dovrebbero invece non avere correlazioni elevate affinché i due
costrutti siano effettivamente diversi.

La validità di costrutto riguarda più definizioni operative contemporanee dello stesso costrutto. Il costrutto
emerge dalle relazioni risultanti tra tentativi diversi di operazionalizzarlo, e la sua validità è il risultato delle
relazioni tra le diverse misure. Solo considerando misure differenti di uno stesso costrutto potremo
verificare la validità convergente e solo considerando in simultanea anche misure diverse di costrutti
teoricamente diversi potremo parlare di validità discriminante.
Il modo migliore per valutare questi due tipi di validità è di impiantare uno studio in cui più costrutti
vengono misurati con più metodi. In questo modo avremo una matrice multi-tratto multi-metodo. Per
ogni tratto (o costrutto) avremo tante misure quanti sono i metodi utilizzati.

26
Il metodo invece può assumere significati differenti. Ad esempio, potremo considerare metodi diversi i
diversi tipi di valutatori. In questo caso per metodo si intende in realtà il valutatore. Oppure potremmo
utilizzare un questionario ed una lista di aggettivi: in questo caso il metodo sarà il tipo di item usato. Il
metodo perciò assume senso specifico in base alle scelte teoriche.

L’analisi statistica che meglio di tutte consente di cogliere la validità discriminante e convergente di una
matrice multi-tratto multi-metodo è quella dei modelli di equazione strutturale.
Un altro modo che può essere utilizzato che, pur con una serie di limitazioni, consente di investigare la
presenza dei due tipi di validità, è basato sulla verifica dei 4 criteri di Campbell e Fiske:
1. Il primo richiede che le correlazioni tra lo stesso costrutto misurato con metodi diversi siano maggiori
di zero, sufficientemente grandi e statisticamente significative.
2. Il secondo richiede che ogni correlazione monotratto-eterometodo debba essere maggiore dei valori
corrispondenti delle correlazioni etero-tratto etero-metodo, cioè tratti diversi misurati da metodi
diversi devono correlare in misura minore rispetto alla correlazione che si ha per ciascun costrutto
misurato con metodi diversi, e che questa differenza sia nella direzione giusta, ampia e significativa.
3. Il terzo richiede che ogni correlazione monotratto-eterometodo debba essere maggiore dei valori
corrispondenti delle correlazioni etero-tratto mono-metodo, cioè tratti diversi misurati dallo stesso
metodo devono correlare in misura minore rispetto alla correlazione delle misure dello stesso
costrutto con metodi diversi.
4. Il quarto richiede la stessa configurazione delle correlazioni etero-tratto etero-metodo ed etero-tratto
mono-metodo. Nel caso di una matrice con due tratti e due metodi questo criterio non può essere
verificato: ci vuole una matrice con almeno tre tratti.

VALIDITÀ NOMOLOGICA
Perché ci sia validità nomologica bisogna dimostrare che il costrutto predice ciò che deve predire e non
predice ciò che non deve predire e che si inserisce appropriatamente in una rete di relazioni con altri
costrutti teoricamente affini.
Mentre la validità di criterio riguarda un costrutto ed un criterio, quella nomologica riguarda un costrutto in
contemporanea con molti criteri. Inoltre, si valuta l’insieme delle relazioni con altri costrutti. Da un punto di
vista empirico, il metodo d’elezione per verificare questo tipo di validità è quello delle equazioni
strutturali.
Per poter verificare la validità nomologica abbiamo bisogno di una teoria ben chiara e sviluppata,
indicante ciò che ci dobbiamo aspettare e ciò che non ci dobbiamo aspettare in termini di predizione, e
come il costrutto in esame si colleghi con altri costrutti. Inoltre, dobbiamo avere preso delle misure per
ognuno di questi costrutti.

4. FATTORI CHE DIMINUISCONO ATTENDIBILITÀ E VALIDITÀ


Il maggior nemico dell’attendibilità e della validità è l’errore, non solo quello di misurazione. Anche altre
fonti di errore possono pregiudicare un test.
A monte, la misura potrebbe non riflettere accuratamente il costrutto.
Nella fase di raccolta dei dati, potrebbero essere presenti errori di tipo sistematico. Ad esempio, il
campionamento potrebbe essere sbilanciato, oppure potrebbe esserci un rifiuto a compilare il test da parte
di alcuni soggetti e questi potrebbero essere un gruppo particolare la cui mancanza può distorcere i
risultati.
Ci possono essere anche errori che derivano dall’errata compilazione del test da parte dei soggetti. Nel
caso di scale di atteggiamento altre fonti di distorsioni possono dipendere da aspetti quali l’ordine di
presentazione delle domande, l’ordine di presentazione delle risposte, l’enfasi che può essere posta su
alcuni aspetti della domanda e che può influenzare la risposta.

Ci sono infine effetti sistematici ben noti nella ricerca psicologica, chiamati stili di risposta: questi fattori,
essi stessi delle dimensioni di personalità, possono influenzare le risposte ad un questionario
indipendentemente dal contenuto specifico dell’item.

27
• Acquiescenza: esprime la tendenza generale dei soggetti a rispondere positivamente o
negativamente agli item indipendentemente dai contenuti specifici. Per minimizzare questo aspetto si
potrebbero bilanciare gli item in positivo e negativo, oppure si può costruire una scala di acquiescenza
per misurare per ogni soggetto quanto egli tenda a rispondere positivamente alle domande e poi
correggere le risposte dei soggetti al test che si sta analizzando, tramite tecniche statistiche
particolari.
• Desiderabilità sociale: tendenza di un individuo a presentarsi in modo da apparire in luce positiva
rispetto alle norme culturali e sociali del suo contesto. Può avere un’influenza notevole soprattutto per
alcune dimensioni di personalità, in particolare nel caso in cui i soggetti si autovalutano. Si possono
selezionare item che abbiano dei valori intermedi di desiderabilità sociale. Per fare ciò bisogna
prevedere uno studio parallelo nel quale si dovrà chiedere ad un gruppo di soggetti di valutare la
desiderabilità sociale contenuta in ognuno degli item. Dovrà anche essere posta la massima attenzione
affinché il campione di soggetti utilizzato nello studio sia sovrapponibile a quello cui il test è destinato.
Un altro modo per minimizzare gli effetti consiste nell’utilizzare una scala di misura, somministrarla ai
soggetti insieme al test che si sta validando, e poi utilizzare i punteggi di desiderabilità sociale, oppure
fornire le correlazioni tra essa e le dimensioni del test.

5. CARATTERISTICHE DELLA VERSIONE FINALE DEL TEST


Una volta arrivati alla versione finale di un test, dovremo pianificare uno studio per verificarne le
caratteristiche psicometriche.
La prima questione è la dimensionalità: è necessario, quando si propone un test alla comunità scientifica,
verificare ancora, in maniera indipendente, la sua dimensionalità. Quindi dovremo pianificare uno studio
somministrando il test ad un campione di nuovi soggetti. Effettueremo poi un’analisi fattoriale, estraendo i
fattori e ruotandoli obliquamente. I risultati dovranno confermare quelli ottenuti in fase di selezione.
Su questi dati raccolti, possiamo allora verificare le caratteristiche psicometriche legate all’attendibilità,
calcolando l’Alfa di Cronbach.
Per quanto riguarda la validità, quella legata alla significatività teorica e osservativa del costrutto (validità
di contenuto) dovremo fornire argomentazioni convincenti circa la sensatezza e la bontà di definizione del
costrutto proposto. Inoltre, dovremo convincere che la misura che proponiamo riesce a cogliere il
costrutto teorico e ne rappresenta perciò una valida operazionalizzazione.
Per dimostrare la validità di criterio dovremo pianificare uno studio nel quale la misura proposta riesca a
predire in modo significativo criteri rilevanti. Porremo infine in relazione il punteggio ottenuto al test con i
comportamenti messi in atto nella situazione sperimentale. Se il test è valido dovremo trovare una
relazione significativa tra il test e il comportamento messo in atto nella situazione sperimentale.
Per dimostrare la validità di costrutto dovremo pianificare un altro studio nel quale utilizzeremo metodi
diversi per misurare le diverse dimensioni.
Per dimostrare infine la validità nomologica dovremo compiere uno sforzo notevolmente maggiore.
Dovremo anzitutto fornire un’elaborazione teorica particolareggiata del nostro costrutto, indicando con
quali altri costrutti esso si pone in relazione o meno e perché. Dovremo pianificare uno o più studi nei quali
misurare quest’insieme di costrutti e dovremo verificare che le loro relazioni siano effettivamente quelle
che abbiamo teorizzato. Dovremo fornire una visione chiara dei meccanismi che sottendono il costrutto
proposto e dare una giustificazione teorica convincente del loro connettersi con altri meccanismi legati a
concetti affini. Le conseguenze di queste analisi dovranno poi essere riscontrate in un insieme di relazioni
empiriche predette a monte o comunque prevedibili in funzione della nostra analisi.

6. LA STANDARDIZZAZIONE DEI TEST


Standardizzare significa trasformare i punteggi grezzi ottenuti ad un test in punteggi che abbiano un
qualche significato psicologico: quello che si ottiene normalmente come punteggio grezzo è un numero
che non significa nulla di per sé se non esiste un riferimento in qualche modo normativo.

28
Per l’uso pratico dei test la standardizzazione è fondamentale, soprattutto se dobbiamo prendere decisioni
su singoli individui. È meno importante se utilizziamo i test per motivi di studio.

1. LA TARATURA DEI TEST PSICOLOGICI


Il punteggio di un qualsiasi test psicologico non ha di per sé alcun significato: se un soggetto A ha ottenuto
ad un test il punteggio 25, non siamo in grado di avere nessuna informazione reale sulla sua prestazione a
meno che non possiamo confrontare questa prestazione con altre caratteristiche o del test o del gruppo
cui il soggetto appartiene. In conclusione, abbiamo bisogno di una serie di informazioni ulteriori per poter
inquadrare la prestazione del nostro soggetto in un contesto significativo.

Costruire delle norme di riferimento per un test comporta delle ipotesi di fondo che è necessario
esplicitare. Innanzitutto, si deve supporre che la caratteristica che si vuole misurare abbia una distribuzione
nota nella popolazione. Tale distribuzione è di solito quella di Gauss o «normale»: si presuppone cioè che
molti individui abbiano quantità intermedie della caratteristica mentre pochi ne abbiano quantità
rispettivamente rilevanti o irrilevanti. Tuttavia, per alcune caratteristiche psicologiche, per esempio la
creatività, si potrebbero ipotizzare tipi di distribuzione non necessariamente gaussiane o simmetriche.
Una conseguenza rilevante di tale assunto è quella di usare la media come riferimento normativo: poiché la
media della popolazione non è nota ma è stimata in base alla media del campione, quest’ultimo deve
essere rappresentativo della popolazione, altrimenti il riferimento normativo è viziato in partenza dalla
non corrispondenza del campione alla popolazione.

Riteniamo che soprattutto chi utilizza i test psicologici a scopo diagnostico debba avere molto ben presenti
sia il significato di norma in generale sia il processo che è stato seguito per arrivare alla norma medesima.
Norme di riferimento ottenute su campioni di popolazioni straniere, per esempio, potrebbero non avere
alcun significato se utilizzato per soggetti non appartenenti a quelle popolazioni.
Risulta anche evidente l’importanza del campionamento per costruire le norme di un test. Sono state fatte
molte polemiche sulla rappresentatività dei campioni normativi usati per la taratura dei test psicologici. È
necessario perciò che un buon manuale di un test illustri in modo esauriente anche le caratteristiche del
campione sul quale è stato tarato.

In generale, per una buona taratura di un test si devono seguire una serie di passi:
1. Identificare la popolazione che interessa.
2. Decidere come effettuare il campionamento: è necessario stimare la numerosità del campione e il tipo
di campionamento da effettuare in base all’entità dell’errore di stima che si vuole tollerare.
3. Calcolare gli indicatori statistici (media, varianza ed errore standard della media, indici di attendibilità
e validità).
4. Preparare le tavole di conversione dei punteggi grezzi in punteggi standardizzati.
5. Preparare una dettagliata documentazione scritta della procedura da inserire nel manuale del test.

2. IL CAMPIONAMENTO
Il campione normativo deve avere una buona corrispondenza con le caratteristiche della popolazione ed
essere sufficientemente ampio da ridurre i possibili errori di stima dei parametri.
Esistono vari tipi di campionamento: innanzitutto possiamo distinguere tra campionamento
probabilistico e campionamento non probabilistico: nel primo tutte le unità appartenenti alla
popolazione della quale si vuole estrarre un campione hanno la stessa probabilità nota di venire estratte;
nel secondo invece questo non avviene.
Il più semplice campionamento probabilistico è il campionamento casuale semplice: si tratta di estrarre a
caso da una popolazione predeterminata un numero prefissato di elementi che costituiranno il campione.
Per fare ciò, si assegna un numero a tutti gli elementi della popolazione e, attraverso una tavola di numeri
casuali, si estraggono tanti numeri quanti sono gli elementi del campione desiderato. I soggetti estratti
andranno a far parte del campione normativo: il gruppo di soggetti le cui risposte al test vengono prese
come termine di riferimento per valutare le risposte di qualsiasi altro soggetto che successivamente venga

29
sottoposto al test. Su questo vengono calcolate la media e la deviazione standard come stima degli stessi
parametri nella popolazione. Se il campione è rappresentativo, la media del campione sarà abbastanza
simile alla media della popolazione.
I due parametri differiscono in base all’errore di campionamento: se continuassimo ad estrarre infiniti
campioni dalla stessa popolazione e calcolassimo la media di ciascuno, la distribuzione di tali medie
sarebbe una curva normale distribuita intorno alla media della popolazione; la deviazione standard di tale
distribuzione viene chiamata errore standard della media, che viene utilizzato quando si vuole stimare un
intervallo di confidenza entro il quale, con una certa probabilità, cadrà la media della popolazione.

È spesso non conveniente estrarre un campione casuale semplice come lo abbiamo descritto, ma si ricorre
ad un campionamento stratificato: consiste nel suddividere la popolazione che interessa in più
popolazioni più omogenee rispetto ad una caratteristica e da queste estrarre campioni casuali semplici. Più
le sotto-popolazioni sono omogenee, minore sarà la numerosità del campione necessario a garantirne la
rappresentatività.
Se si usa un campione stratificato la media campionaria è una media ponderata.

Un ultimo tipo è il campionamento a grappolo, che viene usato quando la popolazione che interessa è già
raggruppata: si ottiene estraendo a caso una o più unità e considerando elementi del campione tutti gli
individui appartenenti a quella unità.

La scelta del tipo di campionamento per la standardizzazione di un test non dipende da scelte teoriche ma
da semplici decisioni pratiche, la più importante delle quali riguarda le risorse che si hanno a disposizione.

3. LA TRASFORMAZIONE DEI PUNTEGGI


I punteggi normativi sono costituiti dall’insieme di punteggi trasformati riferiti ad un campionamento su
scala nazionale o a campionamenti su popolazioni specifiche: in questo ultimo caso si avranno norme
locali che si riferiscono ad una popolazione particolare e non ad un campione rappresentativo della
popolazione generale.

PERCENTILI E RANGHI PERCENTILI


Questo tipo di trasformazione dei punteggi grezzi si basa sulla posizione che i punteggi occupano nella
distribuzione di tutti i punteggi ottenuti dal campione normativo.
Si chiama percentile il punteggio al di sotto del quale cade una determinata percentuale dei soggetti del
campione normativo. Nei manuali dei test vengono fornite delle tavole di trasformazione dal punteggio
grezzo al rango percentile.

Innanzitutto, si costruisce la distribuzione di frequenza dei punteggi grezzi ottenuti dal campione
normativo. A ciascun punteggio grezzo corrisponde una frequenza, cioè il numero dei soggetti che hanno
ottenuto quel punteggio. Calcoliamo poi le frequenze cumulate partendo dal punteggio più basso e
sommando via via tutte le frequenze di ogni punteggio: ad ogni punteggio corrisponderà perciò una
frequenza pari a quella del punteggio stesso più tutte le frequenze dei punteggi inferiori.

Il rango percentile presenta un grosso inconveniente: la distribuzione dei ranghi percentili, essendo i ranghi
una misura di tipo ordinale, è di tipo rettangolare. Questo crea una distorsione: una stessa differenza di
punteggio grezzo sarà enfatizzata dai ranghi percentili se il punteggio grezzo si trova intorno alla media
della distribuzione, sarà invece compressa se il punteggio grezzo si trova agli estremi.
Inoltre, eseguire calcoli aritmetici o statistici sui ranghi percentili potrebbe non avere alcun significato.
Questa è la ragione per cui di solito le norme in percentili vengono accompagnate anche da altre
trasformazioni dei punteggi grezzi che vedremo più oltre.

30
PUNTEGGI STANDARDIZZATI E NORMALIZZATI
La trasformazione più frequentemente usata è quella in punti z: questi hanno il vantaggio di avere sempre
lo stesso significato indipendentemente dalla distribuzione cui fanno riferimento; un punto z di +1.0
significa sempre che si tratta di un punteggio pari a una deviazione standard al di sopra della media.
La standardizzazione in punti z non modifica la sostanza dei punteggi grezzi ed è, quindi, suscettibile di
altre elaborazioni.
I punti z possono assumere valori positivi o negativi a seconda che si tratti di punteggi grezzi al di sopra o al
disotto della media. Questa trasformazione consente inoltre di sfruttare le proprietà della distribuzione
normale e le tavole relative.

La distribuzione dei punti z non è una distribuzione normale. Usare le caratteristiche di una distribuzione
normale su una distribuzione che non lo è porta ad una distorsione. Tuttavia i ricercatori tendono a
interpretare tale distorsione in senso positivo, intendendola come una normalizzazione dei punti z della
distribuzione.
La maggior parte dei ricercatori preferisce comunque normalizzare i punti z poiché ritiene che la maggior
parte delle caratteristiche psicologiche che si misurano si distribuiscono in modo normale e d’altra parte è
difficile immaginare una situazione nella quale la distribuzione dei punteggi del campione è radicalmente
diversa da una distribuzione normale e, tuttavia, il campione viene considerato rappresentativo di una
popolazione nella quale il costrutto o tratto che interessa si distribuisce normalmente.

ALTRE TRASFORMAZIONI
La trasformazione in punti x con o senza normalizzazione porta a punteggi standard con segno positivo e
negativo. Questo è uno svantaggio sia dal punto di vista di elaborazioni successive sia da quello di
comunicare i risultati.
• Punteggi T: la più usata e nota trasformazione dei punti z è la scala in punti T che corrisponde ad una
distribuzione con media 50 e deviazione standard 10.
• Punteggi «stanine»: molto usata per i test di profitto perché utilizza una scala a nove punti. La
distribuzione ha media 5 e deviazione standard di circa 2. Si procede assegnando punteggio 5 ai
punteggi grezzi con rango percentile dal 40 al 59, punteggio 6 ai punteggi grezzi che corrispondono ai
successivi 17 ranghi percentili, 7 ai punteggi grezzi corrispondenti ai successivi 12 ranghi percentili; ai
successivi 7 viene assegnato il punteggio 8 e agli ultimi 4 il punteggio 9. In questo modo si riproduce la
normalità della distribuzione che i ranghi percentili non hanno, e si evita l’inconveniente di
sovrastimare le differenze piccole.
• Punteggi «sten»: scala di punteggi da 1 a 10: prevede media pari a 5.5 e deviazione standard di 2.
• Punteggi QI: scala che prevede media 100 e deviazione standard 15 o 16. Questo QI è noto come «di
deviazione», cioè basato sulla deviazione standard.

4. L’USO DELL’ERRORE STANDARD DI MISURAZIONE


L’errore standard di misura è facilmente calcolabile avendo a disposizione la deviazione standard del
campione normativo e l’attendibilità del test.
Nella maggior parte delle situazioni si esamina un soggetto una sola volta, ottenendo un unico punteggio
che può non essere quello vero del soggetto. Dobbiamo accontentarci di stimare un intervallo entro il
quale con una certa probabilità nota cadrà il punteggio vero del soggetto esaminato una sola volta. Questa
operazione è possibile proprio in virtù dell’errore standard di misurazione del test che abbiamo calcolato.

È importante ricordare che un solo punteggio potrebbe essere una stima distorta del punteggio vero del
soggetto. Non siamo in grado di sapere qual è il punteggio vero del soggetto, quindi ci interesserebbe
poter stabilire un intervallo di fiducia partendo dal punteggio ottenuto dal soggetto e non da quello vero
che non conosciamo.
In pratica però questo procedimento non dà alcuna garanzia che il punteggio vero del nostro soggetto
cada nell’intervallo di confidenza generato intorno al punteggio osservato.

31
L’errore standard di misura può essere utilizzato anche per valutare la differenza dei punteggi ottenuti da
un soggetto in test diversi o in forme parallele dello stesso test, o per confrontare i punteggi ottenuti allo
stesso test da due soggetti diversi. Per fare questi confronti dobbiamo utilizzare la teoria statistica
dell’inferenza: verificare probabilisticamente l’ipotesi di non differenza tra le due misure.

5. COSA CI SI DEVE ASPETTARE DA UN BUON MANU ALE


Lo strumento al quale ci si deve affidare quando si usa un test psicologico è il manuale, cioè il volume che
accompagna il test vero e proprio fornendo all’utilizzatore tutte le informazioni necessarie per un uso
corretto dello strumento.
È necessario che il manuale fornisca la giustificazione teorica che riguarda lo scopo dello strumento, cioè
cosa si propone di misurare, quali sono i fondamenti teorici o pratici che hanno condotto alla sua
costruzione, quali sono state le fasi del suo sviluppo. In secondo luogo, una descrizione dettagliata del test
e delle modalità di applicazione.
Inoltre, devono essere molto chiare le caratteristiche metrologiche dello strumento: devono essere
riportate prove di validità e indici di attendibilità insieme ad un’accurata descrizione del campione di
standardizzazione. Devono anche essere chiare le condizioni di somministrazione del test soprattutto se si
tratta di test che prevedono la manipolazione di materiale o se si tratta di test da somministrare a bambini
molto piccoli.
Il manuale deve contenere chiare istruzioni per la correzione delle risposte (spesso vengono fornite dalle
apposite griglie) per il computo del punteggio finale e del come comportarsi nei casi dubbi.
Infine deve fornire le norme relative alla standardizzazione o taratura dello strumento. Non sempre queste
ultime sono necessarie all’utilizzatore del test, tuttavia le norme forniscono comunque un’informazione di
carattere generale sul test che è necessario avere.

32

Potrebbero piacerti anche