Sei sulla pagina 1di 41

lOMoARcPSD|7819776

I TEST DI INTELLIGENZA

I test di intelligenza sono stati al centro di molti dibattiti poiché riuscire a dare una definizione univoca e
condivisa di intelligenza e trovare il metodo per poterla misurare ha prodotto numerosi confronti in ambito
Nazionale e Internazionale; ma il loro successo e contributo all’analisi psicologica è oggi indiscutibile in
quanto permettono una discriminazione tra soggetti normali e soggetti mentalmente deboli. I test di
intelligenza vengono impiegati in ambito clinico a scopo diagnostico, in ambito educativo scolastico al fine
di orientamento e valutazione della necessità o meno di un insegnate di sostegno ed infine in ambito
lavorativo, come nella selezione del personale.
E’ chiaro quindi che la misurazione dell’intelligenza non è fine a se stessa ma ha delle implicazioni politiche
sociali e professionali profonde.
Nel testo di Huteau vengono riportati inizialmente i principali riferimenti storici della nascita degli strumenti
di misura dell’intelligenza attraverso tre fasi:
1) Nascita e costruzione dei test come risposta a necessità sociali, educative e cliniche di un epoca
2) Critica e successiva revisione di questi
3) Implicazioni etiche e deontologiche sul loro impiego.
Il tutto viene esposto dalla prospettiva di due importante autori francesi che possiamo dire rappresentano
la corrente Europeista riguardo l’argomento intelligenza, in quanto in America si è registrato un approccio
qualitativamente diverso incentrato su aspetti più numerici e psicomentrici del testing.

Capitolo 1 “Cenni Storici”


L'idea di «misurare» l'intelligenza era nell'aria alla fine del XIX secolo, alla nascita della psicologia scientifica.
Il primo laboratorio di psicologia sperimentale venne fondato a Lipsia nel 1879 da Wilhelm Wundt (1832-
1920). In questo laboratorio le ricerche riguardavano soprattutto i processi sensoriali elementari. Si cercava
ad esempio di determinare come la percezione varia in funzione dell'intensità dello stimolo o di individuare
la minima differenza di intensità dello stimolo che possa essere percepita dai soggetti. Questi esperimenti
inducevano a ottenere delle misure piuttosto precise di differenti caratteristiche delle risposte dei soggetti,
soglie di detenzione, tempi di reazione e, a partire da queste caratteristiche, si cercava di inferire la natura
dei processi in gioco nella risposta allo stimolo.
Uno degli studenti di Wundt, James Cattell, fu colpito dalla variabilità che osservava tra i soggetti sottoposti
a questi esperimenti. Questo non era certo l'oggetto degli studi condotti nel laboratorio di Wundt, dove si
cercava di stabilire delle leggi generali dei processi sensoriali e dove le differenze tra gli individui erano per
questo trattate come delle forme di “errore”. Cattell osservava tuttavia che queste differenze erano
abbastanza stabili. Una volta rientrato negli Stati Uniti, si servì di piccole situazioni sperimentali ispirate a
questi compiti di laboratorio per studiare le differenze interindividuali e fu il primo ad utilizzare
l'espressione Mental Test, nel 1890. Nello stesso periodo, in Gran Bretagna, Francis Galton (1822-1911)
utilizzava situazioni di questo tipo per misurare l'acutezza sensoriale, le soglie di discriminazione, i tempi di
reazione. Il suo interesse per le differenze individuali era però più antico. Era infatti cugino di Darwin e,
dalla pubblicazione dell'Origine delle specie, cercò di dimostrare che la teoria del cugino poteva anche
essere applicata all'evoluzione dell'intelligenza nella specie umana. E questa la ragione per cui approfittò
della Mostra internazionale della salute a Londra, nel 1884, per fondare un «laboratorio antropometrico» ín
cui i visitatori potevano «farsi misurare», sia in relazione a variabili antropometriche (misure del corpo
umano e delle sue diverse parti) sia rispetto alle piccole prove che Cattell qualificherà più tardi come mental
test. Galton misurava genitori e figli con l'obiettivo di mostrare che le differenze individuali sono ereditate
da una generazione all'altra; questo lo indurrà a introdurre il principio del coefficiente di correlazione per
quantificare la relazione che lega le misure effettuate sui genitori a quelle effettuate sui figli.

1.1 I primi tentativi di misura


I primi tentativi di misura di differenze individuali relative a caratteristiche «mentali» sono datati intorno
alla fine del XIX secolo e le loro ragioni intellettuali possono essere collocate, da un lato, nella nascita di una
psicologia scientifica, che ha mostrato la possibilità di misurare le caratteristiche dei processi mentali molto

1
lOMoARcPSD|7819776

elementari, dall'altro lato, nell'influenza della teoria di Darwin, che ha messo l'accento sul ruolo giocato
dalle variazioni interindividuali nell'evoluzione delle specie. Un altro fattore determinante di questa
“atmosfera dell'epoca” è da collocarsi negli sconvolgimenti economici e socioculturali prodotti
dall'industrializzazione. La necessità di diffondere l'istruzione, la formazione, di reclutare massicciamente
persone per funzioni professionali a cui non erano preparate, ha creato dei nuovi bisogni in materia di
valutazione delle persone. Uno di questi espresso in quest'epoca era la necessità di distinguere, tra gli
allievi che non giungevano a frequentare la scuola elementare, ed erano comunque tenuti a farlo perché
era divenuto obbligatorio e coloro che avevano i mezzi intellettuali per beneficiare di questo insegnamento
ma erano ostacolati dalle circostanze, da quelli che invece erano ritardati mentali. L'idea sottostante era
che occorreva dare ai bambini ritardati mentali un insegnamento adatto alle loro possibilità, ma ciò
comportava che si potesse fare una valutazione affidabile e oggettiva dei bambini con difficoltà scolastica.
Di fronte a questa richiesta sociale, i mental test, simili a quelli adottati da Cattell nei suoi esperimenti di
laboratorio, sembrarono essere, in un primo tempo, dei buoni strumenti per valutare le capacità
intellettuali. Queste prove riguardavano processi molto elementari: si valutava, ad esempio, la più piccola
differenza di peso che il soggetto era in grado di notare nel momento in cui si aggiungeva o sottraeva
qualche grammo ad un peso di 100 grammi, il tempo di reazione ad uno stimolo uditivo, il tempo
necessario per pronunciare il nome del colore presentato, ecc. Per comprendere come all'epoca si sia
potuto pensare di valutare l'intelligenza con tali prove, bisogna collocarsi nel contesto delle teorie allora in
vigore sui processi mentali. La filosofia dominante era l'associazionismo. Si pensava che le immagini mentali
fossero formate dall'associazione di sensazioni elementari e che le idee fossero formate dall'associazione e
dal concatenamento di queste immagini mentali. In breve, si ipotizzava che le sensazioni elementari
costituissero la materia di base a partire dalla quale venivano a formarsi i processi mentali più complessi.
Da lì a supporre che la qualità dei processi complessi fosse largamente determinata dalla qualità delle
sensazioni elementari il passo fu breve. Cattell ha quindi applicato i suoi mental test a tutti gli studenti che
entravano alla Columbia University, con l'obiettivo di basarsi sui loro risultati per precisare indicazioni
d'orientamento e per adattare i programmi. I suoi ripetuti tentativi si sono conclusi con un cocente
fallimento. Non c'era alcuna relazione tra l'efficienza in questi mental tests e il successo scolastico. Tentativi
simili condotti da altri ricercatori nello stesso periodo, con studenti universitari ma anche di scuola
elementare, hanno prodotto lo stesso risultato. I metodi di valutazione del funzionamento intellettivo tratti
dalla psicologia scientifica nascente si rivelarono incapaci di rispondere alla richiesta sociale dell'epoca in
questo campo.

2 La soluzione Di Binet: La scala metrica di sviluppo dell’intelligenza


Alfred Binet (1857-1911) psicologo francese, troverà la soluzione del problema di misurazione grazie al suo
spirito curioso, che aveva tra i suoi molteplici interessi, la misura dell'intelligenza.
Una delle piste che egli esplorò fu la ricerca di una relazione tra le misure del cranio, considerate misure
indirette della dimensione del cervello, e l'intelligenza.
L'insuccesso dei primi tentativi gli diede l'idea di rovesciare il problema e confrontare bambini normali a
bambini ritardati. Egli chiese quindi a Théodore Simon, che in quel periodo (1899), lavorava in un istituto
per bambini ritardati a Perray-Vaucluse, di estendere le misure del cranio a bambini diagnosticati appunto
come ritardati mentali. Ma, una volta ancora, la ricerca si scontrò con l'assenza di mezzi di valutazione
obiettivi e affidabili del grado di ritardo mentale dei soggetti esaminati. Binet e Simon cominciarono allora a
sottoporre i bambini ad un esame sistematico per valutare le loro capacità intellettive. Binet conosceva
l'esistenza dei mental tests messi a punto da Cattell, ma aveva espresso già da diversi anni il suo disaccordo
con questa modalità di affrontare il problema. Egli riteneva che le differenze individuali nei processi
sensoriali elementari avessero scarsa influenza sui processi mentali complessi e che le differenze nella
capacità intellettiva dovessero essere cercate nelle abilità di memoria, di immaginazione, di ragionamento,
di giudizio. Questa convinzione, che ha giocato un ruolo determinante, andava contro le tesi
associazioniste, e lo condusse ad abbandonare le caratteristiche individuali, che si era in grado di misurare,
per rivolgersi a caratteristiche più complesse, ma anche più problematiche, che non si sapevano ancora
misurare. Invece di paragonare le soglie di discriminazione sensoriale dei bambini ritardati con quelle dei
bambini normali, Binet e Simon sottoposero loro piccoli problemi di memoria, di giudizio scegliendo poi
lOMoARcPSD|7819776

quegli item che separavano più nettamente i soggetti dei due gruppi (si chiamano item le diverse domande
o i diversi piccoli problemi, in genere di difficoltà graduata, che compongono un test e nei quali il soggetto
può riuscire o fallire). La spinta a procedere in questo lavoro verrà dalla domanda sociale.
Nel 1904, una commissione ministeriale chiese a Binet di studiare il problema della diagnosi del ritardo
mentale. Binet e Simon proposero allora nelle scuole le prove che avevano cominciato a mettere a punto. Si
accorsero che alcuni item che ben discriminano i bambini ritardati da quelli normali avevano anche un buon
potere di discriminazione all'interno del gruppo dei bambini normali ma di età inferiore. Insomma, item
sembravano caratteristici di una data età nel momento in cui lo sviluppo intellettivo è avvenuto
normalmente. Da ciò, lo scarto tra questa età e l'età in cui il bambino li supera realmente può segnalare il
grado di evoluzione o di ritardo nello sviluppo intellettivo. E l'origine della nozione di età mentale.
Tutto lo sforzo di Binet e di Siinon, a partire da quel momento, fu di trovare delle piccole prove di memoria,
di giudizio, di ragionamento, la cui riuscita apparisse rappresentativa dei compiti cognitivi che può
padroneggiare un bambino di una data età. Per essere ritenuto rappresentativo di un'età di 5 anni, ad
esempio, un item doveva produrre un fallimento nella maggior parte dei bambini di 4 anni, essere superato
dalla maggior parte dei bambini di 6 anni, e avere una percentuale di successo del 50% tra i bambini di 5
anni, a dimostrazione che a questa età sta per essere padroneggiato. Gli item adatti non dovevano
richiedere conoscenze scolastiche. Non si trattava di valutare il grado di istruzione, ma la qualità del
funzionamento intellettivo in situazioni ordinarie. A titolo d'esempio, una delle situazioni di valutazione
della memoria selezionata da Binet e Simon (oggi si parlerebbe di memoria a breve terrnine) consisteva nel
chiedere al bambino di ripetere una lista di cifre appena letta dallo sperimentatore. Essere in grado di
ripetere due cifre corrisponde ad un'età mentale di 2 anni, 3 cifre di 3 anni, 5 cifre di 8 anni, e 7 cifre di 15
anni. Un'altra prova consisteva nel mostrare al bambino delle fotografie chiedendogli di spiegare che cosa
esse rappresentavano. Elencare (ad esempio, «un signore ed una signora») corrispondeva ad un'età
mentale di 3 anni, descrivere (ad esempio, «un signore e poi una signora che dormono su una panca») ad
un'età mentale di 7 anni, e interpretare (ad esempio, «degli sfortunati») ad un'età mentale di 15 anni. A
partire dal 1905, Binet e Simon proposero una prima versione della loro «scala metrica» dell'intelligenza.
Una seconda versione è apparsa nel 1908, la scala conteneva una cinquantina di item, in ragione di 4 o 5
per ogni età mentale, e ciò per livelli di età che andavano da 3 a 15 anni. L'età mentale non era determinata
da un item particolare, ma dall'insieme degli item superati: se la scala prevedeva 4 item caratteristici
dell'età mentale di 4 anni, la riuscita in ognuno di questi item corrispondeva ad un credito di 3 mesi e l'età
mentale era ottenuta sommando i crediti degli item superati. La precocità o il ritardo dello sviluppo
intellettivo erano dati dal confronto tra l'età mentale così ottenuta e l'età cronologica del bambino.
E’ soltanto dopo la morte di Binet, nel 1912, che uno psicologo tedesco, William Louis Stern, ebbe l'idea di
esprimere la rapidità di sviluppo come il rapporto tra l'età mentale e l'età cronologica (moltiplicato per
cento per evitare i decimali). Questo indice venne chiamato quoziente intellettivo (QI). Il QI è superiore a
100 per i bambini avvantaggiati (più precoci) e inferiore a 100 per i bambini in ritardo: tanto più si allontana
da 100, in un senso o nell'altro, tanto più i bambini sono in vantaggio o in ritardo. Un bambino di 10 anni
che manifesta le stesse abilità della media dei bambini di 12 ha un'età mentale di 12 anni e si vede
attribuire un Q1 di (12/10) Y. 100 = 120. La scala di Binet e Simon ebbe un successo immediato. In effetti,
permetteva dí diagnosticare il ritardo mentale in maniera più precisa e più obiettiva di quanto si facesse in
precedenza e si mostrò predittiva della riuscita scolastica. Venne tradotta e adattata negli Stati Uniti nel
1909. Il più famoso di questi adattamenti è quello fatto da Terman all'Università di Stanford nel 1916. Da
allora, la «Stanford-Binet» è stata più volte rivista ed è tuttora utilizzata negli Stati Uniti. In Francia, invece,
fu solo nel 1966 che la scala metrica di Binet e Simon venne revisionata sotto la direzione di René Zazzo per
diventare la «nuova scala metrica dell'intelligenza». Il primo aspetto di novità che ha permesso a Binet di
far uscire il problema dell'intelligenza dall'Impasse in cui si trovava alla fine del XIX secolo è stato di aver
capito che la valutazione doveva riguardare processi mentali complessi. Questa prima idea, tuttavia, non
era ancora sufficiente, poiché a quell'epoca si era in grado di valutare solamente i processi sensoriali
elementari. Un ulteriore apporto originale di Binet è stato di aver compreso che la possibilità di ordinare gli
item in funzione dell'età in cui questi ultimi vengano superati poteva costituire un primo livello di misura
della loro complessità cognitiva. Da questa possibilità di ordinare gli item discendeva la possibilità di
ordinare allo stesso modo anche i soggetti, compresi quelli della stessa età cronologica, in funzione del loro

3
lOMoARcPSD|7819776

livello di riuscita al test. Spesso, nella ricerca, non basta avere delle idee nuove, ma bisogna anche saper
abbandonare le vecchie che non funzionano. Si può notare che, da quando Binet si avviò sulla strada della
scala metrica dell'intelligenza, egli abbandonò quella della misura del cranio che non aveva prodotto nulla
di interessante fino a quel momento e che neanche in seguito si rivelò produttiva.

3 La soluzione di Sperman: L’analisi Fattoriale


Per confrontare i soggetti Binet si è riferito all'approccio evolutivo e alla nozione di età mentale. Un'altra
soluzione, scoperta pressappoco nello stesso momento da Spearman, consiste nel riferirsi ad un'analisi
matematica, l'analisi fattoriale, per definire le dimensioni intellettive sulle quali gli individui possono essere
confrontati.

3.1 I principi generali dell’analisi fattoriale


Esempio di analisi fattoriale con un analogia: Le qualità atletiche possono essere valutate in tutti i tipi di
prove sportive, ad esempio il lancio del disco, il salto in alto, il lancio del peso, ecc... Si può supporre che
alcune di queste prove, benché diverse tra loro, facciano intervenire un fattore comune di performance. Le
tre prove del lancio hanno probabilmente in comune il fatto di fare appello alla forza e all'elasticità delle
braccia, mentre le tre prove di salto hanno probabilmente in comune il riferimento alla forza e all'elasticità
delle gambe. La forza e l'elasticità delle gambe intervengono sicuramente anche nel lancio, con un peso
meno rilevante intervengono anche nel salto. Ci si può così rappresentare la performance nel lancio come
la risultante di un insieme di fattori, di cui alcuni hanno un peso importante (elasticità delle braccia) e altri
un peso meno rilevante (estensione delle gambe). Poiché alcune prove hanno in comune di mettere in
gioco e con un certo peso un dato fattore di efficienza, esse tendono ad essere superate tutte insieme: se
l'elasticità delle gambe ha un peso rilevante nel salto in alto e nel salto in lungo, un soggetto che riesce
bene in una di queste due prove ha senza dubbio Una buona estensione delle gambe e riuscirà dunque
bene anche nell'altra. Invece, non ci si aspetta una correlazione altrettanto forte tra le prestazioni nel salto
in alto e nel lancio del giavellotto nella misura in cui ciascuna fa riferimento ad un fattore di riuscita che gli è
specifico: elasticità delle gambe per la prima ed elasticità delle braccia per la seconda. Tuttavia, è possibile
che, all'origine di una correlazione alquanto moderata tra prove di lancio e prove di salto, vi sia malgrado
tutto una dipendenza tra questi due fattori di efficienza. Le condizioni generali della muscolatura, la
motivazione per le attività sportive, l'allenamento possono in effetti concorrere ad un fattore generale di
performance implicato in tutte queste attività, che si tratti di corsa, di salto o di lancio. Metodi di analisi
fattoriale esplorativa sono utili nel momento in cui, contrariamente al modo in cui si è proceduto nelle
prove di atletica, non si hanno idee a priori sui fattori in gioco nel successo ad un insieme di prove. In
questo caso, il processo va esattamente nella direzione inversa a quella seguita in precedenza: si parte dalle
relazioni empiriche tra le prove per inferire l'esistenza di eventuali fattori comuni.

Il metodo dell'analisi fattoriale consiste nel calcolare prima le correlazioni tra tutte le prove prese due a
due, poi di verificare se esistono gruppi di prove che correlano tra loro più che con le altre. Si suppone
allora che ci sia un fattore di variazione comune a questo gruppo di prove, ma la parola fattore assume qui
un significato diverso da quello attribuitogli prima. Si tratta di un fattore comune nel senso matematico del
termine (Mettere un'espressione a fattore) e l'analisi fattoriale è il metodo matematico che permette di
estrarre questi fattori di variazione comuni. I fattori sono dunque in questo caso delle entità matematiche,
astratte e teoriche. Nella rappresentazione geometrica dei risultati dell'analisi fattoriale di una serie di
correlazioni, questi fattori comuni di variazione sono rappresentati sugli assi cartesiani. Più una prova è
vicina ad un asse, più ha contribuito con forza alla determinazione di questo fattore, e più questo ha un
peso rilevante nei punteggi ottenuti in questa prova. In questo caso si dice che la prova è fortemente
«saturata» dal fattore. La saturazione di una prova da parte di un fattore è valutata sulla base della sua
correlazione con quel fattore, che varia da –1 a +1 e si interpreta come il peso che ha il fattore nella
variazione dei punteggi a questa variabile.
Si può cercare di interpretare un fattore comune a più prove individuando in che cosa queste prove si
assomigliano e in che cosa differiscono dalle prove saturate da un altro fattore. Ritornando alle prove di
atletica.
lOMoARcPSD|7819776

ESEMPIO PARTE 2
Ammettiamo stavolta che non avendo alcuna ipotesi in partenza sui fattori di variazione della performance
in queste prove, noi abbiamo fatto un'analisi fattoriale delle loro intercorrelazioni. Se troviamo che le tre
prove di salto sono fortemente saturate da un primo fattore, chiamiamolo F1, e le tre prove di lancio
fortemente saturate da un secondo fattore, chiamiamolo F2, allora potremmo interpretare che Fl e F2 sono
delle fonti di variazione latenti, in funzione delle ipotesi che questo raggruppamento di prove ci suggerisce:
forse l'elasticità delle gambe per Fl e l'elasticità delle braccia per F2.
Era questa la situazione in cui si trovavano i primi psicologi che applicarono l'analisi fattoriale ad un insieme
di test. Ignorando la natura dei differenti fattori in grado di spiegare le variazioni nelle performance ai test
di intelligenza, essi hanno preso come punto di partenza le correlazioni tra i test e ne hanno fatto un'analisi
fattoriale. Nel momento in cui sono stati individuati uno o più fattori comuni a più test, l'esame del
contenuto dei diversi test saturati dallo stesso fattore ha portato ad una sua interpretazione (e qualche
volta a più di una).

3.2 Spearman e il fattore generale dell’intelligenza


Il primo metodo di analisi fattoriale è stato inventato da Charles Spearman, psicologo inglese, per analizzare
specificamente la tavola delle correlazioni ottenute da un campione di soggetti in diverse prove, voti
scolastici, piccoli test, stime dell'intelligenza fatte dagli insegnanti, ecc. Con il suo metodo di calcolo egli
mostrava che si poteva separare la varianza di questi punteggi in due parti: un fattore di variazione
generale, comune a tutti questi punteggi, e un fattore di variazione specifico per ciascuno di essi. In un
articolo pubblicato nel 1904 e intitolato General intelligence objectively determined and íneasured, egli
interpretava questo fattore comune a tutti i compiti della sua batteria di prove come un fattore generale di
intelligenza, il famoso “fattore g”, e presentava il suo metodo come il mezzo per misurarlo. Si noterà poi
che questa prima forma di analisi fattoriale conduceva anche a una concezione globale di intelligenza.
Spearman non ha proposto teorie elaborate di cosa rappresentasse il fattore g, ma ha dapprima ritenuto
che corrispondesse all'energia mentale, senza che questa nozione superasse lo status di metafora. Egli ha
suggerito poi nel 1927 che i compiti maggiormente saturati nel fattore g erano i compiti di «estrazione di
relazioni» (noi diremmo oggi di inferenza) e di «estrazione di correlati» (noi diremmo oggi di
generalizzazione). L'estrazione di relazioni consiste, dati n elementi, nel trovare la relazione che li lega; ad
esempio, dati gli elementi «birra» e «vino», nel trovare che la relazione che li lega è essere delle bevande
alcoliche. L'estrazione di correlati consiste, dati un elemento e una relazione, ad esempio «birra» e
«bevanda alcolica», nel trovare un altro elemento legato al primo da questa relazione. Questa concezione
di ciò che è comune alle attività intellettive non era particolarmente elaborata, ma era senza dubbio
operazionale. E con queste ispirazioni che Raven mise a punto la prova delle matrici progressive (Capitolo
2). Nelle analisi fattoriali si osserva infatti che il test delle matrici progressive è uno di quelli che sono
saturati con maggior forza dal fattore g (fattore comune all'insieme dei test).

3.3. Thurstone e le abilità primarie


Questo modello unidimensionale è stato messo in discussione verso la fine degli anni Trenta da Thurstone,
psicologo americano.
Analizzando le intercorrelazioni di un ampio gruppo di test con il metodo dell'analisi fattoriale, egli non
trovò un fattore generale, ma numerosi fattori che corrispondevano secondo lui a delle abilità indipendenti
che chiamò «abilità primarie».
Il numero di queste abilità primarie variava un po' a seconda dei test che componevano la batteria, ma le
più frequenti erano le sette seguenti: comprensione verbale (V), fluidità verbale (W), abilità numerica (N),
inferenza (I), abilità spaziale (S), velocità percettiva (P) e memoria (M)
Sulla base di queste considerazioni si è avviata una polemica tra Spearman e Thurstone sulla struttura
dell'intelligenza: è unidimensionale, come suggeriva il fattore generale individuato da Spearman, o
Multidirnensionale, come suggerivano i molteplici fattori individuati da Thurstone?
Come è emerso successivamente, le differenze di risultato riguardavano, da un lato, il fatto che questi due
autori utilizzassero delle tecniche di analisi fattoriale differenti, e dall'altro, che queste analisi fossero

5
lOMoARcPSD|7819776

condotte su dei campioni di prove e di soggetti abbastanza diversi. È stato mostrato che questi due metodi
erano parziali e potevano essere integrati in un modello fattoriale gerarchico più generale. In breve, nel
momento in cui si fa l'analisi fattoriale di una batteria di test con un metodo simile a quello di Thurstone, si
ritrovano i fattori primari che egli ha messo in evidenza, ovvero fattori comuni soltanto a piccoli gruppi di
test. Tuttavia, questi fattori sono correlati tra loro in modo tale che se se ne fa un'analisi fattoriale si
ottengono fattori di second’ordine, più generali, che rendono conto della varianza comune ai fattori
primari.
Horn e Cattell nel1966 hanno così distinto cinque fattori generali di secondo ordine:
▪ Un fattore generale di intelligenza cristallizzato (gc),
▪ Un fattore generale di intelligenza fluida (gf)
▪ Un fattore generale di intelligenza visuo-spaziale (gv),
▪ Un fattore generale di creatività
▪ Un fattore generale di velocità di reazione.
L'intelligenza cristallizzata è quella che si fonda sull'organizzazione delle conoscenze in memoria.
L'intelligenza fluida è in gioco nelle situazioni che richiedono poche conoscenze a priori e in cui è l'efficienza
dei meccanismi di ragionamento ad essere valutata.
L'intelligenza visuospaziale è in gioco nell'elaborazione di informazioni di natura visuo-spaziale.
L'intelligenza creativa è in gioco in situazioni in cui devono essere scoperte soluzioni nuove e originali.
Ma questi fattori secondari sono anche correlati tra loro in modo che, se si applica su essi un'analisi
fattoriale di secondo ordine, si può trovare un fattore generale, di «terzo ordine», comune all'insieme dei
test che compongono la batteria. In altre parole, Spearman e Thurstone avevano entrambi ragione ed
entrambi torto.
Questi cenni storici danno un'idea delle soluzioni che sono state proposte per valutare l'intelligenza. Si sono
cercati metodi diversi per confrontare gli individui con compiti che mettano in gioco i differenti aspetti
dell'intelligenza. I compiti cognitivi non sono comunque per questo tutti dei test di intelligenza. Rimane
perciò da vedere in modo più preciso ciò che distingue un test da altre situazioni di valutazione.

CAPITOLO 2
Che cos’è un test?
Un test è un dispositivo d'osservazione degli individui che presenta quattro proprietà:
▪ E’ standardizzato
▪ Permette di collocare la prestazione di ogni soggetto in un gruppo di riferimento;
▪ Presenta un determinato grado di accuratezza della misura (fedeltà);
▪ Viene precisato il significato teorico o pratico della sua misura (validità).

Per esaminare queste proprietà possiamo prendere come esempio un test di ragionamento induttivo, il
test delle Matrici Progressive – livello superiore (Advanced Progressive Matrices, APM) – messo a punto
dallo psicologo inglese Raven.

1. Un test di ragionamento induttivo


Il test di Raven è rivolto ad adolescenti o adulti con un buon livello intellettivo (Raven ha anche proposto
dei test costruiti con gli stessi principi rivolti ai bambini). Elaborato nel 1943 per essere utilizzato nelle
procedure di selezione degli ufficiali dell'esercito britannico, è stato rivisto una prima volta nel 1947, in
previsione di un impiego più diversificato, principalmente nell'ambito dell'orientamento e del
reclutamento, poi una seconda volta nel 1962.
Questo test è costituito da una serie di figure incomplete che il soggetto deve completare scegliendo la
soluzione più appropriata tra le numerose che gli vengono proposte. Il test è rappresentativo di una
categoria di prove dette “carta e matita”, poiché non c'è bisogno d'altro che del quaderno degli item e di
una matita per indicare la risposta, o anche test “collettivi” perché le loro caratteristiche consentono una
somministrazione collettiva.
lOMoARcPSD|7819776

Il test è costituito da due serie di problemi. La prima serie si compone di 12 item per la maggior parte
piuttosto facili. Sono proposti con lo scopo di esercitare il soggetto e consentirgli di familiarizzare con il
compito e quindi mettere a punto una modalità generale di risoluzione. La seconda serie, nella versione del
1962, prevede 36 item di cui molti sono piuttosto difficili (la versione del 1947 proponeva 12 item
supplementari). Il punteggio del soggetto è in genere calcolato accordando un punto per ogni item
superato. Istruzioni molto precise indicano al soggetto che cosa deve fare e che cosa ci si aspetta da lui. Il
test è presentato come un compito di osservazione e di ragionamento. Si mostra al soggetto dapprima
l'item numero 1 della prima serie e gli si spiega che ciascuna delle piccole figure nella parte bassa della
pagina potrebbe riempire lo spazio vuoto nella figura grande, ma che solo una completa correttamente il
disegno. Il soggetto deve scoprire questa figura e riportare il suo numero su un foglio di risposta a parte,
distinto dal quaderno degli item. Dopo aver verificato che ognuno ha individuato la risposta esatta e l'ha
segnata correttamente, si chiede ai soggetti di risolvere l’item successivo. Allo scadere di una ventina di
secondi, si controlla nuovamente la risposta. I soggetti hanno a disposizione circa cinque minuti per
risolvere gli item successivi. Si chiarisce loro che i problemi diventano presto difficili, che bisogna sempre
utilizzare lo stesso metodo per risolverli, che si tratta di una serie di esempio e che la cosa essenziale non è
risolvere tutti i problemi ma imparare il metodo da utilizzare, metodo che le istruzioni non esplicitano.
Bisogna infatti trovare delle regolarità o delle regole di trasformazione in riga e in colonna.
Si passa poi alla seconda serie di item.
Le istruzioni precisano che si tratta del test vero e proprio, che i problemi da risolvere sono simili a quelli
della prima serie, che la loro difficoltà cresce più lentamente, e che è preferibile affrontarli nell'ordine con
cui vengono proposti. Se la prova è applicata con un limite di tempo, il soggetto ha a disposizione quaranta
minuti. Il punteggio del soggetto al test (punteggio grezzo) dato dal numero di problemi superati.

2. Le proprietà formali di un test


2.1 La standardizzazione
I test sono delle procedure di osservazione standardizzate. La standardizzazione riguarda la situazione di
osservazione, le consegne e la valutazione del risultato. Nel test di Raven, i problemi proposti sono
assolutamente identici per tutti i soggetti poiché sono stampati sui quaderni.
Quando il test richiede la manipolazione del materiale, questa viene sempre descritta con grande
precisione. Nel manuale le istruzioni sono scrupolosamente redatte e a colui che applica il test è
strettamente richiesto di non discostarsene. Infine, il modo di calcolare il punteggio grezzo di ogni soggetto
è sempre perfettamente esplicitato. Nei test collettivi, concepiti appunto per poter essere somministrati
contemporaneamente ad un gruppo di soggetti, il calcolo è generalmente semplice e consiste nel sommare
le risposte corrette. Per altre tipologie di test, la correzione è più complessa, ma si dispone sempre di
indicazioni molto precise. Prendiamo ad esempio í test di vocabolario in cui il soggetto deve produrre la
definizione di una parola. Nel manuale del test si trova la descrizione, accompagnata da esempi, dei diversi
livelli di risposta che possono essere prodotti dai soggetti, con indicazione del numero di punti da attribuire
in ogni caso. Questa standardizzazione ha un'unica funzione: rendere oggettiva la valutazione, cioè evitare
che la misurazione delle differenze tra gli individui sia influenzata dalla soggettività dell'osservatore, o, in
altri termini, permettere che ci sia un accordo sulla valutazione delle performance tra osservatori diversi.
E’ risaputo che questo non succede con procedure di osservazione libere quando la situazione in cui si trova
il soggetto, le indicazioni che gli vengono date e le modalità di valutazione delle risposte sono mal definite.
Le differenze che vengono così individuate tra i soggetti possono essere dovute tanto alla variabilità di
questi parametri, da un osservatore all'altro, quanto alle effettive performance dei soggetti. La procedura di
osservazione standardizzata si distingue così nettamente dalla valutazione scolastica.
Poiché nella situazione scolastica lo stesso compito viene dato a tutta la classe nelle stesse condizioni, può
ritenere che la situazione e le consegne siano standardizzate. Ma la correzione generalmente non lo è (uno
sforzo comunque viene compiuto in questo senso con l'introduzione di una scala di punteggio di
riferimento). Le differenze tra studenti sono quindi ambigue. I lavori di docimologia hanno regolarmente
mostrato da più di sessant'anni che queste differenze sono attribuibili in parte a variabili che ancora oggi si
sottostimano, quali la severità dei correttori, l'utilizzo vario che si fa delle scale di valutazione (es alcuni

7
lOMoARcPSD|7819776

danno voti compresi tra 2 e 10, mentre altri tra 4 e 8), o ancora al fatto che non c'è unanimità nel definire
l'importanza degli obiettivi educativi e la loro gerarchia.
Se la standardizzazione consente una valutazione oggettiva, bisogna tuttavia notare che conduce spesso ad
un impoverimento del campo di osservazione: è facile da applicare alla valutazione delle prestazioni ma
non è sempre un indice di pertinenza odi validità. La standardizzazione della situazione e delle consegne
non riduce necessariamente il repertorio comportamentale dei soggetti. Se la situazione è debolmente
strutturata e la condotta poco finalizzata, i soggetti sono spinti a produrre risposte diversificate. Succede
questo anche nei test detti di creatività in cui si richiede di immaginare tutti i possibili utilizzi di un oggetto
come un mattone o una scatola. Ma, molto spesso, la standardizzazione è tale da consentire al soggetto di
manifestare solo un numero limitato di comportamenti (risposte), e precisamente quelli che la valutazione
prende in considerazione.

Ritornando al test di Raven, le indicazioni richiedono essenzialmente di osservare la scelta di una delle Otto
figure proposte. In effetti, sono possibili altre osservazioni: tra i fallimenti si possono distinguere gli errori
dalle omissioni, ci si può domandare come si collocano i fallimenti sulla base del grado di difficoltà degli
item, interrogarsi sulla natura degli errori, ecc. Ma ciò non toglie che la situazione è poco favorevole alla
comparsa di comportamenti. Differenziati. In teoria, ogni fenomeno psichico che si manifesta attraverso un
comportamento può essere l'oggetto di un'osservazione standardizzata. Questa osservazione può essere
provocata e assumere delle forme complesse. Si sono così messe a punto delle procedure standardizzate di
indagine che consentono eventualmente di far emergere certi comportamenti che testimoniano l'esistenza
di strutture mentali o di particolari modalità di trattamento dell'informazione. Si trovano esempi di tale
procedura in alcuni test costruiti partendo dalla teoria di Piaget. Ma è particolarmente difficile osservare
oggettivamente processi di pensiero che si caratterizzino per il loro aspetto qualitativo e la dimensione
temporale piuttosto che per la semplice efficienza. Per questo, nella maggior parte dei test attualmente in
uso, ci si limita a valutare la qualità della prestazione del soggetto contando il numero di risposte corrette o
misurando il tempo necessario all'esecuzione di un compito. L'oggettività così ottenuta è una qualità
necessaria alla standardizzazione. In sua assenza non si sa più a sufficienza che cosa, nel comportamento
del soggetto, è attribuibile al soggetto stesso o alle caratteristiche di colui che osserva, e di conseguenza le
osservazioni raccolte sono poco utilizzabili per fini di ricerca o per fini pratici. Ma l'oggettività non è una
qualità sufficiente. Occorre essere certi che l'osservazione riguardi aspetti centrali del comportamento.
Occorre anche accertarsi che l'accordo tra gli osservatori non sia il risultato di un errore sistematico di
osservazione che non condurrebbe ad altro che a conclusioni ambigue o anche scorrette.

2.2 Livello di difficoltà degli item e unidimensionalità della sana


Il test deve consentire di differenziare gli individui, sia separandoli in classi differenti non ordinate, sia
quello che più spesso accade, collocandoli gli uni in relazione agli altri su un continuum (una dimensione).
Noi ci interesseremo al caso in cui ci si propone di collocarli su un continuum. Al fine di differenziare
sensibilmente gli individui, è opportuno avere a disposizione item di livelli diversi di difficoltà. L'item è tanto
più difficile, per i soggetti di un gruppo, quanto più la sua probabilità di essere superato in questo gruppo è
debole. Gli item che sono troppo facili (superati da quasi tutti) o troppo difficili (quasi tutti falliscono) non
contribuiscono alla differenziazione degli individui.

Ecco alcuni dati sul livello di difficoltà degli item del test di Raven: sono stati raccolti su un campione di più
di un migliaio di adolescenti tedeschi di 15 anni, scolarizzati. Nella serie I, la percentuale di successo agli
item varia dal 93% (Item 1) al 42% (item n. 11). L'item n. 10 (fig. 3) è stato superato 1111'82% dei soggetti.
Nella serie II queste percentuali variano dall'85 % (item n. 1) al 4% (item n. 36). Litem n. 19 (fig. 4) è stato
superato dal 60% dei soggetti. Per ogni serie, l'ordine di presentazione degli item è molto vicino al loro
ordine di difficoltà. 11 punteggio grezzo dei soggetti al test deve consentire di collocarli su una dimensione.
Nel caso del tesi delle matrici progressive, questa dimensione può essere chiamata “efficienza nel
ragionamento induttivo” o “capacità di ragionare induttivamente”. L'esistenza di questa dimensione deve
essere definita e univoca. Non avrebbe alcun senso sommare gli item superati se ciascun item non
valutasse in misura diversa la capacità di ragionare in modo induttivo. L'esistenza di una dimensione è
lOMoARcPSD|7819776

fondata a sua volta su considerazioni teoriche e su criteri formali. Da un punto di vista teorico è sensato
ritenere che tutti gli item del test di Raven mettono in gioco il ragionamento induttivo O, più esattamente,
una certa forma di ragionamento induttivo. Da un punto di vista formale, ci si deve assicurare che il
successo in un item sia strettamente associato al punteggio globale al quale deve contribuire. Se ciò
succede per tutti gli item, si concluderà che la scala è unidimensionale. Si possono utilizzare diversi metodi
per verificare questo unidimensionalità. Ne prendiamo in considerazione due: il calcolo dei coefficienti di
correlazione item-test e la generazione di curve caratteristiche degli item.

2.3 La correlazione item-test


Una volta che il test è stato applicato, ogni soggetto è caratterizzato da un punteggio per ogni item (1 o 0) e
da un punteggio totale (al massimo 12 punti per la serie I e 36 per la serie II). Se un item richiede la stessa
abilità dell'insieme degli altri item, il punteggio a quell'item dovrà essere in correlazione con quello del test.
In altre parole, il successo dell’item dovrà essere più frequente per quelli che hanno punteggi elevati al test.
Il grafico di correlazione per un item della serie I è presentato nella tabella 1 pag 31 (correlazioni item-test
calcolate sul campione di adolescenti tedeschi) Per la serie I, i coefficienti di correlazione item-test variano
da 0,41 a 0,60. Per la serie II variano da 0,11 a 0,61. Si può notare che tutti i coefficienti di correlazione
item-test sono positivi e che quelli deboli sono poco numerosi (su 36 coefficienti della serie 7 sono inferiori
a 0,30). Per l'item n. 10 della serie I (fig. 3), la correlazione item-test è 0,51 e per l'item n. 19 della serie II
(fig. 4) è di 0,43. Le distribuzioni di frequenza dei punteggi agli item forniscono nello stesso tempo
informazioni sul grado di difficoltà degli item e sulla loro relazione con il punteggio della scala. Per costruire
queste curve si riporta il punteggio della scala in ascissa e, in ordinata, per ogni valore della scala, la
percentuale di soggetti che hanno superato l'item. Nella figura 5 si possono vedere le curve corrispondenti
ai 12 item della serie. L'intero numero 10, ad esempio (rappresentato dalla curva numero 1.0), è stato
superato da circa il 30% dei soggetti che hanno avuto al test un punteggio globale di 6 e da circa il 75% di
coloro che hanno avuto un punteggio globale di 8. Le curve più soddisfacenti sono quelle per cui si può
osservare una progressione regolare passando da punteggi della scala bassi a punteggi via via più alti. Esse
mostrano che l'item contribuisce alla differenziazione dei soggetti e che l'abilità valutata dall'item è
prossima a quella valutata dall'intero test. Al momento della costruzione del test e della sua revisione del
1962, gli item sono stati selezionati sulla base delle distribuzioni di frequenza dei punteggi.
Ci sono altri modi per valutare l'uni-dimensionalità della scala: ad esempio, verificare che tutte le
intercorrelazioni tra gli item siano forti o verificare che il superamento di un item di un certo livello di
difficoltà implichi il superamento degli item di difficoltà inferiore.

3.1 Scale di punteggio


Il punteggio grezzo al test dà un'indicazione della prestazione del soggetto, ma non consente di confrontare
questa prestazione con quella dei soggetti di un gruppo di riferimento. Per questo scopo, i punteggi grezzi
sono trasformati in scale di punteggio. Le scale di punteggio sono dei sistemi di categorie ordinate in cui è
possibile distribuire tutti í soggetti di un gruppo di riferimento. Si distinguono due grandi categorie di scale
di punteggio a seconda che si basino su categorie ordinate di punteggi grezzi (quantili) o corrispondano alla
suddivisione secondo certe regole cli una distribuzione gaussiana o normale (distribuzione normalizzata).
I quantili sono i limiti tra due categorie. Si chiamano quartili se la distribuzione dei punteggi è suddivisa in
quattro categorie, decili se le categorie sono dieci e centili se ci sono 100 categorie. Succede spesso che,
essendo il vocabolario in quest'ambito piuttosto flessibile, con il termine quantile ci si riferisca alle
categorie stesse. Dire quindi che un soggetto è nel terzo decile significa che quel soggetto si colloca in un
gruppo a cui appartiene il 10% dei soggetti e tale che il 20% ha punteggi superiori ad esso e il 70% punteggi
inferiori.
La costruzione di questa scala è molto semplice: basta raggruppare i punteggi grezzi in modo tale da
ottenere categorie numericamente omogenee. Si può anche stabilire un centile calcolando direttamente la
percentuale di soggetti che hanno ottenuto un certo punteggio grezzo o dei punteggi inferiori.

9
lOMoARcPSD|7819776

3.2. Le distribuzioni normalizzate


I livelli delle categorie di una scala normalizzata vengono definiti a partire dalle proprietà della distribuzione
teorica di Gauss, detta anche distribuzione normale. La curva che rappresenta questa distribuzione è
simmetrica e a campana. Essa indica come si distribuiscono le categorie (riportate in ordinata) in funzione
di una variabile (riportata in ascissa). Conoscendo la media e la deviazione standard di una distribuzione
gaussiana, si può calcolare la proporzione della popolazione che si colloca al di qua o al di là di un dato
valore della variabile considerata, o tra due valori della variabile (il risultato di questi calcoli si può trovare
in alcune tavole). Se si esprime il valore di una variabile in deviazioni standard dalla media, si sa che il 6,7%
della popolazione si situa al di là di 1,5 deviazioni standard dalla media, e che il 24,2% della popolazione si
situa tra 0,5 e 1,5 deviazioni standard, ecc. Si può rappresentare la distribuzione dei punteggi grezzi
osservata ad un test con una curva ottenuta collocando le categorie in ordinata e i punteggi grezzi in
ascissa. Non è detto che tale curva sia identica alla curva teorica di Gauss. Ma si possono raggruppare i
punteggi grezzi al fine di formare nuove classi la cui distribuzione sarà prossima a quella di Gauss (è il
sistema di costruzione delle distribuzioni normalizzate, detta anche «normalizzazione»). Per costruire una
distribuzione normalizzata in 5 classi, si costituirà una prima classe con il 6,7% dei soggetti più efficienti, poi
una seconda classe con il 24,2% dei soggetti che seguono, ecc. Se si rappresenta graficamente la
distribuzione di queste classi, attribuendo ad ognuna di esse uno stesso intervallo sull’asse delle ascisse, si
ottiene un istogramma che si avvicina alla curva di Gauss.

3.3. Il quoziente intellettivo


Esistono due definizioni di «quoziente intellettivo» (Q1). Questa espressione può riferirsi ad un indice di
velocità di sviluppo intellettivo (QI-Stern) o ad una misura di efficienza calcolata rispetto alla media di un
gruppo, ovvero una forma di punteggio ponderato (QI-Wechsler «di deviazione»).
La prima definizione è quella originaria ed è stata presentata nel primo capitolo con la descrizione della
scala di intelligenza messa a punto da Binet.
La seconda definizione è decisamente la più utilizzata oggi. Il QI di tipo Stern, di grande praticità, è il QI
determinato dal rapporto tra l'età mentale e l'età cronologica; questo indice ebbe molto successo ma
evidenziò presto due dei suoi limiti. Un primo limite viene dal fatto che l'indice è inadatto alla descrizione
delle differenze tra gli adulti. Certamente lo sviluppo non si arresta dopo l'adolescenza, ma, a partire
dall'adolescenza, cambia ritmo e, radicalmente, natura. Se sembra abbastanza naturale attribuire ad un
bambino di 10 anni un'età mentale di 12 sarebbe piuttosto strano attribuire ad un adulto di 45 anni un'età
mentale di 52. La nozione di età mentale e, di conseguenza, quella di QI, è adatta per il periodo di rapido
sviluppo che va dall'infanzia all'inizio dell'adolescenza. Si è tentato di caratterizzare gli adulti per un QI-
Stern (scegliendo arbitrariamente una stessa età cronologica per tutti gli adulti e facendo corrispondere,
ancora in modo arbitrario, delle età mentali alle performance), ma questi tentativi sono rimasti poco
convincenti e sono stati abbandonati. 11 secondo limite del QIStern è di altra natura. Per definizione la
media dei Q1 è la stessa a tutte le età (e uguale a 100), ma ciò non vale per la loro dispersione. A certe età è
più concentrata mentre ad altre è più distribuita, senza che questo abbia un significato particolare in
termini di sviluppo. Questo fenomeno sí spiega per il fatto che ad ogni età gli itero sono diversamente
rappresentativi dell'età stessa (un item è adeguatamente rappresentativo di un'età se il lasso di tempo che
trascorre da quando è risolto da qualcuno a quando e risolto da quasi tutti è breve). Ne consegue quindi
una certa ambiguità nel significato del QI se si confrontano soggetti di età diverse: secondo l'età, varia la
proporzione di soggetti che superano un QI dato.
Questi limiti hanno indotto numerosi autori, tra cui Wechsler verso la fine degli anni Trenta, a definire il Q1
in tutto un altro modo. QI di tipo Wechsler ha la proprietà di non essere un «quoziente». Sarebbe stato
certamente preferibile trovare un altro nome a questo indice, ma quello di QI è stato mantenuto per la
popolarità che tale sigla aveva ormai acquisito. Il QI-Wechsler è unicamente un indice di efficienza che
consente di collocare il soggetto all'interno del suo gruppo di età, senza alcun riferimento allo sviluppo. Per
stabilire questi QI si opera una trasformazione dei punteggi grezzi al fine di ottenere una nuova
distribuzione dei punteggi, che si chiamerà dei QI, e che avrà la forma della distribuzione di LaplaceGauss,
una media uguale a 100 e una deviazione standard di 15. Questa trasformazione dei punteggi grezzi è
assolutamente legittima perché non modifica l'ordine dei soggetti. I valori 100 e 15 sono convenzionali e se
lOMoARcPSD|7819776

ne possono scegliere altri (ma allora non si parla di QI)'. Conoscendo il QI di un soggetto si sa come egli si
situa nel gruppo di riferimento. Dire che un soggetto ha un 01 di 100 significa che ha tanti soggetti avanti a
lui quanti dietro, e niente altro. Dire che un soggetto ha un QI di 115 significa che ha circa il 16% dei
soggetti del suo livello di età avanti_ a lui (16% è la percentuale della popolazione che si colloca oltre un
punteggio di «media + una deviazione standard» se la distribuzione è gaussiana). Con questo tipo di QI
diventa possibile classificare anche gli adulti. Del resto, la dispersione dei QI individuali è, per costruzione,
la stessa a tutte le età. Ma questo QI non è che una forma di classificazione tra tante ed è dunque possibile,
e del resto eli solito lo si fa, esprimere in QI i risultati a qualsiasi test. Si può osservare nella tabella 4 uno
schema di corrispondenza tra i Q1 e i percentili.

4 Gli errori di misura


Gli errori di misura possono essere dovuti o al momento particolare in cui si procede alla misurazione o al
dispositivo stesso scelto per quest'ultima.

4.1 La stabilità o fedeltà


Quando si applica un test ad un gruppo di soggetti, ce n'è sempre qualcuno che non è troppo in forma (può
essere malato, avere preoccupazioni che lo distraggono, ecc.) mentre altri sono ben concentrati sul
compito. Se si fosse applicato il test in un altro momento, altri soggetti non sarebbero stati in forma e altri
sarebbero stati ben disposti per svolgere il compito. Il punteggio cli un soggetto può così variare in modo
imprevedibile nella misura in cui le cause di questa variazione non sono analizzate, in funzione del
momento dell'osservazione. La misura è quindi intaccata da un errore aleatorio relativo a questo fattore
temporale. Si dice che essa non è perfettamente fedele, o, più precisamente, che essa manca di perfetta
stabilità o di costanza. Sarebbe certamente desiderabile poter disporre di misure «senza errori». A questo
scopo, si potrebbe pensare di applicare il test un gran numero di volte allo stesso soggetto e di fare la
media dei punteggi ottenuti. Gli «errori» che avvantaggiano il soggetto sarebbero così compensati da quelli
che lo svantaggiano. Ma una tale procedura non è praticabile. Non solo sarebbe troppo costosa in termini
di tempo, ma i soggetti dopo le prime prove apprenderebbero, più o meno rapidamente, a risolvere i
problemi del test, e per molti questi problemi perderebbero presto interesse. Dunque i fenomeni di
apprendimento e di demotivazione possono essere considerati come errori eli misura.
Il test è quindi applicato una sola volta. Ma l'esaminatore dispone di informazioni sulla sua stabilità che gli
permettono di accorciare una fiducia più o meno grande alla misura ottenuta. Per valutare la stabilità di un
test, lo si applica in due riprese ad uno stesso gruppo di soggetti e si calcola un coefficiente cli correlazione
tra le due serie di punteggi. Tale coefficiente è detto di fedeltà o di stabilità. Se è elevato, ovvero se gli
individui si collocano approssimativamente ad uno stesso livello nella prima come nella seconda
somministrazione, la misura verrà considerata stabile, minimamente influenzata dal momento di
osservazione. In caso contrario, se il coefficiente di correlazione è debole, la misura è poco stabile e non ci
consente di classificare il soggetto in modo affidabile.

4.2. L'equivalenza e l'omogeneità


Gli errori di misura possono anche avere origine dalla scelta delle situazioni proposte ai soggetti. Questa
scelta si orienta dapprima verso una data categoria cli situazioni, poi verso situazioni più specifiche. Per
valutare l'abilità di ragionamento induttivo, Raven ha scelto innanzitutto dei problemi con matrici da
completare e poi ha dato loro una forma particolare. Questi due tipi di scelta non hanno lo stesso valore. La
scelta di una categoria di situazioni è in relazione con il grado di «generalità» della dimensione lungo la
quale si ordinano i soggetti. Esiste una dimensione generale di ragionamento induttivo, ovvero una capacità
che opererebbe non soltanto nei test di matrici, ma anche, ad esempio, nella ricerca di leggi di
trasformazione in serie di lettere o di cifre, o su contenuti significativi? O, al contrario, bisogna distinguere
dimensioni diverse, ad esempio, una che riguarda l'abilità di ragionamento induttivo con problemi di
matrici, e l'altra che riguarda la capacità di ragionamento induttivo su serie di cifre? Riprenderemo questi
quesiti nella discussione sulla validità teorica. Una volta scelta una categoria di situazioni, rimane da dare
un contenuto ad ogni problema. La lista dei contenuti possibili è quasi infinita e la scelta di certuni invece di
altri è sempre molto arbitraria. Problemi differenti da quelli scelti da Raven sarebbero apparentemente

11
lOMoARcPSD|7819776

andati bene, anche se non è del tutto certo. Ci si deve quindi domandare in che misura il punteggio di un
soggetto non è influenzato dal carattere specifico delle situazioni problema propostegli. Per valutare il peso
di questi errori rispetto alla situazione, si possono costruire delle forme parallele dello stesso test, ovvero
diversi test destinati a valutare la stessa abilità e relativi allo stesso tipo di situazioni, ma realizzati in modo
diverso. Se si intende, ad esempio, valutare l'estensione del vocabolario in situazioni di produzione di
definizioni, si possono costituire diverse liste di parole da definire, simili per alcuni aspetti (la frequenza
d'uso, il carattere più o meno astratto, ecc.) ma diverse per altri. Il coefficiente di correlazione tra due
forme parallele, o coefficiente di equivalenza, ci indicherà in che misura le osservazioni sono fedeli rispetto
alla scelta delle situazioni. Un coefficiente elevato indica che i soggetti si classificano allo stesso modo ín
ogni prova, e quindi che gli errori riferibili alla scelta della situazione sono trascurabili. Un coefficiente
debole indicherà che la classificazione dei soggetti varia al variare del contenuto delle situazioni. Poiché
questa variazione non è né prevedibile né spiegabile, il significato delle due prove è quindi ambiguo.
Quando si ha un test formato da una serie sufficientemente lunga di item, le forme parallele possono
essere ottenute separando gli iterm pari da quelli dispari. Il coefficiente di correlazione tra queste due metà
del test, chiamato coefficiente di omogeneità, ha lo stesso significato del coefficiente di equivalenza. Si può
osservare che il coefficiente di omogeneità caratterizza soltanto una metà del test e sottostima la fedeltà
del test intero; inoltre prende in considerazione soltanto gli errori dovuti alla situazione mentre il
coefficiente di equivalenza tiene conto anche degli errori dovuti al momento dell'osservazione, dato che
non è possibile superare due test contemporaneamente. Coefficienti di equivalenza e di omogeneità dei
test di intelligenza sono generalmente elevati. Ad esempio, calcolati su gruppi di studenti di diversi paesi, i
coefficienti della serie H delle Matrici Progressive Raven si collocano tra 0,71 e 0,83. Gli errori di misura
possono anche derivare dalla soggettività degli osservatori. Abbiamo avuto modo di vedere all'inizio di
questo capitolo che la funzione della standardizzazione era precisamente di ridurre gli effetti di questa
soggettività. Nei test quindi il peso delle fonti d'errore relative all'osservatore diventa molto debole

5. La validità
Qual è l'interesse pratico di un test e qual è il significato delle misure che esso consente di ottenere?
Ponendosi queste domande ci si interroga sulla validità empirica e sulla validità teorica della prova.

5.1. La validità empirica


A fini pratici, i test sono utilizzati come strumenti diagnostici o prognostici e sono validi se contribuiscono
effettivamente a diagnosi che si riveleranno esatte o a buoni pronostici. In quanto strumenti di diagnosi,
essi possono favorire, ad esempio, una migliore comprensione dell'origine di certe difficoltà scolastiche o di
certi disturbi del comportamento, e quindi dei rimedi più adeguati. Si dirà ad esempio che un test di tipo
spaziale è valido se, essendo in correlazione con delle difficoltà di apprendimento in matematica, esso
permette di precisare l'origine di sottotipi di difficoltà, o 'ancora che un test di memoria è valido se
consente di distinguere pazienti che soffrono di turbe della memoria di origine differente. Questa validità
diagnostica si manifesta nel corso della pratica clinica e non è formalizzata, ma intrattiene comunque
legami stretti con la validità teorica. In effetti, l'osservazione realizzata per mezzo di test ha più possibilità di
essere utile se prende posto in un modello validato di funzionamento psicologico del soggetto. In quanto
strumenti di prognosi, i test forniscono informazioni utili per promuovere azioni di prevenzione, di
orientamento e eli formazione. La validità predittiva è ben formalizzata e può essere espressa sotto forma
di coefficienti. Per giudicare la validità predittiva di un test ' è necessario uno studio preliminare. Il test
viene applicato ad un gruppo di soggetti e, qualche mese o qualche anno più tardi, si va ad Osservare la
posizione (lei soggetti rispetto alla variabile considerata a scopo prognostico (questa variabile si chiama
criterio; può trattarsi, ad esempio, del successo nell'istruzione o dell'adattamento ad una professione). Si
predispongono quindi per gli stessi soggetti due serie (li osservazioni di cui si misura il grado di associazione
con il calcolo del coefficiente di correlazione che è il coefficiente di validità predittiva del test per il criterio
considerato (e per i soggetti esaminati). Un coefficiente elevato indica che era possibile una buona
previsione. Si potrà allora utilizzare questa informazione per fare dei pronostici veritieri. Si prediranno dei
punteggi elevati al criterio per coloro che hanno ottenuto punteggi elevati al test (predittore). Procedendo
così, si ammette che i fattori che hanno spiegato la riuscita al criterio nel passato continueranno a spiegarla
lOMoARcPSD|7819776

nel futuro, il che suppone una stabilità abbastanza buona dell'ambiente o, nel caso in cui questa non sia
assicurata, una revisione frequente della validità. Se il coefficiente di correlazione tra il test e il criterio è
debole, si potranno fare solamente pronostici imprecisi, nel qual caso è più opportuno astenersi
completamente dal fare previsioni sui soggetti. L'esame del diagramma di correlazione permette di
precisare i valori pronosticati dal criterio e l'importanza dell'errore di pronostico. Per un dato valore del
predittore si prevede, per i soggetti che hanno ottenuto tale valore, la media dei punteggi al criterio. Lo
scarto medio tra questo punteggio medio e i punteggi effettivamente osservati è una misura della
precisione del pronostico.

5.2 La validità teorica


Un test ha una validità teorica tanto più soddisfacente quanto più si conosce ciò che il test sta misurando,
ovvero tanto più le osservazioni realizzate con quel test possono essere interpretate in modo coerente e
senza venire smentite da dati sperimentali o d'osservazione. La validità teorica dei test di intelligenza può
essere definita in una prospettiva strutturale e in una prospettiva funzionale. Nella prima, ci si domanderà
come si situa il test rispetto alle teorie dell'organizzazione delle capacità cognitive, ossia in relazione alle
grandi dimensioni dell'efficienza cognitiva che permettono di differenziare gli individui. Nella seconda, ci si
domanderà come si colloca il test in rapporto ai parametri dei modelli di funzionamento cognitivo, o, in altri
termini, ci si interrogherà sulle parentele tra le operazioni mentali sollecitate dagli item del test e quelle
descritte dai modelli di funzionamento del soggetto.

CAPITOLO 3 LE GRANDI CATEGORIE DEI TEST DI INTELLIGENZA


Esistono numerosi test di intelligenza, ma più che elencarli è più interessante capire cosa li distingue. A
partire dalle loro condizioni di somministrazione, si possono distinguere test collettivi e test a
somministrazione individuale. Nei test di gruppo, di cui le Matrici Progressive di Raven sono un esempio, i
problemi sono presentati in forma scritta e il soggetto deve spesso scegliere una risposta tra numerose
proposte. La somministrazione è semplice e le possibilità di osservazione del comportamento limitate. Nei
test individuali la somministrazione è più complessa. Lo psicologo deve spesso dare delle consegne durante
tutto il test, controllare che siano comprese interamente, misurare dei tempi, rilevare dei successi o dei
parziali fallimenti, ecc. I test individuali sono anche delle situazioni più ricche rispetto ai test di gruppo per
quanto riguarda le opportunità di osservazione, e lo psicologo può attingere informazioni che non sono
computate nella valutazione della prestazione al test.
Dal punto di vista del contenuto delle prove, si distinguono tradizionalmente i test verbali, che richiedono la
comprensione del linguaggio, e i test non verbali, nei quali il ruolo del linguaggio è minimizzato, sia nelle
consegne sia nella produzione della risposta. Un test come le Matrici Progressive di Raven è un test non
verbale (il che non significa che il successo in questo test sia indipendente dalle abilità verbali). Tra i test
non verbali, quelli detti di performance, il soggetto deve manipolare materiale concreto.
Si possono anche distinguere i test a seconda che l'intelligenza valutata sia concepita come una capacità
globale (ad esempio il Binet-Simon) o come un insieme di capacità che devono essere considerate
separatamente (ad esempio, i test fattoriali). Nel primo caso, il test è costituito in modo tale che la capacità
globale, definita nella teoria di riferimento, si manifesti in tutte le situazioni proposte per valutarla. Ma
queste situazioni non hanno in se stesse un interesse particolare, non sono che dei pretesti per la
manifestazione della capacità globale. Questa sarà stimata sommando le performance nelle diverse
situazioni. Si otterrà così un punteggio globale che potrà avere la forma semplice dí un punteggio
ponderato, o la forma più complessa di un QI, o ancora la forma di uno stadio di sviluppo.
Nel secondo caso, quando la prospettiva è analitica, si definiscono delle categorie di situazioni sempre in
riferimento ad una teoria, nelle quali collocare ogni abilità. Le performance non sono sommate all'interno
di ogni classe, i risultati si presentano sotto forma di un profilo di abilità. Di fatto l'opposizione tra le
concezioni globali e le concezioni analitiche è meno marcata di quanto sembri, per lo meno fino a che si
rimane nel campo dell'intelligenza verbo-concettuale; infatti nel campo delle valutazioni globali si può
procedere con valutazioni più analitiche (es Scala di Weschler). Nel quadro di una valutazione analitica, si
può sempre, dato che esistono correlazioni positive tra le singole abilità, calcolare un punteggio che

13
lOMoARcPSD|7819776

distingua gli individui sulla base di ciò che c'è di comune tra tutte queste abilità (lo vedremo in seguito con i
test fattoriali)

2. Le scale di intelligenza: l'esempio della WAIS


Le “scale” rientrano nella categoria dei test basati su una concezione globale di intelligenza. Questa
concezione sarà illustrata sull'esempio dell'adattamento italiano della Wechsler Adult Intelligence Scale
(WAIS) che, come indica il nome, è una scala di intelligenza concepita per soggetti adulti.

2.1.I principi generali di costruzione


La WAIS è stata messa a punto nella sua prima versione da David Wechsler nel 1939. Wechsler, psicologo,
lavorava in un ospedale psichiatrico di New York; si trovava a dover valutare le capacità intellettive dei suoi
pazienti adulti. La Stanford-Binet, il test individuale di intelligenza più utilizzato a quei tempi negli Stati
Uniti, gli sembrava poco adatto all'esame di pazienti adulti per numerose ragioni. Innanzitutto, gli item
erano stati concepiti per essere familiari a dei bambini ed alcuni di essi provocavano per questa ragione un
certo disagio negli adulti, a cui venivano proposti. Inoltre, Wechsler trovava che la Stanford-Binet valutasse
le capacità intellettive essenzialmente attraverso le verbalizzazioni dei soggetti, il linguaggio. Gli sembrava
opportuno equilibrare gli item che facevano appello al linguaggio con item detti “di performance”, per i
quali cioè la capacità di risolvere problemi potesse essere valutata attraverso la manipolazione di materiale
concreto, senza che il soggetto dovesse usare il linguaggio per dare la sua risposta. Infine, esprimere il
risultato sotto forma di un quoziente di rapporto tra l'età mentale e l'età cronologica non aveva alcun senso
nel caso degli adulti. La messa a punto della WAIS, prima scala di intelligenza adatta all'esame degli adulti,
mirava a risolvere questi problemi. La concezione di intelligenza che ha ispirato Wechsler era molto vicina a
quella di Binet: essa non si basava su una vera teoria dell'intelligenza, ma piuttosto su un approccio molto
pragmatico. Wechsler pensava, come Binet, che la valutazione dovesse riguardare processi complessi,
come la memoria, l'attenzione e il ragionamento, integrando un certo numero di abilità più elementari. Egli
considerava appunto l'intelligenza come una capacità di adattamento piuttosto globale, osservabile più nel
modo in cui le diverse funzioni cognitive sono coordinate che nell'efficienza di tale o altra funzione
elementare. Egli era dunque sostenitore, come Binet, del campionamento di varie situazioni per comporre
la scala, con l'idea che l'intelligenza venga valutata come risultante globale dell'efficienza in questo insieme
di subtest, piuttosto che per l'uno o l'altro dei successi puntuali.
Per rendere la scala più adatta a degli adulti Wechsler controllato che il contenuto degli item fosse vicino a
situazioni loro familiari. Per ridurre il peso del linguaggio, egli ha diviso, a scala in due sottoscale di uguale
importanza, l'una verbale e l'altra di performance, in modo tale che si potesse calcolare un QI verbale ed un
QI di performance. Questa decisione relativizza la concezione globale dell'intelligenza che ispirava
Wechsler, poiché ammette che si possa trovare un QI piuttosto differente a seconda che lo si valuti in
situazioni verbali o in situazioni non verbali. E, d'altronde, una delle proprietà di questa scala quella di
mettere in evidenza discrepanze del genere. Il problema relativo all'inadeguatezza della nozione di età
mentale era anch'esso delicato e difficile da risolvere.
Nelle scale di intelligenza, le performance aumentano in effetti con l'età fin verso i 16-20 anni, a seconda
delle scale o delle prove, ma non si evolvono oltre, salvo con l'invecchiamento, per cui si osserva un declino
in certe prove. Nel corso della loro vita gli adulti continuano certamente ad acquisire esperienza e ad
accumulare conoscenze, specialmente nel loro ambito professionale. Ma come abbiamo sottolineato a
proposito del test di Binet-Simon, i test di intelligenza fanno il minor riferimento possibile alle conoscenze
scolastiche o professionali.11 loro obiettivo non è di valutare il livello dí istruzione o la competenza
sviluppata in uno specifico settore, ma l'abilità di risolvere problemi, di apprendere, di adattarsi a situazioni
nuove. Questa capacita cresce in funzione dell'età fin verso l'adolescenza, ma non oltre. Ciò non impedisce
che una volta raggiunta l'età adulta, si riscontrino significative differenze individuali nel livello raggiunto in
queste scale di intelligenza. La nozione di età mentale è dunque inutilizzabile con gli adulti. Abbiamo visto
nel capitolo 2, a proposito delle distribuzioni di punteggio, che Wechsler ha risolto il problema
caratterizzando i soggetti per la loro posizione all'interno della distribuzione dei punteggi del loro gruppo di
età. Trasformando i punteggi dí ogni gruppo di età in modo tale che ci sia una media di 100 e una
deviazione standard di 15, è stata loro attribuita una distribuzione confrontabile a quella di un Ql. Nel
momento in cui non rappresenta più il quoziente di rapporto tra l'età mentale e l'età cronologica, il QI della
lOMoARcPSD|7819776

WAIS non è più un indice di velocità di sviluppo, ma un indicatore del rango che occupa il punteggio
ottenuto tra quelli della popolazione di riferimento.

2.2. Presentazione della scala


La scala messa a punto da Wechsler è stata adattata e rivista diverse volte negli Stati Uniti. Essa è stata
anche tradotta e adattata per la popolazione italiana. La WAIS-R si compone di undici subtest, sei per la
parte verbale e cinque per la scala di performance.

-La scala verbale


Informazioni: 29 domande di cultura generale, molto varie, che un adulto ha in teoria avuto l'opportunità
di acquisire nella nostra cultura; ad esempio: «Dove si trova il Messico?».
Memoria di cifre: come nel test di Binet-Simon, il soggetto deve ripetere esattamente la serie di cifre
elencata dallo sperimentatore. Queste serie vanno da tre a nove cifre da ripetere nello stesso ordine in cui
sono state presentate e da tre a otto cifre da ripetere nell'ordine inverso.
Vocabolario: 35 parole di difficoltà crescente sono presentate contemporaneamente a voce e per scritto,
domandandone il significato; ad esempio: «incenerire».
Aritmetica: 14 piccoli problemi sono proposti oralmente e devono essere risolti senza l'ausilio di carta e
penna; ad esempio: «Se avete 4.800 lire e ne spendete 1.350, quante ve ne rimangono?».
Comprensione: la prova propone 16 domande in cui si richiede al soggetto di spiegare delle osservazioni
della vita quotidiana, dei proverbi; ad esempio: «Che cosa significa il proverbio: non c'è fumo senza
arrosto?».
Somiglianze: 14 quesiti che richiedono di individuare in che cosa due elementi si assomigliano; ad esempio:
«Mela-susina». Questa prova valuta la capacità di formare dei concetti astratti a partire dall'analisi delle
somiglianze e delle differenze tra due oggetti.

- La scala di performance
Completamento di figure: 20 immagini che il soggetto deve esaminare attentamente per trovare la parte
mancante.
Riordinamento di storie figurate: 10 item di difficoltà crescente che propongono ognuno una serie di
immagini in disordine. Compito del soggetto è di ordinarli in modo tale che raccontino una storia.
Cubi: 9 figure geometriche composte di parti rosse e bianche sono presentate una dopo l'altra. Compito del
soggetto è di ricostruire ognuna delle figure presentate con l'aiuto di 9 cubi colorati, di rosso su due facce,
di bianco su due facce e di rosso/bianco sulle altre due facce.
Ricostruzione di oggetti: pezzetti di cartone vengono presentati in disordine e il soggetto deve assemblarli in
modo che formano l'immagine di un oggetto familiare. La prova comporta quattro item di questo tipo.
Cifrario: si presenta al soggetto un foglio dove righe in cui si succedono serie di cifre sono appaiate a righe
in cui ad ogni cifra corrisponde un quadretto bianco. Al soggetto viene richiesto di riempire ogni quadretto
bianco con il simbolo che secondo il codice riportato in alto nella pagina corrisponde a quella cifra (il codice
può ad esempio indicare sotto 1 il segno ^, sotto 2 il segno + e così via). Il soggetto ha un minuto e mezzo
per, completare il maggior numero di casi possibili, mettendo sotto ogni cifra il simbolo appropriato.
Nei cinque subtest della scala di performance appena descritti il punteggio finale tiene conto sia dei tempi
di esecuzione sia dell'accuratezza della risposta.

2.3 Le qualità metriche della WAIS-R


L'adattamento della scala alla popolazione italiana ha richiesto non solo la traduzione del manuale, ma
anche l'individuazione, nei subtest più dipendenti dalla cultura, degli item equivalenti. Alcune delle
domande del subtest di informazioni della versione americana, ad esempio, non sono adatte alla cultura
italiana e sono state sostituite. Inoltre, è stato necessario standardizzare la scala per la popolazione italiana.
L'ultima standardizzazione della versione italiana della WAIS-R è stata fatta su un campione di

15
lOMoARcPSD|7819776

11.630 soggetti adulti rappresentativi della popolazione italiana, suddivisi in 6 gruppi di età da 16 a 64 anni,
ogni gruppo composto per metà di maschi e per metà di femmine. Questa standardizzazione fornisce il
gruppo di riferimento all'interno del quale va situata la performance del soggetto esaminato.

Attendibilità: I coefficienti di attendibilità per l'adattamento italiano sono stati calcolati con il metodo split-
half, ottenuto calcolando le correlazioni tra le due metà del test composte dagli item pari e da quelli dispari
(vedi cap. 2). Solo per i subtest Memoria di cifre e Cifrario le attendibilità sono state calcolate con il metodo
testretest, ad una distanza di tempo tra le due somministrazioni variabile da 5 a 15 giorni. I coefficienti di
attendibilità sono stati calcolati per ogni singolo subtest, per ogni gruppo di età, per il QI performance, il QI
verbale e il QI totale. Le attendibilità medie di questo campione variarlo da 0,76 della Ricostruzione di
oggetti a 0,95 del Vocabolario. Le attendibilità medie dei subtest americani variano da 0,68 della
Ricostruzione di oggetti a 0,96 del Vocabolario. Ciò significa che, formando una metà della scala con gli item
pari e un'altra metà con gli item dispari, i soggetti del campione sono classificati approssimativamente allo
stesso modo con le due metà del test così costruite e ottengono un QI abbastanza simile (una
corrispondenza perfetta corrisponderebbe ad un coefficiente pari a 1).

Validità: Poiché l'ultimo adattamento italiano della WAIS-R è molto recente [1997] non si dispone ancora di
dati relativi alla sua validità. Le indicazioni sulla validità della WAIS-R riportate qui sono per la maggior parte
ricavate dalla versione americana. Uno dei modi per validare un nuovo test di intelligenza è quello di
verificare che le misure ottenute con il test correlino con quelle che si ottengono proponendo agli stessi
soggetti un test d'intelligenza validato. Proponendo la WAIS-R e lo Stanford-Binet a degli adolescenti, si è
ottenuta una correlazione di 0,80 tra i QI delle due prove. Allo stesso modo è stata osservata una
correlazione di 0,70 tra il QI calcolato sulla scala di performance e il QI delle matrici progressive presentate
nel capitolo 2. Si può quindi ritenere che la WAIS-R misuri approssimativamente la stessa cosa delle altre
prove di intelligenza, benché sia intuibile la circolarità di questa forma di validazione. Un'altra forma di
validazione empirica consiste nel definire un criterio di intelligenza e verificare che esista una correlazione
tra il punteggio ottenuto al test e questo criterio. In questo modo che si sono ottenute correlazioni di 0,40 e
0,50 tra il QI della WAIS-R e il successo scolastico, in studenti di liceo, di università o di politecnici. Ma ci si
può comunque domandare se il successo scolastico sia un buon criterio di intelligenza. A rigore, si può
soltanto concludere che la WAIS-R valuta degli aspetti di intelligenza utili per riuscire negli studi. Nella
ricerca sul ritardo mentale, il QI ottenuto alla WAIS-R si è rivelato un buon predittore della rapidità con la
quale i soggetti potrebbero concludere gli studi e del loro successivo inserimento nel mondo del lavoro. La
validazione teorica consiste nel verificare se i risultati del test corrispondano alle predizioni fatte sulla base
della teoria che ha ispirato la sua costruzione. Abbiamo già osservato che Wechsler non aveva una vera e
propria teoria dell'intelligenza nel momento in cui mise a punto questa scala, il che limita effettivamente le
possibilità di validazione teorica. Egli riteneva che i differenti subtest mettessero in evidenza una stessa
capacità globale. Se quest'idea è corretta, si dovrebbero ottenere buone correlazioni tra le scale e l'analisi
fattoriale di queste correlazioni dovrebbe consentire di estrarre un fattore generale di successo.
Le analisi fattoriali della WAIS-R hanno chiaramente mostrato l'esistenza del fattore generale atteso, che
spiega circa il 50% della varianza totale. Esse hanno anche mostrato che una volta estratta la varianza di
questo fattore generale, di gran lunga il più importante, si ottenevano tre fattori. Il primo raggruppa i
subtest di informazioni, di comprensione, di vocabolario e di somiglianze; ciò significa che queste quattro
prove hanno più delle altre la tendenza ad essere superate insieme. Questo primo fattore è generalmente
interpretato come un fattore di comprensione verbale. Un secondo fattore che raggruppa le prove di
completamento di figure, riordinamento di storie figurate, cubi e ricostruzione di oggetti, è generalmente
interpretato come un fattore di organizzazione visuospaziale. Infine, un terzo fattore raggruppa la prova di
memoria di cifre, quella di ragionamento aritmetico e quella del cifrario e viene interpretato come un
fattore di resistenza alla distrazione o di attenzione. L'esistenza di questi tre fattori relativizza la nozione di
capacità generale e legittima in parte la distinzione che Wechsler aveva introdotto a priori tra una scala
verbale e una scala di performance.
lOMoARcPSD|7819776

2.4 L'interpretazione del risultati


Il manuale della WAIS-R fornisce indicazioni precise per attribuire un punteggio ad ogni singolo itero di ogni
subtest. Sommando questi punteggi si ottiene un punteggio grezzo per ogni subtest. La figura 10
rappresenta lo schema riassuntivo dei punteggi di un soggetto di 60 anni ai differenti subtest della WAIS-R.
I punteggi grezzi ai differenti subtest appaiono nella colonna di sinistra. Una tavola di conversione consente
di trasformare questi punteggi grezzi in punteggi standard, che sono riportati nella colonna di destra. Al
punteggio grezzo di 21 nella prova di informazioni, ad esempio, corrisponde un punteggio standard di 12.1
punteggi standard vanno, per ogni subtest, da 1 a 19. Corrispondono ad una suddivisione in 19 categorie
della distribuzione normalizzata dei punteggi grezzi osservati nel campione di adulti utilizzato per la
standardizzazione del test (sulla nozione di distribuzione normalizzata, cap 2, pag 34). Per ogni subtest la
media dei punteggi standard è 10 e la deviazione standard 3. Dire che un soggetto ha un punteggio
ponderato di 12 vale a dire che egli è nella dodicesima categoria su 19, il che – tenuto conto delle proprietà
della distribuzione normale – significa che il 6.3% dei punteggi grezzi osservati nella standardizzazione
erano inferiori e il 25% superiori a quelli della sua categoria. La tappa seguente consiste nel sommare í
punteggi ponderati, considerando dapprima separatamente la parte verbale e di performance della scala.
Questo produce un punteggio di 62 per la parte verbale e di 33 per la performance (Sempre Figura 10).
Un'altra tavola di conversione fornita dal manuale stabilisce i QI corrispondenti: un QI verbale di 102 e un
QI performance di 97. Per lo stesso principio, si possono anche sommare i punteggi ponderati verbale e
performance, che forniscono un totale di 95, di cui la tabella di conversione ci dà il QI globale, 99. Sapendo
che, in questo tipo di scala, il QI ha una media di 100 e una deviazione standard di 15, avere un Q1 di 99
significa che la prestazione del soggetto si colloca intorno alla media del suo gruppo di età, e che il 50%
circa dei soggetti del campione di standardizzazione ha avuto dei punteggi più elevati, mentre il restante
50% ha avuto dei punteggi meno elevati. Abbiamo detto che il soggetto si situava nella media del suo
gruppo di età e non nella media del gruppo degli adulti, poiché la conversione dei punteggi ponderati in QI
si fa tenendo conto del gruppo di età del soggetto. Ciò è reso necessario dal fatto che con l'età, l'efficienza
nei differenti subtest tende a diminuire (in modo diverso a seconda dei subtest).
Possiamo notare che un punteggio ponderato totale di 95, ottenuto dal nostro soggetto di 60 anni,
corrisponde ad un Qi di 93 nel gruppo di 20-24 anni di età e ad un QI di 113 nel gruppo di 75-79 anni di età.
Il QI ottenuto alla WAIS-R posiziona dunque il soggetto all'interno del suo gruppo di età. Dire che il nostro
soggetto di 60 anni ho un QI di 99 indica che la sua efficienza intellettiva nella soluzione di problemi, quali
appaiono nella WAIS-R, lo situa nella media degli adulti di 60 anni. La prima interpretazione dei risultati
della prova consiste quindi nel collocare, sulla base del Q1 ottenuto, l'efficienza intellettiva globale del
soggetto in relazione a quella dei soggetti del suo gruppo di età. La WAIS-R permette tuttavia di andare
oltre indagando se esistono forme di eterogeneità tra le differenti parti della prova. Un'analisi classica
consiste nel confrontare il QI verbale con il QI performance per vedere se l'efficienza intellettiva è
equivalente in questi due ambiti.
Un altro esempio classico è il confronto tra subtest che resistono in maniera diversa al declino dovuto
all'età. Wechsler aveva in effetti notato che alcuni subtest della scala «tengono bene» con l'età
(informazioni e vocabolario per la scala verbale, ricostruzione di oggetti e completamento di figure per la
scala di performance), mentre altri «non tengono» (memoria di cifre e somiglianze per la scala verbale,
cifrario e cubi per la scala di performance). Con questo tipo di analisi lo psicologo entra in un approccio più
clinico di interpretazione dei risultati. Per essere fondato, questo approccio deve poggiare su due tipi di
garanzia: l'eterogeneità analizzata deve essere significativa dal punto di vista statistico e dal punto di vista
teorico. Questi due punti vengono spiegati facendo la differenza tra QI verbale e QI di performance. Nella
Figura 10 ad esempio il QI verbale è superiore di 5 punti al QI performance, ma questo scarto è
statisticamente significativo? In altri termini, è sufficientemente rilevante da poter essere attribuito a cause
diverse dalle fluttuazioni dovute agli errori di misura sui due QI? Per saperlo bisogna fare riferimento alle
tavole statistiche stabilite con la standardizzazione del test e riportate dal manuale. Esse consentono di
vedere che, nel gruppo di età di questo soggetto, una differenza tra il QI verbale e il QI performance non è
significativa, con una probabilità di rischio del .5%, se non a partire da 9 punti di differenza. Lo scarto
osservato qui è quindi ordinario e sarebbe probabilmente un errore interpretarlo come un indice di un
malfunzionamento cognitivo. Nel caso in cui la differenza tra QI verbale e QI performance si mostrasse

17
lOMoARcPSD|7819776

sufficientemente importante da essere significativa, rimane da definirne il significato e la difficoltà deriva


dal fatto che ce ne possono essere diversi. Un QI verbale nettamente inferiore ad un QI performance può
essere, ad esempio, la conseguenza a lungo termine di disturbi nell'acquisizione del linguaggio, ma
potrebbe anche essere indice di una lesione recente dell'emisfero sinistro (che è la sede deputata
all'elaborazione del linguaggio). Tuttavia si sa anche che un'inferiorità relativa del QI verbale rispetto al QI
performance è più frequente nei bambini cresciuti in un ambiente socioculturale sfavorevole e anche in
coloro che esercitano una professione che fa poco appello alla comunicazione verbale, ecc. Il significato di
tale risultato può dunque essere interpretato solo se messo in relazione con altri elementi informativi
ricavati dalla storia del soggetto o da test più specifici destinati a confermare o sconfermare l'una o l'altra di
queste interpretazioni.
L'approccio diagnostico che viene qui descritto è simile a quello del medico che cerca di interpretare un
sintomo; la garanzia della diagnosi poggia sulla coerenza che l'interpretazione può dare ad un insieme di
risultati: questo è ciò che noi abbiamo definito in precedenza il significato teorico. La stessa logica può
essere seguita nel confrontare i punteggi ponderati dei differenti subtest. Poiché tutti questi punteggi
ponderati hanno la stessa media e la stessa deviazione standard, essi possono essere direttamente
confrontati ed è possibile tracciarne un profilo da cui emergano i punti deboli e i punti di forza
dell'efficienza intellettiva del soggetto. Di nuovo, bisogna innanzitutto assicurarsi che gli scarti che si cerca
di interpretare siano significativi. Nel protocollo del nostro soggetto si nota (vedi fig. 10) un punteggio
ponderato particolarmente basso alla prova dei cubi. Nella relativa tavola del manuale, si può osservare che
con una soglia di rischio del 15% (15% di probabilità di sbagliare), una differenza tra due punteggi ponderati
può essere considerata significativa a partire da 2,5 punti, c'è allora un senso nel cercare un significato alla
scarsa prestazione nella prova dei cubi, in relazione all'efficienza osservata nella maggior parte delle altre
prove di performance. E a questo punto che possono intervenire le osservazioni più qualitative fatte dallo
psicologo durante la somministrazione, relative al modo in cui il soggetto procede nella prova, il suo
metodo, il suo atteggiamento di fronte alle difficoltà, ecc., così come le conoscenze cliniche sul significato di
un deficit specifico in tale prova o in tale gruppo di prove. Questi aspetti dell'interpretazione dei risultati
fanno ampiamente appello all'esperienza clinica e alla competenza professionale dello psicologo. Fanno
chiaramente emergere che un risultato considerato isolatamente, un QI, uno scarto tra due subtest, non ha
di per sé alcun significato, ma deve essere interpretato in funzione di un insieme di altri elementi di in
formazione che fanno appello alle competenze e conoscenze acquisite nel corso della formazione al
mestiere di psicologo e della sua pratica. Il successo ottenuto dalla WAIS-R ha indotto a mettere a punto nel
1950 una versione per bambini, la Wechsler ligence Scale for Children (WISC), adatta al periodo di età dai 6
ai 16 anni, e, più recentemente, una versione adatta al periodo tra í 4 e i 6 anni e mezzo, la Wechsler
Preschool Erimary Scale of. Intelligence (WPPSI). La WISC e la WPPSI sono costruite esattamente sugli stessi
principi della WAIS-R e hanno adattamento e standardizzazione per l'Italia.

3. I test fattoriali di intelligenza


Binet e Wechsler si rappresentavano l'intelligenza come una capacità globale e le loro scale avevano come
obiettivo principale di fornire una valutazione riassuntiva di questa capacità in un indice unico, età mentale
o QI. Tuttavia, l'utilizzo di queste scale ha consentito cli notare che i successi nei diversi subtest potevano
essere eterogenei e i profili così ottenuti potevano essere interpretati diversamente. Questa pratica
ammette di fatto la multidimensionalità dell'intelligenza, che si manifesta anche nelle scale concepite
all'origine per una sua valutazione globale. I test detti «fattoriali», ai contrario, sono stati concepiti
principalmente per mettere in evidenza il carattere multidimensionale dell'intelligenza. Essi sono detti
«fattoriali», perché il metodo matematico sul quale sono basati è l'analisi fattoriale, i cui principi generali
sono stati presentati nel capitolo 1

Un esempio di batteria di tesi fattoriali di intelligenza: il PMA di Thurstone Per identificare i fattori
comuni ad alcuni dei compiti cognitivi, fattori corrispondenti secondo lui alle abilità mentali primarie
(Primary Mental Abilities, o PMA), Thurstone ha messo a punto una batteria di una sessantina di test
differenti. Così come la costruzione delle scale di intelligenza, la messa a punto di questa batteria di test è
stata piuttosto empirica.
lOMoARcPSD|7819776

La varietà dei test introdotti nella batteria, e quindi il numero e la natura dei fattori dell'intelligenza che
possono essere estratti dipendono dall'idea che il ricercatore si è fatto dell'intelligenza. In assenza di una
teoria forte, non ci sono soluzioni soddisfacenti al problema della scelta delle situazioni da introdurre nella
batteria. I sessanta test pensati da Thurstone rappresentano quindi una parte dell'universo dei compiti
cognitivi, ma solo una parte. Thurstone ha dapprima proposto questa batteria di test ad un gran numero di
studenti dei college americani, poi, in seguito ad alcune modifiche, l'ha successivamente proposta a più di
un migliaio di liceali.

Fattoriale richiede che un certo numero di test venga proposto ad un numero abbastanza elevato di
soggetti, il che spiega la ragione per cui la maggior parte dei test fattoriali vengono concepiti come delle
prove brevi, di meno di dieci minuti, che vengono proposte carta e matita e collettivamente. Le analisi
fattoriali effettuate su questi sessanta test hanno consentito di estrarre sette fattori primari abbastanza
stabili e ben identificabili: comprensione verbale (V), fluidità verbale (W), abilità numerica (N), inferenza (I),
abilità spaziale (S), velocità percettiva (P) e memoria (M). I test che hanno mostrato le maggiori saturazioni
in ognuno di questi fattori sono stati mantenuti a formare delle batterie più ridotte, comprendenti un test
per ogni fattore. La batteria fattoriale PMA tradotta e adattata in Italia è tratta da questo studio. Si
compone di test carta e matita, a somministrazione collettiva, corrispondenti ad abilità primarie distinte da
Thurstone.

3.2. Presentazione dei test che compongono la batteria fattoriale PMA di seguito sono presentati i
cinque test che compongono la batteria intermedia, il cui livello di difficoltà è adattato ad un'età
compresa tra 11 e 17 anni. Ogni test è denominato sulla base del fattore di cui è rappresentativo.

- Fattore V significato verbale. Questo test valuta la competenza e la finezza di discriminazione dei
significati verbali. Consiste di 50 item cli difficoltà crescente: si propongono una parola bersaglio e, alla
sua destra, 5 parole tra le quali è richiesto di individuare quella con lo stesso significato della parola
target. Ad esempio: Rilucere
a) crepitare b) cesellare e) brillare d) dipingere e) arrugginirsi. Il tempo concesso è di 4 minuti e il
punteggio è dato dal numero di risposte corrette realizzate in questo lasso di tempo.
- Fattore S: abilità spaziale. Questo test valuta l'efficienza delle operazioni spaziali. È composto da 20
item di difficoltà crescente composti ciascuno da un disegno target presentato a sinistra. A destra
vengono presentati sei disegni e tra essi bisogna individuare quelli che non sono altro che l'itero di
sinistra ruotato (gli altri sono rovesciati). Il tempo concesso è di 5 minuti e il punteggio è dato dal
numero di risposte corrette ottenute.
- Fattore R: ragionamento. 30 item di difficoltà crescente, in cui al soggetto viene chiesto di fornire il
seguito di una serie di lettere. Questo test valuta l'efficienza dei processi di inferenza. Ad esempio:
abcdabceabcfabc?
- Fattore N: abilità numerica. L'abilità valutata è l'efficienza nella manipolazione dei numeri. Il test
propone 70 addizioni di quattro numeri di due cifre, sotto le quali è indicato un totale. il compito
consiste nel determinare, per ognuna, il più velocemente possibile se il totale è giusto o sbagliato. Il
punteggio è il numero di risposte corrette fornito in 6 minuti.
- Fattore W fluidità verbale. Questa prova valuta l'abilità di recuperare velocemente delle parole. Il
compito consiste nel produrre con tempo limitato. Il maggior numero di parole che cominciano con
una lettera data, es tutte le parole che cominciano con la P che vengono in mente. Il punteggio è
dato dal numero di parole trovate.
3.3. Le qualità metriche della batteria PMA
• Standardizzazione. manuale dell'adattamento italiano della batteria PMA fornisce una
standardizzazione sulla base dei risultati ottenuti al test da un campione di 844 studenti dai 12 ai 15 anni
frequentanti le tre classi della scuola media inferiore (prima, seconda e terza) con al massimo un anno di
ritardo. Rispetto ad una scolarità normale. Circa metà del campione è composto da maschi e l'altra metà da
femmine. Vengono fornite le medie per età e per scolarità dei cinque test. Inoltre, sulla base della

19
lOMoARcPSD|7819776

distribuzione dei punteggi in percentili, è possibile collocare un soggetto in relazione ai soggetti della sua
età del campione di riferimento. Ad esempio, se un soggetto di 12 anni ha un punteggio alla prova di
significato verbale di 15 risposte corrette si situa, secondo la tabella, al 40° percentile. Questo indica che
circa il 35% dei soggetti ha avuto un punteggio inferiore e circa il 55% uno superiore.
• Validità. Poiché l'adattamento italiano della batteria PMA riporta scarsi dati relativi alla sua validità,
in questo paragrafo faremo riferimento alla validità calcolata sulla versione francese della batteria. La
validità empirica della batteria PMA è stata indagata considerando diversi criteri. Utilizzando il punteggio
totale che integra i diversi test della batteria si è ottenuta una correlazione dell'ordine di 0,70 con altre
misure di intelligenza. Si sono osservate anche correlazioni significative tra ogni singolo test della batteria,
preso singolarmente, e il suo omologo in altre batterie fattoriali. Ad esempio, in uno studio in cui 560
soggetti di 12 anni hanno fatto il PMA ed un'altra batteria fattoriale (la. GATB), le correlazioni sono state dí
0,77 tra i due test verbali, di 0,51 tra i due test spaziali, 0,68 tra i due test di ragionamento e 0,65 tra i due
test numerici (nella GATB non c'è un test di fluidità verbale).
Un altro dei criteri di validazione empirica utilizzati è stato il successo scolastico. Uno degli studi, ad
esempio, ha calcolato in un campione di 600 liceali le correlazioni tra i punteggi al PMA e i punteggi
ottenuti, tre anni più tardi, ad una batteria di test sulle conoscenze scolastiche, Iowa Tests of Educational
Development. Tre anni dopo, le correlazioni di ogni test con il punteggio totale della batteria sulle
conoscenze scolastiche sono le seguenti: 0,68 con il test verbale, 0,23 con il test spaziale, 0,54 con il test di
ragionamento, 0,38 con il test numerico e 0,33 con il test di fluidità verbale. Come si può osservare, i test
verbale e di ragionamento sono i migliori predittori del successo scolastico tre anni dopo. Ciò induce ad
utilizzare, per pronosticare il successo scolastico, un punteggio composto che combina questi due test
attribuendo un peso doppio ai punteggi del test verbale secondo la formula 2V -i- R. Questo punteggio
correla circa 0,70 con il punteggio totale di conoscenza scolastica. Le correlazioni con le valutazioni
scolastiche date dai professori sono un po' meno forti, dell'ordine di 0,50. Ciò si può spiegare sulla base del
Fatto che i voti dati dagli insegnanti sono meno fedeli (comportano maggiori fonti di variazione
incontrollate) rispetto ai punteggi ai test cli conoscenza. Benché questa batteria sia concepita per valutare
abilità diverse, è frequente che si utilizzi un punteggio totale come indice globale di intelligenza
confrontabile con il

La ragione è che esistono correlazioni tra questi cinque test e che – come è stato evidenziato a proposito
dell'analisi fattoriale – si può anche estrarre un fattore generale di intelligenza che satura queste cinque
prove in misura variabile ( cap. 1 ).
Nel caso dei test fattoriali, la validità teorica si può ottenere attraverso la verifica della corrispondenza tra la
struttura ottenuta con l'analisi fattoriale di questi test e la struttura attesa. In altre parole, i test che si
considerano come rilevanti per uno stesso fattore devono essere maggiormente saturati da questo fattore
che dagli altri e i test che si considerano rilevanti per fattori differenti devono essere saturati da questi
fattori differenti. Si può verificare che ciò è quanto successe per questi cinque test nelle analisi fattoriali
eseguite da Thurstone quando mise a punto tale batteria. Questo passaggio diventa realmente ipotetico-
deduttivo nel momento in cui lo psicologo crea un nuovo test concepito per essere un indicatore di uno dei
fattori. La validazione teorica consiste allora nel verificare che, introducendo il test insieme ad altri in
un'analisi fattoriale, esso è ben saturato dal fattore atteso. A titolo esemplificativo, la prova di significato
verbale della batteria PMA, che consiste nel trovare un sinonimo, è fortemente saturata dal fattore verbale
(0,68) e per nulla dal fattore di fluidità verbale (0,01). Thurstone ha costruito una nuova prova di fluidità
verbale nella quale si chiede al soggetto di trovare tre sinonimi per ogni parola data. Egli faceva l'ipotesi che
nonostante la somiglianza di questa prova con quella di significato verbale (trovare un sinonimo), il test
mettesse in gioco la fluidità verbale poiché richiede che il soggetto fornisca più parole di una categoria data.
Nell'analisi fattoriale in cui questa nuova prova è stata introdotta, essa aveva effettivamente una
saturazione di 0,51 con il fattore fluidità verbale e una saturazione nulla con il fattore significato verbale, il
che validava l'ipotesi di Thurstone sulla natura di questo nuovo test.
lOMoARcPSD|7819776

3.4. L’ interpretazione dei risultati


L’interpretazione dei risultati si fonda sulla standardizzazione che consente di collocare il punteggio del
soggetto in ciascuno dei test in rapporto ai punteggi osservati nella popolazione di riferimento. L'interesse
delle batterie fattoriali è di permettere di stabilire un profilo di abilità che si può esprimere graficamente su
un asse cartesiano (vedi fig. 8). Il profilo permette di osservare con un colpo d'occhio se le diverse abilità
sono omogenee o no, dove sono i punti forti e i punti deboli, ecc.
Abbiamo visto a proposito della WAIS che l'analisi dei profili di punteggio è fatta anche con le scale di
intelligenza. La differenza è che le batterie fattoriali sono state costruite per mettere in evidenza delle
dimensioni differenti dell'intelligenza, mentre questo non è il caso dei subtest delle scale di intelligenza. La
conseguenza è che le interpretazioni basate sui profili dei punteggi hanno maggior fondamento con le
batterie fattoriali.

4. I test ispirati da teorie più recenti


Nei loro principi teorici, i test presentati nei paragrafi precedenti sono stati concepiti ormai circa mezzo
secolo fa. Da allora sono stati oggetto di numerose revisioni con l'obiettivo di rianalizzare il loro contenuto e
ristandardizzarli, mai concetti di intelligenza che ne hanno ispirato la costruzione sono datati. Da allora le
idee sull'intelligenza si sono evolute. Nuove teorie sono apparse e si può dire che abbiano rivoluzionato la
concezione dei test. In ogni caso, per poco che siano stati rivisti e ristandardizzati (vedi quadro 1 pag 70), i
vecchi test hanno resistito nel tempo. Sono ancora i più utilizzati nella pratica e continuano ad essere utili
nella diagnosi di disfunzioni cognitive e nelle previsioni di successo negli apprendimenti.
QUADRO 1 IL LIVELLO SALE “Alcuni item devono essere rivisti periodicamente. Ciò succede ad esempio per
gli item del subtest delle informazioni delle scale Wechsler, il cui contenuto è per definizione dipendente
dal periodo storico. Ma i test di intelligenza devono essere anche periodicamente ristandardizzati, poiché il
livello medio di performance tende ad aumentare con le generazioni. Le ragioni di questo fenomeno sono
complesse da analizzare e sono oggetto di discussione. Possono essere dovute a degli errori (come ad
esempio il cambiamento di tendenza di fronte al compromesso tra velocità e correttezza della risposta), a
degli effetti di familiarizzazione con le situazioni (dovuti ad esempio alla diffusione di giochi analoghi a quelli
del test), o ancora a reali incrementi delle capacità intellettive con l'evoluzione della società (effetti
dell'aumento della scolarizzazione, della moltiplicazione delle fonti di informazione, delle occasioni di
stimolazione intellettuale, ecc.). Si possono trovare esempi di indagini che mostrano questo aumento del
livello di performance col progredire delle generazioni e interpretazioni contraddittorie del fenomeno”.
Una delle ragioni della resistenza al tempo da parte dei vecchi test riguarda soprattutto l'approccio molto
pragmatico dei loro autori. Binet, Wechsler e Thurstone hanno utilizzato situazioni di valutazione che si
sono rivelate buoni indicatori del funzionamento cognitivo a dispetto del fatto che non avevano una
conoscenza precisa dei meccanismi sottostanti. Le teorie apparse successivamente hanno poi permesso di
capire meglio perché questo o quell'item fossero buoni indicatori di questo o quell'aspetto dell'intelligenza,
ma solo in rari casi hanno consentito di costruire test radicalmente diversi da quelli appena presentati. C'è
comunque qualche notevole eccezione a questo. Presenteremo qui di seguito alcuni esempi di test di
intelligenza elaborati a partire da concezioni teoriche più recenti, i test piagetiani e il K-ABC.

4.1. I test “Piangentiani”


La teoria di Piaget è senza dubbio quella che ha rinnovato più profondamente le idee sullo sviluppo
dell'intelligenza.
Questa teoria vuole rendere conto sia della genesi della conoscenza scientifica nella storia dell'umanità
(epistemologia genetica) sia della genesi del pensiero logico nel bambino (psicologia genetica). La teoria di
Piaget è strutturalista e costruttivista. Strutturalista nella misura in cui Piaget riteneva che l'uomo
comprendesse il mondo assimilandolo alle proprie strutture mentali. Costruttivista nella misura in cui
pensava che queste strutture cognitive, questi strumenti mentali della conoscenza, non fossero né innati né
derivati dall'esperienza, ma si costruissero attraverso il coordinamento delle azioni. Insomma, agendo sul
mondo per trasformarlo, il soggetto costruisce, con la coordinazione delle sue azioni, dei sistemi di
trasformazione: schemi d'azione messi in pratica nel periodo sensomotorio, poi schemi d'azione
interiorizzati nel momento in cui il bambino diventa capace di rappresentazione. Questi schemi d'azione

21
lOMoARcPSD|7819776

interiorizzati diventano allora delle «operazioni» di pensiero. Una buona parte dell'opera di -Piaget è
consistita nell'identificare le strutture «operatorie» costruite successivamente dal bambino, man mano che
cresce. La costruzione di ognuna di queste strutture segna uno stadio di sviluppo e questi diversi stadi sono
percorsi con un ordine invariante. I grandi stadi di sviluppo del pensiero logico che Piaget ha identificato nel
bambino sono lo stadio sensomotorio (da O a 18 mesi o due anni circa), lo stadio preoperatorio (da 2 -a 7-8
anni circa), lo stadio operatorio concreto (da 8 a 10-11 anni circa) e lo stadio formale (a partire da 11-12
anni circa). Questi grandi stadi di sviluppo sono a loro volta suddivisi in sottostadi e a ciascuno di essi
corrisponde una struttura cognitiva che gli è propria e caratterizza in quel determinato momento il
ragionamento del bambino. Piaget non si è interessato ai test e nemmeno alle differenze individuali. Il suo
obiettivo è stato innanzitutto di descrivere le strutture cognitive e le leggi generali della loro costruzione.
Per far ciò, egli ha immaginato una moltitudine di situazioni, spesso molto ingegnose, destinate a mettere
in evidenza gli stadi di sviluppo del pensiero logico. Altri psicologi hanno ripreso queste situazioni
adattandole a situazioni test che permettessero di valutare lo stadio di sviluppo del pensiero logico. Un
esempio cli test italiano di questa categoria è il test OLC, Operazioni Logiche e Conservazione, messo a
punto da Vianello e Marin 1997. Il test OLC fa riferimento in particolare alle operazioni logicoaritmetiche e
alle nozioni di conservazione e valuta il passaggio da uno stadio preoperatorío ad uno stadio operatorio
concreto. La struttura del test prevede 4 aree (seriazione, numerazione, classificazione e conservazione) per
ciascuna delle quali sono predisposti 6 item. Ogni item ha una valutazione dicotomica (superato o non
superato, 1 o 0) e il punteggio totale massimo è perciò di 24. Ad esempio, un item della seriazione richiede
al soggetto, date 7 bottiglie, di far corrispondere ad ogni bottiglia un bicchiere dei 7 disponibili: verrà
attribuito il punteggio di 1 se il soggetto avrà correttamente svolto il compito. Gli item sono presentati in
ordine di difficoltà, dal più semplice al più difficile. Il test OLC è concepito per bambini dai 4 agli 8 anni e
consente di tradurre il punteggio del soggetto in un'età mentale ed anche in un Ql. Un test piagetiano
adatto invece a soggetti di età più elevata è la scala di sviluppo del pensiero logico (EDPL) messa a punto da
Fransois Longeot (1969). Questa scala riprende cinque delle situazioni utilizzate da Piaget nelle sue
ricerche. Queste situazioni hanno come obiettivo di mettere in evidenza la struttura del ragionamento in
differenti ambiti della conoscenza: logica, fisica e rappresentazione dello spazio. A titolo esemplificativo, la
prova che riguarda la fisica valuta lo stadio di ragionamento del soggetto nello sviluppo della nozione di
conservazione. Secondo Piaget, una delle manifestazioni dello strutturarsi delle operazioni concrete è il
ragionamento che permette di capire che le trasformazioni degli oggetti lasciano alcune delle loro proprietà
invariate: date due palline di pasta da modellare A e B del tutto simili, il cambiamento della pallina B
(appiattimento, trasformazione in rotolo, trasformazione in pezzetti) modifica il suo peso in relazione a
quello della pallina A? E queste trasformazioni modificano il suo volume in relazione a quello della pallina
A? L'EDPL è stata concepita per il periodo di età dagli 8-9 anni ai 15-16 anni, cioè per il periodo di sviluppo
che va dallo stadio delle operazioni concrete a quello delle operazioni formali. In relazione ai test di
intelligenza classici, i test piagetiani hanno varie componenti di originalità:
1) Il livello di sviluppo cognitivo del soggetto non è più definito dal suo rango nella distribuzione dei
punteggi della popolazione di riferimento, ma in riferimento ad un criterio teorico: lo stadio di
sviluppo al quale il suo modo di ragionare corrisponde;
2) Il comportamento del soggetto nelle prove può essere interpretato in riferimento ad una teoria
esplicita dello sviluppo cognitivo;
3) Il livello di sviluppo cognitivo del soggetto è valutato attraverso una caratteristica, il suo stadio, che
è transitoria. In questo, lo stadio è comparabile all'età mentale, ma si distingue dal QI che
caratterizza il soggetto in modo relativamente stabile;
4) L'esistenza di una sottostante teoria sufficientemente precisa evita di dover definirla
standardizzazione della somministrazione del test in modo rigido, come con le prove di origine più
empirica. È minore qui la necessità di comportarsi allo stesso modo con ogni soggetto, mentre è
importante dare i «suggerimenti» appropriati per vedere fin dove il soggetto può arrivare con il suo
ragionamento. Questo metodo critico di indagine è quello che utilizzava Piaget e il principio è stato
conservato nei test piagetiani a somministrazione individuale;
5) La validazione teorica del test si appoggia principalmente sul metodo di analisi gerarchica. Glí item
corrispondenti ai differenti stadi di ragionamento devono essere superati nell'ordine previsto dalla
lOMoARcPSD|7819776

teoria. Questa coerenza con l'ordine teoricamente atteso può essere valutata da un indice che va
da 0, quando l'ordine di successo degli item non è diverso da quello atteso sulla base del caso, a 1
quando l'ordine osservato corrisponde esattamente all'ordine atteso.

Nell'EDPL, la scala di Longeot, gli indici gerarchici delle diverse prove sono tutti superiori a 0,90, il che indica
che gli item corrispondenti ai differenti stadi si ordinano praticamente come atteso sulla base della teoria.
Nelle prove collettive, invece, questi indici sono dell'ordine di 0,70, che è meno soddisfacente. Tenuto
conto della loro originalità, che dipende in buona parte dal loro ancoraggio teorico, si sarebbe potuto
credere che i test piagetiani avrebbero soppiantato i test di intelligenza classici, di concezione più empirica.
Non è stato così. Ci sono numerose ragioni che possono spiegare questo fatto ma noi qui ne presenteremo
solo una. L'utilizzo di questo tipo di test ha fatto emergere velocemente che un soggetto poteva essere
caratterizzato da stadi di sviluppo diversi nelle differenti prove che compongono il test. Non era dunque
possibile caratterizzare un soggetto sulla base del suo stadio di sviluppo cognitivo, al singolare. Si è quindi
giunti a calcolare un punteggio globale che, per convenzione, collocava il soggetto ad uno stadio; lo stadio
così definito non è più comunque molto diverso da un Qi. Tanto più che la correlazione tra il punteggio
totale dei test «piagetiani» e il QI ottenuto alle scale di intelligenza classiche si è mostrata molto forte: varia
da 0,70 a 0,80 a seconda delle ricerche, il che fa pensare che l'abilità valutata da questi due test non sia poi
molto diversa. Nella stessa logica, se si sottopongono gli item di test piagetiani ad un'analisi fattoriale si
trovano all'incirca gli stessi fattori che con i test fattoriali. Di conseguenza, benché elaborati a partire da una
teoria dello sviluppo cognitivo nuova, i test piagetiani non hanno rinnovato profondamente i test di
intelligenza. Si sono rivelati particolarmente appropriati nella valutazione dello sviluppo del pensiero logico,
ma non hanno detronizzato le scale di sviluppo a più largo spettro.

4.2. Il .K-A BC
Il K-ABC (Kaufman-Assessment Battery for Children) è una scala di valutazione dello sviluppo
dell'intelligenza concepita per il periodo dai 2 anni e mezzo ai 12 anni, che è stata pubblicata negli Stati
Uniti da Alan e Nadeen Kaufman nel 1983 e adattata in Francia nel 1993, mentre in Italia è stata solo
proposta in via sperimentale presso alcuni centri ma non è mai stata standardizzata. Il quadro teorico che
sottende la costruzione della scala si fonda su studi di neuropsicologia e di psicologia cognitiva che hanno
evidenziato la necessità di distinguere tra due grandi tipi di processi mentali: i processi sequenziali e i
processi simultanei. Per sostenere questa distinzione gli autori si riferiscono ai lavori di Lucia, che collocava
la sede delle elaborazioni sequenziali dell'informazione nelle regioni fronto-temporali del cervello e quello
delle elaborazioni simultanee nelle regioni parieto-occipitali. Essi si rifanno anche ai lavori di
neuropsicologia e di psicologia cognitiva che hanno mostrato una specializzazione dell'emisfero sinistro del
cervello nel trattamento «analitico» delle informazioni e una specializzazione dell'emisfero destro nel
trattamento «globale». La varietà delle denominazioni e delle localizzazioni cerebrali a cui ci si riferisce nei
diversi lavori di ricerca lascia pensare che a questione della localizzazione cerebrale dei vari processi è
probabilmente più complessa di quanto non si sia creduto. Nel mettere a punto questa nuova batteria,
l'obiettivo dei Kaufman era di rinnovare i test dí intelligenza da un doppio punto di vista: creare una scala
orientata alla caratterizzazione dei processi mentali (sequenziale, simultaneo) piuttosto che ad ambiti di
contenuto (verbale, spaziale) e dar loro dei fondamenti teorici più solidi di quelli delle scale precedenti. A
questo scopo essi hanno costruito una batteria composta di tre subscale ben distinte: l'una valuta
l'efficienza dei processi sequenziali, l'altra quella dei processi simultanei e la terza le conoscenze. I processi
sequenziali sono quelli messi in atto quando i differenti aspetti dell'informazione sono elaborati l'uno dopo
l'altro, in sequenza nel tempo. I processi simultanei sono invece quelli messi in atto quando i differenti
aspetti dell'informazione disponibile sono elaborati in parallelo, nello stesso tempo. Le prime due subscale
sono esclusivamente orientate alla valutazione dell'efficienza di queste due grandi categorie di processi
mentali. La terza subscala che valuta a parte le conoscenze è ben distinta da queste prime due, come non
avviene nel Binet-Simon o nella WATS, in modo tale che si possa ben distinguere la quantità e la qualità
delle conoscenze acquisite, da una parte, rispetto all'efficienza dei processi grazie ai quali esse sono state
acquisite, dall'altra. Nella subscala dei processi sequenziali, si trova una prova di ripetizione dí cifre, il cui
principio è lo stesso che nel BinetSimon e nella WATS, una prova di ricordo di parole, di natura simile, e una

23
lOMoARcPSD|7819776

prova più originale, ispirata al lavoro di Luria, che consiste nel mostrare al soggetto una successione di
movimenti della mano che egli deve riprodurre (vedi fig. 12 pag 76).
La subscala dei processi simultanei comporta un numero più elevato di prove. Alcune sono simili ai subtest
della scala di performance della WAIS o della WISC (ad esempio il test serie di fotografie che è analogo alla
prova di riordinamento di storie figurate della WAIS, eccetto che gli elementi in disordine a partire dai quali
bisogna ricostruire la storia sono delle fotografie e non delle figure). Altre sono più nuove, ad esempio la
prova di riconoscimento di forme, nella quale il soggetto deve riconoscere l'oggetto di cui gli viene
presentata un'immagine degradata (vedi fig. 13 pag 76). Le prove della terza subscala, quella delle
conoscenze, sono concepite sulla base dello stesso principio delle prove di informazioni, di vocabolario o di
aritmetica della WAIS o della WISC e comportano anche prove di comprensione della lettura. Esse vengono
presentate ín una forma accattivante e adatta a bambini piccoli. Ad esempio, la prova di informazioni non è
proposta sotto forma di domande come nella WAIS o nella WISC, ma mostrando ai bambini delle fotografie
di personaggi o monumenti celebri che devono riconoscere (ad esempio, la foto della torre Eiffel). I
punteggi grezzi di queste tre subscale sono trasformati in punteggi standard e i punteggi standard in QI,
secondo gli stessi principi della WAIS. Si possono così confrontare i punteggi ottenuti ai diversi subtest e
stabilire dei profili. Le qualità metriche di questa batteria sono del tutto confrontabili con quelle delle scale
precedenti e l'analisi fattoriale dei differenti subtest che la compongono conferma che le prove sequenziali
e simultanee sono saturate da fattori diversi. Mettendo l'accento sulla valutazione dell'efficienza dei due
tipi di processi, sequenziali e simultanei, questa nuova scala ha realmente rinnovato la concezione dei test
di intelligenza e consentito di valutare aspetti differenti dai test precedenti? Abbiamo bisogno di fare un
passo indietro per dirlo. Possiamo notare infatti che le tre scale del 'K-ABC valutano tre aspetti
dell'intelligenza che sono simili a quelli ottenuti con l'analisi fattoriale della WAIS: un fattore verbale che
satura subtest simili a quelli della scala di informazioni del KABC; un fattore visuo-spaziale che satura le
prove di performance simili a quelle della scala dei processi simultanei; e infine un fattore che satura
soprattutto la prova di ripetizione eli cifre e il cifrario, interpretato come un fattore dí resistenza alla
distrazione o eli attenzione, il cui contenuto è quindi confrontabile con quello dei processi sequenziali del K-
ABC. Inoltre, la correlazione tra il QI ottenuto al K-ABC e il QI ottenuto ad altre scale di intelligenza è
abbastanza forte (circa di 0,70), il che indica che la capacità generale valutata da questa scala è abbastanza
legata a quella valutata dalle scale di intelligenza già esistenti.

In sintesi, i test costruiti a partire dalle teorie dell'intelligenza più recenti hanno cercato di analizzare il
funzionamento cognitivo da un angolo diverso. I test piagetiani Sono interessati alle strutture attraverso le
quali, secondo Piaget, si articola lo sviluppo del pensiero logico. Il KABC ha come obiettivo la valutazione
dell'efficienza di due forme diverse di elaborazione dell'informazione: simultanea e sequenziale. Ciascuno
di questi nuovi approcci arricchisce il lavoro degli psicologi di possibilità di diagnosi più sensibili e articolate.
Rimane il fatto che, per buona parte, questi test ispirati a teorie recenti valutano le stesse abilità dei test
classici. Da un certo punto di vista, il fatto che queste prove concepite a partire da quadri teorici piuttosto
diversi valutino all'incirca la stessa cosa delle prove anteriori contribuisce alla validazione teorica a
posteriori dell'approccio empirico e pragmatico dei primi ideatori dei test d'intelligenza.

CAPITOLO 4. L'UTILIZZO DEI TEST DI INTELLIGENZA


Fin dall'inizio del secolo, i test vengono utilizzati, più o meno frequentemente a seconda dei paesi e dei
problemi da affrontare, in diversi settori della vita sociale. Si possono distinguere due grandi classi di
utilizzo: l'aiuto diagnostico e il contributo all'inserimento sociale. Nelle situazioni di aiuto diagnostico, lo
psicologo cerca di comprendere la natura del problema della persona che ha di fronte e che cerca di
aiutare. Possono essere seri disturbi della condotta, difficoltà scolastiche, incertezze relative alle decisioni
da prendere e alle strategie da mettere in atto nell'ambito dell'orientamento scolastico o professionale, o
ancora di disagio nelle situazioni della vita quotidiana, familiare o professionale. In tutti questi casi, appare
utile, tra gli altri strumenti di indagine, applicare dei test e, eventualmente, dei test di intelligenza. L'utilizzo
dei test come contributo al processo di inserimento sociale è di natura completamente differente. Questa
modalità di utilizzo si incontra essenzialmente nell'ambito educativo (selezione scolastica) e del lavoro
(reclutamento del personale). Si ritiene quindi che il test fornisca delle informazioni che, associate ad altre,
lOMoARcPSD|7819776

permetteranno di decidere riguardo all'inserimento di individui in percorsi di formazione o in impieghi


particolari. Le domande che si possono formulare sull'uso dei test non sono naturalmente della stessa
natura né della stessa rilevanza in questi due tipi di situazioni. Esamineremo in questo capitolo i dibattiti e
le polemiche di cui i test d'intelligenza sono stati oggetto, l'utilizzo che oggi ne viene fatto e alcune
questioni di ordine etico e deontologico che nascono di conseguenza.

1. I dibattiti e le polemiche sull'uso dei test in ambito sociale


Le domande relative ai test e le critiche che essi hanno suscitato sono tra loro differenti; alcune risalgono
all'origine stessa dei test, mentre altre hanno assunto forme diverse nei differenti contesti nazionali.

1.1. Tre tipologie di domande


I test d'intelligenza possono essere esaminati e anche criticati da un punto di vista filosofico, psicologico e
sociale. I primi test sono apparsi all'inizio del secolo, all'interno di una psicologia nascente che, rompendo
con la tradizione filosofica, si avvicinava alle scienze naturali e si proponeva non soltanto di studiare i
fenomeni psicologici, analizzandoli a partire dai comportamenti osservabili, ma anche di misurarli.
Opponendosi così frontalmente alle posizioni idealiste dominanti, questa psicologia ha evidentemente
incontrato forti resistenze. Il rifiuto dei test corrispondeva allora ad una presa di posizione filosofica: non si
pesano le anime!
Questo dibattito è oggi superato. La psicologia oggettiva è diventata una disciplina riconosciuta, i cui apporti
sono considerati significativi. Ma si trovano sempre persone, e a volte anche personalità eminenti, che
affermano che l'intelligenza umana è così complessa che è inutile cercare di comprenderla obiettivamente
e di misurarla. Nessuno contesta la complessità dei fenomeni che si evocano con il termine
«Intelligenza»: è chiaro che la psicologia non può che fornirne delle rappresentazioni parziali e
approssimative (è così anche per molti aspetti del reale che non riguardano la psicologia).il vero problema è
sapere se queste rappresentazioni siano o no suscettibili di miglioramento: le discipline empiriche, e questo
è il fondamento della loro esistenza, sono impegnate ad ottener misure sempre più soddisfacenti. I test
sono stati oggetto di critiche in seno alla psicologia stessa. Queste sono di due tipi: riguardano sia la portata
delle osservazioni, e sono allora di ispirazione «comportamentista», sia il loro significato, e sono allora di
ispirazione «cognitivista». Se il soggetto viene caratterizzato dalla sua performance al test, ciò vale per un
ampio insieme di situazioni (intendendo che il test è collocabile su un'ampia dimensione) o per un gruppo
circoscritto di situazioni prossime a quella del test (e allora è collocabile su una dimensione ristretta)? Se si
considera che il comportamento degli individui si esprime principalmente attraverso le proprietà delle
situazioni in cui essi sono inseriti e per gli apprendimenti specifici che hanno avuto l'occasione di realizzare,
li si potrà distinguere solo relativamente a queste situazioni e apprendimenti specifici.
Si potrà parlare allora di differenze di intelligenza, ma soltanto per una situazione data o un gruppo di
situazioni simili. I test d'intelligenza intendono invece spesso caratterizzare i soggetti in maniera generale. Si
può quindi, in questa prospettiva, ritenerli delle generalizzazioni improprie. Nell'ambito di questa critica
generale, è stato talvolta sottolineato il carattere scolastico delle situazioni test, particolarmente evidente
con i test carta e matita. L'intelligenza misurata dai test sarebbe allora un'intelligenza scolastica, messa in
atto da individui isolati in situazioni artificiali. La critica può anche riguardare il significato delle
performance osservate. Questo tipo di critica sottolinea le ambiguità delle performance individuali rilevate
alla somministrazione di un test. È vero che i test classici ci forniscono soltanto informazioni sulla
performance del soggetto. Una stessa performance non avrà necessariamente lo stesso significato se è
ottenuta mettendo in atto processi mentali diversi. Di conseguenza, l'informazione fornita dai test perderà
parte del suo interesse, Queste critiche, diversamente da quelle filosofiche, sono interne al campo della
psicologia. L così possibile tenerne conto nella costruzione dei test. Nel capitolo precedente abbiamo
riferito di due sostanziali evoluzioni in materia di misurazione dell'intelligenza: il passaggio da concezioni
unidimensionali a concezioni pluridimensionali e la considerazione dei, processi cognitivi responsabili
dell'elaborazione della risposta. Quest'ultima tendenza è stata evocata a proposito della valutazione dei
processi sequenziali e simultanei nel K-ABC. Essa è ancora più sviluppata all'interno di un filone di ricerca
che tenta di costruire modelli dei processi cognitivi che il soggetto mette in atto nella risoluzione degli item

25
lOMoARcPSD|7819776

del test. Un esempio di lavoro realizzato in questo ambito di ricerca è stato descritto alla fine del capitolo 2
a proposito delle componenti del processo di soluzione degli item delle Matrici Progressive di Raven.
Il terzo tipo di problema riguarda le funzioni che i test possono rivestire nella nostra società e concerne
principalmente le questioni relative all'inserimento sociale degli individui e le conclusioni
sull'organizzazione della vita sociale che si possono trarre dalle osservazioni fatte per mezzo dei test. Il
problema è stato sollevato principalmente da valutazioni che si pongono nel campo delle politiche
educative (come interpretare le diseguaglianze in materia di educazione? come organizzare il sistema di
formazione?) e secondariamente da problemi di lavoro o di impiego. Queste domande conducono ad
alcune osservazioni politiche. Due temi ritornano costantemente: quello dell'equità delle differenziazioni
operate dai test e quello delle origini delle differenze individuali, tra cui la questione del ruolo dell'eredità.
Dopo aver richiamato qualche dato storico, esamineremo la forma assunta dal dibattito e dalle polemiche
sulla funzione sociopolitica dell'impiego dei test negli Stati Uniti, nell'ex Unione sovietica e in Francia.

1.2. La nascita dei test e la loro diffusione


I test sono nati dall'incontro tra una domanda sociale e una necessità della psicologia scientifica. Fin dalla
loro origine ci si può quindi interrogare sulle loro funzioni sociali e sui loro fondamenti scientifici. Alla fine
del XIX secolo e all'inizio del XX, la necessità di disporre di procedure di valutazione dell'efficienza cognitiva
degli individui si manifesta in numerosi settori della vita sociale. Questa domanda è apparsa dapprima,
all'inizio del XIX secolo, in alcuni asili che accoglievano i ritardati mentali gravi, dove si cominciava a nutrire
preoccupazione riguardo-alla loro educazione. La richiesta diagnostica era motivata dal desiderio di
ottenere delle stime dei livelli di deficit, al fine di affinare i metodi di riabilitazione e di costituire gruppi
omogenei. Apparve più tardi anche nelle scuole con l'estensione dell'insegnamento primario. Un po' più
tardi, l'esigenza di misure di questo tipo si manifestò nelle fabbriche. Si trattava di migliorare le procedure
di reclutamento degli operai, non soltanto al fine di aumentare la produzione ma anche la sicurezza (le
prime indagini riguardarono i conducenti dei tram). L'orientamento professionale apparirà sulla scia dei
primi tentativi di selezione professionale al fine di poter disporre di valutazioni delle abilità che
consentivano un buon adattamento alla professione. Tra queste abilità ce ne sono alcune che
contribuiscono a determinare l'intelligenza. Con Binet, il lavoro sui test resta circoscritto a finalità educative
essenzialmente legate all'educazione speciale e all'insegnamento primario. La partecipazione degli psicologi
alla preparazione dell'esercito americano, in seguito al coinvolgimento degli Stati Uniti nella prima guerra
mondiale nel 1917, avrebbe stimolato una considerevole estensione del lavoro sui test. Test collettivi
furono costruiti e proposti a più di tre milioni di reclute che furono di conseguenza, sulla base dei risultati
ottenuti ai test, destinati a funzioni diverse nell'esercito. Vennero messe a punto procedure speciali per il
reclutamento di piloti e di personale necessario al buon funzionamento dell'esercito. Il fatto che gli
americani si fossero trovati tra i vincitori del conflitto fu considerato di conseguenza una sufficiente
validazione dei test! All'indomani della guerra, i test cominciarono ad essere utilizzati in quasi tutti i settori
della società: nelle scuole secondarie e nelle università, nelle imprese e nelle amministrazioni, nel mondo
giudiziario, e naturalmente si continuò ad utilizzarli nell'esercito. Benché con minore ampiezza che negli
Stati Uniti, il lavoro e l'interesse per i test (si parla di psicotecniche) si sviluppò anche nella maggior parte
dei paesi industrializzati. In Europa, l'Inghilterra è il paese che mostrò il maggior interesse (i test
cominciarono ad essere utilizzati negli anni Venti). Ma questo sviluppo e i dibattiti che lo accompagnarono
assunsero forme differenti a seconda dei paesi.

1.3. I dibattiti sui test di intelligenza negli Stati Uniti: eredità e influenze culturali
Nel periodo tra le due guerre, i dibattiti sui test riguardarono le conclusioni da trarre dai risultati osservati
nel gigantesco testing del 1917 (i risultati furono pubblicati nel 1921). Le differenze tra gruppi, osservate
come è noto tra neri e bianchi, furono sistematicamente interpretate come delle differenze ereditarie. La
superiorità media ai test dei neri del nord rispetto a quelli del sud, ad esempio, non venne interpretata in
relazione a fattori ambientali piuttosto evidenti come il tasso di scolarizzazione. Si preferì inventare la tesi
delle migrazioni selettive secondo la quale i neri più intelligenti del sud sarebbero emigrati al nord.
L'applicazione di norme per lo meno discutibili conduceva a concludere che il 37% della popolazione aveva
un ritardo mentale! Queste affermazioni erano ben lontane dall'essere irrilevanti, ma diedero
lOMoARcPSD|7819776

argomentazioni agli eugenisti, che raccomandavano restrizioni della vita sessuale dei ritardati mentali
nonché la loro sterilizzazione, agli xenofobi, partigiani di una politica di immigrazione selettiva, e ai razzisti.
Se il punto di vista «ereditarista» era maggioritario, non c'era tuttavia unanimità tra gli psicologi, da cui
derivarono una serie di controversie. La più viva oppose, nel 1922-1923, Terman, adattatore del test di
Binet e partigiano delle tesi ereditari te che abbandonerà qualche anno più tardi, e Lippman. Lippman non
metteva in discussione l'interesse dei test di intelligenza, ma criticava severamente la soglia scelta per
definire il ritardo mentale e, soprattutto, affermava che l'intelligenza non poteva essere valutata
indipendentemente dagli apprendimenti e rifiutava perciò l'idea di un'intelligenza «pura», una sorta di
sostanza misteriosa impermeabile alle influenze educative. Molte delle polemiche e dei dibattiti successivi
non hanno fatto che riprodurre questo contrasto iniziale. Si può notare che tutte queste discussioni
riguardano i test di intelligenza, e più in particolare i test collettivi, indipendentemente dalla
standardizzazione utilizzata che diventa del tutto secondaria. Ora, dato che i risultati ai test sono nella
maggior parte dei casi espressi in quoziente intellettivo, si è arrivati a credere, soprattutto attraverso i
media, che è il QI a dover essere criticato, anche nel momento in cui i problemi sono gli stessi che si utilizzi
o meno la nozione di QI. Le critiche di Lippman non riguardavano i test, ma soltanto l'interpretazione delle
osservazioni fatte per mezzo (lei test. All'indomani della seconda guerra mondiale, si svilupparono invece
critiche che riguardavano i test stessi. Eels e colleghi nel 1951, sociologi di Chicago, misero in discussione
l'imparzialità apparente dei test. Essi sostenevano che i bambini degli ambienti popolari non sono
necessariamente meno intelligenti dei bambini delle classi agiate ed è piuttosto evidente che i test, per il
loro contenuto familiare ai bambini delle classi agiate, favoriscono questi bambini a svantaggio di quelli
delle classi popolari.
Eels e colleghi, per validare la loro tesi, esaminarono i test allora in uso e tentarono di costruire un test
“socialmente equo” impresa che alla fine si sarebbe rivelata quasi impossibile. La critica di Eels e colleghi fu
all'origine di un'importante corrente di ricerca sulle influenze culturali nei test sulla quale torneremo in
seguito. Il dibattito sul ruolo dell'ereditarietà nella spiegazione delle differenze individuali è un dibattito
permanente. L'anno 1969 ne segna un momento di grande forza. Ci si interroga sull'efficacia dei grandi
programmi socioeducativi promossi per la lotta contro la povertà e per l'integrazione delle minoranze nere
e ispaniche. Fu allora che uno psicologo dell'Università di Berkeley, Arthur Jensen, pubblicò un lungo
articolo in cui tentò di mostrare che:
1. I programmi socioeducativi non sono efficaci;
2. L'intelligenza e il successo scolastico nella popolazione bianca sono determinati principalmente dalla
componente ereditaria;
3. Anche le differenze di prestazione tra bianchi e neri a scuola e nei test si spiegano attraverso la
componente ereditaria, non rimane quindi, secondo Jensen, che mettere fine ai programmi
socioeducativi.
In altri scritti, Jensen sviluppò l'idea che ci siano due forme di intelligenza, l'una nobile e creativa, l'altra
semplicemente associativa, che queste forme di intelligenza siano determinate dall'eredità, che la prima sia
più frequente nella popolazione bianca mentre l'altra in quella nera, e che quindi sia opportuno prevedere
due modalità di insegnamento. Jensen ricevette qualche parere a sostegno della sua ipotesi: è noto quello
di Eysenck, uno psicologo che fu per lungo tempo la personalità più rappresentativa della scuola
psicometrica inglese, di tradizione galtoniana. Le sue tesi, comunque, che ancora una volta non
riguardavano i test ma la loro interpretazione, ebbero tra gli psicologi un'attenzione limitata (in Francia, ad
esempio, nessuna personalità conosciuta nel mondo della psicologia assunse pubblicamente la posizione eli
Jensen).
Un altro periodo intenso nel dibattito sul ruolo dell'ereditarietà nell'origine delle differenze individuali è
stato quello relativo alla pubblicazione nel 1994 di The Bell Curve con la firma di Herrnstein, uno psicologo
che aveva già mostrato il suo sostegno a Jensen nel 1971, e di Murray, un esperto di scienze politiche.
Questi autori hanno riattualizzato le posizioni di Jensen affermando che la differenziazione sociale, negli
Stati Uniti operava su una base cognitiva e che le differenze cognitive tra individui e tra gruppi erano
largamente dipendenti dal patrimonio ereditario. Le posizioni difese da Jensen, Herrnstein e Murray sono
espressione di un certo darwinismo sociale. Esse affermano che le diseguaglianze sono naturali; non vale
quindi la pena di cercare di riformare la società per ridurle, ma è preferibile organizzarla di conseguenza.

27
lOMoARcPSD|7819776

Queste posizioni poggiano su due postulati: il carattere unidimensionale (che consente di farla coincidere
con la stratificazione sociale) e il ruolo massiccio delle determinanti ereditarie. Oggi è ben chiaro che
l'intelligenza è pluridimensionale e che, tenuto conto dei fenomeni di interazione tra il patrimonio genetico
e i fattori ambientali, non ha senso cercare di quantificare il peso rispettivamente dell'eredità e
dell'ambiente nel determinare le differenze individuali. Malgrado i tentativi di un certo numero di mezzi di
informazione di importare queste polemiche, esse ebbero un'eco relativamente debole in Europa dove, in
generale, per ragioni sia storiche sia sociologiche, le relazioni tra le comunità sono viste in termini
radicalmente diversi. Si può anche notare, e ci ritorneremo, che l'uso dei test è molto più limitato nel
sistema scolastico europeo (francese ed italiano, ad esempio) e che, soprattutto, le pratiche di selezione
non sono fondate sui test di intelligenza, ma in particolare sui risultati scolastici.

1.4. I test in Unione Sovietica: dall'entusiasmo al rifiuto


All'indomani della rivoluzione d'ottobre il governo sovietico incoraggiò lo sviluppo delle psicotecniche,
considerate come una disciplina scientificamente fondata e del tutto adatta a contribuire alla costruzione
del socialismo. Nel 1931 si tenne a Mosca il settimo congresso di psicotecnica e i congressisti occidentali
rimasero impressionati dagli strumenti di cui vennero a conoscenza e invidiarono i mezzi di cui disponevano
i loro colleghi sovietici che operavano in completo accordo Con il governo del loro paese avendo coscienza
di partecipare alla costruzione di una psicologia, marxista. Ma questa bella armonia non sarebbe durata.
Dall'inizio degli anni Trenta cominciarono a nascere critiche contro i test e diventarono via via sempre più
vive. Nel 1936 una risoluzione del comitato centrale del partito comunista relativa ai «cambiamenti nei
commissariati dell'educazione» vietò molto semplicemente i test. Vennero forniti due tipi di giustificazione.
Le prime riguardavano quelli che si potrebbero chiamare gli effetti perversi dei test nel sistema educativo.
Si rimproverava infatti agli psicologi dell'età evolutiva clic utilizzavano test di essere responsabili del
moltiplicarsi delle classi speciali e di aver preso il potere nelle scuole a danno degli insegnanti. Le seconde,
di gran lunga le più importanti, erano esclusivamente di ordine ideologico. Le ricerche sui test e la pratica
psicotecnica furono giudicate incompatibili con il marxismo e di conseguenza «borghesi» e
«antiscientifiche» (come la genetica mendeliana, la fisica quantistica e la psicoanalisi). La legislazione che
organizzava il lavoro degli psicologi venne soppressa, l'insegnamento dei test abolito e i libri sull'argomento
distrutti. Gli animatori del movimento dei test scomparvero dalla scena. Interi filoni della psicologia
sovietica furono infatti liquidati e non rimase che un pavlovismo ufficiale che riduceva lo studio del
comportamento alla possibilità di evidenziarne il condizionamento. I test riapparvero in Unione Sovietica
negli anni Settanta. Questa critica ideologica dei test sarebbe stata ripresa anche in Francia da numerosi
intellettuali, particolarmente psicologi appartenenti al movimento comunista.

1.5. .11 dibattito sui test in Francia: la «giusta selezione» e la legittimazione delle diseguaglianze.
Il movimento dei test in Francia fu influenzato da due forti personalità: Alfred Binet ed Edouard Toulouse.
L'influenza di Binet, scomparso prematuramente nel 1911, si è essenzialmente esercitata attraverso il suo
test. Quella di Toulouse, benché egli fosse meno conosciuto, è stata ben più profonda. Toulouse (1865-
1947) era uno psichiatra che nel corso della sua vita condusse ricerche fondamentali (particolarmente sul
rapporto tra il genio e la neuropatia) e creò numerosi laboratori, proponendo soluzioni ai problemi sociali
(in particolare nell'ambito della salute mentale). Toulouse era un appassionato sostenitore dei metodi
oggettivi, quindi dei test. Preoccupato di spiegare i comportamenti a partire dai fenomeni psicologici
elementari e dalla fisiologia, egli aderì alle posizioni riduzioniste adottate dalla maggior parte degli psicologi
all'inizio del secolo (ad eccezione di Binet). I primi test elaborati da Toulouse e dai suoi collaboratori nel
1904, che assomigliavano molto alle situazioni che si incontravano nei laboratori di psicologia sperimentale,
riguardavano la valutazione dei processi psicologici elementari. Toulouse era anche profondamente
impegnato nella sua epoca e propose delle riforme ispirate alla filosofia positivista che riprendevano le
rivendicazioni egualitarie dei movimenti sociali del momento.
Fino agli anni Quaranta e Cinquanta, alcuni allievi di Toulouse, Henri Laugier, Jean Maurice Lahy, Henri
Pieron, furono i più ardenti promotori della psicotecnica (Huteau 1961). Per Toulouse e i suoi allievi
l'utilizzo dei test non era solo un mezzo per razionalizzare la vita sociale, ma anche per promuovere di più la
giustizia. Essi erano convinti che gli psicotecnici dovessero giocare un ruolo di esperti nell'ambito del lavoro,
lOMoARcPSD|7819776

determinando per mezzo dei test le abilità necessarie all'esercizio delle professioni, orientando le politiche
di formazione professionale, riformando le condizioni di lavoro e indagando sulle cause degli scioperi.
L'obiettivo prefisso era quello di ripartire più equamente il «compito sociale» tra gli operai e i padroni.
Toulouse e i suoi allievi videro anche in un orientamento professionale fondato su misure di abilità un
mezzo per correggere le diseguaglianze di accesso all'educazione. Più sostanzialmente, essi si proclamarono
senza riserve per una scuola unica (fino alla seconda guerra mondiale ci furono infatti due scuole: la scuola
primaria, con un proseguimento alla scuola primaria superiore, frequentata da bambini di origine popolare,
e le classi primarie dei licei con il liceo come proseguimento naturale, riservate ai bambini delle classi
agiate) e proposero, all'uscita da un «tronco» comune, «una giusta selezione» fondata su misure di abilità
oggettive. Negli anni Venti e Trenta vennero presentate numerose proposte di legge per organizzare il
sistema di insegnamento in questa prospettiva. L'uso dei test in questo modo proposto, dall'inizio del
secolo all'indomani della seconda guerra mondiale, s'inscrive nel quadro di una politica rivolta a riformare
in senso progressista il sistema sociale. Ciò spiega il fatto che i test siano stati percepiti come strumenti al
servizio del progresso sociale nel movimento sindacale e nel movimento socialista, e come tecniche
pericolose, di cui si contestava la validità, nell'ambiente borghese conservatore. Questi dibattiti non
avevano molto a che vedere con quelli che si stavano sviluppando pressoché nello stesso momento
oltreoceano. Malgrado il loro ardore, Toulouse e i suoi allievi non riuscirono se non parzialmente ad
imporre il proprio punto di vista. Certamente i test furono sempre più utilizzati nella selezione e soprattutto
nell'orientamento professionale, ma la selezione scolastica continuò ad avvenire precocemente e su una
base sociale. Il progetto psicotecnico rimase un'utopia. All'indomani della seconda guerra mondiale, il
paesaggio cambiò radicalmente: le critiche più vive rivolte ai test non vennero più dai settori conservatori
dell'opinione pubblica ma dagli intellettuali e dagli psicologi membri o simpatizzanti del partito comunista,
che trovavano perfettamente giustificate le misure prese in Unione Sovietica nel 1936 (gli echi e le
influenze di questo dibattito si sarebbero fatti sentire anche in Italia). I test vennero presentati come un
mezzo «per confermare, per legittimare, e anche per far accettare le diseguaglianze dell'ordine sociale».
Mettendo in primo piano la funzione ideologica attribuita ai test, non si insisteva sul fatto che lo scarto tra
bambini cresciuti in ambienti favorevoli o sfavorevoli fosse minore con i test che con i voti scolastici. Gli
psicologi degli anni Trenta che pensavano di contribuire al progresso sociale promuovendo l'uso dei test
vennero considerati degli idealisti ingenui. Intorno al 1.968 numerose opere avrebbero ripreso queste tesi,
attenuandole o radicalizzandole.
Come negli Stati Uniti, in Gran Bretagna questi dibattiti e polemiche riguardarono soprattutto la scuola e la
selezione scolastica. Ma a differenza di ciò che si è visto in questi due paesi, in Francia e in Italia essi hanno
mantenuto un carattere accademico e astratto che deriva dall'assenza di un vero scopo sociale. Si trattava
cioè di mettere in gioco delle questioni ideologiche piuttosto che delle pratiche sociali. In effetti, in Francia i
test non sono mai stati utilizzati come mezzo di selezione scolastica (ad eccezione dell'insegnamento
«speciale» per i portatori di handicap). I test sono stati massicciamente utilizzati nell'insegnamento
secondario dalla fine degli anni Cinquanta all'inizio degli anni Ottanta, ma gli orientamenti sono sempre
stati basati sulla valutazione scolastica. I dibattiti più vivaci sui test, quelli condotti da un punto di vista
sociopolitico, non riguardavano i test come metodi di osservazione, bensì l'origine delle differenze
individuali e l'equità delle procedure di inserimento sociale. Queste domande non ebbero risposte
scientifiche soddisfacenti, primo perché le conoscenze scientifiche non erano sufficienti, e secondo perché
la questione riguardava una scelta di valori, che ha suscitato dibattiti con una forte componente ideologica,
opponendo concezioni globali dell'uomo e della società. Da allora, non è sorprendente che questi dibattiti
non si siano conclusi e che a seconda del contesto socio-storico abbiano preso forme diverse.

1.6. Il dibattito sui test in Italia


La discussione sui test di intelligenza è notoriamente stata associata a dibattiti sulle differenze in razze
diverse, in uomini e donne, in individui di ambienti differenti, e anche in Italia è stata condotta, sia pur in
maniera meno massiva che in altri paesi, sul fondamento dell'uso dei test. Soprattutto negli anni successivi
al 1968, i test di intelligenza venivano messi in discussione in quanto strumenti utilizzati dalla società
«borghese», e venivano attaccati proprio per questa ragione. In quegli anni, per esempio, il sistema
educativo italiano si era organizzato in modo sistematico.

29
lOMoARcPSD|7819776

Prevedendo classi diverse non solo per bambini con gravi difficoltà, ma anche per bambini con difficoltà più
lievi che tuttavia sembravano abbisognare cli un percorso educativo particolare. Si, parlava nel primo caso
di classi speciali e nel secondo caso di classi differenziali. Per le classi speciali era prevista una diagnosi
basata sostanzialmente sui test di intelligenza; per le classi differenziali questo uso era meno diffuso, ma
poteva comunque essere presente. E noto che le classi speciali e le classi differenziali costituivano una
modalità di isolamento e di ghettizzazione di certi bambini. In Italia si era infatti sviluppato un movimento
pionieristico contro questa segregazione, e quindi contro uno degli strumenti cli questa segregazione, il test
di intelligenza. Tra l'altro a quell'epoca si rilevava come esistesse una chiara relazione tra svantaggio
socioculturale e basso punteggio ai test di intelligenza. Questo tipo di rapporto era stato trovato non solo in
altri paesi del mondo ma anche in e aveva appunto portato alla sottolineatura dei test «culture fair» per i
quali la valenza socioculturale era meno presente. Un particolare caso, localizzato ma estremamente
interessante, di questa attività di segregazione svolta usando il nome di prestigio di una cosiddetta scienza,
è rappresentato dalla discriminazione operata sulle comunità culturali. Se questo può essere avvenuto in
Italia su bambini particolarmente svantaggiati o su bambini di minoranze culturali e linguistiche, la
discriminazione più clamorosa riguardò invece i bambini figli di italiani che erano all'estero. Alcuni studiosi
italiani rilevavano come i figli di italiani in Germania finissero quasi tutti in classi che avevano le
caratteristiche simili alle classi speciali o differenziali italiane proprio in base al fatto che avevano ottenuto
punteggi bassi ai test di intelligenza. Emerse in modo evidente che i test di intelligenza erano fortemente
caratterizzati dal punto di vista linguistico e i bambini che non conoscevano bene la lingua tedesca
chiaramente fallivano. Era molto amaro constatare che uno strumento nato per fini di sviluppo di
conoscenze offrisse una modalità per emarginare minoranze non gradite. In seguito a questi eventi ci
furono molte iniziative in Italia contro i test di intelligenza, comparvero diversi lavori sia in libri sia in riviste
scientifiche non solo riferite alla comunità strettamente psicologica, ma anche a comunità più ampie. Per
esempio la rivista «Sapere» pubblicò interventi contro questo uso dei test di intelligenza. Cadi, Padovani e
Trentini riconoscono due correnti di pensiero relative ai test di intelligenza all'interno della psicologia
sociale, l'una contraria, dei «clinici», e l'altra favorevole, degli «psicometristi». La critica ai test, che partiva
da fondamenti giusti ma chiaramente faceva riferimento solo a questi cattivi usi degli strumenti, si allargò a
tal punto che in quegli anni l'uso degli strumenti divenne sempre più raro e per parecchio tempo fu
considerato scientificamente inappropriato e anche politicamente reazionario fare riferimento al concetto
di intelligenza associato all'uso di strumenti. Oggigiorno le posizioni non sono più così estreme e la critica è
molto meno aspra. Il test ha acquistato di nuovo una valenza priva di connotazioni ideologiche che lo
definisce come strumento di diagnosi più o meno apprezzato nel campo della psicologia. Il problema a cui si
è più sensibili non è tanto la «bontà» o meno dell'utilizzo del test, ma l'uso corretto delle informazioni che
fornisce.

2. Le pratiche attuali
In diversi paesi del mondo i test di intelligenza sono utilizzati con obiettivi abbastanza differenti nei tre
grandi settori di applicazione della psicologia: ambito educativo, sanità e lavoro.

2.1. L'utilizzo dei test di intelligenza in ambito educativo


Quando l'importanza dei problemi lo giustifica, lo psicologo può fare un esame psicologico del bambino,
chiedendo naturalmente l'autorizzazione ai genitori. L'esame psicologico comporta in generale numerosi
elementi, variabili secondo la natura del problema posto: colloqui con i genitori, colloqui con il bambino,
test di conoscenza scolastica, prove di personalità, ecc. Tra questi elementi, i test di intelligenza occupano
un posto preponderante, specialmente per l'uso di scale a somministrazione individuale. In ambito
scolastico in Italia i test di intelligenza veri e propri non sono largamente utilizzati, soprattutto quando
vengono presentati come tali, per la diffidenza che esiste in relazione alla misurazione dell'intelligenza e
anche per l'indicazione spesso presente di evitare di pervenire a misure che riguardano la sfera più
personale dello studente. Questa situazione però cambierà con l'introduzione dello psicologo scolastico che
potrebbe essere incaricato di mansioni più strettamente psicologiche e anche impegnato ad esami
approfonditi dello studente. D'altra parte già adesso nell'ambito della scuola figure quali lo
psicopedagogista o lo psicologo in convenzione possono collaborare nella raccolta di informazioni relative
lOMoARcPSD|7819776

ad abilità cognitive specifiche che in qualche modo costituiscono componenti dell'intelligenza. Per esempio
in alcuni casi è stato usato il test di intelligenza PMA che offre informazioni relative a componenti distinte,
fattorialmente isolate, dell'intelligenza quali il ragionamento, le abilità visuo-spaziali, le competenze
semantiche, ecc. Inoltre i Servizi che collaborano con la scuola sono spesso chiamati a esami dei bambini
che coinvolgono la misurazione dell'intelligenza. Per esempio per la diagnosi cli handicap mentale si
procede di routine a una valutazione dell'intelligenza per vedere se effettivamente il bambino presenta un
potenziale intellettivo che è al di sotto del valore critico di soglia (di solito posto a 70). Similmente, per la
valutazione dei disturbi specifici di apprendimento, quali per esempio la dislessia, la discalculia, i disturbi di
attenzione, si procede di routine ad escludere la possibilità che le difficoltà del bambino siano associate ad
un deficit intellettivo vero e proprio. Sia per la diagnosi di ritardo mentale, sia per la diagnosi di disturbo
specifico di apprendimento, si procede pertanto alla valutazione dell'intelligenza e lo strumento più
utilizzato in questo caso è costituito dalla scala WISC. In Francia le più utilizzate sono le scale di Wechsler, le
più note anche in Italia (WPPSI a livello prescolare e WISC a livello di scuola elementare), la nuova scala
metrica dell'intelligenza (adattamento del test Binet-Simon ad opera di R. Zazzo e collaboratori) e, molto
più raramente, scale ispirate alla teoria piagetiana o il K-ABC.
I risultati a questi test sono interpretati nel quadro di una diagnosi clinica, messi in relazione all'insieme di
informazioni raccolte nel corso dell'esame psicologico. Le informazioni fornite dal test di intelligenza si
rivelano particolarmente utili nel momento in cui lo psicologo vuole sapere se le difficoltà incontrate dal
bambino sono riferibili ad un ritardo globale dello sviluppo intellettivo o a dei disturbi strumentali più
specifici, ad esempio disturbi nell'apprendimento della lettura, della scrittura o del calcolo, o ancora a dei
disturbi relazionali, con la famiglia o l'insegnante. Le indicazioni numeriche come il QI o la posizione nel
gruppo di età danno dei riferimenti il cui significato dipende da altri elementi raccolti nel corso dell'esame,
ma anche da osservazioni fatte nel corso della somministrazione del test di intelligenza: atteggiamento di
fronte alla novità, atteggiamento di fronte al fallimento, reazioni emotive, comunicazione, ecc. Le soluzioni
proposte dallo psicologo per ridurre í problemi che hanno portato alla consultazione possono essere
semplici consigli agli insegnanti o ai genitori, indicazioni di rieducazione o sostegno appropriato ai disturbi
specificamente diagnosticati (dislessia, discalculia, disturbi psicomotori, ecc.), operati da un gruppo di
lavoro (comprendente lo psicologo, riabilitatori e insegnanti di sostegno che intervengono in un settore
scolastico). In Francia, mediante i test viene valutata l'ammissione a classi di insegnamento speciale
(mentre in Italia le classi speciali sono state quasi completamente abolite e il punteggio di QI è stato invece
spesso utilizzato per l'assegnazione al bambino di un insegnante di sostegno). L'inserimento in classi
speciali è valutato in Francia da una commissione dipartimentale per l'insegnamento speciale, o da un
organo locale, che ha come interlocutori i genitori dell'allievo. I risultati ai test di intelligenza, interpretati
dagli psicologi scolastici, sono uno degli elementi determinanti su cui la commissione si basa per valutare
l'opportunità di inserimento in una classe speciale. La domanda sociale che aveva motivato Binet a
costruire il primo test di intelligenza esiste ancora oggi e i test che discendono da quella prima scala di
intelligenza rispondono tuttora a quella domanda. La questione dell'utilizzo dei test di intelligenza si pone in
modo del tutto diverso nell'ambito dell'orientamento scolastico e professionale. In Francia si contano circa
4.000 esperti di orientamento-psicologi che intervengono soprattutto nell'insegnamento secondario. Il loro
compito principale è di aiutare i giovani a decidere riguardo al proprio futuro scolastico e professionale.
Questo aiuto nella formazione delle scelte e nella decisione avviene, ben inteso, con l'apporto di
informazioni sulla rete scolastica, le professioni, il mercato del lavoro, ma anche con l'apporto di
informazioni utili a far prendere coscienza al soggetto stesso delle proprie potenzialità e dei propri
interessi. Tra le differenti tecniche che il consiglio di orientamento può utilizzare per raccogliere
informazioni relative a questi ultimi aspetti (passatempi, questionari sugli interessi, scale di maturità
«vocazionale», ecc.) figurano anche i test di intelligenza, il cui utilizzo in questo ambito è divenuto tuttavia
piuttosto marginale. Non è comunque sempre stato così. I test sono stati utilizzati in modo piuttosto
massiccio e sistematico dai «consigli sull'orientamento» in un periodo che va dalla metà degli anni
Cinquanta circa agli inizi degli anni Ottanta. Questo periodo è stato quello dell'estensione
dell'insegnamento secondario a fasce sempre più numerose di giovani. Sulla linea di idee della «giusta
selezione» che hanno ispirato lo sviluppo della corrente psicometrica nella scuola francese, ci si è serviti dei
test di intelligenza per individuare tra gli studenti i cui risultati scolastici lasciavano a desiderare quelli con

31
lOMoARcPSD|7819776

scarse possibilità di successo nella scuola secondaria. I test utilizzati erano batterie fattoriali collettive del
tipo della batteria PIVI A che è stata presentata nel capitolo precedente. Questo impiego massiccio dei test,
motivato da buone intenzioni, si è rapidamente trasformato in abuso, con l'apparizione, ad esempio nella
regione parigina, dei mezzi informatici di correzione. Si è verificato che gli esperti di orientamento
passavano da una classe all'altra con le loro valigie di test collettivi, inviando i protocolli al centro di calcolo
del servizio accademico, e ricevendo indietro delle liste che fornivano per ogni allievo un profilo di abilità.
Ciò da una parte portava ad annientare il numero di casi esaminati, dall'altra si perdeva in ricchezza di
informazioni raccolte su ogni individuo e la discussione con gli insegnanti avveniva su una base Molto
povera. Emerse presto che l'accordo tra esperti di orientamento e insegnanti sull'interesse dei test, quando
esisteva, poggiava spesso su un malinteso. Mentre gli esperti di orientamento cercavano di rivedere í casi di
disaccordo tra i risultati ai test e i risultati scolastici, gli insegnanti si soffermavano sui casi di accordo molto
più numerosi nei quali vedevano una legittimazione della classificazione scolastica. Questa pratica
sistematica dei test collettivi di abilità è diminuita rapidamente a partire dalla fine degli anni Settanta per
scomparire poi quasi completamente. Il movimento di contestazione dei test ha senza dubbio giocato un
ruolo importante in questo rapido riflusso, tanto più che l'organizzazione degli esami collettivi era
effettivamente suscettibile di critiche da numerosi punti di vista. Ma in particolare questo riflusso ha
coinciso con una profonda ristrutturazione del ruolo dell'esperto di orientamento. Da un lato, la ricerca di
talenti nascosti non aveva più interesse a partire dal momento in cui si era acquisita la generalizzazione
dell'insegnamento secondario; dall'altro, gli esperti di orientamento si sono sempre più identificati in una
funzione educativa di aiuto allo sviluppo personale e alla formazione delle scelte.

2.2. L'utilizzo dei tesi di intelligenza in ambito sanitario


In ambito sanitario, in tutto il mondo, è frequente l'utilizzazione dei test di intelligenza, al fine di ottenere
una informazione complessiva dell'efficienza intellettiva dell'individuo o per venire incontro a scopi
specifici. Si è già menzionato, in relazione all'ambito scolastico, come i Servizi sociosanitari possano essere
impegnati in una valutazione dell'intelligenza che permetta di meglio riconoscere le caratteristiche
sottostanti ad una difficoltà di apprendimento. Per quanto concerne l'ambito dell'adulto, in tutti i casi in cui
il funzionamento cognitivo di un individuo pone delle problematiche, può essere opportuno associare una
valutazione intellettiva, e questo può per esempio riguardare le difficoltà che presentano certi anziani, per
meglio comprendere la natura di un eventuale deterioramento senile. In questo caso ai classici test di
intelligenza si associano test più semplici e direttamente finalizzati all'esame dell'anziano. Per esempio, una
procedura rapida che permette di riconoscere la permanenza di certe funzionalità cognitive, anche in
presenza di un indubbio deterioramento, è rappresentata dal Mini-Mental State che offre una informazione
complessiva sullo stato dell'anziano e viene utilizzato di frequente nella realtà psichiatrica italiana, proprio
per le sue caratteristiche di semplicità d'uso e rapidità. Obiettivi ed esigenze analoghe possono presentarsi
infatti in ambito psichiatrico ove spesso si è ricorso, e si ricorre tuttora, alla raccolta di informazioni sullo
stato generale del paziente, valendosi anche del test di intelligenza. Anche in questo caso lo strumento
conseguente alle procedure ideate da Wechsler, si tratta allora del WAIS, può essere di ampia utilizzazione.
In ambito più strettamente neo psicologico esiste una marcata preferenza per una diagnosi che si riferisca
alla specifica lacuna del soggetto, che spesso è ben localizzabile o comunque dissociabile da altre
componenti intellettive che invece hanno un buon funzionamento. Tuttavia anche in questo caso un esame
di fondo può prevedere l'uso di un test di intelligenza. In Italia e in Francia si contano diverse migliaia di
psicologi attivi in ambito sanitario. Hanno una specializzazione in psicologia clinica e intervengono in vari
quadri istituzionali: ospedali psichiatrici, ospedali generali, associazioni, collettività territoriali (ad esempio,
circoscrizioni sanitarie e sociali), case di cura private, istituzioni giudiziarie, ecc. Nel settore psichiatrico, le
consulenze a livello dell'età evolutiva hanno spesso origine da problemi di adattamento scolastico.
L'impiego di test di intelligenza nell'esame psicologico assume allora le stesse funzioni che per gli psicologi
scolastici. Nelle consulenze con adulti, l'esame psicologico avviene in ambito psichiatrico. L'inclusione di
test di intelligenza nell'esame psicologico può essere motivata dal problema diagnostico incontrato. Si può
ad esempio operare una distinzione tra turbe psichiche e ritardo mentale generale, definire un ipotetico
deterioramento mentale in una persona anziana, conoscere la misura in cui l'evoluzione di un disturbo
psichiatrico ha colpito la funzionalità intellettiva, ecc. Lo psicologo che compie l'esame può ricorrere a un
lOMoARcPSD|7819776

test di intelligenza per avere un'idea generale di come il soggetto si comporta di fronte a un compito da
risolvere, del modo con cui Io affronta, del suo atteggiamento di fronte alle difficoltà, delle sue reazioni
emotive. Nell'ambito non psichiatrico, i test di intelligenza vengono utilizzati nelle consultazioni di
neuropsicologia, tra i diversi strumenti impiegati per fare il bilancio dei danni neurologici conseguenti a
lesioni cerebrali. Nei servizi di medicina generale, essi possono essere utilizzati nel caso in cui si tratti di
valutare le eventuali ripercussioni di un disturbo somatico sullo sviluppo intellettivo (se ad esempio un
disturbo della crescita fisica ha o meno delle ripercussioni sullo sviluppo intellettivo del bambino). Un test
di intelligenza può anche aiutare a precisare la parte di realtà e la parte di sofferenza psicosomatica nel
caso in cui un paziente lamenti che le sue capacità intellettive non sono più come prima (e la diagnosi in
questi casi può diventare terapeutica). Nell'ambito giudiziario, un esempio di impiego dei test di
intelligenza è quello volto ad apprezzare la credibilità di una testimonianza. La varietà dei casi in cui i test di
intelligenza possono apportare informazioni utili nell'esame psicologico lascia pensare che il loro impiego
sia abbastanza frequente in ambito sanitario. Un'indagine recente condotta in Francia lo conferma. Tra gli
psicologi clinici interrogati, l'88% considera l'utilizzo dei test indissociabile dalla loro pratica. Tra i dieci test
più usati cinque sono test di intelligenza (la WISC, la WAIS, la WPPSI, il K-ABC e la scala di Brunet Lézine, che
è una scala di sviluppo per la prima infanzia). Questa situazione è del tutto simile a quella che si è potuta
osservare su scala mondiale in una ricerca riguardante i test più utilizzati in 44 paesi, dove è emerso che fra
i primi dieci test più utilizzati cinque sono di intelligenza: 1) \XTISC, 2) Matrici Progressive di Raven, 3) scala
Stanford-Binet, 4) test di attitudini differenziali, 5) WAIS, mentre gli altri cinque sono test di personalità. Il
movimento di critica dei test che ha caratterizzato gli anni Settanta aveva anche provocato una riduzione
nell'impiego di prove standardizzate, tra gli psicologi clinici. In questo ambito è stato essenzialmente sulla
base della psicoanalisi, sulla quale è principalmente fondata la psicologia clinica in Francia, che si è
sviluppato questo movimento critico. L'inchiesta a cui si è fatto riferimento in precedenza mostra che la
situazione è decisamente cambiata: «Per lungo tempo percepiti come gli strumenti servili della
classificazione a tutti i costi o come degli ostacoli inutili sulla via della relazione con l'altro, e quindi
considerati come «gli oggetti cattivi dello psicologo», i test nella nostra indagine sembrano aver ritrovato il
loro posto nell'attività valutativa quotidiana dello psicologo clinico».

2.3. L'utilizzo dei test di intelligenza nel lavoro Nell'ambiente del lavoro, i test sono talvolta utilizzati nel
corso di procedure di reclutamento o di orientamento, talora, più raramente, anche come aiuto nella
decisione sulle competenze. L'uso dei test di intelligenza in ambito lavorativo è ampiamente diffuso anche
in Italia. Per esempio, nella selezione del personale si ricorre frequentemente alla misura dell'intelligenza
generale, misura che si dimostra discretamente o altamente predittiva della capacità lavorativa della
persona che richiede di essere assunta, in base alla sottostante indicazione che persone più intelligenti
riescono comunque ad essere in generale, anche se non sempre, migliori lavoratori. Va aggiunto che in
processi di selezione meglio mirati non ci si basa su un'assunzione di abilità intellettiva generale unica, ma
invece sulla considerazione di abilità differenziate, nell'ipotesi che per certi compiti sia meglio che il
lavoratore presenti abilità in certe componenti e per altri in altre. Per esempio, se si deve assumere un
impiegato che deve essere abile nell'esaminare carte e nel produrre documenti, le abilità linguistiche
possono essere più importanti di quelle visuo-spaziali, cosa che al contrario può essere richiesta nella
selezione di operatori per mansioni come potrebbero essere quelle legate nell'orientamento nello spazio.
Due casi un po' a margine dell'ambiente di lavoro, che però costituiscono esempi significativi di utilizzazione
dei test di intelligenza, sono rappresentati dal mondo militare e dall'esame di guida. In ambito militare l'uso
dei test di intelligenza è stato sempre amplissimo, tanto che le somministrazioni più estese e le
standardizzazioni con elevati numeri di soggetti hanno interessato l'esercito. Anche l'esame di guida può
richiedere l'uso di test cognitivi, per valutare la capacità della persona ad affrontare situazioni particolari;
tuttavia in questo caso generalmente si sottolinea l'importanza di usare test più specificamente legati ai
compiti della guida, come per esempio prove di attenzione.
In Francia un caso interessante che mostra l'applicazione dei test al mondo del lavoro è quello che riguarda
le imprese di trasporti. In queste aziende, i test erano inizialmente utilizzati solo per il reclutamento degli
autisti o dei macchinisti. Negli anni Sessanta, in Francia, il loro utilizzo si è esteso al reclutamento per altre
mansioni di sicurezza, poi, negli anni Settanta, alle funzioni commerciali e infine al reclutamento per tutte le

33
lOMoARcPSD|7819776

mansioni. Questa rivoluzione della politica di reclutamento è avvenuta in completo accordo con i sindacati.
Da allora, í candidati all'impiego nelle ferrovie francesi (SNCF), che sono diverse migliaia ogni anno, sono
sottoposti a una batteria composta di test di intelligenza, test psicomotori e test di personalità. Questa
batteria viene proposta anche nel corso della carriera per ragioni di riorientamento o di promozione. I test
di intelligenza sono test fattoriali analoghi al PMA presentato nel capitolo precedente; corrispondono ai
fattori principali classicamente individuati nelle analisi fattoriali di compiti intellettivi: verbale, numerico,
spaziale, di ragionamento e percettivo. La batteria è composta anche da qualche test più specifico che
valuta l'efficienza in compiti di confronto, caratteristici di attività di ufficio, o in compiti di attenzione
(gestione simultanea di diversi stimoli) tipici di certi impieghi nel campo della sicurezza. La
somministrazione di queste prove è informatizzata e dura circa un'ora e trenta minuti. Questo tipo di
somministrazione ha vantaggi di flessibilità e consente una correzione automatica. La batteria è stata
standardizzata su un campione di 7.000 soggetti. La validazione non ha riguardato alcuna delle prove prese
singolarmente, ma la globalità della prova, più O meno favorevole al reclutamento in una mansione
specifica, che lo psicologo fornisce a partire dall'insieme delle informazioni raccolte. Per quanto riguarda i
test di intelligenza, lo psicologo si interessa solitamente dell'andamento del profilo di abilità e del suo
adeguamento alla funzione postulata. A titolo d'esempio, un profilo in cui dominano le abilità verbali è
giudicato più compatibile con le funzioni commerciali che un profilo nel quale queste abilità costituiscono
un punto debole. Profilo di abilità viene valutato anche dal punto di vista della sua coerenza – o della sua
incoerenza – con la formazione del soggetto o il suo diploma. Le questioni che nascono dalla relazione tra i
risultati al test ed altri elementi di informazione costituiscono gli argomenti di colloquio con il candidato.
L'esame psicologico comporta in effetti due colloqui, uno prima della somministrazione dei test, l'altro sulla
base dei risultati. Nel corso del colloquio finale, lo psicologo indica al candidato il giudizio più o meno
favorevole sulla mansione richiesta, che trasmetterà alla persona incaricata dell'assunzione del personale (il
parere dello psicologo non è che uno degli elementi presi in considerazione per la decisione di assunzione).
Se il candidato lo desidera, lo psicologo gli fornisce anche un resoconto sui punti forti e deboli del suo
profilo di risultati e, all'occorrenza, un consiglio per l'orientamento.

QUADRO 2. L'INFORMATIZZAZIONE DEI TEST


Si possono distinguere tre grandi livelli di utilizzo dell'informatica nella testistica. La prima consiste nel
presentare su di tino schermo gli item che prima erano mostrati su carta e far scegliere la risposta corretta
con la tastiera o il mouse piuttosto che segnando con la matita. Uno dei vantaggi dell'informatizzazione è
quello di evitare alcune delle costrizioni della somministrazione collettiva, permettendo ad ognuno di
procedere secondo il suo ritmo sulla sua postazione di lavoro. Un secondo vantaggio non trascurabile è
quello di automatizzare la correzione: è possibile avere alla fine della somministrazione il listato he colloca
la prestazione del soggetto in relazione a quella della sua popolazione di riferimento. L'informatizzazione
della somministrazione razione può infine dare informazioni sui tempi di risposta ai differenti item e più in
generale sulla gestione del tempo nel corso della prova. Un secondo livello di utilizzo delle risorse
informatiche consiste nel rendere la somministrazione interattiva. In questo caso, il computer è
programmato per adattare gli item da proporre alle risposte del soggetto. Ciò consente di determinare
abbastanza rapidamente, con domande critiche, il livello di difficoltà che un soggetto è in grado di superare
e, una volta definito questo limite, di determinare il livello di efficienza all'interno. Questa
somministrazione personalizzata, che riduce rapidamente il campo degli item utili, consente di ridurre i
tempi di somministrazione conducendo ad una diagnosi più sensibile. Il terzo livello di utilizzo delle risorse
informatiche consiste nel formulare un modello dei processi cognitivi in gioco nella soluzione del test e
concepire su questa base la situazione di test (insieme degli item concepiti per isolare i diversi processi
ipotizzati) e gli indici comportamentali (caratteristiche dei tempi di risposta e degli errori) che
permetteranno di caratterizzare all'interno di questo modello i processi messi in atto da ogni soggetto. A
questo livello non si tratta più soltanto di inserire i test esistenti su di un supporto informatico per utilizzarli
in modo più efficace, ma di concepire nuovi test in funzione delle nuove possibilità aperte dall'informatica
per l'analisi dei processi cognitivi. L'informatizzazione fornisce i mezzi per analizzare in tempi reali una
grande quantità di informazioni grazie alle quali è possibile creare un modello della dinamica del
comportamento del soggetto nel corso della risoluzione del test. I tentativi fatti a questo livello sono ancora
lOMoARcPSD|7819776

molto rari. Gli ostacoli sono soprattutto teorici: le nostre conoscenze sui processi cognitivi umani
consentono per ora di creare solo modelli piuttosto grossolani della dinamica di soluzione di problemi di un
soggetto.
L'utilizzo dei test è tradizionale e sistematico anche nell'esercito, nelle procedure di selezione delle giovani
reclute. Per selezionare e orientare le 400.000 reclute che l'esercito chiama ogni anno, in Francia è stata
messa a punto una procedura in cui i test di intelligenza hanno un ruolo importante. I test utilizzati sono dei
test fattoriali di abilità del tipo di quelli del PMA e dei test psicomotori. Come in tutti i casi in cui si debba
esaminare un gran numero di soggetti, l'esercito si è orientato verso l'informatizzazione della
somministrazione. Nel quadro 2 si possono trovare alcune precisazioni sull'evoluzione che
l'informatizzazione ha provocato nel mondo dei test. Il sistema ESPACE (impiego di un sistema di
somministrazione automatica e di correzione degli esami) messo a punto dall'esercito si situa al secondo
dei livelli di utilizzo dell'informatica, con l'ambizione di evolvere verso il terzo di questi livelli, almeno sul
piano della ricerca. La batteria di test include i test psicomotori e i test fattoriali di intelligenza
corrispondenti alle principali abilità. Ogni soggetto svolge le prove in una cabina chiusa che lo pone in
condizioni d'isolamento analoghe a quelle che egli potrebbe sperimentare ad esempio nella cabina di
pilotaggio di un carro armato. Egli è di fronte ad una postazione di lavoro che possiede dei dispositivi per i
quali può ricevere informazioni (uno schermo e degli altoparlanti) e dei dispositivi con i quali rispondere
(bottoni, maniglie e pedali). La somministrazione è interattiva. Ad esempio, se le prime informazioni fornite
per iscritto sono comprese male e fanno sospettare un problema di analfabetismo, le informazioni vengono
presentate oralmente nel corso dell'esame. Secondo la medesima logica, la somministrazione è organizzata
in modo che il soggetto raggiunga in ognuna delle prove il limite delle sue capacità di apprendimento e
delle sue capacità attentive (aggiungendo, una volta raggiunto il tetto di apprendimento, un numero
crescente di compiti concorrenti che devono essere svolti contemporaneamente). I profili di abilità nella
batteria dei test vengono utilizzati per inserire le reclute nelle otto grandi categorie di impiego definite
dall'esercito (ad esempio, addetto alle armi da combattimento, tiratore con armi di grosso calibro, ecc.). Le
predizioni fatte sulla base dei test sono state validate prendendo come criterio il successo in diversi
impieghi. La validazione dei test utilizzata in procedure di selezione professionale pone spesso un problema
difficile nella misura in cui non può poggiare che sui risultati dei soggetti selezionati. I coefficienti di validità
tra í risultati ai test all'ingresso e l'ulteriore successo professionale, o il successo ulteriore in una formazione
selettiva, sono spesso deboli per la debole dispersione delle performance al test di coloro che vengono
selezionati (poiché la selezione ha favorito solo quelli con i punteggi più elevati). L'ideale sarebbe scegliere i
soggetti completamente a caso, senza tenere conto dei test, per poter validamente calcolare in seguito la
correlazione tra un certo profilo ai test e il successo in diverse categorie di professioni. Questa opportunità
è stata offerta ai servizi psicotecnici dell'esercito, a titolo sperimentale in alcune unità dell'esercito, per
validare la procedura di selezione ESPACE (stando attenti affinché i soggetti non vengano in alcun modo
danneggiati da questa procedura, e vengano riassegnati secondo le loro abilità dopo un periodo di prova).
Questi esempi di utilizzo sistematico dei test di intelligenza come elementi considerati ai fini del
reclutamento non devono far pensare che questa pratica sia diffusa. In Francia le procedure di
reclutamento nelle imprese si basano essenzialmente sul curriculum vitae (come in Italia), su un colloquio
non strutturato e, spesso, sull'analisi grafologica. La grafologia è una peculiarità francese tanto più
sorprendente se si considera che studi metodologicamente rigorosi non hanno mai mostrato una qualsiasi
validità di questa forma di valutazione. Secondo le indagini che hanno riguardato i metodi di selezione
utilizzati dalle imprese o dalle agenzie di reclutamento, la percentuale di selezioni in cui è utilizzata la
grafologia, quasi nulla negli altri paesi del mondo, in Francia va dal 93% al 49% dei casi. I test cognitivi e i
questionari di personalità sono utilizzati in modo simile, nel 30% dei casi circa. Nel settore del lavoro, test
fattoriali d'intelligenza vengono talvolta utilizzati anche per l'orientamento ad una formazione qualificante.
Questo tipo di impiego è abbastanza sistematico presso l'Associazione per la formazione professionale degli
adulti (AFPA), che propone diversi stage di formazione agli adulti con l'obiettivo di fornire una qualificazione
o un reinserimento professionale. I profili ottenuti ad una batteria di test fattoriali di abilità è uno degli
elementi che vengono presi in considerazione per l'orientamento dei candidati nella scelta dei diversi stage
proposti dall'AIDA: stage preparatori piuttosto che direttamente una formazione qualificativa e, in questo
secondo caso, tra le diverse formazioni qualificative. I test di intelligenza sono talvolta utilizzati anche in

35
lOMoARcPSD|7819776

centri di “bilancio delle competenze”. Questi centri sono stati istituiti in Francia da una legge del 1991 che
ha aperto a tutti i dipendenti delle aziende, e più in generale a tutti i volontari, il diritto di analizzare le
proprie competenze professionali e personali ed anche le attitudini e le motivazioni al fine di definire un
progetto di formazione e/o un progetto professionale. Chiunque lo desideri può chiedere di beneficiare di
un bilancio di competenze, il cui costo può essere addebitato alla voce “piano di formazione” sia della sua
ditta, sia di un organismo simile. Non è raro che le persone che chiedono di beneficiare di questo servizio
esprimano, agli psicologi che lavorano in questo centro e li aiutano a fare il bilancio delle loro competenze,
il desiderio di includere test di intelligenza tra gli elementi di valutazione. Riassumendo, questa
presentazione dei principali impieghi dei test di intelligenza, soprattutto in Francia, mostra che, nell'ambito
dell'educazione e della sanità, i test sono principalmente utilizzati per l'aiuto diagnostico, mentre,
nell'ambito del lavoro, essi sono impiegati soprattutto per l'inserimento sociale. Nel primo caso sono
utilizzate soprattutto le scale di intelligenza a somministrazione individuale, mentre nel secondo caso i test
fattoriali a somministrazione collettiva, con un interesse marcato per l'analisi del profilo di abilità. In questo
secondo caso, l'informatizzazione dei test e la somministrazione individuale su di un terminale video
tendono a rimpiazzare la somministrazione in gruppo nella forma carta e matita.

3 Etica e deontologia
La preoccupazione di disporre di test affidabili ed equi ha condotto a definire rigide norme per la loro
costruzione e applicazione, accordando, soprattutto negli Stati Uniti, un posto particolare all'individuazione
di eventuali errori (biases) culturali. In parallelo, mentre gli psicologi elaboravano codici deontologici, è
stata messa a punto in numerosi paesi una regolamentazione alle pratiche di testing, al fine di fornirne un
quadro anche giuridico.

3.1. Norme e «biases» culturali


Definite da gruppi di psicologi di riconosciuta competenza, essenzialmente tecnici e professionisti, le norme
forniscono criteri per valutare la qualità dei test (non semplicemente i test di intelligenza ma anche,
naturalmente, i test di conoscenza scolastica e i questionari di personalità) e le pratiche che li riguardano.
Tutti gli studiosi e gli utilizzatori dei test sono invitati a conoscerle. Alcune di queste norme sono molto
dettagliate. Quelle pubblicate negli Stati Uniti e adattate regolarmente dal 1954, gli Standards for
Educational and Psycbological Testing, di gran lunga le più complete, riempiono un buon centinaio di
pagine. Per quanto riguarda la costruzione dei test, le norme richiamano le esigenze della metodologia
psicometrica. Si insiste naturalmente sulla necessità di disporre di informazioni riguardanti la validità delle
prove (validità teorica e validità empirica in relazione agli obiettivi proposti) e la loro fedeltà. Si raccomanda
anche di procedere a periodiche revisioni dei test. Queste devono infatti poter beneficiare delle ricerche
condotte sulla versione precedente ed è necessario dunque verificare periodicamente che siano sempre
adeguate agli obiettivi preposti. Si sottolinea infine che è assolutamente necessario disporre di punteggi
standardizzati il più possibile attuali e rispettare procedure precise nel momento in cui si confrontano
punteggi ottenuti con prove diverse o in condizioni diverse. Le norme riguardano anche le modalità di
utilizzo dei test distinguendo diversi settori di applicazione: la pratica clinica, la psicologia scolastica,
l'orientamento, la selezione, l'utilizzo dei test per la certificazione professionale (non si tratta più in questo
caso di test d'intelligenza in senso stretto) e per la valutazione di programmi educativi e sociali. Si insiste
sulle competenze richieste a chi vuole impiegarli e sulla natura delle informazioni di cui devono disporre
(fornite dai manuali che accompagnano le prove) al fine di fare dei test il miglior uso. Infine, le norme
trattano problemi particolari posti dal testing delle minoranze linguistiche e dei gruppi che vivono in
condizioni piuttosto difficili, il che ci pone la questione dei biases culturali. Questa questione è stata
sollevata, l'abbiamo visto, fin dall'inizio degli anni Cinquanta da Eels e collaboratori. Essa ha forti
implicazioni pratiche nella misura in cui i test, se distorti, sottostimano il «merito» di alcuni gruppi rispetto
ad altri. Queste implicazioni sono forti in tutti i paesi in cui si utilizzano test a fini di selezione poiché
ovunque si incontrano differenze sociali, di natura etnica, socioeconomica o sessuale, che possono dare
origine a biases. Negli Stati Uniti, giuristi e psicologi hanno dato a questa questione un'attenzione
lOMoARcPSD|7819776

particolare, in seguito alla legge sui diritti civili, nel 1964, il cui obiettivo era di eliminare tutte le forme di
discriminazione. Dalla fine degli anni Sessanta, i tribunali hanno avuto a che fare con numerose lamentele
di persone e di gruppi che si ritenevano lesi dalle procedure di valutazione attraverso i test. Alcuni processi
sono stati ampiamente commentati dalla stampa e sono divenuti celebri. Alcuni genitori hanno contestato
il fondamento dell'inserimento dei loro bambini in classi per ritardati, alcuni candidati all'iscrizione
all'università hanno ritenuto la loro non-ammissione del tutto ingiustificata, professionisti alla ricerca di un
impiego hanno creduto di essere stati ingiustamente scartati. Benché le norme giuridiche non siano
perfettamente coerenti, in numerosi casi i test sono stati messi sotto accusa e i loro autori giunti a produrre
modalità di valutazione non distorte. Si è così sviluppata una corrente di ricerche sui biases. In modo molto
generale, si afferma che c'è un bias quando i punteggi ad un test non hanno lo stesso significato, la stessa
validità per individui appartenenti a gruppi diversi. Nell'ambito delle operazioni di selezione, questa
differenza di significato può condurre a penalizzare un gruppo. Prendiamo un esempio fittizio. Ci sono due
gruppi: un gruppo favorito F e un gruppo sfavorito D. I punteggi di F sono superiori a quelli di D in un test.
Se si utilizza la correlazione positiva tra questo test e un criterio (l'efficienza professionale ad esempio) per
procedere ad una selezione, si sceglierà per forza un maggior numero di persone del gruppo F. Ma può
anche darsi che non esistano differenze tra il gruppo F e il gruppo D al criterio (se emerge che in media i
soggetti del gruppo D hanno gli stessi punteggi di quelli del gruppo F). Il test può, in effetti, predire
accuratamente il successo al criterio all'interno di ogni gruppo, ma non le differenze di successo tra i gruppi.
In questo esempio, una selezione fondata sui punteggi al predittore penalizza ingiustamente il gruppo D ed
è in questo senso distorta a favore del gruppo F. In linea di principio, l'origine dei biases può essere diversa,
la stessa caratteristica psicologica può non avere lo stesso significato nei due gruppi se interagisce con altre
caratteristiche dei soggetti di tali gruppi (si può pensare, ad esempio, che l'intelligenza misurata da uno
stesso test non abbia lo stesso significato a seconda che i soggetti sappiano leggere o meno). La modalità di
somministrazione e di correzione del test può avere effetti diversi a seconda dei gruppi (se i test sono
proposti da donne, questo può influenzare diversamente ragazzi e ragazze?). La struttura interna delle
risposte può non essere la stessa da un gruppo all'altro. Le ricerche sull'eventuale presenza di diversi biases
ha mostrato che i test attuali non sono o sono poco distorti. Un test può dunque distinguere dei gruppi
senza per questo essere distorto. Questa affermazione non è tuttavia condivisa unanimemente: per alcuni
la sola differenza tra due gruppi testimonia un bias, o, in altri termini, tutte le differenze tra gruppi sono
effetto di un errore di misura o di un artefatto. Tale ipotesi è difficile da verificare, soprattutto quando si
tratta di gruppi che, in seno ad una data cultura, non dispongono delle stesse opportunità per sviluppare le
loro capacità. Certamente, sarebbe augurabile, che gli individui di differente origine sociale fossero
ugualmente rappresentati nei diversi settori della società; che, ad esempio, all'interno dell'università ci
fosse la stessa percentuale di figli di operai e di figli di dirigenti. Per approssimarsi ad un tale obiettivo si
può praticare una discriminazione positiva a favore dei gruppi svantaggiati e permettere così ad alcuni dei
loro membri di superare le barriere di selezione. In alcune università americane, ad esempio, sono stati
imposti dei livelli percentuali di rappresentatività per assicurare un'equa presenza di bianchi e di neri. Così
facendo, in funzione dei valori, si cambiano i criteri di selezione. Il criterio meritocratico classico – a
ciascuno secondo le proprie capacità – è ponderato da un criterio più collettivo – fare in modo che la
società guadagni in coesione –. I beneficiari della discriminazione positiva saranno senza dubbio soddisfatti,
ma gli altri si riterranno lesi e sosterranno, eventualmente davanti a un tribunale, che non è stato equo
escluderli a favore di altri, meno capaci. Questi problemi di inserimento sociale corrispondono a delle
dinamiche sociopolitiche di portata maggiore che superano la questione posta dai test, anche se i test
contribuiscono ad esplicitarle e formalizzarle.

3.2. Codice deontologico e legislazione


La riflessione sull'etica, che individua dei valori, e la deontologia, che concerne la morale professionale, si è
sviluppata tra gli psicologi all'indomani della seconda guerra mondiale. I primi codici deontologici elaborati
dalle organizzazioni professionali di psicologi si collocano intorno agli anni 50/60. In Francia, la Società
francese di psicologia pubblicò il suo codice deontologico nel 1961 (un nuovo codice, stabilito in
collaborazione con altre organizzazioni di psicologi, è stato adottato nel 1996). In Italia un codice
deontologico è in vigore dal 16 febbraio 1998, a seguito di un referendum condotto su tutto il territorio

37
lOMoARcPSD|7819776

nazionale. I codici deontologici riguardano l'insieme delle pratiche psicologiche. Possono essere generali o
centrati più in specifico su di un ambito (la psicologia scolastica, del lavoro o la ricerca). I codici non hanno
valore legale ma esprimono semplicemente delle regole di condotta (vedi quadro 3). Le organizzazioni
professionali che li hanno preparati non soltanto invitano i loro membri a rispettarli, ma assicurano loro
sostegno nel caso in cui sia difficoltoso metterli in pratica nel loro ambiente di lavoro. Tutti i codici si
collocano in una prospettiva umanista: lo psicologo deve rispettare i diritti fondamentali delle persone, la
loro libertà e la loro dignità. I codici insistono anche sulla necessità di utilizzare, in maniera illuminata, delle
tecniche valide.
Il recente codice deontologico italiano risulta ispirato a quattro imperativi. Il primo è quello della tutela del
rapporto fiduciario che intercorre tra lo psicologo e chi si avvale delle sue prestazioni. Il rispetto delle
persone, della loro dignità e della loro vita privata è assicurato dal segreto professionale, dalla
confidenzialità con cui è trattato anche l'accesso alle informazioni raccolte e dalle limitazioni alle possibili
indagini. Lo psicologo è in principio tenuto al segreto professionale. Il beneficiario del servizio psicologico è
il proprietario e l'unico destinatario dei risultati dettagliati dell'indagine. Nel caso di collaborazione con altri
soggetti tenuti al segreto professionale lo psicologo può condividere solo le informazioni strettamente
necessarie al tipo di collaborazione. Il secondo imperativo è dato dalla necessità di possedere una
competenza specifica all'abilità professionale; ciò implica l'obbligo di fornirsi di questa competenza e di
aggiornarla adeguatamente. La qualità delle prestazioni offerte dagli psicologi dipende a sua volta dalla loro
qualifica e dai loro metodi. In Italia il titolo di psicologo viene attribuito dopo cinque anni di formazione
universitaria e deve essere seguito da un anno di tirocinio e da un esame di stato per l'autorizzazione ad
esercitare la professione. Le indicazioni fornite dal codice deontologico rimangono tuttavia spesso piuttosto
vaghe e la loro applicazione è talvolta problematica. Cosa si intende per una tecnica scientificamente valida
se non ci si riferisce a delle norme? Qual è l'informazione veramente pertinente da cercare in una diagnosi
o in una procedura di selezione? Nel contesto dell'aiuto agli altri è probabilmente più facile rispettare il
codice deontologico, anche se le problematiche sollevate sui test e in particolare sui test di intelligenza
investono questo ambito con tutta la loro forza. In altri ambiti comunque la situazione è anche peggiore. La
privacy è messa in discussione nelle procedure di selezione: lo psicologo è obbligato a fornire informazioni
sul candidato perché è pagato per questo

QUADRO 3. LA DEONTOLOGIA DELL'USO DEI TESI


“La pratica dello psicologo non si riduce ai metodi e alle tecniche che egli mette in atto. Essa è indissociabile
da una valutazione critica e da un'analisi teorica di queste tecniche” (articolo 17).
“Le tecniche utilizzate dallo psicologo per la valutazione, a fini diretti di diagnosi, di orienta- mento o di
selezione, devono es- sere state scientificamente validate” (articolo 18).
“Lo psicologo è consapevole del carattere relativo delle sue valutazioni e interpretazioni. Non trae
conclusioni riduttive o definitive sulle abilità o sulla personalità degli individui quando appunto queste
conclusioni possono avere un'influenza diretta sulla loro esistenza» (articolo 19).
Anche il codice deontologico italiano riporta in alcuni articoli indicazioni sull'uso di strumenti e sulla loro
interpretazione. Tali indicazioni, però, volendo essere generali e applicatili ad ambiti diagnostici e di ricerca,
perdono parte della potenziale incisività presente invece negli articoli francesi. In particolare nell'articolo 5
troviamo che “Lo psicologo usa strumenti teorico-pratici per i quali ha acquisito adeguata competenza. Lo
psicologo impiega metodologie delle quali è in grado di indicare le fonti e i riferimenti scientifici, e non
suscita, nelle attese del cliente e/o utente, aspettative infondate». Mentre nell'articolo 7 viene sottolineata
l'importanza dell'attendibilità e validità dei dati: “lo psicologo valuta attentamente, anche in relazione al
contesto, il grado di validità e di attendibilità di informazioni, dati e fonti su cui basa le conclusioni
raggiunte”.

CONCLUSIONI
Un test è un dispositivo d'osservazione concepito per valutare certe caratteristiche psicologiche degli
individui, collocando le loro condotte in relazione a quelle che sono state osservate in seno alla popolazione
alla quale gli individui appartengono. Per compiere questa funzione un test deve essere stato
standardizzato, e le misure che il test consente di raccogliere devono essersi mostrate valide ed affidabili.
lOMoARcPSD|7819776

L'intelligenza non è l'unica caratteristica psicologica che possa essere valutata dai test: esistono infatti test
di conoscenza di vari domini, test psicomotori, test di personalità, ecc. La particolarità dei test di
intelligenza è di valutare un'abilità piuttosto generale di adattamento cognitivo a situazioni nuove. Questo
metodo di valutazione dell'intelligenza ha mostrato il suo interesse, ma anche i suoi limiti. Due tipi di
limitazione dei test d'intelligenza devono essere tenuti in considerazione nel loro utilizzo. Uno riguarda il
livello di generalità effettivo della capacità di adattamento cognitivo valutata, l'altro riguarda la molteplicità
dei determinanti della performance osservata. Sul primo punto, bisogna innanzi tutto osservare che la
validità di un test d'intelligenza è limitata alla cultura in seno alla quale il test è stato concepito.
L'intelligenza umana si sviluppa attraverso l'uso di linguaggi, di simboli, di rappresentazioni che sono gli
strumenti del pensiero e danno significato alle situazioni. Il funzionamento dell'intelligenza umana è
inscindibile dagli strumenti simbolici e concettuali sui quali si basa. La situazione test nel suo insieme (la
relazione individuale con l'esaminatore, il materiale utilizzato, il tipo di problema posto, ecc.) non consente
di valutare le capacità di adattamento del soggetto testato a meno che tale situazione non abbia per lui un
senso.
Immaginiamo per un istante che il problema della diagnosi del ritardo mentale si sia posta nella società
pigmea. Gli item che un collega di Binet avrebbe scelto come “marcatori” delle differenti tappe dello
sviluppo cognitivo dei bambini pigmei sarebbero stati ben diversi da quelli di Binet e Simon. Avrebbero
riguardato problemi significativi nella società pigmea e relativi ad ambiti importanti per l'adattamento in
questa società. La scala di Binet-pigmeo avrebbe potuto articolarsi in item riguardanti la costruzione o
l'utilizzo efficiente cli un arco, di orientamento in uno spazio su grande scala, ecc. E’ verosimile che le
performance di piccoli occidentali in una scala di questo tipo non sarebbero altrettanto predittive del loro
successo scolastico del Binet-Simon, non più di quanto la performance al Binet-Simon dei bambini pigmei
sarebbe un buon predittore della capacità di adattamento cognitivo alla società pigmea. I tentativi di
costruzione di test di intelligenza indipendenti dalla cultura non hanno avuto successo. Anche quando ci si
sforza di ridurre il ruolo delle conoscenze, del linguaggio, risulta che la condotta del soggetto dipende dalla
rappresentazione che egli si è fatto di ciò che ci si aspetta da lui in questa situazione, e tale
rappresentazione dipende dal contesto culturale in cui l'individuo è stato educato. La contestualizzazione
dell'intelligenza limita necessariamente la «generalità» della capacità di adattamento cognitivo valutata e
rende priva cli senso l'idea stessa di intelligenza indipendente dalla cultura. I test descritti in quest'opera
non hanno dunque validità che con gli individui cresciuti in società i cui modi di pensare sono
sufficientemente prossimi a quelli dove í test sono stati concepiti. Un secondo limite di carattere generale
della capacità di adattamento cognitivo valutata da questi test riguarda ciò che, anche in una cultura come
la nostra, essi non valutano, in altre parole tutte le categorie di situazioni che richiedono una differente
forma di intelligenza. Ad esempio, la capacità di interpretare le disposizioni d'animo e i sentimenti degli altri
verso se stessi da indici comportamentali non verbali (espressioni del viso, gesti, posture, ecc.), la capacità
di controllare l'espressione delle proprie emozioni, la capacità di influenzare gli altri sono delle componenti
cli ciò che è stato definito intelligenza sociale o intelligenza emozionale. Questa intelligenza gioca un ruolo
importante nell'adattamento alla vita in società. La capacità di influenzare gli altri, ad esempio. E’
probabilmente di grande importanza nell'ambito commerciale o in quello politico. Nei test classici non vi è
valutazione di questa forma di intelligenza, bensì il test è essenzialmente verbo-concettuale. Diversi
tentativi di costruzione di test di intelligenza sociale hanno dato risultati ancora incerti: la validità e la
fedeltà di questi test si sono dimostrate inferiori a quelle dei test di intelligenza verbo-concettuale. Certe
componenti dell'intelligenza sociale sono in correlazione con l'intelligenza verbo-concettuale, mentre altre
no, il che limita, ancora una volta, la generalità dell'intelligenza misurata dai test descritti in quest'opera.
Questi test valutano soprattutto la forma d'intelligenza necessaria per andare bene a scuola, e, più
generalmente, per apprendere nel contesto di un insegnamento esplicito. Si tratta dell'intelligenza che si
chiama talvolta “accademica” o “geometrica”. Non bisogna sottostimare l'importanza di questa forma di
intelligenza, né la relativa generalità del suo utilizzo nella nostra società. Essa gioca in effetti un ruolo
primordiale nelle società complesse in cui l'acculturazione passa in buona parte attraverso una trasmissione
scolastica del sapere. Ma, al di là di questo, essa non esaurisce la diversità delle risorse cognitive umane. In
seno all'intelligenza stessa che noi abbiamo chiamato verbo-concettuale, le analisi fattoriali dei test hanno
permesso di distinguere diverse dimensioni corrispondenti ad abilità relativamente differenziate (verbale,

39
lOMoARcPSD|7819776

numerica e spaziale). Il fatto che esistano delle correlazioni positive tra tutti questi test la scia tuttavia
spazio ad un fattore generale di successo nell'insieme dei test. C'è un consenso abbastanza ampio, in epoca
recente, su di un modello gerarchico della struttura fattoriale dell'intelligenza costruito a sua volta da un
fattore generale di intelligenza e da fattori di gruppo corrispondenti ad abilità distinte. Si può dunque
effettivamente parlare di un fattore di intelligenza generale, ma soltanto se si tratta di un fattore di
intelligenza verbo-concettuale. Un secondo tipo di limite dei test di intelligenza riguarda la molteplicità
delle determinanti della performance osservata. Una stessa performance in un test può essere ottenuta
con meccanismi diversi, strategie diverse; il soggetto può essere più o meno familiare con il contenuto del
test; uno stesso punteggio, uno stesso QI, uno stesso scarto tra OI verbale e Qi performance possono avere
significati diversi. Il risultato ad un test di intelligenza deve essere messo in relazione con l'insieme delle
informazioni raccolte nel corso dell'esame psicologico per poter essere interpretato. Questa ambiguità'
della performance rende alquanto discutibili le pratiche in cui, alla semplice vista del risultato al test, si
danno consigli o si prendono decisioni relative all'inserimento sociale degli individui. La standardizzazione
dei test fa in modo che, con un apprendimento ridotto, quasi chiunque possa somministrare un test di
intelligenza. Da qui a ritenere che non abbia importanza chi interpreta il risultato del test il passo è breve e,
ahimè, talvolta lo si fa. Si manifestano periodicamente pressioni affinché l'utilizzo dei test non sia solo
riservato ai detentori del titolo di psicologo. Nello stesso ordine di idee, ora si propone su Internet di
testare da sé la propria intelligenza, o più grave ancora, di testare da sé l'intelligenza del proprio bambino.
Questa tendenza ci sembra pericolosa in quanto solo la formazione psicologica consente di conoscere i
diversi limiti dei test di intelligenza e i problemi deontologici posti dal loro utilizzo. L'interesse della
corrente di ricerca sui test è di mirare a stabilire dei fatti che siano ripetibili per chiunque si ponga nelle
stesse condizioni. Questo obiettivo è centrale di ogni tentativo di misurazione e deve quindi essere anche al
centro di ogni tentativo di valutazione oggettiva dell'intelligenza. La standardizzazione mira a rendere la
valutazione il meno dipendente possibile dalla persona che la effettua e dunque a renderla ripetibile,
pubblica e trasparente. Il coefficiente di stabilità indica inoltre in che misura questa valutazione è ripetibile
nel tempo. I dispositivi che assicurano la ripetibilità della valutazione sono lontani dall'essere perfetti e
sono essi stessi suscettibili di evoluzione. Ci si può ad esempio immaginare modalità più soddisfacenti di
standardizzare la somministrazione di un test che non mettere tutti i soggetti strettamente nella stessa
situazione. Ma l'esigenza sottostante deve essere mantenuta. Essa ha come obiettivo quello di rendere la
valutazione accessibile ad una verifica e all'analisi critica di ognuno. Il metodo dei test permette anche di
inscrivere la procedura di valutazione nella direzione di una verifica vera e propria dell'approccio scientifico.
Stabilire la validità teorica di un test di intelligenza non è diverso dal sottoporre a verifica le concezioni che
hanno ispirato la sua costruzione. Le concezioni dell'intelligenza che hanno guidato la costruzione dei primi
test non erano certamente delle teorie molto elaborate, ma i successivi sviluppi teorici hanno consentito di
comprendere meglio perché certi item, che erano stati scelti in partenza in una prospettiva pratica, erano
buoni indicatori dell'efficienza cognitiva. Alcuni esempi di questi ritorni della teoria sui test sono stati forniti
in quest'opera, proprio a proposito della reinterpretazione degli item delle matrici progressive nel contesto
di modelli di elaborazione dell'informazione. All'inverso, la costruzione di test che operazionalizzano una
teoria dell'intelligenza ha talvolta contribuito a metterla in questione. È così che l'elaborazione di test
ispirati alla teoria di Piaget ha contribuito a scuotere la concezione degli stadi di sviluppo cognitivo che si
fondavano su questa teoria.
Se la costruzione dei test di intelligenza si è inscritta fin dall'inizio in questo percorso di mutuo scambio tra
elaborazione teorica e verifica empirica, ci si può tuttavia rammaricare del fatto che la relazione tra ricerca
di base e la sua applicazione è stata a lungo molto limitata. Ci sono per questo delle ragioni storiche. Per
Binet, la riflessione teorica sull'intelligenza e la messa a punto di una scala destinata a misurarla erano due
momenti strettamente articolati di uno stesso percorso. Il successo dei test è stato tale per il fatto che la
risposta ad una domanda sociale ha richiamato i ricercatori dalle loro questioni teoriche. Bisogna
aggiungere a questo che, anche se l'avessero voluto, difficilmente gli psicologi che utilizzavano i test di
intelligenza avrebbero avuto modo di rinnovarli teoricamente nella fase di ricerca in psicologia in cui ha
dominato il comportamentismo. Lo sviluppo del cognitivismo, che ha preso slancio a partire dagli anni
Settanta, offre un quadro più favorevole al rinnovamento delle idee sul funzionamento dell'intelligenza. Le
ricerche hanno per ora rivolto il loro interesse alla rappresentazione dei processi di elaborazione
lOMoARcPSD|7819776

dell'informazione in gioco nella soluzione degli item dei test esistenti piuttosto che all'elaborazione di nuovi
test. La situazione attuale sembra tuttavia più favorevole di quella passata in quanto la ricerca di base sui
differenti aspetti del funzionamento intellettivo e la costruzione di strumenti che consentano di valutarli
praticamente camminano parallelamente e con uno stesso passo.

41

Potrebbero piacerti anche