I TEST DI INTELLIGENZA
I test di intelligenza sono stati al centro di molti dibattiti poiché riuscire a dare una definizione univoca e
condivisa di intelligenza e trovare il metodo per poterla misurare ha prodotto numerosi confronti in ambito
Nazionale e Internazionale; ma il loro successo e contributo all’analisi psicologica è oggi indiscutibile in
quanto permettono una discriminazione tra soggetti normali e soggetti mentalmente deboli. I test di
intelligenza vengono impiegati in ambito clinico a scopo diagnostico, in ambito educativo scolastico al fine
di orientamento e valutazione della necessità o meno di un insegnate di sostegno ed infine in ambito
lavorativo, come nella selezione del personale.
E’ chiaro quindi che la misurazione dell’intelligenza non è fine a se stessa ma ha delle implicazioni politiche
sociali e professionali profonde.
Nel testo di Huteau vengono riportati inizialmente i principali riferimenti storici della nascita degli strumenti
di misura dell’intelligenza attraverso tre fasi:
1) Nascita e costruzione dei test come risposta a necessità sociali, educative e cliniche di un epoca
2) Critica e successiva revisione di questi
3) Implicazioni etiche e deontologiche sul loro impiego.
Il tutto viene esposto dalla prospettiva di due importante autori francesi che possiamo dire rappresentano
la corrente Europeista riguardo l’argomento intelligenza, in quanto in America si è registrato un approccio
qualitativamente diverso incentrato su aspetti più numerici e psicomentrici del testing.
1
lOMoARcPSD|7819776
elementari, dall'altro lato, nell'influenza della teoria di Darwin, che ha messo l'accento sul ruolo giocato
dalle variazioni interindividuali nell'evoluzione delle specie. Un altro fattore determinante di questa
“atmosfera dell'epoca” è da collocarsi negli sconvolgimenti economici e socioculturali prodotti
dall'industrializzazione. La necessità di diffondere l'istruzione, la formazione, di reclutare massicciamente
persone per funzioni professionali a cui non erano preparate, ha creato dei nuovi bisogni in materia di
valutazione delle persone. Uno di questi espresso in quest'epoca era la necessità di distinguere, tra gli
allievi che non giungevano a frequentare la scuola elementare, ed erano comunque tenuti a farlo perché
era divenuto obbligatorio e coloro che avevano i mezzi intellettuali per beneficiare di questo insegnamento
ma erano ostacolati dalle circostanze, da quelli che invece erano ritardati mentali. L'idea sottostante era
che occorreva dare ai bambini ritardati mentali un insegnamento adatto alle loro possibilità, ma ciò
comportava che si potesse fare una valutazione affidabile e oggettiva dei bambini con difficoltà scolastica.
Di fronte a questa richiesta sociale, i mental test, simili a quelli adottati da Cattell nei suoi esperimenti di
laboratorio, sembrarono essere, in un primo tempo, dei buoni strumenti per valutare le capacità
intellettuali. Queste prove riguardavano processi molto elementari: si valutava, ad esempio, la più piccola
differenza di peso che il soggetto era in grado di notare nel momento in cui si aggiungeva o sottraeva
qualche grammo ad un peso di 100 grammi, il tempo di reazione ad uno stimolo uditivo, il tempo
necessario per pronunciare il nome del colore presentato, ecc. Per comprendere come all'epoca si sia
potuto pensare di valutare l'intelligenza con tali prove, bisogna collocarsi nel contesto delle teorie allora in
vigore sui processi mentali. La filosofia dominante era l'associazionismo. Si pensava che le immagini mentali
fossero formate dall'associazione di sensazioni elementari e che le idee fossero formate dall'associazione e
dal concatenamento di queste immagini mentali. In breve, si ipotizzava che le sensazioni elementari
costituissero la materia di base a partire dalla quale venivano a formarsi i processi mentali più complessi.
Da lì a supporre che la qualità dei processi complessi fosse largamente determinata dalla qualità delle
sensazioni elementari il passo fu breve. Cattell ha quindi applicato i suoi mental test a tutti gli studenti che
entravano alla Columbia University, con l'obiettivo di basarsi sui loro risultati per precisare indicazioni
d'orientamento e per adattare i programmi. I suoi ripetuti tentativi si sono conclusi con un cocente
fallimento. Non c'era alcuna relazione tra l'efficienza in questi mental tests e il successo scolastico. Tentativi
simili condotti da altri ricercatori nello stesso periodo, con studenti universitari ma anche di scuola
elementare, hanno prodotto lo stesso risultato. I metodi di valutazione del funzionamento intellettivo tratti
dalla psicologia scientifica nascente si rivelarono incapaci di rispondere alla richiesta sociale dell'epoca in
questo campo.
quegli item che separavano più nettamente i soggetti dei due gruppi (si chiamano item le diverse domande
o i diversi piccoli problemi, in genere di difficoltà graduata, che compongono un test e nei quali il soggetto
può riuscire o fallire). La spinta a procedere in questo lavoro verrà dalla domanda sociale.
Nel 1904, una commissione ministeriale chiese a Binet di studiare il problema della diagnosi del ritardo
mentale. Binet e Simon proposero allora nelle scuole le prove che avevano cominciato a mettere a punto. Si
accorsero che alcuni item che ben discriminano i bambini ritardati da quelli normali avevano anche un buon
potere di discriminazione all'interno del gruppo dei bambini normali ma di età inferiore. Insomma, item
sembravano caratteristici di una data età nel momento in cui lo sviluppo intellettivo è avvenuto
normalmente. Da ciò, lo scarto tra questa età e l'età in cui il bambino li supera realmente può segnalare il
grado di evoluzione o di ritardo nello sviluppo intellettivo. E l'origine della nozione di età mentale.
Tutto lo sforzo di Binet e di Siinon, a partire da quel momento, fu di trovare delle piccole prove di memoria,
di giudizio, di ragionamento, la cui riuscita apparisse rappresentativa dei compiti cognitivi che può
padroneggiare un bambino di una data età. Per essere ritenuto rappresentativo di un'età di 5 anni, ad
esempio, un item doveva produrre un fallimento nella maggior parte dei bambini di 4 anni, essere superato
dalla maggior parte dei bambini di 6 anni, e avere una percentuale di successo del 50% tra i bambini di 5
anni, a dimostrazione che a questa età sta per essere padroneggiato. Gli item adatti non dovevano
richiedere conoscenze scolastiche. Non si trattava di valutare il grado di istruzione, ma la qualità del
funzionamento intellettivo in situazioni ordinarie. A titolo d'esempio, una delle situazioni di valutazione
della memoria selezionata da Binet e Simon (oggi si parlerebbe di memoria a breve terrnine) consisteva nel
chiedere al bambino di ripetere una lista di cifre appena letta dallo sperimentatore. Essere in grado di
ripetere due cifre corrisponde ad un'età mentale di 2 anni, 3 cifre di 3 anni, 5 cifre di 8 anni, e 7 cifre di 15
anni. Un'altra prova consisteva nel mostrare al bambino delle fotografie chiedendogli di spiegare che cosa
esse rappresentavano. Elencare (ad esempio, «un signore ed una signora») corrispondeva ad un'età
mentale di 3 anni, descrivere (ad esempio, «un signore e poi una signora che dormono su una panca») ad
un'età mentale di 7 anni, e interpretare (ad esempio, «degli sfortunati») ad un'età mentale di 15 anni. A
partire dal 1905, Binet e Simon proposero una prima versione della loro «scala metrica» dell'intelligenza.
Una seconda versione è apparsa nel 1908, la scala conteneva una cinquantina di item, in ragione di 4 o 5
per ogni età mentale, e ciò per livelli di età che andavano da 3 a 15 anni. L'età mentale non era determinata
da un item particolare, ma dall'insieme degli item superati: se la scala prevedeva 4 item caratteristici
dell'età mentale di 4 anni, la riuscita in ognuno di questi item corrispondeva ad un credito di 3 mesi e l'età
mentale era ottenuta sommando i crediti degli item superati. La precocità o il ritardo dello sviluppo
intellettivo erano dati dal confronto tra l'età mentale così ottenuta e l'età cronologica del bambino.
E’ soltanto dopo la morte di Binet, nel 1912, che uno psicologo tedesco, William Louis Stern, ebbe l'idea di
esprimere la rapidità di sviluppo come il rapporto tra l'età mentale e l'età cronologica (moltiplicato per
cento per evitare i decimali). Questo indice venne chiamato quoziente intellettivo (QI). Il QI è superiore a
100 per i bambini avvantaggiati (più precoci) e inferiore a 100 per i bambini in ritardo: tanto più si allontana
da 100, in un senso o nell'altro, tanto più i bambini sono in vantaggio o in ritardo. Un bambino di 10 anni
che manifesta le stesse abilità della media dei bambini di 12 ha un'età mentale di 12 anni e si vede
attribuire un Q1 di (12/10) Y. 100 = 120. La scala di Binet e Simon ebbe un successo immediato. In effetti,
permetteva dí diagnosticare il ritardo mentale in maniera più precisa e più obiettiva di quanto si facesse in
precedenza e si mostrò predittiva della riuscita scolastica. Venne tradotta e adattata negli Stati Uniti nel
1909. Il più famoso di questi adattamenti è quello fatto da Terman all'Università di Stanford nel 1916. Da
allora, la «Stanford-Binet» è stata più volte rivista ed è tuttora utilizzata negli Stati Uniti. In Francia, invece,
fu solo nel 1966 che la scala metrica di Binet e Simon venne revisionata sotto la direzione di René Zazzo per
diventare la «nuova scala metrica dell'intelligenza». Il primo aspetto di novità che ha permesso a Binet di
far uscire il problema dell'intelligenza dall'Impasse in cui si trovava alla fine del XIX secolo è stato di aver
capito che la valutazione doveva riguardare processi mentali complessi. Questa prima idea, tuttavia, non
era ancora sufficiente, poiché a quell'epoca si era in grado di valutare solamente i processi sensoriali
elementari. Un ulteriore apporto originale di Binet è stato di aver compreso che la possibilità di ordinare gli
item in funzione dell'età in cui questi ultimi vengano superati poteva costituire un primo livello di misura
della loro complessità cognitiva. Da questa possibilità di ordinare gli item discendeva la possibilità di
ordinare allo stesso modo anche i soggetti, compresi quelli della stessa età cronologica, in funzione del loro
3
lOMoARcPSD|7819776
livello di riuscita al test. Spesso, nella ricerca, non basta avere delle idee nuove, ma bisogna anche saper
abbandonare le vecchie che non funzionano. Si può notare che, da quando Binet si avviò sulla strada della
scala metrica dell'intelligenza, egli abbandonò quella della misura del cranio che non aveva prodotto nulla
di interessante fino a quel momento e che neanche in seguito si rivelò produttiva.
Il metodo dell'analisi fattoriale consiste nel calcolare prima le correlazioni tra tutte le prove prese due a
due, poi di verificare se esistono gruppi di prove che correlano tra loro più che con le altre. Si suppone
allora che ci sia un fattore di variazione comune a questo gruppo di prove, ma la parola fattore assume qui
un significato diverso da quello attribuitogli prima. Si tratta di un fattore comune nel senso matematico del
termine (Mettere un'espressione a fattore) e l'analisi fattoriale è il metodo matematico che permette di
estrarre questi fattori di variazione comuni. I fattori sono dunque in questo caso delle entità matematiche,
astratte e teoriche. Nella rappresentazione geometrica dei risultati dell'analisi fattoriale di una serie di
correlazioni, questi fattori comuni di variazione sono rappresentati sugli assi cartesiani. Più una prova è
vicina ad un asse, più ha contribuito con forza alla determinazione di questo fattore, e più questo ha un
peso rilevante nei punteggi ottenuti in questa prova. In questo caso si dice che la prova è fortemente
«saturata» dal fattore. La saturazione di una prova da parte di un fattore è valutata sulla base della sua
correlazione con quel fattore, che varia da –1 a +1 e si interpreta come il peso che ha il fattore nella
variazione dei punteggi a questa variabile.
Si può cercare di interpretare un fattore comune a più prove individuando in che cosa queste prove si
assomigliano e in che cosa differiscono dalle prove saturate da un altro fattore. Ritornando alle prove di
atletica.
lOMoARcPSD|7819776
ESEMPIO PARTE 2
Ammettiamo stavolta che non avendo alcuna ipotesi in partenza sui fattori di variazione della performance
in queste prove, noi abbiamo fatto un'analisi fattoriale delle loro intercorrelazioni. Se troviamo che le tre
prove di salto sono fortemente saturate da un primo fattore, chiamiamolo F1, e le tre prove di lancio
fortemente saturate da un secondo fattore, chiamiamolo F2, allora potremmo interpretare che Fl e F2 sono
delle fonti di variazione latenti, in funzione delle ipotesi che questo raggruppamento di prove ci suggerisce:
forse l'elasticità delle gambe per Fl e l'elasticità delle braccia per F2.
Era questa la situazione in cui si trovavano i primi psicologi che applicarono l'analisi fattoriale ad un insieme
di test. Ignorando la natura dei differenti fattori in grado di spiegare le variazioni nelle performance ai test
di intelligenza, essi hanno preso come punto di partenza le correlazioni tra i test e ne hanno fatto un'analisi
fattoriale. Nel momento in cui sono stati individuati uno o più fattori comuni a più test, l'esame del
contenuto dei diversi test saturati dallo stesso fattore ha portato ad una sua interpretazione (e qualche
volta a più di una).
5
lOMoARcPSD|7819776
condotte su dei campioni di prove e di soggetti abbastanza diversi. È stato mostrato che questi due metodi
erano parziali e potevano essere integrati in un modello fattoriale gerarchico più generale. In breve, nel
momento in cui si fa l'analisi fattoriale di una batteria di test con un metodo simile a quello di Thurstone, si
ritrovano i fattori primari che egli ha messo in evidenza, ovvero fattori comuni soltanto a piccoli gruppi di
test. Tuttavia, questi fattori sono correlati tra loro in modo tale che se se ne fa un'analisi fattoriale si
ottengono fattori di second’ordine, più generali, che rendono conto della varianza comune ai fattori
primari.
Horn e Cattell nel1966 hanno così distinto cinque fattori generali di secondo ordine:
▪ Un fattore generale di intelligenza cristallizzato (gc),
▪ Un fattore generale di intelligenza fluida (gf)
▪ Un fattore generale di intelligenza visuo-spaziale (gv),
▪ Un fattore generale di creatività
▪ Un fattore generale di velocità di reazione.
L'intelligenza cristallizzata è quella che si fonda sull'organizzazione delle conoscenze in memoria.
L'intelligenza fluida è in gioco nelle situazioni che richiedono poche conoscenze a priori e in cui è l'efficienza
dei meccanismi di ragionamento ad essere valutata.
L'intelligenza visuospaziale è in gioco nell'elaborazione di informazioni di natura visuo-spaziale.
L'intelligenza creativa è in gioco in situazioni in cui devono essere scoperte soluzioni nuove e originali.
Ma questi fattori secondari sono anche correlati tra loro in modo che, se si applica su essi un'analisi
fattoriale di secondo ordine, si può trovare un fattore generale, di «terzo ordine», comune all'insieme dei
test che compongono la batteria. In altre parole, Spearman e Thurstone avevano entrambi ragione ed
entrambi torto.
Questi cenni storici danno un'idea delle soluzioni che sono state proposte per valutare l'intelligenza. Si sono
cercati metodi diversi per confrontare gli individui con compiti che mettano in gioco i differenti aspetti
dell'intelligenza. I compiti cognitivi non sono comunque per questo tutti dei test di intelligenza. Rimane
perciò da vedere in modo più preciso ciò che distingue un test da altre situazioni di valutazione.
CAPITOLO 2
Che cos’è un test?
Un test è un dispositivo d'osservazione degli individui che presenta quattro proprietà:
▪ E’ standardizzato
▪ Permette di collocare la prestazione di ogni soggetto in un gruppo di riferimento;
▪ Presenta un determinato grado di accuratezza della misura (fedeltà);
▪ Viene precisato il significato teorico o pratico della sua misura (validità).
Per esaminare queste proprietà possiamo prendere come esempio un test di ragionamento induttivo, il
test delle Matrici Progressive – livello superiore (Advanced Progressive Matrices, APM) – messo a punto
dallo psicologo inglese Raven.
Il test è costituito da due serie di problemi. La prima serie si compone di 12 item per la maggior parte
piuttosto facili. Sono proposti con lo scopo di esercitare il soggetto e consentirgli di familiarizzare con il
compito e quindi mettere a punto una modalità generale di risoluzione. La seconda serie, nella versione del
1962, prevede 36 item di cui molti sono piuttosto difficili (la versione del 1947 proponeva 12 item
supplementari). Il punteggio del soggetto è in genere calcolato accordando un punto per ogni item
superato. Istruzioni molto precise indicano al soggetto che cosa deve fare e che cosa ci si aspetta da lui. Il
test è presentato come un compito di osservazione e di ragionamento. Si mostra al soggetto dapprima
l'item numero 1 della prima serie e gli si spiega che ciascuna delle piccole figure nella parte bassa della
pagina potrebbe riempire lo spazio vuoto nella figura grande, ma che solo una completa correttamente il
disegno. Il soggetto deve scoprire questa figura e riportare il suo numero su un foglio di risposta a parte,
distinto dal quaderno degli item. Dopo aver verificato che ognuno ha individuato la risposta esatta e l'ha
segnata correttamente, si chiede ai soggetti di risolvere l’item successivo. Allo scadere di una ventina di
secondi, si controlla nuovamente la risposta. I soggetti hanno a disposizione circa cinque minuti per
risolvere gli item successivi. Si chiarisce loro che i problemi diventano presto difficili, che bisogna sempre
utilizzare lo stesso metodo per risolverli, che si tratta di una serie di esempio e che la cosa essenziale non è
risolvere tutti i problemi ma imparare il metodo da utilizzare, metodo che le istruzioni non esplicitano.
Bisogna infatti trovare delle regolarità o delle regole di trasformazione in riga e in colonna.
Si passa poi alla seconda serie di item.
Le istruzioni precisano che si tratta del test vero e proprio, che i problemi da risolvere sono simili a quelli
della prima serie, che la loro difficoltà cresce più lentamente, e che è preferibile affrontarli nell'ordine con
cui vengono proposti. Se la prova è applicata con un limite di tempo, il soggetto ha a disposizione quaranta
minuti. Il punteggio del soggetto al test (punteggio grezzo) dato dal numero di problemi superati.
7
lOMoARcPSD|7819776
danno voti compresi tra 2 e 10, mentre altri tra 4 e 8), o ancora al fatto che non c'è unanimità nel definire
l'importanza degli obiettivi educativi e la loro gerarchia.
Se la standardizzazione consente una valutazione oggettiva, bisogna tuttavia notare che conduce spesso ad
un impoverimento del campo di osservazione: è facile da applicare alla valutazione delle prestazioni ma
non è sempre un indice di pertinenza odi validità. La standardizzazione della situazione e delle consegne
non riduce necessariamente il repertorio comportamentale dei soggetti. Se la situazione è debolmente
strutturata e la condotta poco finalizzata, i soggetti sono spinti a produrre risposte diversificate. Succede
questo anche nei test detti di creatività in cui si richiede di immaginare tutti i possibili utilizzi di un oggetto
come un mattone o una scatola. Ma, molto spesso, la standardizzazione è tale da consentire al soggetto di
manifestare solo un numero limitato di comportamenti (risposte), e precisamente quelli che la valutazione
prende in considerazione.
Ritornando al test di Raven, le indicazioni richiedono essenzialmente di osservare la scelta di una delle Otto
figure proposte. In effetti, sono possibili altre osservazioni: tra i fallimenti si possono distinguere gli errori
dalle omissioni, ci si può domandare come si collocano i fallimenti sulla base del grado di difficoltà degli
item, interrogarsi sulla natura degli errori, ecc. Ma ciò non toglie che la situazione è poco favorevole alla
comparsa di comportamenti. Differenziati. In teoria, ogni fenomeno psichico che si manifesta attraverso un
comportamento può essere l'oggetto di un'osservazione standardizzata. Questa osservazione può essere
provocata e assumere delle forme complesse. Si sono così messe a punto delle procedure standardizzate di
indagine che consentono eventualmente di far emergere certi comportamenti che testimoniano l'esistenza
di strutture mentali o di particolari modalità di trattamento dell'informazione. Si trovano esempi di tale
procedura in alcuni test costruiti partendo dalla teoria di Piaget. Ma è particolarmente difficile osservare
oggettivamente processi di pensiero che si caratterizzino per il loro aspetto qualitativo e la dimensione
temporale piuttosto che per la semplice efficienza. Per questo, nella maggior parte dei test attualmente in
uso, ci si limita a valutare la qualità della prestazione del soggetto contando il numero di risposte corrette o
misurando il tempo necessario all'esecuzione di un compito. L'oggettività così ottenuta è una qualità
necessaria alla standardizzazione. In sua assenza non si sa più a sufficienza che cosa, nel comportamento
del soggetto, è attribuibile al soggetto stesso o alle caratteristiche di colui che osserva, e di conseguenza le
osservazioni raccolte sono poco utilizzabili per fini di ricerca o per fini pratici. Ma l'oggettività non è una
qualità sufficiente. Occorre essere certi che l'osservazione riguardi aspetti centrali del comportamento.
Occorre anche accertarsi che l'accordo tra gli osservatori non sia il risultato di un errore sistematico di
osservazione che non condurrebbe ad altro che a conclusioni ambigue o anche scorrette.
Ecco alcuni dati sul livello di difficoltà degli item del test di Raven: sono stati raccolti su un campione di più
di un migliaio di adolescenti tedeschi di 15 anni, scolarizzati. Nella serie I, la percentuale di successo agli
item varia dal 93% (Item 1) al 42% (item n. 11). L'item n. 10 (fig. 3) è stato superato 1111'82% dei soggetti.
Nella serie II queste percentuali variano dall'85 % (item n. 1) al 4% (item n. 36). Litem n. 19 (fig. 4) è stato
superato dal 60% dei soggetti. Per ogni serie, l'ordine di presentazione degli item è molto vicino al loro
ordine di difficoltà. 11 punteggio grezzo dei soggetti al test deve consentire di collocarli su una dimensione.
Nel caso del tesi delle matrici progressive, questa dimensione può essere chiamata “efficienza nel
ragionamento induttivo” o “capacità di ragionare induttivamente”. L'esistenza di questa dimensione deve
essere definita e univoca. Non avrebbe alcun senso sommare gli item superati se ciascun item non
valutasse in misura diversa la capacità di ragionare in modo induttivo. L'esistenza di una dimensione è
lOMoARcPSD|7819776
fondata a sua volta su considerazioni teoriche e su criteri formali. Da un punto di vista teorico è sensato
ritenere che tutti gli item del test di Raven mettono in gioco il ragionamento induttivo O, più esattamente,
una certa forma di ragionamento induttivo. Da un punto di vista formale, ci si deve assicurare che il
successo in un item sia strettamente associato al punteggio globale al quale deve contribuire. Se ciò
succede per tutti gli item, si concluderà che la scala è unidimensionale. Si possono utilizzare diversi metodi
per verificare questo unidimensionalità. Ne prendiamo in considerazione due: il calcolo dei coefficienti di
correlazione item-test e la generazione di curve caratteristiche degli item.
9
lOMoARcPSD|7819776
ne possono scegliere altri (ma allora non si parla di QI)'. Conoscendo il QI di un soggetto si sa come egli si
situa nel gruppo di riferimento. Dire che un soggetto ha un 01 di 100 significa che ha tanti soggetti avanti a
lui quanti dietro, e niente altro. Dire che un soggetto ha un QI di 115 significa che ha circa il 16% dei
soggetti del suo livello di età avanti_ a lui (16% è la percentuale della popolazione che si colloca oltre un
punteggio di «media + una deviazione standard» se la distribuzione è gaussiana). Con questo tipo di QI
diventa possibile classificare anche gli adulti. Del resto, la dispersione dei QI individuali è, per costruzione,
la stessa a tutte le età. Ma questo QI non è che una forma di classificazione tra tante ed è dunque possibile,
e del resto eli solito lo si fa, esprimere in QI i risultati a qualsiasi test. Si può osservare nella tabella 4 uno
schema di corrispondenza tra i Q1 e i percentili.
11
lOMoARcPSD|7819776
andati bene, anche se non è del tutto certo. Ci si deve quindi domandare in che misura il punteggio di un
soggetto non è influenzato dal carattere specifico delle situazioni problema propostegli. Per valutare il peso
di questi errori rispetto alla situazione, si possono costruire delle forme parallele dello stesso test, ovvero
diversi test destinati a valutare la stessa abilità e relativi allo stesso tipo di situazioni, ma realizzati in modo
diverso. Se si intende, ad esempio, valutare l'estensione del vocabolario in situazioni di produzione di
definizioni, si possono costituire diverse liste di parole da definire, simili per alcuni aspetti (la frequenza
d'uso, il carattere più o meno astratto, ecc.) ma diverse per altri. Il coefficiente di correlazione tra due
forme parallele, o coefficiente di equivalenza, ci indicherà in che misura le osservazioni sono fedeli rispetto
alla scelta delle situazioni. Un coefficiente elevato indica che i soggetti si classificano allo stesso modo ín
ogni prova, e quindi che gli errori riferibili alla scelta della situazione sono trascurabili. Un coefficiente
debole indicherà che la classificazione dei soggetti varia al variare del contenuto delle situazioni. Poiché
questa variazione non è né prevedibile né spiegabile, il significato delle due prove è quindi ambiguo.
Quando si ha un test formato da una serie sufficientemente lunga di item, le forme parallele possono
essere ottenute separando gli iterm pari da quelli dispari. Il coefficiente di correlazione tra queste due metà
del test, chiamato coefficiente di omogeneità, ha lo stesso significato del coefficiente di equivalenza. Si può
osservare che il coefficiente di omogeneità caratterizza soltanto una metà del test e sottostima la fedeltà
del test intero; inoltre prende in considerazione soltanto gli errori dovuti alla situazione mentre il
coefficiente di equivalenza tiene conto anche degli errori dovuti al momento dell'osservazione, dato che
non è possibile superare due test contemporaneamente. Coefficienti di equivalenza e di omogeneità dei
test di intelligenza sono generalmente elevati. Ad esempio, calcolati su gruppi di studenti di diversi paesi, i
coefficienti della serie H delle Matrici Progressive Raven si collocano tra 0,71 e 0,83. Gli errori di misura
possono anche derivare dalla soggettività degli osservatori. Abbiamo avuto modo di vedere all'inizio di
questo capitolo che la funzione della standardizzazione era precisamente di ridurre gli effetti di questa
soggettività. Nei test quindi il peso delle fonti d'errore relative all'osservatore diventa molto debole
5. La validità
Qual è l'interesse pratico di un test e qual è il significato delle misure che esso consente di ottenere?
Ponendosi queste domande ci si interroga sulla validità empirica e sulla validità teorica della prova.
nel futuro, il che suppone una stabilità abbastanza buona dell'ambiente o, nel caso in cui questa non sia
assicurata, una revisione frequente della validità. Se il coefficiente di correlazione tra il test e il criterio è
debole, si potranno fare solamente pronostici imprecisi, nel qual caso è più opportuno astenersi
completamente dal fare previsioni sui soggetti. L'esame del diagramma di correlazione permette di
precisare i valori pronosticati dal criterio e l'importanza dell'errore di pronostico. Per un dato valore del
predittore si prevede, per i soggetti che hanno ottenuto tale valore, la media dei punteggi al criterio. Lo
scarto medio tra questo punteggio medio e i punteggi effettivamente osservati è una misura della
precisione del pronostico.
13
lOMoARcPSD|7819776
distingua gli individui sulla base di ciò che c'è di comune tra tutte queste abilità (lo vedremo in seguito con i
test fattoriali)
WAIS non è più un indice di velocità di sviluppo, ma un indicatore del rango che occupa il punteggio
ottenuto tra quelli della popolazione di riferimento.
- La scala di performance
Completamento di figure: 20 immagini che il soggetto deve esaminare attentamente per trovare la parte
mancante.
Riordinamento di storie figurate: 10 item di difficoltà crescente che propongono ognuno una serie di
immagini in disordine. Compito del soggetto è di ordinarli in modo tale che raccontino una storia.
Cubi: 9 figure geometriche composte di parti rosse e bianche sono presentate una dopo l'altra. Compito del
soggetto è di ricostruire ognuna delle figure presentate con l'aiuto di 9 cubi colorati, di rosso su due facce,
di bianco su due facce e di rosso/bianco sulle altre due facce.
Ricostruzione di oggetti: pezzetti di cartone vengono presentati in disordine e il soggetto deve assemblarli in
modo che formano l'immagine di un oggetto familiare. La prova comporta quattro item di questo tipo.
Cifrario: si presenta al soggetto un foglio dove righe in cui si succedono serie di cifre sono appaiate a righe
in cui ad ogni cifra corrisponde un quadretto bianco. Al soggetto viene richiesto di riempire ogni quadretto
bianco con il simbolo che secondo il codice riportato in alto nella pagina corrisponde a quella cifra (il codice
può ad esempio indicare sotto 1 il segno ^, sotto 2 il segno + e così via). Il soggetto ha un minuto e mezzo
per, completare il maggior numero di casi possibili, mettendo sotto ogni cifra il simbolo appropriato.
Nei cinque subtest della scala di performance appena descritti il punteggio finale tiene conto sia dei tempi
di esecuzione sia dell'accuratezza della risposta.
15
lOMoARcPSD|7819776
11.630 soggetti adulti rappresentativi della popolazione italiana, suddivisi in 6 gruppi di età da 16 a 64 anni,
ogni gruppo composto per metà di maschi e per metà di femmine. Questa standardizzazione fornisce il
gruppo di riferimento all'interno del quale va situata la performance del soggetto esaminato.
Attendibilità: I coefficienti di attendibilità per l'adattamento italiano sono stati calcolati con il metodo split-
half, ottenuto calcolando le correlazioni tra le due metà del test composte dagli item pari e da quelli dispari
(vedi cap. 2). Solo per i subtest Memoria di cifre e Cifrario le attendibilità sono state calcolate con il metodo
testretest, ad una distanza di tempo tra le due somministrazioni variabile da 5 a 15 giorni. I coefficienti di
attendibilità sono stati calcolati per ogni singolo subtest, per ogni gruppo di età, per il QI performance, il QI
verbale e il QI totale. Le attendibilità medie di questo campione variarlo da 0,76 della Ricostruzione di
oggetti a 0,95 del Vocabolario. Le attendibilità medie dei subtest americani variano da 0,68 della
Ricostruzione di oggetti a 0,96 del Vocabolario. Ciò significa che, formando una metà della scala con gli item
pari e un'altra metà con gli item dispari, i soggetti del campione sono classificati approssimativamente allo
stesso modo con le due metà del test così costruite e ottengono un QI abbastanza simile (una
corrispondenza perfetta corrisponderebbe ad un coefficiente pari a 1).
Validità: Poiché l'ultimo adattamento italiano della WAIS-R è molto recente [1997] non si dispone ancora di
dati relativi alla sua validità. Le indicazioni sulla validità della WAIS-R riportate qui sono per la maggior parte
ricavate dalla versione americana. Uno dei modi per validare un nuovo test di intelligenza è quello di
verificare che le misure ottenute con il test correlino con quelle che si ottengono proponendo agli stessi
soggetti un test d'intelligenza validato. Proponendo la WAIS-R e lo Stanford-Binet a degli adolescenti, si è
ottenuta una correlazione di 0,80 tra i QI delle due prove. Allo stesso modo è stata osservata una
correlazione di 0,70 tra il QI calcolato sulla scala di performance e il QI delle matrici progressive presentate
nel capitolo 2. Si può quindi ritenere che la WAIS-R misuri approssimativamente la stessa cosa delle altre
prove di intelligenza, benché sia intuibile la circolarità di questa forma di validazione. Un'altra forma di
validazione empirica consiste nel definire un criterio di intelligenza e verificare che esista una correlazione
tra il punteggio ottenuto al test e questo criterio. In questo modo che si sono ottenute correlazioni di 0,40 e
0,50 tra il QI della WAIS-R e il successo scolastico, in studenti di liceo, di università o di politecnici. Ma ci si
può comunque domandare se il successo scolastico sia un buon criterio di intelligenza. A rigore, si può
soltanto concludere che la WAIS-R valuta degli aspetti di intelligenza utili per riuscire negli studi. Nella
ricerca sul ritardo mentale, il QI ottenuto alla WAIS-R si è rivelato un buon predittore della rapidità con la
quale i soggetti potrebbero concludere gli studi e del loro successivo inserimento nel mondo del lavoro. La
validazione teorica consiste nel verificare se i risultati del test corrispondano alle predizioni fatte sulla base
della teoria che ha ispirato la sua costruzione. Abbiamo già osservato che Wechsler non aveva una vera e
propria teoria dell'intelligenza nel momento in cui mise a punto questa scala, il che limita effettivamente le
possibilità di validazione teorica. Egli riteneva che i differenti subtest mettessero in evidenza una stessa
capacità globale. Se quest'idea è corretta, si dovrebbero ottenere buone correlazioni tra le scale e l'analisi
fattoriale di queste correlazioni dovrebbe consentire di estrarre un fattore generale di successo.
Le analisi fattoriali della WAIS-R hanno chiaramente mostrato l'esistenza del fattore generale atteso, che
spiega circa il 50% della varianza totale. Esse hanno anche mostrato che una volta estratta la varianza di
questo fattore generale, di gran lunga il più importante, si ottenevano tre fattori. Il primo raggruppa i
subtest di informazioni, di comprensione, di vocabolario e di somiglianze; ciò significa che queste quattro
prove hanno più delle altre la tendenza ad essere superate insieme. Questo primo fattore è generalmente
interpretato come un fattore di comprensione verbale. Un secondo fattore che raggruppa le prove di
completamento di figure, riordinamento di storie figurate, cubi e ricostruzione di oggetti, è generalmente
interpretato come un fattore di organizzazione visuospaziale. Infine, un terzo fattore raggruppa la prova di
memoria di cifre, quella di ragionamento aritmetico e quella del cifrario e viene interpretato come un
fattore di resistenza alla distrazione o di attenzione. L'esistenza di questi tre fattori relativizza la nozione di
capacità generale e legittima in parte la distinzione che Wechsler aveva introdotto a priori tra una scala
verbale e una scala di performance.
lOMoARcPSD|7819776
17
lOMoARcPSD|7819776
Un esempio di batteria di tesi fattoriali di intelligenza: il PMA di Thurstone Per identificare i fattori
comuni ad alcuni dei compiti cognitivi, fattori corrispondenti secondo lui alle abilità mentali primarie
(Primary Mental Abilities, o PMA), Thurstone ha messo a punto una batteria di una sessantina di test
differenti. Così come la costruzione delle scale di intelligenza, la messa a punto di questa batteria di test è
stata piuttosto empirica.
lOMoARcPSD|7819776
La varietà dei test introdotti nella batteria, e quindi il numero e la natura dei fattori dell'intelligenza che
possono essere estratti dipendono dall'idea che il ricercatore si è fatto dell'intelligenza. In assenza di una
teoria forte, non ci sono soluzioni soddisfacenti al problema della scelta delle situazioni da introdurre nella
batteria. I sessanta test pensati da Thurstone rappresentano quindi una parte dell'universo dei compiti
cognitivi, ma solo una parte. Thurstone ha dapprima proposto questa batteria di test ad un gran numero di
studenti dei college americani, poi, in seguito ad alcune modifiche, l'ha successivamente proposta a più di
un migliaio di liceali.
Fattoriale richiede che un certo numero di test venga proposto ad un numero abbastanza elevato di
soggetti, il che spiega la ragione per cui la maggior parte dei test fattoriali vengono concepiti come delle
prove brevi, di meno di dieci minuti, che vengono proposte carta e matita e collettivamente. Le analisi
fattoriali effettuate su questi sessanta test hanno consentito di estrarre sette fattori primari abbastanza
stabili e ben identificabili: comprensione verbale (V), fluidità verbale (W), abilità numerica (N), inferenza (I),
abilità spaziale (S), velocità percettiva (P) e memoria (M). I test che hanno mostrato le maggiori saturazioni
in ognuno di questi fattori sono stati mantenuti a formare delle batterie più ridotte, comprendenti un test
per ogni fattore. La batteria fattoriale PMA tradotta e adattata in Italia è tratta da questo studio. Si
compone di test carta e matita, a somministrazione collettiva, corrispondenti ad abilità primarie distinte da
Thurstone.
3.2. Presentazione dei test che compongono la batteria fattoriale PMA di seguito sono presentati i
cinque test che compongono la batteria intermedia, il cui livello di difficoltà è adattato ad un'età
compresa tra 11 e 17 anni. Ogni test è denominato sulla base del fattore di cui è rappresentativo.
- Fattore V significato verbale. Questo test valuta la competenza e la finezza di discriminazione dei
significati verbali. Consiste di 50 item cli difficoltà crescente: si propongono una parola bersaglio e, alla
sua destra, 5 parole tra le quali è richiesto di individuare quella con lo stesso significato della parola
target. Ad esempio: Rilucere
a) crepitare b) cesellare e) brillare d) dipingere e) arrugginirsi. Il tempo concesso è di 4 minuti e il
punteggio è dato dal numero di risposte corrette realizzate in questo lasso di tempo.
- Fattore S: abilità spaziale. Questo test valuta l'efficienza delle operazioni spaziali. È composto da 20
item di difficoltà crescente composti ciascuno da un disegno target presentato a sinistra. A destra
vengono presentati sei disegni e tra essi bisogna individuare quelli che non sono altro che l'itero di
sinistra ruotato (gli altri sono rovesciati). Il tempo concesso è di 5 minuti e il punteggio è dato dal
numero di risposte corrette ottenute.
- Fattore R: ragionamento. 30 item di difficoltà crescente, in cui al soggetto viene chiesto di fornire il
seguito di una serie di lettere. Questo test valuta l'efficienza dei processi di inferenza. Ad esempio:
abcdabceabcfabc?
- Fattore N: abilità numerica. L'abilità valutata è l'efficienza nella manipolazione dei numeri. Il test
propone 70 addizioni di quattro numeri di due cifre, sotto le quali è indicato un totale. il compito
consiste nel determinare, per ognuna, il più velocemente possibile se il totale è giusto o sbagliato. Il
punteggio è il numero di risposte corrette fornito in 6 minuti.
- Fattore W fluidità verbale. Questa prova valuta l'abilità di recuperare velocemente delle parole. Il
compito consiste nel produrre con tempo limitato. Il maggior numero di parole che cominciano con
una lettera data, es tutte le parole che cominciano con la P che vengono in mente. Il punteggio è
dato dal numero di parole trovate.
3.3. Le qualità metriche della batteria PMA
• Standardizzazione. manuale dell'adattamento italiano della batteria PMA fornisce una
standardizzazione sulla base dei risultati ottenuti al test da un campione di 844 studenti dai 12 ai 15 anni
frequentanti le tre classi della scuola media inferiore (prima, seconda e terza) con al massimo un anno di
ritardo. Rispetto ad una scolarità normale. Circa metà del campione è composto da maschi e l'altra metà da
femmine. Vengono fornite le medie per età e per scolarità dei cinque test. Inoltre, sulla base della
19
lOMoARcPSD|7819776
distribuzione dei punteggi in percentili, è possibile collocare un soggetto in relazione ai soggetti della sua
età del campione di riferimento. Ad esempio, se un soggetto di 12 anni ha un punteggio alla prova di
significato verbale di 15 risposte corrette si situa, secondo la tabella, al 40° percentile. Questo indica che
circa il 35% dei soggetti ha avuto un punteggio inferiore e circa il 55% uno superiore.
• Validità. Poiché l'adattamento italiano della batteria PMA riporta scarsi dati relativi alla sua validità,
in questo paragrafo faremo riferimento alla validità calcolata sulla versione francese della batteria. La
validità empirica della batteria PMA è stata indagata considerando diversi criteri. Utilizzando il punteggio
totale che integra i diversi test della batteria si è ottenuta una correlazione dell'ordine di 0,70 con altre
misure di intelligenza. Si sono osservate anche correlazioni significative tra ogni singolo test della batteria,
preso singolarmente, e il suo omologo in altre batterie fattoriali. Ad esempio, in uno studio in cui 560
soggetti di 12 anni hanno fatto il PMA ed un'altra batteria fattoriale (la. GATB), le correlazioni sono state dí
0,77 tra i due test verbali, di 0,51 tra i due test spaziali, 0,68 tra i due test di ragionamento e 0,65 tra i due
test numerici (nella GATB non c'è un test di fluidità verbale).
Un altro dei criteri di validazione empirica utilizzati è stato il successo scolastico. Uno degli studi, ad
esempio, ha calcolato in un campione di 600 liceali le correlazioni tra i punteggi al PMA e i punteggi
ottenuti, tre anni più tardi, ad una batteria di test sulle conoscenze scolastiche, Iowa Tests of Educational
Development. Tre anni dopo, le correlazioni di ogni test con il punteggio totale della batteria sulle
conoscenze scolastiche sono le seguenti: 0,68 con il test verbale, 0,23 con il test spaziale, 0,54 con il test di
ragionamento, 0,38 con il test numerico e 0,33 con il test di fluidità verbale. Come si può osservare, i test
verbale e di ragionamento sono i migliori predittori del successo scolastico tre anni dopo. Ciò induce ad
utilizzare, per pronosticare il successo scolastico, un punteggio composto che combina questi due test
attribuendo un peso doppio ai punteggi del test verbale secondo la formula 2V -i- R. Questo punteggio
correla circa 0,70 con il punteggio totale di conoscenza scolastica. Le correlazioni con le valutazioni
scolastiche date dai professori sono un po' meno forti, dell'ordine di 0,50. Ciò si può spiegare sulla base del
Fatto che i voti dati dagli insegnanti sono meno fedeli (comportano maggiori fonti di variazione
incontrollate) rispetto ai punteggi ai test cli conoscenza. Benché questa batteria sia concepita per valutare
abilità diverse, è frequente che si utilizzi un punteggio totale come indice globale di intelligenza
confrontabile con il
La ragione è che esistono correlazioni tra questi cinque test e che – come è stato evidenziato a proposito
dell'analisi fattoriale – si può anche estrarre un fattore generale di intelligenza che satura queste cinque
prove in misura variabile ( cap. 1 ).
Nel caso dei test fattoriali, la validità teorica si può ottenere attraverso la verifica della corrispondenza tra la
struttura ottenuta con l'analisi fattoriale di questi test e la struttura attesa. In altre parole, i test che si
considerano come rilevanti per uno stesso fattore devono essere maggiormente saturati da questo fattore
che dagli altri e i test che si considerano rilevanti per fattori differenti devono essere saturati da questi
fattori differenti. Si può verificare che ciò è quanto successe per questi cinque test nelle analisi fattoriali
eseguite da Thurstone quando mise a punto tale batteria. Questo passaggio diventa realmente ipotetico-
deduttivo nel momento in cui lo psicologo crea un nuovo test concepito per essere un indicatore di uno dei
fattori. La validazione teorica consiste allora nel verificare che, introducendo il test insieme ad altri in
un'analisi fattoriale, esso è ben saturato dal fattore atteso. A titolo esemplificativo, la prova di significato
verbale della batteria PMA, che consiste nel trovare un sinonimo, è fortemente saturata dal fattore verbale
(0,68) e per nulla dal fattore di fluidità verbale (0,01). Thurstone ha costruito una nuova prova di fluidità
verbale nella quale si chiede al soggetto di trovare tre sinonimi per ogni parola data. Egli faceva l'ipotesi che
nonostante la somiglianza di questa prova con quella di significato verbale (trovare un sinonimo), il test
mettesse in gioco la fluidità verbale poiché richiede che il soggetto fornisca più parole di una categoria data.
Nell'analisi fattoriale in cui questa nuova prova è stata introdotta, essa aveva effettivamente una
saturazione di 0,51 con il fattore fluidità verbale e una saturazione nulla con il fattore significato verbale, il
che validava l'ipotesi di Thurstone sulla natura di questo nuovo test.
lOMoARcPSD|7819776
21
lOMoARcPSD|7819776
interiorizzati diventano allora delle «operazioni» di pensiero. Una buona parte dell'opera di -Piaget è
consistita nell'identificare le strutture «operatorie» costruite successivamente dal bambino, man mano che
cresce. La costruzione di ognuna di queste strutture segna uno stadio di sviluppo e questi diversi stadi sono
percorsi con un ordine invariante. I grandi stadi di sviluppo del pensiero logico che Piaget ha identificato nel
bambino sono lo stadio sensomotorio (da O a 18 mesi o due anni circa), lo stadio preoperatorio (da 2 -a 7-8
anni circa), lo stadio operatorio concreto (da 8 a 10-11 anni circa) e lo stadio formale (a partire da 11-12
anni circa). Questi grandi stadi di sviluppo sono a loro volta suddivisi in sottostadi e a ciascuno di essi
corrisponde una struttura cognitiva che gli è propria e caratterizza in quel determinato momento il
ragionamento del bambino. Piaget non si è interessato ai test e nemmeno alle differenze individuali. Il suo
obiettivo è stato innanzitutto di descrivere le strutture cognitive e le leggi generali della loro costruzione.
Per far ciò, egli ha immaginato una moltitudine di situazioni, spesso molto ingegnose, destinate a mettere
in evidenza gli stadi di sviluppo del pensiero logico. Altri psicologi hanno ripreso queste situazioni
adattandole a situazioni test che permettessero di valutare lo stadio di sviluppo del pensiero logico. Un
esempio cli test italiano di questa categoria è il test OLC, Operazioni Logiche e Conservazione, messo a
punto da Vianello e Marin 1997. Il test OLC fa riferimento in particolare alle operazioni logicoaritmetiche e
alle nozioni di conservazione e valuta il passaggio da uno stadio preoperatorío ad uno stadio operatorio
concreto. La struttura del test prevede 4 aree (seriazione, numerazione, classificazione e conservazione) per
ciascuna delle quali sono predisposti 6 item. Ogni item ha una valutazione dicotomica (superato o non
superato, 1 o 0) e il punteggio totale massimo è perciò di 24. Ad esempio, un item della seriazione richiede
al soggetto, date 7 bottiglie, di far corrispondere ad ogni bottiglia un bicchiere dei 7 disponibili: verrà
attribuito il punteggio di 1 se il soggetto avrà correttamente svolto il compito. Gli item sono presentati in
ordine di difficoltà, dal più semplice al più difficile. Il test OLC è concepito per bambini dai 4 agli 8 anni e
consente di tradurre il punteggio del soggetto in un'età mentale ed anche in un Ql. Un test piagetiano
adatto invece a soggetti di età più elevata è la scala di sviluppo del pensiero logico (EDPL) messa a punto da
Fransois Longeot (1969). Questa scala riprende cinque delle situazioni utilizzate da Piaget nelle sue
ricerche. Queste situazioni hanno come obiettivo di mettere in evidenza la struttura del ragionamento in
differenti ambiti della conoscenza: logica, fisica e rappresentazione dello spazio. A titolo esemplificativo, la
prova che riguarda la fisica valuta lo stadio di ragionamento del soggetto nello sviluppo della nozione di
conservazione. Secondo Piaget, una delle manifestazioni dello strutturarsi delle operazioni concrete è il
ragionamento che permette di capire che le trasformazioni degli oggetti lasciano alcune delle loro proprietà
invariate: date due palline di pasta da modellare A e B del tutto simili, il cambiamento della pallina B
(appiattimento, trasformazione in rotolo, trasformazione in pezzetti) modifica il suo peso in relazione a
quello della pallina A? E queste trasformazioni modificano il suo volume in relazione a quello della pallina
A? L'EDPL è stata concepita per il periodo di età dagli 8-9 anni ai 15-16 anni, cioè per il periodo di sviluppo
che va dallo stadio delle operazioni concrete a quello delle operazioni formali. In relazione ai test di
intelligenza classici, i test piagetiani hanno varie componenti di originalità:
1) Il livello di sviluppo cognitivo del soggetto non è più definito dal suo rango nella distribuzione dei
punteggi della popolazione di riferimento, ma in riferimento ad un criterio teorico: lo stadio di
sviluppo al quale il suo modo di ragionare corrisponde;
2) Il comportamento del soggetto nelle prove può essere interpretato in riferimento ad una teoria
esplicita dello sviluppo cognitivo;
3) Il livello di sviluppo cognitivo del soggetto è valutato attraverso una caratteristica, il suo stadio, che
è transitoria. In questo, lo stadio è comparabile all'età mentale, ma si distingue dal QI che
caratterizza il soggetto in modo relativamente stabile;
4) L'esistenza di una sottostante teoria sufficientemente precisa evita di dover definirla
standardizzazione della somministrazione del test in modo rigido, come con le prove di origine più
empirica. È minore qui la necessità di comportarsi allo stesso modo con ogni soggetto, mentre è
importante dare i «suggerimenti» appropriati per vedere fin dove il soggetto può arrivare con il suo
ragionamento. Questo metodo critico di indagine è quello che utilizzava Piaget e il principio è stato
conservato nei test piagetiani a somministrazione individuale;
5) La validazione teorica del test si appoggia principalmente sul metodo di analisi gerarchica. Glí item
corrispondenti ai differenti stadi di ragionamento devono essere superati nell'ordine previsto dalla
lOMoARcPSD|7819776
teoria. Questa coerenza con l'ordine teoricamente atteso può essere valutata da un indice che va
da 0, quando l'ordine di successo degli item non è diverso da quello atteso sulla base del caso, a 1
quando l'ordine osservato corrisponde esattamente all'ordine atteso.
Nell'EDPL, la scala di Longeot, gli indici gerarchici delle diverse prove sono tutti superiori a 0,90, il che indica
che gli item corrispondenti ai differenti stadi si ordinano praticamente come atteso sulla base della teoria.
Nelle prove collettive, invece, questi indici sono dell'ordine di 0,70, che è meno soddisfacente. Tenuto
conto della loro originalità, che dipende in buona parte dal loro ancoraggio teorico, si sarebbe potuto
credere che i test piagetiani avrebbero soppiantato i test di intelligenza classici, di concezione più empirica.
Non è stato così. Ci sono numerose ragioni che possono spiegare questo fatto ma noi qui ne presenteremo
solo una. L'utilizzo di questo tipo di test ha fatto emergere velocemente che un soggetto poteva essere
caratterizzato da stadi di sviluppo diversi nelle differenti prove che compongono il test. Non era dunque
possibile caratterizzare un soggetto sulla base del suo stadio di sviluppo cognitivo, al singolare. Si è quindi
giunti a calcolare un punteggio globale che, per convenzione, collocava il soggetto ad uno stadio; lo stadio
così definito non è più comunque molto diverso da un Qi. Tanto più che la correlazione tra il punteggio
totale dei test «piagetiani» e il QI ottenuto alle scale di intelligenza classiche si è mostrata molto forte: varia
da 0,70 a 0,80 a seconda delle ricerche, il che fa pensare che l'abilità valutata da questi due test non sia poi
molto diversa. Nella stessa logica, se si sottopongono gli item di test piagetiani ad un'analisi fattoriale si
trovano all'incirca gli stessi fattori che con i test fattoriali. Di conseguenza, benché elaborati a partire da una
teoria dello sviluppo cognitivo nuova, i test piagetiani non hanno rinnovato profondamente i test di
intelligenza. Si sono rivelati particolarmente appropriati nella valutazione dello sviluppo del pensiero logico,
ma non hanno detronizzato le scale di sviluppo a più largo spettro.
4.2. Il .K-A BC
Il K-ABC (Kaufman-Assessment Battery for Children) è una scala di valutazione dello sviluppo
dell'intelligenza concepita per il periodo dai 2 anni e mezzo ai 12 anni, che è stata pubblicata negli Stati
Uniti da Alan e Nadeen Kaufman nel 1983 e adattata in Francia nel 1993, mentre in Italia è stata solo
proposta in via sperimentale presso alcuni centri ma non è mai stata standardizzata. Il quadro teorico che
sottende la costruzione della scala si fonda su studi di neuropsicologia e di psicologia cognitiva che hanno
evidenziato la necessità di distinguere tra due grandi tipi di processi mentali: i processi sequenziali e i
processi simultanei. Per sostenere questa distinzione gli autori si riferiscono ai lavori di Lucia, che collocava
la sede delle elaborazioni sequenziali dell'informazione nelle regioni fronto-temporali del cervello e quello
delle elaborazioni simultanee nelle regioni parieto-occipitali. Essi si rifanno anche ai lavori di
neuropsicologia e di psicologia cognitiva che hanno mostrato una specializzazione dell'emisfero sinistro del
cervello nel trattamento «analitico» delle informazioni e una specializzazione dell'emisfero destro nel
trattamento «globale». La varietà delle denominazioni e delle localizzazioni cerebrali a cui ci si riferisce nei
diversi lavori di ricerca lascia pensare che a questione della localizzazione cerebrale dei vari processi è
probabilmente più complessa di quanto non si sia creduto. Nel mettere a punto questa nuova batteria,
l'obiettivo dei Kaufman era di rinnovare i test dí intelligenza da un doppio punto di vista: creare una scala
orientata alla caratterizzazione dei processi mentali (sequenziale, simultaneo) piuttosto che ad ambiti di
contenuto (verbale, spaziale) e dar loro dei fondamenti teorici più solidi di quelli delle scale precedenti. A
questo scopo essi hanno costruito una batteria composta di tre subscale ben distinte: l'una valuta
l'efficienza dei processi sequenziali, l'altra quella dei processi simultanei e la terza le conoscenze. I processi
sequenziali sono quelli messi in atto quando i differenti aspetti dell'informazione sono elaborati l'uno dopo
l'altro, in sequenza nel tempo. I processi simultanei sono invece quelli messi in atto quando i differenti
aspetti dell'informazione disponibile sono elaborati in parallelo, nello stesso tempo. Le prime due subscale
sono esclusivamente orientate alla valutazione dell'efficienza di queste due grandi categorie di processi
mentali. La terza subscala che valuta a parte le conoscenze è ben distinta da queste prime due, come non
avviene nel Binet-Simon o nella WATS, in modo tale che si possa ben distinguere la quantità e la qualità
delle conoscenze acquisite, da una parte, rispetto all'efficienza dei processi grazie ai quali esse sono state
acquisite, dall'altra. Nella subscala dei processi sequenziali, si trova una prova di ripetizione dí cifre, il cui
principio è lo stesso che nel BinetSimon e nella WATS, una prova di ricordo di parole, di natura simile, e una
23
lOMoARcPSD|7819776
prova più originale, ispirata al lavoro di Luria, che consiste nel mostrare al soggetto una successione di
movimenti della mano che egli deve riprodurre (vedi fig. 12 pag 76).
La subscala dei processi simultanei comporta un numero più elevato di prove. Alcune sono simili ai subtest
della scala di performance della WAIS o della WISC (ad esempio il test serie di fotografie che è analogo alla
prova di riordinamento di storie figurate della WAIS, eccetto che gli elementi in disordine a partire dai quali
bisogna ricostruire la storia sono delle fotografie e non delle figure). Altre sono più nuove, ad esempio la
prova di riconoscimento di forme, nella quale il soggetto deve riconoscere l'oggetto di cui gli viene
presentata un'immagine degradata (vedi fig. 13 pag 76). Le prove della terza subscala, quella delle
conoscenze, sono concepite sulla base dello stesso principio delle prove di informazioni, di vocabolario o di
aritmetica della WAIS o della WISC e comportano anche prove di comprensione della lettura. Esse vengono
presentate ín una forma accattivante e adatta a bambini piccoli. Ad esempio, la prova di informazioni non è
proposta sotto forma di domande come nella WAIS o nella WISC, ma mostrando ai bambini delle fotografie
di personaggi o monumenti celebri che devono riconoscere (ad esempio, la foto della torre Eiffel). I
punteggi grezzi di queste tre subscale sono trasformati in punteggi standard e i punteggi standard in QI,
secondo gli stessi principi della WAIS. Si possono così confrontare i punteggi ottenuti ai diversi subtest e
stabilire dei profili. Le qualità metriche di questa batteria sono del tutto confrontabili con quelle delle scale
precedenti e l'analisi fattoriale dei differenti subtest che la compongono conferma che le prove sequenziali
e simultanee sono saturate da fattori diversi. Mettendo l'accento sulla valutazione dell'efficienza dei due
tipi di processi, sequenziali e simultanei, questa nuova scala ha realmente rinnovato la concezione dei test
di intelligenza e consentito di valutare aspetti differenti dai test precedenti? Abbiamo bisogno di fare un
passo indietro per dirlo. Possiamo notare infatti che le tre scale del 'K-ABC valutano tre aspetti
dell'intelligenza che sono simili a quelli ottenuti con l'analisi fattoriale della WAIS: un fattore verbale che
satura subtest simili a quelli della scala di informazioni del KABC; un fattore visuo-spaziale che satura le
prove di performance simili a quelle della scala dei processi simultanei; e infine un fattore che satura
soprattutto la prova di ripetizione eli cifre e il cifrario, interpretato come un fattore dí resistenza alla
distrazione o eli attenzione, il cui contenuto è quindi confrontabile con quello dei processi sequenziali del K-
ABC. Inoltre, la correlazione tra il QI ottenuto al K-ABC e il QI ottenuto ad altre scale di intelligenza è
abbastanza forte (circa di 0,70), il che indica che la capacità generale valutata da questa scala è abbastanza
legata a quella valutata dalle scale di intelligenza già esistenti.
In sintesi, i test costruiti a partire dalle teorie dell'intelligenza più recenti hanno cercato di analizzare il
funzionamento cognitivo da un angolo diverso. I test piagetiani Sono interessati alle strutture attraverso le
quali, secondo Piaget, si articola lo sviluppo del pensiero logico. Il KABC ha come obiettivo la valutazione
dell'efficienza di due forme diverse di elaborazione dell'informazione: simultanea e sequenziale. Ciascuno
di questi nuovi approcci arricchisce il lavoro degli psicologi di possibilità di diagnosi più sensibili e articolate.
Rimane il fatto che, per buona parte, questi test ispirati a teorie recenti valutano le stesse abilità dei test
classici. Da un certo punto di vista, il fatto che queste prove concepite a partire da quadri teorici piuttosto
diversi valutino all'incirca la stessa cosa delle prove anteriori contribuisce alla validazione teorica a
posteriori dell'approccio empirico e pragmatico dei primi ideatori dei test d'intelligenza.
25
lOMoARcPSD|7819776
del test. Un esempio di lavoro realizzato in questo ambito di ricerca è stato descritto alla fine del capitolo 2
a proposito delle componenti del processo di soluzione degli item delle Matrici Progressive di Raven.
Il terzo tipo di problema riguarda le funzioni che i test possono rivestire nella nostra società e concerne
principalmente le questioni relative all'inserimento sociale degli individui e le conclusioni
sull'organizzazione della vita sociale che si possono trarre dalle osservazioni fatte per mezzo dei test. Il
problema è stato sollevato principalmente da valutazioni che si pongono nel campo delle politiche
educative (come interpretare le diseguaglianze in materia di educazione? come organizzare il sistema di
formazione?) e secondariamente da problemi di lavoro o di impiego. Queste domande conducono ad
alcune osservazioni politiche. Due temi ritornano costantemente: quello dell'equità delle differenziazioni
operate dai test e quello delle origini delle differenze individuali, tra cui la questione del ruolo dell'eredità.
Dopo aver richiamato qualche dato storico, esamineremo la forma assunta dal dibattito e dalle polemiche
sulla funzione sociopolitica dell'impiego dei test negli Stati Uniti, nell'ex Unione sovietica e in Francia.
1.3. I dibattiti sui test di intelligenza negli Stati Uniti: eredità e influenze culturali
Nel periodo tra le due guerre, i dibattiti sui test riguardarono le conclusioni da trarre dai risultati osservati
nel gigantesco testing del 1917 (i risultati furono pubblicati nel 1921). Le differenze tra gruppi, osservate
come è noto tra neri e bianchi, furono sistematicamente interpretate come delle differenze ereditarie. La
superiorità media ai test dei neri del nord rispetto a quelli del sud, ad esempio, non venne interpretata in
relazione a fattori ambientali piuttosto evidenti come il tasso di scolarizzazione. Si preferì inventare la tesi
delle migrazioni selettive secondo la quale i neri più intelligenti del sud sarebbero emigrati al nord.
L'applicazione di norme per lo meno discutibili conduceva a concludere che il 37% della popolazione aveva
un ritardo mentale! Queste affermazioni erano ben lontane dall'essere irrilevanti, ma diedero
lOMoARcPSD|7819776
argomentazioni agli eugenisti, che raccomandavano restrizioni della vita sessuale dei ritardati mentali
nonché la loro sterilizzazione, agli xenofobi, partigiani di una politica di immigrazione selettiva, e ai razzisti.
Se il punto di vista «ereditarista» era maggioritario, non c'era tuttavia unanimità tra gli psicologi, da cui
derivarono una serie di controversie. La più viva oppose, nel 1922-1923, Terman, adattatore del test di
Binet e partigiano delle tesi ereditari te che abbandonerà qualche anno più tardi, e Lippman. Lippman non
metteva in discussione l'interesse dei test di intelligenza, ma criticava severamente la soglia scelta per
definire il ritardo mentale e, soprattutto, affermava che l'intelligenza non poteva essere valutata
indipendentemente dagli apprendimenti e rifiutava perciò l'idea di un'intelligenza «pura», una sorta di
sostanza misteriosa impermeabile alle influenze educative. Molte delle polemiche e dei dibattiti successivi
non hanno fatto che riprodurre questo contrasto iniziale. Si può notare che tutte queste discussioni
riguardano i test di intelligenza, e più in particolare i test collettivi, indipendentemente dalla
standardizzazione utilizzata che diventa del tutto secondaria. Ora, dato che i risultati ai test sono nella
maggior parte dei casi espressi in quoziente intellettivo, si è arrivati a credere, soprattutto attraverso i
media, che è il QI a dover essere criticato, anche nel momento in cui i problemi sono gli stessi che si utilizzi
o meno la nozione di QI. Le critiche di Lippman non riguardavano i test, ma soltanto l'interpretazione delle
osservazioni fatte per mezzo (lei test. All'indomani della seconda guerra mondiale, si svilupparono invece
critiche che riguardavano i test stessi. Eels e colleghi nel 1951, sociologi di Chicago, misero in discussione
l'imparzialità apparente dei test. Essi sostenevano che i bambini degli ambienti popolari non sono
necessariamente meno intelligenti dei bambini delle classi agiate ed è piuttosto evidente che i test, per il
loro contenuto familiare ai bambini delle classi agiate, favoriscono questi bambini a svantaggio di quelli
delle classi popolari.
Eels e colleghi, per validare la loro tesi, esaminarono i test allora in uso e tentarono di costruire un test
“socialmente equo” impresa che alla fine si sarebbe rivelata quasi impossibile. La critica di Eels e colleghi fu
all'origine di un'importante corrente di ricerca sulle influenze culturali nei test sulla quale torneremo in
seguito. Il dibattito sul ruolo dell'ereditarietà nella spiegazione delle differenze individuali è un dibattito
permanente. L'anno 1969 ne segna un momento di grande forza. Ci si interroga sull'efficacia dei grandi
programmi socioeducativi promossi per la lotta contro la povertà e per l'integrazione delle minoranze nere
e ispaniche. Fu allora che uno psicologo dell'Università di Berkeley, Arthur Jensen, pubblicò un lungo
articolo in cui tentò di mostrare che:
1. I programmi socioeducativi non sono efficaci;
2. L'intelligenza e il successo scolastico nella popolazione bianca sono determinati principalmente dalla
componente ereditaria;
3. Anche le differenze di prestazione tra bianchi e neri a scuola e nei test si spiegano attraverso la
componente ereditaria, non rimane quindi, secondo Jensen, che mettere fine ai programmi
socioeducativi.
In altri scritti, Jensen sviluppò l'idea che ci siano due forme di intelligenza, l'una nobile e creativa, l'altra
semplicemente associativa, che queste forme di intelligenza siano determinate dall'eredità, che la prima sia
più frequente nella popolazione bianca mentre l'altra in quella nera, e che quindi sia opportuno prevedere
due modalità di insegnamento. Jensen ricevette qualche parere a sostegno della sua ipotesi: è noto quello
di Eysenck, uno psicologo che fu per lungo tempo la personalità più rappresentativa della scuola
psicometrica inglese, di tradizione galtoniana. Le sue tesi, comunque, che ancora una volta non
riguardavano i test ma la loro interpretazione, ebbero tra gli psicologi un'attenzione limitata (in Francia, ad
esempio, nessuna personalità conosciuta nel mondo della psicologia assunse pubblicamente la posizione eli
Jensen).
Un altro periodo intenso nel dibattito sul ruolo dell'ereditarietà nell'origine delle differenze individuali è
stato quello relativo alla pubblicazione nel 1994 di The Bell Curve con la firma di Herrnstein, uno psicologo
che aveva già mostrato il suo sostegno a Jensen nel 1971, e di Murray, un esperto di scienze politiche.
Questi autori hanno riattualizzato le posizioni di Jensen affermando che la differenziazione sociale, negli
Stati Uniti operava su una base cognitiva e che le differenze cognitive tra individui e tra gruppi erano
largamente dipendenti dal patrimonio ereditario. Le posizioni difese da Jensen, Herrnstein e Murray sono
espressione di un certo darwinismo sociale. Esse affermano che le diseguaglianze sono naturali; non vale
quindi la pena di cercare di riformare la società per ridurle, ma è preferibile organizzarla di conseguenza.
27
lOMoARcPSD|7819776
Queste posizioni poggiano su due postulati: il carattere unidimensionale (che consente di farla coincidere
con la stratificazione sociale) e il ruolo massiccio delle determinanti ereditarie. Oggi è ben chiaro che
l'intelligenza è pluridimensionale e che, tenuto conto dei fenomeni di interazione tra il patrimonio genetico
e i fattori ambientali, non ha senso cercare di quantificare il peso rispettivamente dell'eredità e
dell'ambiente nel determinare le differenze individuali. Malgrado i tentativi di un certo numero di mezzi di
informazione di importare queste polemiche, esse ebbero un'eco relativamente debole in Europa dove, in
generale, per ragioni sia storiche sia sociologiche, le relazioni tra le comunità sono viste in termini
radicalmente diversi. Si può anche notare, e ci ritorneremo, che l'uso dei test è molto più limitato nel
sistema scolastico europeo (francese ed italiano, ad esempio) e che, soprattutto, le pratiche di selezione
non sono fondate sui test di intelligenza, ma in particolare sui risultati scolastici.
1.5. .11 dibattito sui test in Francia: la «giusta selezione» e la legittimazione delle diseguaglianze.
Il movimento dei test in Francia fu influenzato da due forti personalità: Alfred Binet ed Edouard Toulouse.
L'influenza di Binet, scomparso prematuramente nel 1911, si è essenzialmente esercitata attraverso il suo
test. Quella di Toulouse, benché egli fosse meno conosciuto, è stata ben più profonda. Toulouse (1865-
1947) era uno psichiatra che nel corso della sua vita condusse ricerche fondamentali (particolarmente sul
rapporto tra il genio e la neuropatia) e creò numerosi laboratori, proponendo soluzioni ai problemi sociali
(in particolare nell'ambito della salute mentale). Toulouse era un appassionato sostenitore dei metodi
oggettivi, quindi dei test. Preoccupato di spiegare i comportamenti a partire dai fenomeni psicologici
elementari e dalla fisiologia, egli aderì alle posizioni riduzioniste adottate dalla maggior parte degli psicologi
all'inizio del secolo (ad eccezione di Binet). I primi test elaborati da Toulouse e dai suoi collaboratori nel
1904, che assomigliavano molto alle situazioni che si incontravano nei laboratori di psicologia sperimentale,
riguardavano la valutazione dei processi psicologici elementari. Toulouse era anche profondamente
impegnato nella sua epoca e propose delle riforme ispirate alla filosofia positivista che riprendevano le
rivendicazioni egualitarie dei movimenti sociali del momento.
Fino agli anni Quaranta e Cinquanta, alcuni allievi di Toulouse, Henri Laugier, Jean Maurice Lahy, Henri
Pieron, furono i più ardenti promotori della psicotecnica (Huteau 1961). Per Toulouse e i suoi allievi
l'utilizzo dei test non era solo un mezzo per razionalizzare la vita sociale, ma anche per promuovere di più la
giustizia. Essi erano convinti che gli psicotecnici dovessero giocare un ruolo di esperti nell'ambito del lavoro,
lOMoARcPSD|7819776
determinando per mezzo dei test le abilità necessarie all'esercizio delle professioni, orientando le politiche
di formazione professionale, riformando le condizioni di lavoro e indagando sulle cause degli scioperi.
L'obiettivo prefisso era quello di ripartire più equamente il «compito sociale» tra gli operai e i padroni.
Toulouse e i suoi allievi videro anche in un orientamento professionale fondato su misure di abilità un
mezzo per correggere le diseguaglianze di accesso all'educazione. Più sostanzialmente, essi si proclamarono
senza riserve per una scuola unica (fino alla seconda guerra mondiale ci furono infatti due scuole: la scuola
primaria, con un proseguimento alla scuola primaria superiore, frequentata da bambini di origine popolare,
e le classi primarie dei licei con il liceo come proseguimento naturale, riservate ai bambini delle classi
agiate) e proposero, all'uscita da un «tronco» comune, «una giusta selezione» fondata su misure di abilità
oggettive. Negli anni Venti e Trenta vennero presentate numerose proposte di legge per organizzare il
sistema di insegnamento in questa prospettiva. L'uso dei test in questo modo proposto, dall'inizio del
secolo all'indomani della seconda guerra mondiale, s'inscrive nel quadro di una politica rivolta a riformare
in senso progressista il sistema sociale. Ciò spiega il fatto che i test siano stati percepiti come strumenti al
servizio del progresso sociale nel movimento sindacale e nel movimento socialista, e come tecniche
pericolose, di cui si contestava la validità, nell'ambiente borghese conservatore. Questi dibattiti non
avevano molto a che vedere con quelli che si stavano sviluppando pressoché nello stesso momento
oltreoceano. Malgrado il loro ardore, Toulouse e i suoi allievi non riuscirono se non parzialmente ad
imporre il proprio punto di vista. Certamente i test furono sempre più utilizzati nella selezione e soprattutto
nell'orientamento professionale, ma la selezione scolastica continuò ad avvenire precocemente e su una
base sociale. Il progetto psicotecnico rimase un'utopia. All'indomani della seconda guerra mondiale, il
paesaggio cambiò radicalmente: le critiche più vive rivolte ai test non vennero più dai settori conservatori
dell'opinione pubblica ma dagli intellettuali e dagli psicologi membri o simpatizzanti del partito comunista,
che trovavano perfettamente giustificate le misure prese in Unione Sovietica nel 1936 (gli echi e le
influenze di questo dibattito si sarebbero fatti sentire anche in Italia). I test vennero presentati come un
mezzo «per confermare, per legittimare, e anche per far accettare le diseguaglianze dell'ordine sociale».
Mettendo in primo piano la funzione ideologica attribuita ai test, non si insisteva sul fatto che lo scarto tra
bambini cresciuti in ambienti favorevoli o sfavorevoli fosse minore con i test che con i voti scolastici. Gli
psicologi degli anni Trenta che pensavano di contribuire al progresso sociale promuovendo l'uso dei test
vennero considerati degli idealisti ingenui. Intorno al 1.968 numerose opere avrebbero ripreso queste tesi,
attenuandole o radicalizzandole.
Come negli Stati Uniti, in Gran Bretagna questi dibattiti e polemiche riguardarono soprattutto la scuola e la
selezione scolastica. Ma a differenza di ciò che si è visto in questi due paesi, in Francia e in Italia essi hanno
mantenuto un carattere accademico e astratto che deriva dall'assenza di un vero scopo sociale. Si trattava
cioè di mettere in gioco delle questioni ideologiche piuttosto che delle pratiche sociali. In effetti, in Francia i
test non sono mai stati utilizzati come mezzo di selezione scolastica (ad eccezione dell'insegnamento
«speciale» per i portatori di handicap). I test sono stati massicciamente utilizzati nell'insegnamento
secondario dalla fine degli anni Cinquanta all'inizio degli anni Ottanta, ma gli orientamenti sono sempre
stati basati sulla valutazione scolastica. I dibattiti più vivaci sui test, quelli condotti da un punto di vista
sociopolitico, non riguardavano i test come metodi di osservazione, bensì l'origine delle differenze
individuali e l'equità delle procedure di inserimento sociale. Queste domande non ebbero risposte
scientifiche soddisfacenti, primo perché le conoscenze scientifiche non erano sufficienti, e secondo perché
la questione riguardava una scelta di valori, che ha suscitato dibattiti con una forte componente ideologica,
opponendo concezioni globali dell'uomo e della società. Da allora, non è sorprendente che questi dibattiti
non si siano conclusi e che a seconda del contesto socio-storico abbiano preso forme diverse.
29
lOMoARcPSD|7819776
Prevedendo classi diverse non solo per bambini con gravi difficoltà, ma anche per bambini con difficoltà più
lievi che tuttavia sembravano abbisognare cli un percorso educativo particolare. Si, parlava nel primo caso
di classi speciali e nel secondo caso di classi differenziali. Per le classi speciali era prevista una diagnosi
basata sostanzialmente sui test di intelligenza; per le classi differenziali questo uso era meno diffuso, ma
poteva comunque essere presente. E noto che le classi speciali e le classi differenziali costituivano una
modalità di isolamento e di ghettizzazione di certi bambini. In Italia si era infatti sviluppato un movimento
pionieristico contro questa segregazione, e quindi contro uno degli strumenti cli questa segregazione, il test
di intelligenza. Tra l'altro a quell'epoca si rilevava come esistesse una chiara relazione tra svantaggio
socioculturale e basso punteggio ai test di intelligenza. Questo tipo di rapporto era stato trovato non solo in
altri paesi del mondo ma anche in e aveva appunto portato alla sottolineatura dei test «culture fair» per i
quali la valenza socioculturale era meno presente. Un particolare caso, localizzato ma estremamente
interessante, di questa attività di segregazione svolta usando il nome di prestigio di una cosiddetta scienza,
è rappresentato dalla discriminazione operata sulle comunità culturali. Se questo può essere avvenuto in
Italia su bambini particolarmente svantaggiati o su bambini di minoranze culturali e linguistiche, la
discriminazione più clamorosa riguardò invece i bambini figli di italiani che erano all'estero. Alcuni studiosi
italiani rilevavano come i figli di italiani in Germania finissero quasi tutti in classi che avevano le
caratteristiche simili alle classi speciali o differenziali italiane proprio in base al fatto che avevano ottenuto
punteggi bassi ai test di intelligenza. Emerse in modo evidente che i test di intelligenza erano fortemente
caratterizzati dal punto di vista linguistico e i bambini che non conoscevano bene la lingua tedesca
chiaramente fallivano. Era molto amaro constatare che uno strumento nato per fini di sviluppo di
conoscenze offrisse una modalità per emarginare minoranze non gradite. In seguito a questi eventi ci
furono molte iniziative in Italia contro i test di intelligenza, comparvero diversi lavori sia in libri sia in riviste
scientifiche non solo riferite alla comunità strettamente psicologica, ma anche a comunità più ampie. Per
esempio la rivista «Sapere» pubblicò interventi contro questo uso dei test di intelligenza. Cadi, Padovani e
Trentini riconoscono due correnti di pensiero relative ai test di intelligenza all'interno della psicologia
sociale, l'una contraria, dei «clinici», e l'altra favorevole, degli «psicometristi». La critica ai test, che partiva
da fondamenti giusti ma chiaramente faceva riferimento solo a questi cattivi usi degli strumenti, si allargò a
tal punto che in quegli anni l'uso degli strumenti divenne sempre più raro e per parecchio tempo fu
considerato scientificamente inappropriato e anche politicamente reazionario fare riferimento al concetto
di intelligenza associato all'uso di strumenti. Oggigiorno le posizioni non sono più così estreme e la critica è
molto meno aspra. Il test ha acquistato di nuovo una valenza priva di connotazioni ideologiche che lo
definisce come strumento di diagnosi più o meno apprezzato nel campo della psicologia. Il problema a cui si
è più sensibili non è tanto la «bontà» o meno dell'utilizzo del test, ma l'uso corretto delle informazioni che
fornisce.
2. Le pratiche attuali
In diversi paesi del mondo i test di intelligenza sono utilizzati con obiettivi abbastanza differenti nei tre
grandi settori di applicazione della psicologia: ambito educativo, sanità e lavoro.
ad abilità cognitive specifiche che in qualche modo costituiscono componenti dell'intelligenza. Per esempio
in alcuni casi è stato usato il test di intelligenza PMA che offre informazioni relative a componenti distinte,
fattorialmente isolate, dell'intelligenza quali il ragionamento, le abilità visuo-spaziali, le competenze
semantiche, ecc. Inoltre i Servizi che collaborano con la scuola sono spesso chiamati a esami dei bambini
che coinvolgono la misurazione dell'intelligenza. Per esempio per la diagnosi cli handicap mentale si
procede di routine a una valutazione dell'intelligenza per vedere se effettivamente il bambino presenta un
potenziale intellettivo che è al di sotto del valore critico di soglia (di solito posto a 70). Similmente, per la
valutazione dei disturbi specifici di apprendimento, quali per esempio la dislessia, la discalculia, i disturbi di
attenzione, si procede di routine ad escludere la possibilità che le difficoltà del bambino siano associate ad
un deficit intellettivo vero e proprio. Sia per la diagnosi di ritardo mentale, sia per la diagnosi di disturbo
specifico di apprendimento, si procede pertanto alla valutazione dell'intelligenza e lo strumento più
utilizzato in questo caso è costituito dalla scala WISC. In Francia le più utilizzate sono le scale di Wechsler, le
più note anche in Italia (WPPSI a livello prescolare e WISC a livello di scuola elementare), la nuova scala
metrica dell'intelligenza (adattamento del test Binet-Simon ad opera di R. Zazzo e collaboratori) e, molto
più raramente, scale ispirate alla teoria piagetiana o il K-ABC.
I risultati a questi test sono interpretati nel quadro di una diagnosi clinica, messi in relazione all'insieme di
informazioni raccolte nel corso dell'esame psicologico. Le informazioni fornite dal test di intelligenza si
rivelano particolarmente utili nel momento in cui lo psicologo vuole sapere se le difficoltà incontrate dal
bambino sono riferibili ad un ritardo globale dello sviluppo intellettivo o a dei disturbi strumentali più
specifici, ad esempio disturbi nell'apprendimento della lettura, della scrittura o del calcolo, o ancora a dei
disturbi relazionali, con la famiglia o l'insegnante. Le indicazioni numeriche come il QI o la posizione nel
gruppo di età danno dei riferimenti il cui significato dipende da altri elementi raccolti nel corso dell'esame,
ma anche da osservazioni fatte nel corso della somministrazione del test di intelligenza: atteggiamento di
fronte alla novità, atteggiamento di fronte al fallimento, reazioni emotive, comunicazione, ecc. Le soluzioni
proposte dallo psicologo per ridurre í problemi che hanno portato alla consultazione possono essere
semplici consigli agli insegnanti o ai genitori, indicazioni di rieducazione o sostegno appropriato ai disturbi
specificamente diagnosticati (dislessia, discalculia, disturbi psicomotori, ecc.), operati da un gruppo di
lavoro (comprendente lo psicologo, riabilitatori e insegnanti di sostegno che intervengono in un settore
scolastico). In Francia, mediante i test viene valutata l'ammissione a classi di insegnamento speciale
(mentre in Italia le classi speciali sono state quasi completamente abolite e il punteggio di QI è stato invece
spesso utilizzato per l'assegnazione al bambino di un insegnante di sostegno). L'inserimento in classi
speciali è valutato in Francia da una commissione dipartimentale per l'insegnamento speciale, o da un
organo locale, che ha come interlocutori i genitori dell'allievo. I risultati ai test di intelligenza, interpretati
dagli psicologi scolastici, sono uno degli elementi determinanti su cui la commissione si basa per valutare
l'opportunità di inserimento in una classe speciale. La domanda sociale che aveva motivato Binet a
costruire il primo test di intelligenza esiste ancora oggi e i test che discendono da quella prima scala di
intelligenza rispondono tuttora a quella domanda. La questione dell'utilizzo dei test di intelligenza si pone in
modo del tutto diverso nell'ambito dell'orientamento scolastico e professionale. In Francia si contano circa
4.000 esperti di orientamento-psicologi che intervengono soprattutto nell'insegnamento secondario. Il loro
compito principale è di aiutare i giovani a decidere riguardo al proprio futuro scolastico e professionale.
Questo aiuto nella formazione delle scelte e nella decisione avviene, ben inteso, con l'apporto di
informazioni sulla rete scolastica, le professioni, il mercato del lavoro, ma anche con l'apporto di
informazioni utili a far prendere coscienza al soggetto stesso delle proprie potenzialità e dei propri
interessi. Tra le differenti tecniche che il consiglio di orientamento può utilizzare per raccogliere
informazioni relative a questi ultimi aspetti (passatempi, questionari sugli interessi, scale di maturità
«vocazionale», ecc.) figurano anche i test di intelligenza, il cui utilizzo in questo ambito è divenuto tuttavia
piuttosto marginale. Non è comunque sempre stato così. I test sono stati utilizzati in modo piuttosto
massiccio e sistematico dai «consigli sull'orientamento» in un periodo che va dalla metà degli anni
Cinquanta circa agli inizi degli anni Ottanta. Questo periodo è stato quello dell'estensione
dell'insegnamento secondario a fasce sempre più numerose di giovani. Sulla linea di idee della «giusta
selezione» che hanno ispirato lo sviluppo della corrente psicometrica nella scuola francese, ci si è serviti dei
test di intelligenza per individuare tra gli studenti i cui risultati scolastici lasciavano a desiderare quelli con
31
lOMoARcPSD|7819776
scarse possibilità di successo nella scuola secondaria. I test utilizzati erano batterie fattoriali collettive del
tipo della batteria PIVI A che è stata presentata nel capitolo precedente. Questo impiego massiccio dei test,
motivato da buone intenzioni, si è rapidamente trasformato in abuso, con l'apparizione, ad esempio nella
regione parigina, dei mezzi informatici di correzione. Si è verificato che gli esperti di orientamento
passavano da una classe all'altra con le loro valigie di test collettivi, inviando i protocolli al centro di calcolo
del servizio accademico, e ricevendo indietro delle liste che fornivano per ogni allievo un profilo di abilità.
Ciò da una parte portava ad annientare il numero di casi esaminati, dall'altra si perdeva in ricchezza di
informazioni raccolte su ogni individuo e la discussione con gli insegnanti avveniva su una base Molto
povera. Emerse presto che l'accordo tra esperti di orientamento e insegnanti sull'interesse dei test, quando
esisteva, poggiava spesso su un malinteso. Mentre gli esperti di orientamento cercavano di rivedere í casi di
disaccordo tra i risultati ai test e i risultati scolastici, gli insegnanti si soffermavano sui casi di accordo molto
più numerosi nei quali vedevano una legittimazione della classificazione scolastica. Questa pratica
sistematica dei test collettivi di abilità è diminuita rapidamente a partire dalla fine degli anni Settanta per
scomparire poi quasi completamente. Il movimento di contestazione dei test ha senza dubbio giocato un
ruolo importante in questo rapido riflusso, tanto più che l'organizzazione degli esami collettivi era
effettivamente suscettibile di critiche da numerosi punti di vista. Ma in particolare questo riflusso ha
coinciso con una profonda ristrutturazione del ruolo dell'esperto di orientamento. Da un lato, la ricerca di
talenti nascosti non aveva più interesse a partire dal momento in cui si era acquisita la generalizzazione
dell'insegnamento secondario; dall'altro, gli esperti di orientamento si sono sempre più identificati in una
funzione educativa di aiuto allo sviluppo personale e alla formazione delle scelte.
test di intelligenza per avere un'idea generale di come il soggetto si comporta di fronte a un compito da
risolvere, del modo con cui Io affronta, del suo atteggiamento di fronte alle difficoltà, delle sue reazioni
emotive. Nell'ambito non psichiatrico, i test di intelligenza vengono utilizzati nelle consultazioni di
neuropsicologia, tra i diversi strumenti impiegati per fare il bilancio dei danni neurologici conseguenti a
lesioni cerebrali. Nei servizi di medicina generale, essi possono essere utilizzati nel caso in cui si tratti di
valutare le eventuali ripercussioni di un disturbo somatico sullo sviluppo intellettivo (se ad esempio un
disturbo della crescita fisica ha o meno delle ripercussioni sullo sviluppo intellettivo del bambino). Un test
di intelligenza può anche aiutare a precisare la parte di realtà e la parte di sofferenza psicosomatica nel
caso in cui un paziente lamenti che le sue capacità intellettive non sono più come prima (e la diagnosi in
questi casi può diventare terapeutica). Nell'ambito giudiziario, un esempio di impiego dei test di
intelligenza è quello volto ad apprezzare la credibilità di una testimonianza. La varietà dei casi in cui i test di
intelligenza possono apportare informazioni utili nell'esame psicologico lascia pensare che il loro impiego
sia abbastanza frequente in ambito sanitario. Un'indagine recente condotta in Francia lo conferma. Tra gli
psicologi clinici interrogati, l'88% considera l'utilizzo dei test indissociabile dalla loro pratica. Tra i dieci test
più usati cinque sono test di intelligenza (la WISC, la WAIS, la WPPSI, il K-ABC e la scala di Brunet Lézine, che
è una scala di sviluppo per la prima infanzia). Questa situazione è del tutto simile a quella che si è potuta
osservare su scala mondiale in una ricerca riguardante i test più utilizzati in 44 paesi, dove è emerso che fra
i primi dieci test più utilizzati cinque sono di intelligenza: 1) \XTISC, 2) Matrici Progressive di Raven, 3) scala
Stanford-Binet, 4) test di attitudini differenziali, 5) WAIS, mentre gli altri cinque sono test di personalità. Il
movimento di critica dei test che ha caratterizzato gli anni Settanta aveva anche provocato una riduzione
nell'impiego di prove standardizzate, tra gli psicologi clinici. In questo ambito è stato essenzialmente sulla
base della psicoanalisi, sulla quale è principalmente fondata la psicologia clinica in Francia, che si è
sviluppato questo movimento critico. L'inchiesta a cui si è fatto riferimento in precedenza mostra che la
situazione è decisamente cambiata: «Per lungo tempo percepiti come gli strumenti servili della
classificazione a tutti i costi o come degli ostacoli inutili sulla via della relazione con l'altro, e quindi
considerati come «gli oggetti cattivi dello psicologo», i test nella nostra indagine sembrano aver ritrovato il
loro posto nell'attività valutativa quotidiana dello psicologo clinico».
2.3. L'utilizzo dei test di intelligenza nel lavoro Nell'ambiente del lavoro, i test sono talvolta utilizzati nel
corso di procedure di reclutamento o di orientamento, talora, più raramente, anche come aiuto nella
decisione sulle competenze. L'uso dei test di intelligenza in ambito lavorativo è ampiamente diffuso anche
in Italia. Per esempio, nella selezione del personale si ricorre frequentemente alla misura dell'intelligenza
generale, misura che si dimostra discretamente o altamente predittiva della capacità lavorativa della
persona che richiede di essere assunta, in base alla sottostante indicazione che persone più intelligenti
riescono comunque ad essere in generale, anche se non sempre, migliori lavoratori. Va aggiunto che in
processi di selezione meglio mirati non ci si basa su un'assunzione di abilità intellettiva generale unica, ma
invece sulla considerazione di abilità differenziate, nell'ipotesi che per certi compiti sia meglio che il
lavoratore presenti abilità in certe componenti e per altri in altre. Per esempio, se si deve assumere un
impiegato che deve essere abile nell'esaminare carte e nel produrre documenti, le abilità linguistiche
possono essere più importanti di quelle visuo-spaziali, cosa che al contrario può essere richiesta nella
selezione di operatori per mansioni come potrebbero essere quelle legate nell'orientamento nello spazio.
Due casi un po' a margine dell'ambiente di lavoro, che però costituiscono esempi significativi di utilizzazione
dei test di intelligenza, sono rappresentati dal mondo militare e dall'esame di guida. In ambito militare l'uso
dei test di intelligenza è stato sempre amplissimo, tanto che le somministrazioni più estese e le
standardizzazioni con elevati numeri di soggetti hanno interessato l'esercito. Anche l'esame di guida può
richiedere l'uso di test cognitivi, per valutare la capacità della persona ad affrontare situazioni particolari;
tuttavia in questo caso generalmente si sottolinea l'importanza di usare test più specificamente legati ai
compiti della guida, come per esempio prove di attenzione.
In Francia un caso interessante che mostra l'applicazione dei test al mondo del lavoro è quello che riguarda
le imprese di trasporti. In queste aziende, i test erano inizialmente utilizzati solo per il reclutamento degli
autisti o dei macchinisti. Negli anni Sessanta, in Francia, il loro utilizzo si è esteso al reclutamento per altre
mansioni di sicurezza, poi, negli anni Settanta, alle funzioni commerciali e infine al reclutamento per tutte le
33
lOMoARcPSD|7819776
mansioni. Questa rivoluzione della politica di reclutamento è avvenuta in completo accordo con i sindacati.
Da allora, í candidati all'impiego nelle ferrovie francesi (SNCF), che sono diverse migliaia ogni anno, sono
sottoposti a una batteria composta di test di intelligenza, test psicomotori e test di personalità. Questa
batteria viene proposta anche nel corso della carriera per ragioni di riorientamento o di promozione. I test
di intelligenza sono test fattoriali analoghi al PMA presentato nel capitolo precedente; corrispondono ai
fattori principali classicamente individuati nelle analisi fattoriali di compiti intellettivi: verbale, numerico,
spaziale, di ragionamento e percettivo. La batteria è composta anche da qualche test più specifico che
valuta l'efficienza in compiti di confronto, caratteristici di attività di ufficio, o in compiti di attenzione
(gestione simultanea di diversi stimoli) tipici di certi impieghi nel campo della sicurezza. La
somministrazione di queste prove è informatizzata e dura circa un'ora e trenta minuti. Questo tipo di
somministrazione ha vantaggi di flessibilità e consente una correzione automatica. La batteria è stata
standardizzata su un campione di 7.000 soggetti. La validazione non ha riguardato alcuna delle prove prese
singolarmente, ma la globalità della prova, più O meno favorevole al reclutamento in una mansione
specifica, che lo psicologo fornisce a partire dall'insieme delle informazioni raccolte. Per quanto riguarda i
test di intelligenza, lo psicologo si interessa solitamente dell'andamento del profilo di abilità e del suo
adeguamento alla funzione postulata. A titolo d'esempio, un profilo in cui dominano le abilità verbali è
giudicato più compatibile con le funzioni commerciali che un profilo nel quale queste abilità costituiscono
un punto debole. Profilo di abilità viene valutato anche dal punto di vista della sua coerenza – o della sua
incoerenza – con la formazione del soggetto o il suo diploma. Le questioni che nascono dalla relazione tra i
risultati al test ed altri elementi di informazione costituiscono gli argomenti di colloquio con il candidato.
L'esame psicologico comporta in effetti due colloqui, uno prima della somministrazione dei test, l'altro sulla
base dei risultati. Nel corso del colloquio finale, lo psicologo indica al candidato il giudizio più o meno
favorevole sulla mansione richiesta, che trasmetterà alla persona incaricata dell'assunzione del personale (il
parere dello psicologo non è che uno degli elementi presi in considerazione per la decisione di assunzione).
Se il candidato lo desidera, lo psicologo gli fornisce anche un resoconto sui punti forti e deboli del suo
profilo di risultati e, all'occorrenza, un consiglio per l'orientamento.
molto rari. Gli ostacoli sono soprattutto teorici: le nostre conoscenze sui processi cognitivi umani
consentono per ora di creare solo modelli piuttosto grossolani della dinamica di soluzione di problemi di un
soggetto.
L'utilizzo dei test è tradizionale e sistematico anche nell'esercito, nelle procedure di selezione delle giovani
reclute. Per selezionare e orientare le 400.000 reclute che l'esercito chiama ogni anno, in Francia è stata
messa a punto una procedura in cui i test di intelligenza hanno un ruolo importante. I test utilizzati sono dei
test fattoriali di abilità del tipo di quelli del PMA e dei test psicomotori. Come in tutti i casi in cui si debba
esaminare un gran numero di soggetti, l'esercito si è orientato verso l'informatizzazione della
somministrazione. Nel quadro 2 si possono trovare alcune precisazioni sull'evoluzione che
l'informatizzazione ha provocato nel mondo dei test. Il sistema ESPACE (impiego di un sistema di
somministrazione automatica e di correzione degli esami) messo a punto dall'esercito si situa al secondo
dei livelli di utilizzo dell'informatica, con l'ambizione di evolvere verso il terzo di questi livelli, almeno sul
piano della ricerca. La batteria di test include i test psicomotori e i test fattoriali di intelligenza
corrispondenti alle principali abilità. Ogni soggetto svolge le prove in una cabina chiusa che lo pone in
condizioni d'isolamento analoghe a quelle che egli potrebbe sperimentare ad esempio nella cabina di
pilotaggio di un carro armato. Egli è di fronte ad una postazione di lavoro che possiede dei dispositivi per i
quali può ricevere informazioni (uno schermo e degli altoparlanti) e dei dispositivi con i quali rispondere
(bottoni, maniglie e pedali). La somministrazione è interattiva. Ad esempio, se le prime informazioni fornite
per iscritto sono comprese male e fanno sospettare un problema di analfabetismo, le informazioni vengono
presentate oralmente nel corso dell'esame. Secondo la medesima logica, la somministrazione è organizzata
in modo che il soggetto raggiunga in ognuna delle prove il limite delle sue capacità di apprendimento e
delle sue capacità attentive (aggiungendo, una volta raggiunto il tetto di apprendimento, un numero
crescente di compiti concorrenti che devono essere svolti contemporaneamente). I profili di abilità nella
batteria dei test vengono utilizzati per inserire le reclute nelle otto grandi categorie di impiego definite
dall'esercito (ad esempio, addetto alle armi da combattimento, tiratore con armi di grosso calibro, ecc.). Le
predizioni fatte sulla base dei test sono state validate prendendo come criterio il successo in diversi
impieghi. La validazione dei test utilizzata in procedure di selezione professionale pone spesso un problema
difficile nella misura in cui non può poggiare che sui risultati dei soggetti selezionati. I coefficienti di validità
tra í risultati ai test all'ingresso e l'ulteriore successo professionale, o il successo ulteriore in una formazione
selettiva, sono spesso deboli per la debole dispersione delle performance al test di coloro che vengono
selezionati (poiché la selezione ha favorito solo quelli con i punteggi più elevati). L'ideale sarebbe scegliere i
soggetti completamente a caso, senza tenere conto dei test, per poter validamente calcolare in seguito la
correlazione tra un certo profilo ai test e il successo in diverse categorie di professioni. Questa opportunità
è stata offerta ai servizi psicotecnici dell'esercito, a titolo sperimentale in alcune unità dell'esercito, per
validare la procedura di selezione ESPACE (stando attenti affinché i soggetti non vengano in alcun modo
danneggiati da questa procedura, e vengano riassegnati secondo le loro abilità dopo un periodo di prova).
Questi esempi di utilizzo sistematico dei test di intelligenza come elementi considerati ai fini del
reclutamento non devono far pensare che questa pratica sia diffusa. In Francia le procedure di
reclutamento nelle imprese si basano essenzialmente sul curriculum vitae (come in Italia), su un colloquio
non strutturato e, spesso, sull'analisi grafologica. La grafologia è una peculiarità francese tanto più
sorprendente se si considera che studi metodologicamente rigorosi non hanno mai mostrato una qualsiasi
validità di questa forma di valutazione. Secondo le indagini che hanno riguardato i metodi di selezione
utilizzati dalle imprese o dalle agenzie di reclutamento, la percentuale di selezioni in cui è utilizzata la
grafologia, quasi nulla negli altri paesi del mondo, in Francia va dal 93% al 49% dei casi. I test cognitivi e i
questionari di personalità sono utilizzati in modo simile, nel 30% dei casi circa. Nel settore del lavoro, test
fattoriali d'intelligenza vengono talvolta utilizzati anche per l'orientamento ad una formazione qualificante.
Questo tipo di impiego è abbastanza sistematico presso l'Associazione per la formazione professionale degli
adulti (AFPA), che propone diversi stage di formazione agli adulti con l'obiettivo di fornire una qualificazione
o un reinserimento professionale. I profili ottenuti ad una batteria di test fattoriali di abilità è uno degli
elementi che vengono presi in considerazione per l'orientamento dei candidati nella scelta dei diversi stage
proposti dall'AIDA: stage preparatori piuttosto che direttamente una formazione qualificativa e, in questo
secondo caso, tra le diverse formazioni qualificative. I test di intelligenza sono talvolta utilizzati anche in
35
lOMoARcPSD|7819776
centri di “bilancio delle competenze”. Questi centri sono stati istituiti in Francia da una legge del 1991 che
ha aperto a tutti i dipendenti delle aziende, e più in generale a tutti i volontari, il diritto di analizzare le
proprie competenze professionali e personali ed anche le attitudini e le motivazioni al fine di definire un
progetto di formazione e/o un progetto professionale. Chiunque lo desideri può chiedere di beneficiare di
un bilancio di competenze, il cui costo può essere addebitato alla voce “piano di formazione” sia della sua
ditta, sia di un organismo simile. Non è raro che le persone che chiedono di beneficiare di questo servizio
esprimano, agli psicologi che lavorano in questo centro e li aiutano a fare il bilancio delle loro competenze,
il desiderio di includere test di intelligenza tra gli elementi di valutazione. Riassumendo, questa
presentazione dei principali impieghi dei test di intelligenza, soprattutto in Francia, mostra che, nell'ambito
dell'educazione e della sanità, i test sono principalmente utilizzati per l'aiuto diagnostico, mentre,
nell'ambito del lavoro, essi sono impiegati soprattutto per l'inserimento sociale. Nel primo caso sono
utilizzate soprattutto le scale di intelligenza a somministrazione individuale, mentre nel secondo caso i test
fattoriali a somministrazione collettiva, con un interesse marcato per l'analisi del profilo di abilità. In questo
secondo caso, l'informatizzazione dei test e la somministrazione individuale su di un terminale video
tendono a rimpiazzare la somministrazione in gruppo nella forma carta e matita.
3 Etica e deontologia
La preoccupazione di disporre di test affidabili ed equi ha condotto a definire rigide norme per la loro
costruzione e applicazione, accordando, soprattutto negli Stati Uniti, un posto particolare all'individuazione
di eventuali errori (biases) culturali. In parallelo, mentre gli psicologi elaboravano codici deontologici, è
stata messa a punto in numerosi paesi una regolamentazione alle pratiche di testing, al fine di fornirne un
quadro anche giuridico.
particolare, in seguito alla legge sui diritti civili, nel 1964, il cui obiettivo era di eliminare tutte le forme di
discriminazione. Dalla fine degli anni Sessanta, i tribunali hanno avuto a che fare con numerose lamentele
di persone e di gruppi che si ritenevano lesi dalle procedure di valutazione attraverso i test. Alcuni processi
sono stati ampiamente commentati dalla stampa e sono divenuti celebri. Alcuni genitori hanno contestato
il fondamento dell'inserimento dei loro bambini in classi per ritardati, alcuni candidati all'iscrizione
all'università hanno ritenuto la loro non-ammissione del tutto ingiustificata, professionisti alla ricerca di un
impiego hanno creduto di essere stati ingiustamente scartati. Benché le norme giuridiche non siano
perfettamente coerenti, in numerosi casi i test sono stati messi sotto accusa e i loro autori giunti a produrre
modalità di valutazione non distorte. Si è così sviluppata una corrente di ricerche sui biases. In modo molto
generale, si afferma che c'è un bias quando i punteggi ad un test non hanno lo stesso significato, la stessa
validità per individui appartenenti a gruppi diversi. Nell'ambito delle operazioni di selezione, questa
differenza di significato può condurre a penalizzare un gruppo. Prendiamo un esempio fittizio. Ci sono due
gruppi: un gruppo favorito F e un gruppo sfavorito D. I punteggi di F sono superiori a quelli di D in un test.
Se si utilizza la correlazione positiva tra questo test e un criterio (l'efficienza professionale ad esempio) per
procedere ad una selezione, si sceglierà per forza un maggior numero di persone del gruppo F. Ma può
anche darsi che non esistano differenze tra il gruppo F e il gruppo D al criterio (se emerge che in media i
soggetti del gruppo D hanno gli stessi punteggi di quelli del gruppo F). Il test può, in effetti, predire
accuratamente il successo al criterio all'interno di ogni gruppo, ma non le differenze di successo tra i gruppi.
In questo esempio, una selezione fondata sui punteggi al predittore penalizza ingiustamente il gruppo D ed
è in questo senso distorta a favore del gruppo F. In linea di principio, l'origine dei biases può essere diversa,
la stessa caratteristica psicologica può non avere lo stesso significato nei due gruppi se interagisce con altre
caratteristiche dei soggetti di tali gruppi (si può pensare, ad esempio, che l'intelligenza misurata da uno
stesso test non abbia lo stesso significato a seconda che i soggetti sappiano leggere o meno). La modalità di
somministrazione e di correzione del test può avere effetti diversi a seconda dei gruppi (se i test sono
proposti da donne, questo può influenzare diversamente ragazzi e ragazze?). La struttura interna delle
risposte può non essere la stessa da un gruppo all'altro. Le ricerche sull'eventuale presenza di diversi biases
ha mostrato che i test attuali non sono o sono poco distorti. Un test può dunque distinguere dei gruppi
senza per questo essere distorto. Questa affermazione non è tuttavia condivisa unanimemente: per alcuni
la sola differenza tra due gruppi testimonia un bias, o, in altri termini, tutte le differenze tra gruppi sono
effetto di un errore di misura o di un artefatto. Tale ipotesi è difficile da verificare, soprattutto quando si
tratta di gruppi che, in seno ad una data cultura, non dispongono delle stesse opportunità per sviluppare le
loro capacità. Certamente, sarebbe augurabile, che gli individui di differente origine sociale fossero
ugualmente rappresentati nei diversi settori della società; che, ad esempio, all'interno dell'università ci
fosse la stessa percentuale di figli di operai e di figli di dirigenti. Per approssimarsi ad un tale obiettivo si
può praticare una discriminazione positiva a favore dei gruppi svantaggiati e permettere così ad alcuni dei
loro membri di superare le barriere di selezione. In alcune università americane, ad esempio, sono stati
imposti dei livelli percentuali di rappresentatività per assicurare un'equa presenza di bianchi e di neri. Così
facendo, in funzione dei valori, si cambiano i criteri di selezione. Il criterio meritocratico classico – a
ciascuno secondo le proprie capacità – è ponderato da un criterio più collettivo – fare in modo che la
società guadagni in coesione –. I beneficiari della discriminazione positiva saranno senza dubbio soddisfatti,
ma gli altri si riterranno lesi e sosterranno, eventualmente davanti a un tribunale, che non è stato equo
escluderli a favore di altri, meno capaci. Questi problemi di inserimento sociale corrispondono a delle
dinamiche sociopolitiche di portata maggiore che superano la questione posta dai test, anche se i test
contribuiscono ad esplicitarle e formalizzarle.
37
lOMoARcPSD|7819776
nazionale. I codici deontologici riguardano l'insieme delle pratiche psicologiche. Possono essere generali o
centrati più in specifico su di un ambito (la psicologia scolastica, del lavoro o la ricerca). I codici non hanno
valore legale ma esprimono semplicemente delle regole di condotta (vedi quadro 3). Le organizzazioni
professionali che li hanno preparati non soltanto invitano i loro membri a rispettarli, ma assicurano loro
sostegno nel caso in cui sia difficoltoso metterli in pratica nel loro ambiente di lavoro. Tutti i codici si
collocano in una prospettiva umanista: lo psicologo deve rispettare i diritti fondamentali delle persone, la
loro libertà e la loro dignità. I codici insistono anche sulla necessità di utilizzare, in maniera illuminata, delle
tecniche valide.
Il recente codice deontologico italiano risulta ispirato a quattro imperativi. Il primo è quello della tutela del
rapporto fiduciario che intercorre tra lo psicologo e chi si avvale delle sue prestazioni. Il rispetto delle
persone, della loro dignità e della loro vita privata è assicurato dal segreto professionale, dalla
confidenzialità con cui è trattato anche l'accesso alle informazioni raccolte e dalle limitazioni alle possibili
indagini. Lo psicologo è in principio tenuto al segreto professionale. Il beneficiario del servizio psicologico è
il proprietario e l'unico destinatario dei risultati dettagliati dell'indagine. Nel caso di collaborazione con altri
soggetti tenuti al segreto professionale lo psicologo può condividere solo le informazioni strettamente
necessarie al tipo di collaborazione. Il secondo imperativo è dato dalla necessità di possedere una
competenza specifica all'abilità professionale; ciò implica l'obbligo di fornirsi di questa competenza e di
aggiornarla adeguatamente. La qualità delle prestazioni offerte dagli psicologi dipende a sua volta dalla loro
qualifica e dai loro metodi. In Italia il titolo di psicologo viene attribuito dopo cinque anni di formazione
universitaria e deve essere seguito da un anno di tirocinio e da un esame di stato per l'autorizzazione ad
esercitare la professione. Le indicazioni fornite dal codice deontologico rimangono tuttavia spesso piuttosto
vaghe e la loro applicazione è talvolta problematica. Cosa si intende per una tecnica scientificamente valida
se non ci si riferisce a delle norme? Qual è l'informazione veramente pertinente da cercare in una diagnosi
o in una procedura di selezione? Nel contesto dell'aiuto agli altri è probabilmente più facile rispettare il
codice deontologico, anche se le problematiche sollevate sui test e in particolare sui test di intelligenza
investono questo ambito con tutta la loro forza. In altri ambiti comunque la situazione è anche peggiore. La
privacy è messa in discussione nelle procedure di selezione: lo psicologo è obbligato a fornire informazioni
sul candidato perché è pagato per questo
CONCLUSIONI
Un test è un dispositivo d'osservazione concepito per valutare certe caratteristiche psicologiche degli
individui, collocando le loro condotte in relazione a quelle che sono state osservate in seno alla popolazione
alla quale gli individui appartengono. Per compiere questa funzione un test deve essere stato
standardizzato, e le misure che il test consente di raccogliere devono essersi mostrate valide ed affidabili.
lOMoARcPSD|7819776
L'intelligenza non è l'unica caratteristica psicologica che possa essere valutata dai test: esistono infatti test
di conoscenza di vari domini, test psicomotori, test di personalità, ecc. La particolarità dei test di
intelligenza è di valutare un'abilità piuttosto generale di adattamento cognitivo a situazioni nuove. Questo
metodo di valutazione dell'intelligenza ha mostrato il suo interesse, ma anche i suoi limiti. Due tipi di
limitazione dei test d'intelligenza devono essere tenuti in considerazione nel loro utilizzo. Uno riguarda il
livello di generalità effettivo della capacità di adattamento cognitivo valutata, l'altro riguarda la molteplicità
dei determinanti della performance osservata. Sul primo punto, bisogna innanzi tutto osservare che la
validità di un test d'intelligenza è limitata alla cultura in seno alla quale il test è stato concepito.
L'intelligenza umana si sviluppa attraverso l'uso di linguaggi, di simboli, di rappresentazioni che sono gli
strumenti del pensiero e danno significato alle situazioni. Il funzionamento dell'intelligenza umana è
inscindibile dagli strumenti simbolici e concettuali sui quali si basa. La situazione test nel suo insieme (la
relazione individuale con l'esaminatore, il materiale utilizzato, il tipo di problema posto, ecc.) non consente
di valutare le capacità di adattamento del soggetto testato a meno che tale situazione non abbia per lui un
senso.
Immaginiamo per un istante che il problema della diagnosi del ritardo mentale si sia posta nella società
pigmea. Gli item che un collega di Binet avrebbe scelto come “marcatori” delle differenti tappe dello
sviluppo cognitivo dei bambini pigmei sarebbero stati ben diversi da quelli di Binet e Simon. Avrebbero
riguardato problemi significativi nella società pigmea e relativi ad ambiti importanti per l'adattamento in
questa società. La scala di Binet-pigmeo avrebbe potuto articolarsi in item riguardanti la costruzione o
l'utilizzo efficiente cli un arco, di orientamento in uno spazio su grande scala, ecc. E’ verosimile che le
performance di piccoli occidentali in una scala di questo tipo non sarebbero altrettanto predittive del loro
successo scolastico del Binet-Simon, non più di quanto la performance al Binet-Simon dei bambini pigmei
sarebbe un buon predittore della capacità di adattamento cognitivo alla società pigmea. I tentativi di
costruzione di test di intelligenza indipendenti dalla cultura non hanno avuto successo. Anche quando ci si
sforza di ridurre il ruolo delle conoscenze, del linguaggio, risulta che la condotta del soggetto dipende dalla
rappresentazione che egli si è fatto di ciò che ci si aspetta da lui in questa situazione, e tale
rappresentazione dipende dal contesto culturale in cui l'individuo è stato educato. La contestualizzazione
dell'intelligenza limita necessariamente la «generalità» della capacità di adattamento cognitivo valutata e
rende priva cli senso l'idea stessa di intelligenza indipendente dalla cultura. I test descritti in quest'opera
non hanno dunque validità che con gli individui cresciuti in società i cui modi di pensare sono
sufficientemente prossimi a quelli dove í test sono stati concepiti. Un secondo limite di carattere generale
della capacità di adattamento cognitivo valutata da questi test riguarda ciò che, anche in una cultura come
la nostra, essi non valutano, in altre parole tutte le categorie di situazioni che richiedono una differente
forma di intelligenza. Ad esempio, la capacità di interpretare le disposizioni d'animo e i sentimenti degli altri
verso se stessi da indici comportamentali non verbali (espressioni del viso, gesti, posture, ecc.), la capacità
di controllare l'espressione delle proprie emozioni, la capacità di influenzare gli altri sono delle componenti
cli ciò che è stato definito intelligenza sociale o intelligenza emozionale. Questa intelligenza gioca un ruolo
importante nell'adattamento alla vita in società. La capacità di influenzare gli altri, ad esempio. E’
probabilmente di grande importanza nell'ambito commerciale o in quello politico. Nei test classici non vi è
valutazione di questa forma di intelligenza, bensì il test è essenzialmente verbo-concettuale. Diversi
tentativi di costruzione di test di intelligenza sociale hanno dato risultati ancora incerti: la validità e la
fedeltà di questi test si sono dimostrate inferiori a quelle dei test di intelligenza verbo-concettuale. Certe
componenti dell'intelligenza sociale sono in correlazione con l'intelligenza verbo-concettuale, mentre altre
no, il che limita, ancora una volta, la generalità dell'intelligenza misurata dai test descritti in quest'opera.
Questi test valutano soprattutto la forma d'intelligenza necessaria per andare bene a scuola, e, più
generalmente, per apprendere nel contesto di un insegnamento esplicito. Si tratta dell'intelligenza che si
chiama talvolta “accademica” o “geometrica”. Non bisogna sottostimare l'importanza di questa forma di
intelligenza, né la relativa generalità del suo utilizzo nella nostra società. Essa gioca in effetti un ruolo
primordiale nelle società complesse in cui l'acculturazione passa in buona parte attraverso una trasmissione
scolastica del sapere. Ma, al di là di questo, essa non esaurisce la diversità delle risorse cognitive umane. In
seno all'intelligenza stessa che noi abbiamo chiamato verbo-concettuale, le analisi fattoriali dei test hanno
permesso di distinguere diverse dimensioni corrispondenti ad abilità relativamente differenziate (verbale,
39
lOMoARcPSD|7819776
numerica e spaziale). Il fatto che esistano delle correlazioni positive tra tutti questi test la scia tuttavia
spazio ad un fattore generale di successo nell'insieme dei test. C'è un consenso abbastanza ampio, in epoca
recente, su di un modello gerarchico della struttura fattoriale dell'intelligenza costruito a sua volta da un
fattore generale di intelligenza e da fattori di gruppo corrispondenti ad abilità distinte. Si può dunque
effettivamente parlare di un fattore di intelligenza generale, ma soltanto se si tratta di un fattore di
intelligenza verbo-concettuale. Un secondo tipo di limite dei test di intelligenza riguarda la molteplicità
delle determinanti della performance osservata. Una stessa performance in un test può essere ottenuta
con meccanismi diversi, strategie diverse; il soggetto può essere più o meno familiare con il contenuto del
test; uno stesso punteggio, uno stesso QI, uno stesso scarto tra OI verbale e Qi performance possono avere
significati diversi. Il risultato ad un test di intelligenza deve essere messo in relazione con l'insieme delle
informazioni raccolte nel corso dell'esame psicologico per poter essere interpretato. Questa ambiguità'
della performance rende alquanto discutibili le pratiche in cui, alla semplice vista del risultato al test, si
danno consigli o si prendono decisioni relative all'inserimento sociale degli individui. La standardizzazione
dei test fa in modo che, con un apprendimento ridotto, quasi chiunque possa somministrare un test di
intelligenza. Da qui a ritenere che non abbia importanza chi interpreta il risultato del test il passo è breve e,
ahimè, talvolta lo si fa. Si manifestano periodicamente pressioni affinché l'utilizzo dei test non sia solo
riservato ai detentori del titolo di psicologo. Nello stesso ordine di idee, ora si propone su Internet di
testare da sé la propria intelligenza, o più grave ancora, di testare da sé l'intelligenza del proprio bambino.
Questa tendenza ci sembra pericolosa in quanto solo la formazione psicologica consente di conoscere i
diversi limiti dei test di intelligenza e i problemi deontologici posti dal loro utilizzo. L'interesse della
corrente di ricerca sui test è di mirare a stabilire dei fatti che siano ripetibili per chiunque si ponga nelle
stesse condizioni. Questo obiettivo è centrale di ogni tentativo di misurazione e deve quindi essere anche al
centro di ogni tentativo di valutazione oggettiva dell'intelligenza. La standardizzazione mira a rendere la
valutazione il meno dipendente possibile dalla persona che la effettua e dunque a renderla ripetibile,
pubblica e trasparente. Il coefficiente di stabilità indica inoltre in che misura questa valutazione è ripetibile
nel tempo. I dispositivi che assicurano la ripetibilità della valutazione sono lontani dall'essere perfetti e
sono essi stessi suscettibili di evoluzione. Ci si può ad esempio immaginare modalità più soddisfacenti di
standardizzare la somministrazione di un test che non mettere tutti i soggetti strettamente nella stessa
situazione. Ma l'esigenza sottostante deve essere mantenuta. Essa ha come obiettivo quello di rendere la
valutazione accessibile ad una verifica e all'analisi critica di ognuno. Il metodo dei test permette anche di
inscrivere la procedura di valutazione nella direzione di una verifica vera e propria dell'approccio scientifico.
Stabilire la validità teorica di un test di intelligenza non è diverso dal sottoporre a verifica le concezioni che
hanno ispirato la sua costruzione. Le concezioni dell'intelligenza che hanno guidato la costruzione dei primi
test non erano certamente delle teorie molto elaborate, ma i successivi sviluppi teorici hanno consentito di
comprendere meglio perché certi item, che erano stati scelti in partenza in una prospettiva pratica, erano
buoni indicatori dell'efficienza cognitiva. Alcuni esempi di questi ritorni della teoria sui test sono stati forniti
in quest'opera, proprio a proposito della reinterpretazione degli item delle matrici progressive nel contesto
di modelli di elaborazione dell'informazione. All'inverso, la costruzione di test che operazionalizzano una
teoria dell'intelligenza ha talvolta contribuito a metterla in questione. È così che l'elaborazione di test
ispirati alla teoria di Piaget ha contribuito a scuotere la concezione degli stadi di sviluppo cognitivo che si
fondavano su questa teoria.
Se la costruzione dei test di intelligenza si è inscritta fin dall'inizio in questo percorso di mutuo scambio tra
elaborazione teorica e verifica empirica, ci si può tuttavia rammaricare del fatto che la relazione tra ricerca
di base e la sua applicazione è stata a lungo molto limitata. Ci sono per questo delle ragioni storiche. Per
Binet, la riflessione teorica sull'intelligenza e la messa a punto di una scala destinata a misurarla erano due
momenti strettamente articolati di uno stesso percorso. Il successo dei test è stato tale per il fatto che la
risposta ad una domanda sociale ha richiamato i ricercatori dalle loro questioni teoriche. Bisogna
aggiungere a questo che, anche se l'avessero voluto, difficilmente gli psicologi che utilizzavano i test di
intelligenza avrebbero avuto modo di rinnovarli teoricamente nella fase di ricerca in psicologia in cui ha
dominato il comportamentismo. Lo sviluppo del cognitivismo, che ha preso slancio a partire dagli anni
Settanta, offre un quadro più favorevole al rinnovamento delle idee sul funzionamento dell'intelligenza. Le
ricerche hanno per ora rivolto il loro interesse alla rappresentazione dei processi di elaborazione
lOMoARcPSD|7819776
dell'informazione in gioco nella soluzione degli item dei test esistenti piuttosto che all'elaborazione di nuovi
test. La situazione attuale sembra tuttavia più favorevole di quella passata in quanto la ricerca di base sui
differenti aspetti del funzionamento intellettivo e la costruzione di strumenti che consentano di valutarli
praticamente camminano parallelamente e con uno stesso passo.
41