Sei sulla pagina 1di 58

Michel Huteau

Jacques Lautrey

I test di intelligenza

Sunto a cura di: Enrico De Nigris

Il Mulino

Universale Paperbacks

M ICLIEL UTEAU

JACQUES LAUTREY

I TEST DI INTELLIGENZA

I lettori che desiderano informarsi


sui libri e sull'insieme delle attivit della
Societ editrice il Mulino
possono consultare il sito .Internet:

http://www.mulino.it

IL MULINO

Conclusioni

Letture consigliate
Riferimenti bibliografici

p. 111

PRESENTAZIONE

119

193

La definizione e la conseguente misurazione dell'intelligenza sono stati certamente tra i temi della psicologia che
hanno suscitato maggiore dibattito, in ambito sia nazionale sia
internazionale. Tra le ragioni di tale dibattito vi senza dubbio la difficolt a fornire dell'intelligenza una definizione univoca e condivisa e a sviluppare modelli teorici stilla sua natura
e sul suo funzionamento; questa confusione a livello teorico ha
fatto s clic per lungo tempo le pratiche di misurazione dell'intelligenza abbiano tratto sostegno e fondamento da validazioni empiriche, quale ad esempio l'efficacia con cui possibile discriminare soggetti normali da soggetti mentali deboli.
Il successo dei test di intelligenza e il loro contributo all'analisi psicologica comunque indiscutibile. I test di intelligenza
sono oggi impiegati, anche in Italia, nell'ambito clinico (soprattutto a fini diagnostici), ma anche in quelli scolastico o educativo (a scopo di orientamento o per valutare l'opportunit di
un insegnamento di sostegno) e del lavoro (ad esempio, nella
selezione del personale). Le implicazioni sociali e politiche del
loro impiego sono quindi particolarmente profonde e riguardano aspetti quali, ad esempio, la realizzazione professionale
del singolo individuo, l'efficienza del sistema scolastico o la
produttivit di un'azienda.
Una delle ragioni che ci ha indotto a proporre al lettore italiano questo libro, opportunamente adattato, il presente testo
che esso offre informazioni puntuali sui test di intelligenza
pi frequentemente utilizzati: ne esemplifica le domande pi
significative, le caratteristiche psicometriche, ne discute l'interpretazione dei risultati e ne analizza le implicazioni. Non si
limita comunque solo a questo arduo e meticoloso compito.
Vengono infatti anche riportati i principali riferimenti storici
alla nascita e all'evoluzione degli strumenti di misura dell'intelligenza. Il lettore viene cos condotto attraverso le fasi: 1) di
7

costruzione dei test come risposte alle necessit sociali, educative e cliniche di un'epoca, 2) di critica e loro successiva revisione, 3) cli analisi e sviluppo delle implicazioni etiche e deontologiche relative al loro utilizzo. La prospettiva da cui questi
argomenti vengono presentati quella di due eminenti studiosi
francesi che da diversi anni si occupano di misure dell'intelligenza e delle problematiche connesse, e che intrattengono significative collaborazioni scientifiche con il nostro gruppo di
ricerca. 11 loro interesse e la loro sensibilit a questi temi sono
per natura molto vicini a quelli sviluppatisi nel nostro paese e
se vogliamo, pi in generale, in Europa e si differenziano dall'approccio americano che di gran lunga pi interessato ad
aspetti numerici e psicometrici del testing.
CESARE CORNOEDI - PAOLA PALLADINO

PREFAZIONE

I test inquietano e affascinano. Periodicamente, i media ne


fanno oggetto di aspre critiche in quanto stupidi e arbitrari,
tecnocratici e pericolosi. Ma, nello stesso tempo, i test hanno
molto successo presso il grande pubblico. Le riviste li propongono, pi o meno seriamente; numerose opere pretendono
di diffonderne i segreti. C' molta confusione in questi processi
e in questi entusiasmi. Forse per la loro diversit e quantit
molto difficile parlare dei test n generale. Questo libro vuole
fornire alcune informazioni e chiarimenti su che cosa i test sono
realmente. E centrato su una categoria particolare d test, quelli
destinati a valutare l'intelligenza, che sono anche quelli che
hanno provocato i dibattiti pi vivaci.
Per misurare l'intelligenza bisogna, naturalmente, avere
dapprima un'idea generale di che cosa essa sia. Noi vedremo
che l'intelligenza, o, in altri termini, l'insieme di capacit che
consentono di risolvere i problemi, pu essere concepita in diversi modi e da punti di vista diversi, e i test non fanno che renderla pi oggettiva. I test valutano ci che valutano le idee che
hanno presieduto alla loro costruzione. Non rivelano propriet
misteriose e nascoste degli individui. Essi permettono semplicemente di descrivere dei comportamenti dal punto di vista
della loro efficienza. Non sono altro che tecniche d'osservazione. Queste tecniche sono in generale accuratamente elaborate e rigorosamente codificate al fine di ridurre al minimo gli
effetti. della soggettivit dell'osservatore e di consentire confronti tra gli individui.
Nel primo capitolo vengono forniti alcuni cenni storici sui
primi tentativi di misura dell'intelligenza e sul loro contesto.
Nel secondo capitolo viene analizzato un test d'intelligenza
classico riguardante il ragionamento astratto. Quest'esempio
permette di precisare le caratteristiche essenziali dei tese il
modo di presentazione dei problemi proposti, la valutazione
e

delle prestazioni, il grado di fedelt e validit. 11 terzo capitolo


dedicato alla presentazione delle grandi categorie di test: test
di quoziente intellettivo (QI), test analitici di intelligenza, test
fondati sulla teoria di Piaget. L'ultimo capitolo, infine, riguarda
l'utilizzo dei tese espone i principali dibattiti e le polemiche di
cui i test d'intelligenza sono stati oggetto e fa il punto sulla pratica d utilizzo dei test e sui problemi deontologici che essa
pone.

CAPITOLO PRIMO

CENNI STORICI SULLA NASCITA


DEI TUST DI INTELLIGENZA

L'idea di misurare l'intelligenza era nell'aria alla fine del


XIX secolo, alla nascita della psicologia scientifica. Il primo laboratorio di psicologia sperimentale venne fondato a Lipsia nel
1879 da Wilhelm Wundt (1832-1920). In questo laboratorio le
ricerche riguardavano soprattutto i processi sensoriali elementari. Si cercava ad esempio di determinare come la percezione
varia n funzione dell'intensit dello stimolo o di individuare la
minima differenza di intensit dello stimolo che possa essere
percepita dai soggetti. Questi esperimenti inducevano a ottenere delle misure piuttosto precise di differenti caratteristiche
delle risposte dei soggetti, soglie di detezione, tempi di reazione e, a partire da queste caratteristiche, si cercava di inferire la natura dei processi in gioco nella risposta allo stimolo.
Uno degli studenti di Wundt, James IVIcKeen Cattell (18601944), fu colpito dalla variabilit che osservava tra i soggetti
sottoposti a questi esperimenti. Questo non era certo l'oggetto
degli studi condotti nel laboratorio di Wundt, dove si cercava
di stabilire delle leggi generali dei processi sensoriali e dove le
differenze tra gli individui erano per questo trattate come delle
forme di errore. C'attell osservava tuttavia che queste differenze erano abbastanza stabili. Una volta rientrato negli Stati
Uniti, si serv di piccole situazioni sperimentali ispirate a questi compiti di laboratorio per studiare le differenze interindividuali e fu il primo ad utilizzare l'espressione mental test, nel
1890, per designa de.
Nello stesso periodo, in Gran Bretagna, Francis Galton
(1822-1911) utilizzava situazioni di questo tipo per misurare
l'acutezza sensoriale, le soglie di discriminazione, i tempi di
reazione. Il suo interesse per le differenze individuali era per
pi antico. Era infatti cugino di Darwin e, dalla pubblicazione
dell'Origine delle specie, cerc di dimostrare che la teoria del
cugino poteva anche essere applicata all'evoluzione dell'intel11.

ligenza nella specie umana. E questa la ragione per cui approfitt della Mostra internazionale della salute a Londra, nel
1884, per fondare un laboratorio antropometrico n cui i visitatori potevano farsi misurare, sia in relazione a variabili
antropometriche (misure del corpo umano e delle sue diverse
parti) sia rispetto alle piccole prove che Cattell qualificher pi
tardi come mental test. Galton misurava genitori e figli con l'obiettivo di mostrare che le differenze individuali sono ereditate
da una generazione all'altra; questo lo indurr a introdurre il
principio del coefficiente di correlazione per quantificare la relazione che lega le misure effettuate sui genitori a quelle effettuate sui figli.

1. I primi tentativi di misura e il loro conic.cto

primi tentativi di misura di differenze individuali relative


a caratteristiche mentali sono datati intorno alla fine del XIX
secolo e le loro ragioni intellettuali possono essere collocate,
da un lato, nella nascita di una psicologia scientifica, che ha
mostrato la possibilit di misurare le caratteristiche dei processi mentali molto elementari, e, dall'altro lato, nell'influenza
della teoria di Darwin, che ha messo l'accento sul ruolo giocato dalle variazioni interindividuali nell'evoluzione delle specie. Un altro fattore determinante di questa atmosfera dell'epoca da collocarsi negli sconvolgimenti economici e socioculturali prodotti dall'industrializzazione. La necessit di diffondere l'istruzione, la formazione, di reclutare massicciamente per funzioni professionali popolazioni che non erano
preparate, ha creato dei nuovi bisogni in materia di valutazione
delle persone.. Uno di questi espresso regolarmente in quest'epoca era la necessit di distinguere, tra gli allievi che non giungevano a frequentare la scuola elementare ed erano comunque tenuti a farlo perch era divenuto obbligatorio coloro
che avevano i mezzi intellettuali per beneficiare di questo insegnamento ma erano ostacolati dalle circostanze e quelli che
invece erano ritardati mentali. L'idea sottostante era che occorreva dare ai bambini ritardati mentali un insegnamento
adatto alle loro possibilit, ma ci comportava che si potesse
fare una valutazione affidabile e oggettiva dei bambini con difficolt scolastica.
12

Di fronte a questa richiesta sociale, i mental tests, simili a


quelli adottati da Cattell nei suoi esperimenti di laboratorio,
sembrarono essere, in un primo tempo, dei buoni strumenti
per valutare le capacit intellettuali. Queste prove riguardavano processi molto elementari: si valutava, ad esempio, la pi
piccola differenza di peso che il soggetto era in grado di notare
nel momento in cui si aggiungeva o sottraeva qualche grammo
ad un peso di 100 grammi, il tempo di reazione ad uno stimolo
uditivo, il tempo necessario per pronunciare il n ome del colore
presentato, ecc. Per comprendere come all'epoca si sia potuto
pensare di valutare l'intelligenza con tali prove, bisogna collocarsi nel contesto delle teorie allora in vigore sui processi mentali. La filosofia dominante era l'associazionismo. Si pensava
che le immagini mentali fossero formate dall'associazione di
sensazioni elementari e che le idee fossero formate dall'associazione e dal concatenamento di queste immagini mentali. In
breve, si ipotizzava che le sensazioni elementari costituissero la
materia di base a partire dalla quale venivano a formarsi i processi mentali pi complessi. Da l a supporre che la qualit dei
processi complessi fosse largamente determinata dalla qualit
delle sensazioni elementari il passo breve. Cattell ha quindi
applicato i suoi menta! tests a tutti gli studenti che entravano
alla Columbia University, con l'obiettivo di basarsi sui loro risultati per precisare indicazioni d'orientamento e per adattare
i programmi. I suoi ripetuti tentativi si sono conclusi con un
cocente fallimento. Non c'era alcuna relazione tra l'efficienza
in questi mental tests e il successo scolastico. Tentativi simili
condotti da altri ricercatori nello stesso periodo, con studenti
universitari ma anche di scuola elementare, hanno prodotto lo
stesso risultato. I metodi di valutazione del funzionamento intellettivo tratti dalla psicologia scientifica nascente si rivelarono
incapaci di rispondere alla richiesta sociale dell'epoca in questo campo.

2. La soluzione di 13inet: la scala metrica

1/ sviluppo dell'intel-

ligenza
e uno psicologo francese, Al fred Binet (1857-1911), che
trover la soluzione del problema. Binet era uno spirito curioso
che aveva tra i suoi molteplici interessi la misura dell'intelli13

genza. Una delle piste che egli esplor fu la ricerca di una relazione tra le misure del cranio, considerate misure indirette
della dimensione del cervello, e l'intelligenza. L'insuccesso dei
primi tentativi gli diede l'idea di rovesciare il problema e confrontare bambini normali a bambini ritardati. Egli chiese
quindi a Thodore Simon, che in quel periodo, 1899, lavorava
in un istituto per bambini ritardati a Perray-Vaucluse, di estendere le misure del cranio a bambini diagnosticati appunto
come ritardati mentali. Ma, una volta ancora, la ricerca si scontr con l'assenza di mezzi di valutazione obiettivi e affidabili
del grado di ritardo mentale dei soggetti esaminati. Binet e Simon cominciarono allora a sottoporre i bambini ad un esame
sistematico per valutare le loro capacit intellettive.
Binet conosceva l'esistenza dei mentai tests messi a punto
da Cattell, ma aveva espresso gi da diversi anni il suo disaccordo con questa modalit di affrontare il problema. Egli riteneva che le differenze individuali nei processi sensoriali elementari avessero scarsa influenza sui processi mentali complessi
e che le differenze nella capacit intellettiva dovessero essere
cercate nelle abilit di memoria, di immaginazione, di ragionamento, di giudizio. Questa convinzione, che ha giocato un ruolo
determinante, andava contro le tesi associazioniste, e -lo condusse ad abbandonare le caratteristiche individuali, che si era
in grado di misurare, per rivolgersi a caratteristiche pi complesse, ma anche pi problematiche, che non si sapeva misurare.
Invece di paragonare le soglie di discriminazione sensoriale
dei bambini ritardati con quelle dei bambini normali, Binet e
Simon sottoposero loro piccoli problemi di memoria, di giudizio scegliendo poi quegli item che separavano pi nettamente
i soggetti dei due gruppi (si chiamano item le diverse domande
o i diversi piccoli problemi, in genere di difficolt graduata, che
compongono un test e nei quali il soggetto pu riuscire o fallire).
La spinta a procedere in questo lavoro verr dalla domanda
sociale. Nel 1904, una commissione ministeriale chiese a Binet
di studiare il problema della diaemosi del ritardo mentale. Bine': e Simon proposero allora nelle
b scuole le prove che avevano
cominciato a mettere a punto. Si accorsero che alcuni item che
ben discriminano i bambini ritardati da quelli normali avevano
anche un buon potere di discriminazione all'interno del
14

gruppo dei bambini normali ma di et inferiore. Insomma,


item sembravano caratteristici di una data et nel momento in cui lo sviluppo intellettivo avvenuto normalmente.
Da ci, lo scarto tra questa et e l'et in cui il bambino li supera realmente pu segnalare il grado di evoluzione o di ritardo
nello sviluppo intellettivo. E l'origine della nozione di et mentale. Tutto lo sforzo di Binet e di Siinon, a partire da quel momento, fu di trovare delle piccole prove di memoria, di giudizio, di ragionamento, la cui riuscita apparisse rappresentativa
dei compiti cognitivi che pu padroneggiare un bambino di
una data et. Per essere ritenuto rappresentativo di un'et di 5
anni, ad esempio, un item doveva produrre un fallimento nella
maggior parte dei bambini di 4 anni, essere superato dalla maggior parte dei bambini di 6 anni, e avere una percentuale di
successo del 50% tra i bambini di 5 anni, a dimostrazione che
a questa et sta per essere padroneggiato. Gli item adatti non
dovevano richiedere conoscenze scolastiche. Non si trattava di
valutare il grado di istruzione, ma la qualit del funzionamento
intellettivo in situazioni ordinarie.
A titolo d'esempio, una delle situazioni di valutazione della
memoria selezionata da Binet e Simon (oggi si parlerebbe di
memoria a breve terrnine) consisteva nel chiedere al bambino
di ripetere una lista di cifre appena letta dallo sperimentatore.
Essere in grado di ripetere due cifre corrisponde ad un'et mentale di 2 anni, 3 cifre di 3 anni, 5 cifre di 8 anni, e 7 cifre di 15
anni. Un'altra prova consisteva nel mostrare al bambino delle
fotografie chiedendogli di spiegare che cosa esse rappresentavano (cfr. fig. 1). Elencare (ad esempio, un signore ed una signora) corrispondeva ad un'et mentale di 3 anni, descrivere
(ad esempio, un signore e poi una signora che dormono su una
panca) ad un'et mentale di 7 anni, e interpretare (ad esempio, degli sfortunati) ad un'et mentale di 15 anni. A partire
dal 1905, Binet e Simon proposero una prima versione della
loro scala metrica dell'intelligenza. Una seconda versione
apparsa nel 1908 [Binet e Simon 19081. La scala conteneva una
cinquantina di item, in ragione di 4 o 5 per ogni et mentale, e
ci per livelli di et che andavano da 3 a 15 anni. L'et mentale
non era determinata da un item particolare, ma dall'insieme degli item superati: se la scala prevedeva 4 itero caratteristici dell'et mentale di 4 anni, la riuscita in ognuno di questi item corrispondeva ad un credito di 3 mesi e l'et mentale era ottenuta
15

FIG. L Una delle tre fotografie mostrate ai bambini nella scala (li 13inedSimon.

Fonte: A. Binet e T. Simon, Marine/ (le Tchelle initique, Paris, A. Collo.

sommando i crediti degli item superati. La precocit o il ritardo


dello sviluppo intellettivo erano dati dal confronto tra l'et mentale cos ottenuta e l'et cronologica del bambino. F, soltanto
dopo la morte di Binet, nel 1912, che uno psicologo tedesco,
William Louis Stern, ebbe l'idea di esprimere la rapidit di sviluppo come il rapporto tra l'et mentale e l'et cronologica
(moltiplicato per cento per evitare i decimali). Questo indice
venne chiamato quoziente intellettivo (QI). Il QI superiore a
100 per i bambini avvantaggiati (pi precoci) e inferiore a 100
per i bambini in ritardo: tanto pi si allontana da 100, in un
senso o nell'altro, tanto pi i bambini sono in vantaggio o in ritardo. Un bambino di 10 anni che manifesta le stesse abilit
della media dei bambini di 12 ha un'et mentale di 12 anni e
si vede attribuire un Q1 di (12/10) Y. 100 = 120.
La scala di Binet e Simon ebbe un successo immediato. In
effetti, permetteva d diagnosticare il ritardo mentale in maniera pi precisa e pi obiettiva di quanto si facesse in precedenza e si mostr predittiva della riuscita scolastica. Venne tradotta e adattata negli Stati Uniti nel 1909. 1.1 pi famoso di que16

sti adattamenti quello fatto da Termali all'Universit di Statiford nel 1916. Da allora, la Stanford-13inet stata pi volte
rivista ed tuttora utilizzata negli Stati Uniti. In Francia, invece, fu solo nel. 1966 che la scala metrica di Binet e Simon
venne revisionata sotto la direzione di Ren Zazzo per diventare la nuova scala metrica dell'intelligenza.
1.1 primo aspetto di novit che ha permesso a Binet di far
uscire il problema dell'intelligenza dall'Impasse in cui si trovava
alla fine del XIX secolo stato di aver capito che la valutazione
doveva riguardare processi mentali complessi. Questa prima
idea, tuttavia, non era ancora sufficiente, poich a quell'epoca
si era in grado di valutare solamente i processi sensoriali elementari. Un ulteriore apporto originale di. Binet stato di aver
compreso clic la possibilit di ordinare gli itero in funzione dell'et in cui questi ultimi vengano superati poteva costituire un
primo livello di misura della loro complessit cognitiva. Da
questa possibilit di ordinare gli itero discendeva la possibilit
di ordinare allo stesso modo anche i soggetti, compresi quelli
della stessa et cronologica, in funzione del loro livello di riuscita al test. Spesso, nella ricerca, non basta avere delle idee
nuove, ma bisogna anche saper abbandonare le vecchie che
non funzionano. Si pu notare che, da quando Binet si avvi sulla strada della scala metrica dell'intelligenza, egli abbandon quella della misura del cranio che non aveva prodotto
nulla di interessante fino a quel momento e che neanche in seguito si rivel produttiva.

3. La soluzione di Spear/nal ':

fattoriale

Per confrontare i soggetti Binet si riferito all'approccio


evolutivo e alla nozione di et mentale. Un'altra soluzione, scoperta pressappoco nello stesso momento da Spearman, consiste nel riferirsi ad un'analisi matematica, l'analisi fattoriale, per
definire le dimensioni intellettive sulle quali gli individui possono essere confrontati.
3.1. I principi generali dell'analisi fattoriale
Prima di fornire alcuni riferimenti storici sull'origine di
quest'altro approccio alla misurazione
co17

minciamo a introdurre il principio dell'analisi fattoriale con


l'aiuto di un'analogia. Le qualit atletiche possono essere valutate in tutti i tipi di prove sportive, ad esempio il lancio del
disco, il salto in alto, il lancio del peso, il salto in lungo, il lancio del giavellotto, il salto triplo, per citarne solo alcune. Si pu
supporre che alcune di queste prove, bench diverse tra loro,
facciano intervenire un fattore comune di performance. Le tre
prove del lancio hanno probabilmente in comune il fatto di fare
appello alla forza e all'elasticit delle braccia, mentre le tre
prove di salto hanno probabilnieme in comune il riferimento
alla forza e all'elasticit delle gambe. LA forza e l'elasticit delle
gambe intervengono probabilmente anche nel lancio, tua con
un peso meno rilevante che nel salto.
Ci si pu cos rappresentare la performance nel lancio
come la risultante di un insieme di fattori, di cui alcuni hanno
un peso importante (elasticit delle braccia) e altri un peso
meno rilevante (estensione delle gambe). Poich alcune prove
hanno in comune di mettere in gioco e con un certo peso un
dato fattore di efficienza, esse tendono ad essere superate tutte
insieme: se l'elasticit delle gambe ha un peso rilevante nel salto
in alto e nel salto in lungo, un soggetto che riesce bene in una
di queste due prove ha senza dubbio Una buona estensione
delle gambe e riuscir dunque bene anche nell'altra. Invece,
non ci si aspetta una correlazione altrettanto forte tra le prestazioni nel salto in alto e nel lancio del giavellotto nella misura
in cui ciascuna fa riferimento ad un fattore di riuscita che gli
specifico: elasticit delle gambe per la prima ed elasticit delle
braccia per la seconda. Tuttavia, possibile che, all'origine di
una correlazione alquanto moderata tra prove di lancio e prove
di salto, vi sia malgrado tutto una dipendenza tra questi due
fattori di efficienza. Le condizioni generali della muscolatura,
la motivazione per le attivit sportive, l'allenamento possono
in effetti concorrere ad un fattore generale di performance implicato in tutte queste attivit, che si tratti di corsa, di salto o
di lancio.
metodi di analisi fattoriale esplorativa sono utili nel momento in cui, contrariamente al modo in cui si proceduto
nelle prove diatletica', non si hanno idee a priori sui fattori in
gioco nel successo ad un insieme d prove. In questo caso, il
processo va esattamente nella direzione inversa a quella seguita
in precedenza: si parte dalle relazioni empiriche tra le prove
18

per inferire l'esistenza di eventuali fattori comuni. 11 metodo


dell'analisi fattoriale consiste nel calcolare prima le correlazioni
tra tutte le prove prese due a due, poi eli verificare se esistono
gruppi di prove che correlano tra loro pi che con le altre. Si
suppone allora che ci sia un fattore di variazione comune a questo gruppo di prove, ma la parola fattore assume qui un significato diverso da quello attribuitogli poco prima. Si tratta di un
fattore comune nel senso matematico del termine (Mettere
un'espressione a fattore) e l'analisi fattoriale il metodo matematico che permette di estrarre questi fattori di variazione
comuni. l fattori sono dunque in questo caso delle entit matematiche, astratte e teoriche. Nella rappresentazione geometrica dei risultati dell'analisi fattoriale eli una serie di correlazioni, questi fattori com uni di variazione sono rappresentati SUgli assi cartesiani. Le differenti prove possono essere situiate in
rapporto agli assi sulla base delle loro coordinate. Pi una
prova vicina ad un asse, pi ha contribuito con forza alla determinazione di questo fattore, e pi questo ha un peso rilevante nei punteggi ottenuti in questa prova. Si dice che la prova
fortemente saturata dal fattore. La saturazione di una
prova da parte di un fattore valutata sulla base della sua correlazione con quel fattore, varia quindi da 1 a +1 e si interpreta come il peso del fattore nella variazione dei punteggi a
questa variabile. Si . pu cercare di interpretare un fattore comune a pi prove individuando in che cosa queste prove si assomigliano e in che cosa differiscono dalle prove saturate da
un altro fattore.
Ritorniamo alle nostre sei prove d atletica. Ammettiamo
stavolta che, non avendo alcuna ipotesi in partenza sui fattori
di variazione della performance in queste prove, noi abbiamo
fatto un'analisi fattoriale delle loro intercorrelazioni. Se troviamo che le tre prove di salto sono fortemente saturate da
un primo fattore, chiamiamolo e le tre prove di lancio fortemente saturate da un secondo fattore, chiamiamolo F2, allora potremmo interpretare Fl e F2 che non sono che delle
fonti di variazione latenti, teoriche in funzione delle ipotesi
che questo raggruppamento di prove ci suggerisce: forse l'elasticit delle gambe per Fl e l'elasticit delle braccia per F2.
Era insomma questa la situazione in cui si trovavano i primi
psicologi che applicarono l'analisi fattoriale ad un insieme di
test. Ignorando la natura dei differenti fattori in grado di spie19

gare le variazioni nelle performance ai test di intelligenza, essi


hanno preso come punto di partenza le correlazioni tra i test e
ne hanno fatto un'analisi fattoriale. Nel momento in cui sono
stati individuati uno o pi fattori comuni a pi test, l'esame del
contenuto dei diversi test saturati dallo stesso fattore ha portato ad una sua interpretazione (e qualche volta a pi di una).
3.2.

Spearman e il fattore generale di intelligenza

Il primo metodo di analisi fattoriale stato inventato da


Charles Spearman (11863-1945), uno psicologo inglese, per analizzare specificamente la tavola delle correlazioni ottenute da
un campione di soggetti in diverse prove, voti scolastici, piccoli test, stime dell'intelligenza fatte dagli insegnanti, ecc. Con
il suo metodo di calcolo egli mostrava che si poteva separare
la varianza di questi punteggi in due parti: un fattore di variazione generale, comune a tutti questi punteggi, e un fattore di
variazione specifico per ciascuno di essi. In un articolo pubblicato nel 1904 e intitolato General intelligence objectively determined and neasured, egli interpretava questo fattore comune a tutti i compiti della sua batteria di prove come un fattore generale di intelligenza, il famoso fattore g, e presentava il
suo metodo come il mezzo per misurarlo.
Si noter dapprima la quasi coincidenza di questa data con
quella della pubblicazione della prima versione della scala metrica di Binet e Simon. La misura dell'intelligenza era sicuramente nell'aria da tempo. Si noter poi che questa prima forma
di analisi fattoriale conduceva anche a una concezione globale
di intelligenza. Spearman non ha proposto teorie elaborate di
cosa rappresentasse il fattore g, ma ha dapprima ritenuto che
corrispondesse all'energia mentale, senza che questa nozione superasse lo status di metafora. Egli ha suggerito poi
[Spearman 19271 che i compiti maggiormente saturati nel fattore g erano i compiti di estrazione cli relazioni (noi diremmo
oggi di inferenza) e di estrazione di correlati (noi diremmo
oggi di generalizzazione). L'estrazione di relazioni consiste, dati
n elementi, nel trovare la relazione che li lega; ad esempio, dati
gli elementi birra e vino, nel trovare che la relazione che
li lega essere delle bevande alcoliche. L'estrazione di correlati consiste, dati un elemento e una relazione, ad esempio
birra e bevanda alcolica, nel trovare un altro elemento le
20

gaio al primo da questa relazione. Questa concezione di ci che


comune alle attivit intellettive non era particolarmente elaborata, ma era senza dubbio operazionale. E con queste ispirazioni che .Raven mise a punto la prova delle matrici progressive che sar presentata nel capitolo seguente. Nelle analisi fattoriali si osserva infatti che il test delle matrici progressive
uno di quelli che sono saturati con maggior forza dal fattore g
(fattore comune all'insieme dei test).
3.3. Thurstone e le abilit primarie
Questo modello unidimensionale stato messo in discussione verso la fine degli anni Trenta da Thurstone (1887-1955),
uno psicologo americano. Analizzando le intercorrelazioni di
un ampio gruppo di test con il metodo dell'analisi fattoriale,
egli non trov un fattore generale, ma numerosi fattori che corrispondevano secondo lui a delle abilit indipendenti che
chiam abilit primarie. Il numero di queste abilit primarie variava un po' a seconda dei test che componevano la batteria, ma le pi frequenti erano le sette seguenti: comprensione
verbale (V), fluidit verbale (W), abilit numerica (N), inferenza (I), abilit spaziale (S), velocit percettiva (P) e memoria
(V) [Thurstone e Thurstone 1941]. Vedremo pi avanti alcuni
test che sono maggiormente saturati da questi diversi fattori.
Sulla base di queste considerazioni si avviata una polemica tra Spearman e Thurstone sulla struttura dell'intelligenza:
unidimensionale, come suggeriva il fattore generale individuato da Spearman, o M ultidirnensionale, come suggerivano i
molteplici fattori individuati da Thurstone?
Come emerso successivamente, le differenze di risultato
riguardavano, da un lato, il fatto che questi due autori utilizzassero delle tecniche di analisi fattoriale differenti, e dall'altro, che queste analisi fossero condotte su dei campioni di
prove e di soggetti abbastanza diversi. stato mostrato che
questi due metodi erano parziali e potevano essere integrati in
un modello fattoriale gerarchico pi generale. In breve, nel momento in cui si fa l'analisi fattoriale di una batteria di test con
un metodo simile a quello di Thurstone, si ritrovano i fattori
primari che egli ha messo in evidenza, ovvero fattori comuni
soltanto a piccoli gruppi di test. Tuttavia, questi fattori sono
correlati tra loro in modo tale Cile se se ne fa un'analisi fatto21.

riale si ottengono fattori di second'ordine, pi generali, che


rendono conto della varianza comune ai fattori primari.
nom e Cattell [1966] hanno cos distinto cinque fattori generali di secondo ordine: un fattore generale di intelligenza cristallizzato (gc), un fattore generale di intelligenza fluida (g/) e
un fattore generale di intelligenza visuo-spaziale (v), un fattore generale di creativit e un fattore generale di velocit di
reazione. L'intelligenza cristallizzata quella che si fonda sull'organizzazione delle conoscenze in memoria; l'intelligenza
fluida in gioco nelle situazioni che richiedono poche conoscenze a priori e in cui l'efficienza dei meccanismi di ragionamento ad essere valutata; l'intelligenza visuo-spaziale; in
gioco nell'elaborazione di informazioni di natura visuo-spaziale; l'intelligenza creativa in gioco in situazioni in cui devono essere scoperte soluzioni nuove e originali. Ma questi fattori secondari sono anche correlati tra loro in modo che, se si
applica su essi un'analisi fattoriale di secondo ordine, si pu
trovare un fattore generale, di terzo ordine, comune all'insieme dei test che compongono la batteria. In altre parole,
Spearman e Thurstone avevano entrambi ragione ed entrambi
torto.
Questi cenni storici danno un'idea delle soluzioni che sono
state proposte per valutare l'intelligenza. Si sono cercati metodi diversi per confrontare gli individui con compiti che mettano in gioco i differenti aspetti dell'intelligenza. I compiti cognitivi non sono comunque per questo tutti dei test di intelligenza. Rimane perci da vedere in modo pi preciso ci che
distingue un test da altre situazioni di valutazione.

I\RYIA. al.

LAPITOLO PRIMO

Teniamo a precisare che non siamo esperti in quest'ambito e c i tiest'anlisi a priori dei fattori in gioco in prove di atletica forse scorretta. ll solo
interesse di questo eseinpio nelle sue ipotizzare virt pedagogiche.

CAPITOLO SECONDO

CI IE COSt UN TEST?

Un test un dispositivo d'osservazione degli individui che


presenta quattro propriet:
1. standardizzato;
2. permette di collocare la prestazione di ogni soggetto in un
gruppo di riferimento;
3. presenta un determinato grado eli accuratezza della misura
(fedelt);
4. viene precisato il significato teorico o pratico della sua misura (validit).
Per esaminare queste propriet prenderemo come esempio un
test di ragionamento induttivo, il test delle Matrici Progressive
livello superiore (Advanced Progressive Ma Irices, APM) messo a
punto dallo psicologo inglese Raven [1965; 1992; Raven, Court e
Raven 1988]. Cominceremo con la presentazione di questa prova.

1. Ut7 ir'Si ch ragiontwiento Induttzvo


Il test di Raven rivolto ad adolescenti o adulti con un buon
livello intellettivo (Raven ha anche proposto dei test costruiti con
gli stessi principi e rivolti ai bambini). Elaborato nel 1943 per essere utilizzato nelle procedure di selezione degli ufficiali dell'esercito britannico, stato rivisto una prima volta nel 1947, in previsione di un impiego pi diversificato, principalmente nell'ambito dell'orientamento e del reclutamento, poi una seconda volta
nel 1962, Questo test costituito da una serie di figure incomplete
che il soggetto deve completare scegliendo la soluzione pi appropriata tra le numerose che gli vengono proposte. Il test rappresentativo di una categoria di prove dette carta e matita, poich non c' bisogno d'altro che del quaderno degli item e di una
matita per indicare la risposta, o anche test collettivi perch le
loro caratteristiche consentono una somministrazione collettiva.

77

23

Il test costituito da due serie di problemi (o item). La prima


serie si compone di .12 item per la maggior parte piuttosto facili.
Sono proposti con lo scopo di esercitare il soggetto e consentirgli
di familiarizzare con il compito e quindi mettere a punto una modalit generale di risoluzione. La seconda serie, nella versione del
1962, prevede 36 item di cui molti sono piuttosto difficili (la versione del 1947 proponeva 12 item supplementari). Il punteggio del
soggetto in genere calcolato accordando un punto per ogni item
superato.
Istruzioni molto precise indicano al soggetto che cosa deve fare
e che cosa ci si aspetta da lui. Il test presentato come un compito
di osservazione e di ragionamento. Si mostra al soggetto dapprima
l'item numero 1 della prima serie (vedi fig. 2) e gli si spiega che
ciascuna delle piccole figure nella parte bassa della pagina potrebbe riempire lo spazio vuoto nella figura grande, ma che solo

una completa adeguatamente il disegno. Il soggetto deve scoprire


questa figura e riportare il suo numero su un foglio di risposta a
parte, distinto dal quaderno degli item. Dopo aver verificato che
ognuno ha individuato la risposta esatta e l'ha segnata correttamente, si chiede ai soggetti di risolvere l'item 2 (la lettura della figura grande si fa da sinistra a destra e dall'alto verso il basso). Allo
scadere di una ventina di secondi, si controlla nuovamente la risposta. I soggetti hanno a disposizione circa cinque minuti per risolvere gli item successivi. Si chiarisce loro che i problemi diventano presto difficili, che bisogna sempre utilizzare lo stesso metodo
per risolverli, che si tratta di una serie di esempio e che la cosa essenziale non risolvere tutti i problemi ma imparare il metodo da
utilizzare, metodo che le istruzioni non esplicitano. Bisogna infatti
trovare delle regolarit o delle regole di trasformazione in riga e in
colonna. L'iteri n. 10 riportato nella figura 3.

la
1

q ri

111

FIG. 2. Ttern n. I della serie I delle -Matrici Progressive.


24

Fin, 3. tieni n. 10 della serie I delle Matrici Progressive.

25

Si passa poi alla seconda serie di item. Le istruzioni precisano che si tratta del test vero e proprio, che i problemi da
risolvere sono simili a quelli della prima serie, che la loro difficolt cresce pi lentamente, e che preferibile affrontarli
nell'ordine con cui vengono proposti. Se la prova applicata
con un tempo limitato, il soggetto ha a disposizione quaranta
minuti (vedi fig. 4, item 19 della versione del 1962 che un
item di difficolt media). Il punteggio del soggetto al test
(punteggio grezzo) dato dal numero di problemi superati.

19

4. Itero n. L9 della sede Il delle Matrici Progressive.

9 6

2. Le propriet .1(..)rmali di un test


2.1. La standanlizzazione

I test sono delle procedure di osservazione standardizzate.


La standardizzazione riguarda la situazione di osservazione, le
consegne e la valutazione del risultato. Nel test di Raven, i problemi proposti sono assolutamente identici per tutti i soggetti
poich sono stampati sui quaderni. Quando il test richiede la
manipolazione del materiale, questa viene sempre descritta con
grande precisione. Noi abbiamo dato solo un riassunto delle
consegne del test di Raven. Nel manuale le istruzioni sono scrupolosamente redatte e a colui che applica il test strettamente
richiesto di non discostarsene. Infine, il modo di calcolare il
punteggi() grezzo di ogni soggetto sempre perfettamente
esplicitato. Nei test collettivi, concepiti appunto per poter essere somministrati contemporaneamente ad un gruppo di soggetti, il calcolo generalmente semplice e consiste nel sommare
le risposte corrette. Per altre tipologie di test, la correzione
pi complessa, ma si dispone sempre di indicazioni molto precise. Prendiamo ad esempio test di vocabolario in cui il soggetto deve produrre la definizione di una parola. Nel manuale
del test si trova la descrizione, accompagnata da esempi, dei
diversi livelli di risposta che possono essere prodotti dai soggetti, con indicazione del numero di punti da attribuire in ogni
caso.
Questa standardizzazione ha un'unica funzione: rendere
oggettiva la valutazione, cio evitare che la misurazione delle
differenze tra gli individui sia influenzata dalla soggettivit dell'osservatore, o, in altri termini, permettere che ci sia un accordo sulla valutazione delle performance tra osservatori diversi. l risaputo che questo non succede con procedure di osservazione libere quando la situazione in cui si trova il soggetto,
le indicazioni che gli vengono date e le modalit di valutazione
delle risposte sono mal definite. Le differenze che vengono cos
individuate tra i soggetti possono essere dovute tanto alla variabilit di questi parametri, da un osservatore all'altro, quanto
alle effettive performance dei soggetti. La procedura di OSServ azione standardizzata si distingue cos nettamente dalla valutazione scolastica. Poich nella situazione scolastica lo stesso
compito viene dato a tutta la classe nelle stesse condizioni, si
27

pu ritenere che la situazione e le consegne siano standardizzate. Ma la correzione generalmente non lo (uno sforzo comunque viene compiuto n questo senso con l'introduzione di
una scala di punteggio di riferimento). Le differenze tra studenti sono quindi ambigue. I lavori di docimologia hanno regolarmente mostrato da pi di sessant'anni [cfr. de Landsheere
1992] che queste differenze sono attribuibili in parte a variabili che ancora oggi si sottostimano, quali la severit dei correttori, l'utilizzo vario che si fa delle scale di valutazione (alcuni, ad esempio, danno voti compresi tra 2 e 10, mentre altri
tra 4 e 8), o ancora al fatto che non c' unanimit nel definire
l'importanza degli obiettivi educativi e la loro gerarchia.
Se la standardizzazione consente una valutazione oggettiva,
bisogna tuttavia notare che conduce spesso ad un impoverimento del campo di osservazione: facile da applicare alla valutazione delle prestazioni ma non sempre un indice di pertinenza odi validit. La standardizzazione della situazione e
delle consegne non riduce necessariamente il repertorio comportamentale dei soggetti. Se la situazione debolmente strutturata e la condotta poco finalizzata, i soggetti sono spinti a
produrre risposte diversificate. Succede questo, ad esempio,
nei test detti di creativit in cui si richiede di immaginare tutti
i possibili utilizzi di un oggetto come un mattone o una scatola.
Ma, molto spesso, la standardizzazione tale da consentire al
soggetto di manifestare solo un numero limitato di comportamenti (risposte), e precisamente quelli che la valutazione
prende in considerazione. Ma ritorniamo al test di Raven. La
situazione tale da richiedere essenzialmente di osservare la
scelta di una delle Otto figure proposte. In effetti, sono possibili altre osservazioni: tra i fallimenti si possono distinguere gli
errori dalle omissioni, ci si pu domandare come si collocano
i fallimenti sulla base del grado di difficolt degli item, interrogarsi sulla natura degli errori, ecc. Ma ci non toglie che la
situazione poco favorevole alla comparsa di comportarnenti.
differenziati.
In teoria, ogni fenomeno psichico che si manifesta attraverso un comportamento pu essere l'oggetto di un'osservazione standardizzata. Questa osservazione pu essere provocata e assumere delle forme complesse. Si sono cos messe a
punto delle procedure standardizzate d indagine che consentono eventualmente di far emergere certi comportamenti che

28

testimoniano l'esistenza di strutture mentali o di particolari


modalit di trattamento dell'informazione. Si trovano esempi
di tale procedura in alcuni test costruiti partendo dalla teoria
di Piaget (vedi cap. 3). Ma particolarmente difficile osservare
oggettivamente processi di pensiero che si caratterizzino per il
loro aspetto qualitativo e la dimensione temporale piuttosto
che per la semplice efficienza. Per questo, nella maggior parte
dei test attualmente in uso, ci si limita a valutare la qualit della
prestazione del soggetto contando il numero d risposte corrette o misurando il tempo necessario all'esecuzione di un compito.
L'oggettivit cos ottenuta una qualit.ecessaria alla standardizzazione. In sua assenza non si sa pi a sufficienza che
cosa, nel comportamento del soggetto, attribuibile al soggetto
stesso o alle caratteristiche di colui che osserva, e di conseguenza le osservazioni raccolte sono poco utilizzabili per fini
di ricerca o per fini pratici. Ma l'oggettivit non una qualit
sufficiente. Occorre essere certi che l'osservazione riguardi
aspetti centrali del comportamento. Occorre anche accertarsi
che l'accordo tra gli osservatori non sia il risultato di un errore
sistematico di osservazione che non condurrebbe ad altro che
a conclusioni ambigue o anche scorrette.
2.2.

Livello di difficolt degli /toni e unidimensionalit della


sana

Il test deve consentire di differenziare gli individui, sia separandoli in classi differenti non ordinate, sia, quello che pi
spesso accade, collocandoli gli uni in relazione agli altri su un
C0116171111171 (una dimensione). Noi ci interesseremo al caso in
cui ci si propone di collocarli su un continuum. Al fine di differenziare sensibilmente gli individui, opportuno avere a disposizione item di livelli diversi di difficolt. L'itero tanto pi
difficile, per i soggetti di un gruppo, quanto pi la sua probabilit di essere superato in questo gruppo debole. Gli item
troppo facili (superati da quasi tutti) o troppo difficili (quasi
tutti falliscono) non contribuiscono alla differenziazione degli
individui. Ecco alcuni dati sul livello di difficolt degli item del
test di Raven: sono stati raccolti su un campione di pi di un
migliaio di adolescenti tedeschi di 15 anni, scolarizzati. Nella
serie I, la percentuale di successo agli item varia dal 93% (item
29

n. 1) al 42% (item n. 11). L'item n. 10 (fig. 3) stato superato


1111'82% dei soggetti. Nella serie IL queste percentuali variano
dall'85 % (item n. 1) al 4% (item n. 36). Litem n. 19 (fig. 4)
stato superato dal 60% (lei soggetti. Per ogni serie, l'ordine di
presentazione degli item molto vicino al loro ordine di difficolt.
11 punteggio grezzo dei soggetti al test deve consentire di
collocarli su una dimensione. Nel caso del tesi delle matrici
progressive, questa dimensione pu essere chiamata efficienza nel ragionamento induttivo o capacit di ragionare induttivamente. L'esistenza di questa dimensione deve essere
definita e univoca. Non avrebbe alcun senso sommare gli item
superati se ciascun item non valutasse in misura diversa la capacit di ragionare in modo induttivo. L'esistenza di una dimensione fondata a sua volta su considerazioni teoriche e su
criteri formali. Da un punto di vista teorico sensato ritenere
che tutti gli item del test di Raven mettono in gioco il ragionamento induttivo O, pi esattamente, una certa formo di ragionamento induttivo. Da un punto di vista formale, ci si deve assicurare che il successo in un item sia strettamente associato al
punteggio globale al quale deve contribuire. Se ci succede per
tutti gli item, si concluder che la scala unidimensionale. Si
possono utilizzare diversi metodi per verificare questo unidmensionalit. Ne prenderemo in considerazione due: il calcolo
dei coefficienti di correlazione item-test e la generazione di
curve caratteristiche degli item. Li presenteremo riprendendo
l'esempio del test di Raven.
2.3.

La correlazione item-test

Una volta che il test stato applicato, ogni soggetto caratterizzato da un punteggio per ogni item (1 o 0) e da un punteggio totale (al massimo 12 punti per la serie I e 36 per la serie II). Se un item richiede la stessa abilit dell'insieme degli altri item, il punteggio a quell'item dovr essere in correlazione
con quello del test. In altre parole, il successo nell'acni dovr
essere pi frequente per quelli che hanno punteggi elevati al
test. Il grafico di correlazione per un item della serie I presentato nella tabella 1. Vediamo, per il test di Raven, le correlazioni item-test calcolate sul campione di adolescenti tedeschi.
Per la serie I, i coefficienti di correlazione item-test variano da

30

AB.

Diagnnumd ch correlazione
A latrici Progressive (serie I)

nunrewo di un item 09 e il punteggio delle


Punteggio al test (.)c)

0
Punteggio
all'iterar (r)

l
1

5 6

3 5

12

9 10 11 12

12 16 12 .5
4

2 60
40

li punteggio dell'iterar 1 o C. 11 punteggio al test vada da C) a 12. Su 100 soggetti


che hanno fano il test, 60 hanno saper s i l'itero e -(0 hanno fallito (colonna n). So
60 soggetti che hanno superato ritetn, 2 hanno ottenuto al test un punteggio di 4, 3
un punteggio di 5, ecc. Su 40 soggetti che non hanno superato l'itero, I Ira ottenuto
1111 punteggio di 2, 4 hanno ottenuto un punteggio di 3, ecc. Il coefficiente di CON
relazione ira l'itero e il test (qui si unita di un coefficiente di correlazione biseriale)
di 0,85. Traduce il fatto che la maggior parte dei soggetti che hanno superato l'item hanno un punteggio elevalo (50 su 60 hanno pi di 6) mentre la maggior patte
di coloro clic hanno sbagliato all'item hanno un punteggio basso al, test (26 su 40
hanno areno di 6).

0,41 a 0,60 1 . Per la serie Il variano da 0,11 a 0,61. Si pu notare che tutti i coefficienti di correlazione item-test sono positivi e che quelli deboli sono poco numerosi (su 36 coefficienti
della serie 7 sono inferiori a 0,30). Per l'item n. 10 della serie I (fig. 3), la correlazione item-test 0,51 e per l'item n. 19
della serie II (fig. 4) di 0,43.
Le distribuzioni di frequenza dei punteggi agli itero forniscono nello stesso tempo informazioni sul grado di difficolt
degli item e sulla loro relazione con il punteggio della scala. Per
costruire queste curve si riporta il punteggio della scala in
ascissa e, in ordinata, per ogni valore della scala, la percentuale
di soggetti che hanno superato l'item. Nella figura 5 si possono
vedere le curve corrispondenti ai 12 item della serie. .L'itero numero 10, ad esempio (rappresentato dalla curva numero 1.0),
stato superato da circa il 30% dei soggetti che hanno avuto al
test un punteggio globale di 6 e da circa il 75% di coloro che
hanno avuto un punteggio globale di 8. Le curve pi soddisfacenti sono quelle per cui si pu osservare una progressione
regolare passando da punteggi della scala bassi a punteggi via
via pi alti. 'Esse mostrano che l'acni contribuisce alla differenziazione dei soggetti e che l'abilit valutata dall'i tem prossima a quella valutata dall'intero test. Al momento della costruzione del test e della sua revisione del 1962, gli acni sono
31

3.1. I quantili

100

75 Percentuale
di successo
per
0
5
ogni item

25

O
Pinteggio totale
FIG. 5. Distribuzioni di frequenza dei 12 item della serie l delle Matrici Progressive.

stati selezionati sulla base dell'esame delle distribuzioni di frequenza dei punteggi.
Ci sono altri modi per valutare l'unidimensionalit della
scala: ad esempio, verificare che tutte le intercorrelazioni tra gli
item siano forti o verificare che il superamento di un item di un
certo livello di difficolt implichi il superamento degli item di
difficolt inferiore.

3.

Scale di punteggio

Il punteggio grezzo al test d un'indicazione della prestazione


del soggetto, ma non consente di confrontare questa prestazione
con quella dei soggetti di un gruppo di riferimento. Per questo
scopo, i punteggi grezzi sono trasformati in scale di punteggio.
Le scale di punteggio sono dei sistemi di categorie ordinate in cui
possibile distribuire tutti soggetti di un gruppo di riferimento.
Si distinguono due grandi categorie di scale di punteggio a
seconda che si basino su categorie ordinate di punteggi grezzi
(quantili) o corrispondano alla suddivisione secondo certe regole
cli una distribuzione gaussiana o normale (distribuzione normalizzata).
32

i quantili sono i limiti tra due categorie. Si chiamano


guarnii se la distribuzione dei punteggi suddivisa in quattro categorie, decili se le categorie sono dieci. e centili se ci
sono 100 categorie. Succede spesso che, essendo il vocabolario in quest'ambito piuttosto flessibile, con il termine quantile ci si riferisca alle categorie stesse. Dire quindi che un soggetto nel terzo decile significa che quel soggetto si colloca
in un gruppo a cui appartiene il 10% dei soggetti e tale che
il 20% ha punteggi superiori ad esso e il 70% punteggi inferiori. La costruzione di questa scala molto semplice: basta raggruppare i punteggi grezzi in modo tale da ottenere
categorie numericamente omogenee. Si pu anche stabilire
un cern& calcolando direttamente la percentuale di soggetti
che hanno ottenuto un certo punteggio grezzo o dei punteggi
inferiori. Si pu osservare nella tabella 2 l'esempio di una
scala in centili della serie II. del test di Raven che era stato
proposto senza vincoli temporali a studenti dell'Universit di
Berkeley.

TAB. 2 Divtrikinzione in ceratili della serie TI (1962) delle Matrici Progres5ive (Id'ella

superiore) applicata senza limiti di 'colpo a studenti di Berkeley (Callf)


h int eggio
gr ezzo
13
15
17
18
19
20
21
77

23
24
25

Percentile

3
4
6
7
il
14
18
24
29
37

Punteggio
grezzo

Perenni ile

26
27
28
29
30
31

43
52
'57
65
71
81
86
89
93
98
100

32
33
34
35
36

L' l% degli studenti ha un punteggio grezzo minore o uguale a 13. 113 % degli studenti ha un punteggio grezzo minore o uguale a 15, ecc. Questa distribuzione consente di collocare un soggetto qualsiasi in rapporto agli studenti americani dell'Universit di Berkeley Supponiamo che nn soggetto abbia ottenuto un punteggio di 25.
1:8%, degli studenti americani ha ottenuto questo punteggio (37-29), il 299 lin avum
punteggi inferiori e il 6.30 (100-37) ponteggi superiori. Questo soggetto si situa
quindi in prossimit dei due terzi della distribuzione degli studenti americani.


33

3.2. Le distribuzioni normalizzate

I livelli delle categorie di una scala normalizzata vengono


definiti a partire dalle propriet della distribuzione teorica di
Gauss, detta anche distribuzione normale. La curva che rappresenta questa distribuzione simmetrica e a campana (fig.
6). Essa indica come si distribuiscono le categorie (riportate in
ordinata) in funzione di una variabile (riportata in ascissa). Conoscendo la media e la deviazione standard' di una distribuzione gaussiana, si pu calcolare la proporzione della popolazione che si colloca al di qua o al di l di un dato valore della
variabile considerata, o tra due valori della variabile (il risultato di questi calcoli si pu trovare in alcune tavole). Se si
esprime il valore di una variabile in deviazioni standard dalla
media, si sa che il 6,7% della popolazione si situa al di l di 1,5
deviazioni standard dalla media, e che il 24,2% della popolazione si situa tra 0,5 e 1,5 deviazioni standard, ecc. (fig. 6).

38,)%
24,2%

24,2%

6,7%
-3/2

camerate la distribuzione di queste classi, attribuendo ad


ognuna di esse uno stesso intervallo sull'asse delle ascisse, si ottiene un istogramma che si avvicina alla curva di Gauss (fig. 7).

38,2%
24,2%

6, 7 %

19(i. 7. lstogrannua corrispondente alla distribuzione di Causa.

Nella tabella 3 si pu osservare un esempio di scala in 5 categorie normalizzate della serie II (versione del 1947) del test
di Raven somministrato con un tempo massimo di quaranta minuti ad un campione francese con alto livello di scolarit.
- La scelta di un tipo di scala guidata da ragioni di comodit. Se si vogliono differenziare i soggetti con precisione, si
sceglier una scala composta di numerose categorie. General-

6,7
-1/2

1/2

3 '2

FIG. 6. La distribuzione teorica di (Muss.

delle Matrici Pro"1'AB. 3 1)isiribuzion e in 5 caicgor.' norntalizszate della seriell (1047)


grei-vive (livello superiore) applicata in 40 a 200 adulti tra 25e 40 anni,
la/umili ue imdcrie vatentoiche e residenti nella regione th Parigi

Categorie
normalizzate

Si pu rappresentare la distribuzione dei punteggi grezzi


osservata ad un test con una curva ottenuta collocando le categorie in ordinata e i punteggi grezzi in ascissa. Non detto
che tale curva sia identica alla curva teorica di Gauss. Ma si
possono raggruppare i punteggi grezzi al fine di formare nuove
classi la cui distribuzione sar prossima a quella di Gauss ( il
sistema di costruzione delle distribuzioni normalizzate, detta
anche normalizzazione). Per costruire una distribuzione
normalizzata in 5 classi, s costituir una prima classe con il
6,7% dei soggetti pi efficienti, poi una seconda classe con il
24,2% dei soggetti che seguono, ecc. Se si rappresenta grafi34

24,2%

Punteggi
grezzi
4 I e oltre

36.10
3

32-35

27-3
26 e meno

Circa il 6,7% dei soggetti 1 .1a un punteggio almeno uguale a 41.


Circa il 24,2% dei soggetti ha un punteggio almeno uguale a 36 e interiore a 41.
Circa il 38,2% dei soggetti ha un punteggio almeno uguale a 32 e inferiore a 36.
Circa il 24,2% dei soggetti ha un punteggio almeno uguale a 27 e inferiore a 32.
Circa il 6,7% dei soggetti ha un punteggio almeno uguale a 26.
1.1u qualsiasi soggetto che ha un punteggio grezzo di 39 pu essere collocato in un
gruppo di soggetti che comprende circa il 24,2% della popolazione, il 6,7% ha pura-.
reggi superiori a questo gruppo c 6),1% punteggi inferiori,

35

mente, si considera pi facile distinguere i soggetti alle estremit della distribuzione piuttosto che verso il suo centro dove
essi sono prossimi alla media. Ci induce a preferire a quantili le distribuzioni normalizzate nelle quali le frequenze sono
pi numerose nelle classi centrali che in quelle estreme. A fini
pratici, sempre utile disporre di scale relative a diversi gruppi
di riferimento.
Le scale di punteggio consentono anche confronti intraindividuali. Se un soggetto si mostra migliore in una prova verbale piuttosto che in una prova di ragionamento, si pu dire
che la sua capacit verbale superiore alla sua capacit di ragionamento. I confronti intraindividuali sono facilitati dalla costruzione di profili. Un esempio di profilo presentato nella figura 8.

2
Test verbale

'l'est numerico

Test spaziale
FIG. 8. Profilo psicologico di un soggetto a partire dai punteggi standardizzati (scala
normalizzata in cinque categorie) ai tre test.

3.3. Il quoziente intellettivo

Esistono due definizioni di quoziente intellettivo (Q1).


Questa espressione pu riferirsi ad un indice di velocit di
luppo intellettivo (QI-Stern) o ad una misura di efficienza calcolata rispetto alla media di un gruppo, ovvero una forma di
punteggio ponderato (QI-Wechsler di deviazione). La prima
definizione quella originaria ed stata presentata nel primo
capitolo con la descrizione della scala di intelligenza messa a
punto da Binet. La seconda definizione decisamente la pi
utilizzata oggi.
36

Il QI di tipo Stern, di grande praticit, il QI determinato


dal rapporto tra l'et mentale e l'et cronologica; questo indice
ebbe molto successo ma evidenzi presto due dei suoi limiti.
Un primo limite viene dal fatto che l'indice inadatto alla descrizione delle differenze tra gli adulti. Certamente lo sviluppo
non si arresta dopo l'adolescenza, ma, a partire dall'adolescenza, cambia ritmo e, radicalmente, natura. Se sembra abbastanza naturale attribuire ad un bambino di 10 anni un'et mentale di 12 sarebbe piuttosto strano attribuire ad un adulto di 45
anni un'et mentale di 52. La nozione di et mentale e, di conseguenza, quella di QI, adatta per il periodo di rapido sviluppo che va dall'infanzia all'inizio dell'adolescenza. Si tentato di caratterizzare gli adulti per un QI-Stern (scegliendo arbitrariamente una stessa et cronologica per tutti gli adulti e facendo corrispondere, ancora in modo arbitrario, delle et mentali alle performance), ma questi tentativi sono rimasti poco
convincenti e sono stati abbandonati. 11 secondo limite del QIStern di altra natura. Per definizione la media dei Q1 la stessa
a tutte le et (e uguale a 100), ma ci non vale per la loro dispersione. A certe et pi concentrata mentre ad altre pi
distribuita, senza che questo abbia un significato particolare in
termini di sviluppo. Questo fenomeno s spiega per il fatto che
ad ogni et gli itero sono diversamente rappresentativi dell'et
stessa (un item adeguatamente rappresentativo di un'et se il
lasso di tempo che trascorre da quando risolto da qualcuno a
quando e risolto da quasi tutti breve). Ne consegue quindi una
certa ambiguit nel significato del QI se si confrontano soggetti
di et diverse: secondo l'et, varia la proporzione di soggetti che
superano un QI dato. Questi limiti hanno indotto numerosi autori, tra cui Wechsler verso la fine degli anni Trenta, a definire
il Q1 in tutto un altro modo.
QI di tipo Wechsler ha la propriet di non essere un quoziente. Sarebbe stato certamente preferibile trovare un altro
nome a questo indice, ma quello di QI stato mantenuto per
la popolarit che tale sigla aveva ormai acquisito. Il QI-Wechsler unicamente un indice di efficienza che consente di collocare il soggetto all'interno del suo gruppo di et, senza alcun riferimento allo sviluppo. Per stabilire questi QI si opera una trasformazione dei punteggi grezzi al fine di ottenere una nuova
distribuzione dei punteggi, che si chiamer dei QI, e che avr
la forma della distribuzione di Laplace-Gauss (normalizza37

zione), una media uguale a 100 e una deviazione standard di 15.


Questa trasformazione dei punteggi grezzi assolutamente legittima perch non modifica l'ordine dei soggetti. I valori 100
e 15 sono convenzionali e se ne possono scegliere altri (ma allora non si parla di QI)'. Conoscendo il QI di un soggetto si sa
come egli si situa nel gruppo di riferimento. Dire che un soggetto ha un 01 di 100 significa che ha tanti soggetti avanti a lui
quanti dietro, e niente altro. Dire che un soggetto ha un QI di
115 significa che ha circa il 16% dei soggetti del suo livello di
et avanti_ a lui (16% la percentuale della popolazione che si
colloca oltre un punteggio eli media + una deviazione standard se la distribuzione gaussiana). Con questo tipo di QI
diventa possibile classificare anche gli adulti. Del resto, la dispersione dei QI individuali , per costruzione, la stessa a tutte
le et. Ma questo QI non che una forma di classificazione tra
tante ed dunque possibile, e del resto eli solito lo si fa, esprimere in QI i risultati a qualsiasi test. Si pu osservare nella tabella 4 uno schema di corrispondenza tra i Q1 e i percentili.
Nel capitolo 4 affronteremo i dibattiti e le polemiche riguardanti il QI. Tali dibattiti sono infatti relativi al contenuto
di alcuni test e all'interpretazione dei loro risultati, non alla classificazione scelta per descriverli.
7'Al3. 4. 1;11 ,, A1 i, COM pOndenZd lui

c ceni/li

(:ertili
130

125

120

115
110
105
100

25
37
50

95

63

90

-75

85
80

84
91

75

95

70

98

11 2`, della popolazione ha un punteggio superiore al soggetto che ha un Q1 di 130.

.38

4. (71i errori di

Gli errori di misura possono essere dovuti o al momento


particolare in cui si procede alla misurazione o al dispositivo
stesso scelto per quest'ultima.
1.1. La stabilit o fedelt

Quando si applica un test ad un gruppo di soggetti, ce n'


sempre qualcuno che non troppo in forma (pu essere malato, avere preoccupazioni che lo distraggono, ecc.) mentre altri sono ben concentrati sul compito. Se si fosse applicato il test
in un altro momento, altri soggetti non sarebbero stati in forma
e altri sarebbero stati ben disposti per svolgere il compito. Il
punteggio cli un soggetto pu cos variare in modo imprevedibile nella misura in cui le cause di questa variazione non sono
analizzate, in funzione del momento dell'osservazione. La misura quindi intaccata da un errore aleatorio relativo a questo
fattore temporale. Si dice che essa non perfettamente fedele,
o, pi precisamente, che essa manca di perfetta stabilit o di
costanza. Sarebbe certamente desiderabile poter disporre eli
misure senza errori. A questo scopo, si potrebbe pensare di
applicare il test 1111 gran numero di volte allo stesso soggetto e
di fare la media dei punteggi ottenuti. Gli errori che avvantaggiano il soggetto sarebbero cos compensati da quelli che lo
svantaggiano. Ma una tale procedura non praticabile. Non
solo sarebbe troppo costosa in termini di tempo, ma i soggetti
dopo le prime prove apprenderebbero, pi o meno rapidamente, a risolvere i problemi del test, e per molti questi problemi perderebbero presto interesse. Dunque i fenomeni di apprendimento e di demotivazione possono essere considerati
come errori eli misura. Il test quindi applicato una sola volta.
Ma l'esaminatore dispone di informazioni sulla sua stabilit che
gli permettono di accorciare una fiducia pi o meno grande alla
misura ottenuta.
Per valutare la stabilit di un test, lo si applica in due riprese
ad uno stesso gruppo di soggetti e si calcola un coefficiente cli
correlazione tra le due serie di punteggi. Tale coefficiente
detto di fedelt o eli stabilit. Se elevato, ovvero se gli individui si collocano approssimativamente ad uno stesso livello
nella prima come nella seconda somministrazione, la misura
39

verr considerata stabile, minimamente influenzata dal momento di osservazione. In caso contrario, se l coefficiente di
correlazione debole, la misura poco stabile e non ci consente di classificare il soggetto in modo affidabile. La tabella 5
mostra una tavola di correlazione che corrisponde ad un coefficiente di fedelt di 0,61.
I coefficienti di fedelt dei test di intelligenza, calcolati ad
intervalli di diverse settimane o di diversi mesi, sono sempre
elevati. Le Matrici :Progressive di Raven, applicate ad adolescenti o ad adulti, ha una stabilit di 0,90. Un tale coefficiente
indica che i soggetti si collocano praticamente a livelli identici
ad ognuna delle somministrazioni e dunque che l'errore attribuibile al momento dell'applicazione irrilevante.
TAB. 5. Tavola di correlazione Ira la prima e la seconda somministrazione di un lesi

Seconda
Sommi.

Prima somministrazione
80-8,1

85-89

70-74

75-79

105-109

1(10-104

92-99

C)

90.94

60-64

65-69

90-94

95-99

120-124
115-119
110-114

85-89

80-84

4
1

85 soggetti hanno fatto un test in due momenti. Dei 3 soggetti che hanno ottenuto
un punteggio compreso tra 60 e 64 alla prima somministrazione, uno ha ottenuto un
punteggio compreso tra 85 e 89 alla seconda, un altro un punteggio compreso tra 90
e 94 e un terzo un punteggio compreso tra 95 e 99. Coloro clic hanno ottenuto un
punteggio elevato alla prima somministrazione hanno tendenza a ottenere un punteggio elevato anche alla seconda. La correlazione positiva e moderata (0,61). Si
nota un effetto di apprendimento: il punteggio medio alla seconda pi elevato che
alla prima.

4.2.

L'equivalenza e l'omogeneit

Gli errori di misura possono anche avere origine dalla


scelta delle situazioni proposte ai soggetti. Questa scelta si
orienta dapprima verso una data categoria cli situazioni, poi
verso situazioni pi specifiche. Per valutare l'abilit di ra40

gionamento induttivo, Raven ha scelto innanzitutto dei problemi con matrici da completare e poi ha dato loro una forma
particolare. Questi due tipi di scelta non hanno lo stesso valore. La scelta di una categoria d situazioni in relazione con
il grado di generalit della dimensione lungo la quale si ordinano i soggetti. Esiste una dimensione generale di ragionamento induttivo, ovvero una capacit che opererebbe non
soltanto nei test di matrici, ma anche, ad esempio, nella ricerca di leggi di trasformazione in serie di lettere o di cifre,
o su contenuti significativi? O, al contrario, bisogna distinguere dimensioni diverse, ad esempio, una che riguarda l'abilit di ragionamento induttivo con problemi di matrici, e
l'altra che riguarda la capacit di ragionamento induttivo su
serie di cifre? Riprenderemo questi quesiti nella discussione
sulla validit teorica. Una volta scelta una categoria di situazioni, rimane da dare un contenuto ad ogni problema. La lista dei contenuti possibili quasi infinita e la scelta di certuni invece di altri sempre molto arbitraria. Problemi differenti da quelli scelti da Raven sarebbero apparentemente
andati bene, anche se non del tutto certo. Ci si deve quindi
domandare in che misura il punteggio di un soggetto non
influenzato dal carattere specifico delle situazioni problema
propostegli.
Per valutare il peso di questi errori rispetto alla situazione,
si possono costruire delle forme parallele dello stesso test, ovvero diversi test destinati a valutare la stessa abilit e relativi
allo stesso tipo di situazioni, ma realizzati in modo diverso. Se
si intende, ad esempio, valutare l'estensione del vocabolario in
situazioni di produzione di definizioni, si possono costituire
diverse liste di parole da definire, simili per alcuni aspetti (la
frequenza d'uso, il carattere pi o meno astratto, ecc.) ma diverse per altri. Il coefficiente di correlazione tra due forme
parallele, o coefficiente di equivalenza, ci indicher in che misura le osservazioni sono fedeli rispetto alla scelta delle situazioni. Un coefficiente elevato indica che i soggetti si classificano allo stesso modo n ogni prova, e quindi che gli errori riferibili alla scelta della situazione sono trascurabili. Un coefficiente debole indicher che la classificazione dei soggetti varia al variare del contenuto delle situazioni. Poich questa variazione non n prevedibile n spiegabile, il significato delle
due prove quindi ambiguo.

41

Quando si ha un test formato da una serie sufficientemente


lunga di itera, le forme parallele possono essere ottenute separando gli itero pari da quelli dispari. Il coefficien t e di correlazione tra queste due met del test, chiamato coefficiente di omogeneit, ha lo stesso significato del coefficiente di equivalenza.
Si pu osservare che il coefficiente di omogeneit caratterizza
soltanto una met del test e sottostima la fedelt del test intero;
inoltre prende in considerazione soltanto gli errori dovuti alla
situazione mentre il coefficiente di equivalenza tiene conto anche degli errori dovuti al momento dell'osservazione ,
dato che
non I possibile superare due test contemporaneamente.
coefficienti di equivalenza e di omogeneit dei test di intelligenza sono generalmente elevati. Ad esempio, calcolati su
gruppi di studenti di diversi paesi, i coefficienti della serie H
delle Matrici Progressive Raven si collocano tra 0,71 e 0,83.
Gli errori di misura possono anche derivare dalla soggettivit degli osservatori. Abbiamo avuto modo di vedere all'inizio di questo capitolo che la funzione della st andardizzazione
era precisamente di ridurre gli effetti di questa soggettivit. Nei
test quindi il peso delle fonti d'errore relative all'osservatore
diventa molto debole,
5. La validit
Qual l'interesse pratico di un test e qual il significato
delle misure che esso consente di ottenere? Ponendosi queste
domande ci si interroga sulla validit empirica e sulla validit
teorica della prova.
5.1. La validit empirica

A fini pratici, i test sono utilizzati come strumenti diagnostici o prognostici e sono validi se contribuiscono effettivamente a diagnosi che si riveleranno esatte o a buoni pronostici.
In quanto strumenti di diagnosi, essi possono favorire, ad
esempio, una migliore c
omprensione dell'origine di certe difficolt scolastiche o di certi disturbi del c
omportamento, e
quindi dei rimedi pi adeguati. Si dir ad esempio che
un test
di tipo spaziale valido se, essendo in correlazione con delle

42

difficolt di 'apprendimento in matematica, esso permette di


precisare l'origine di sottotipi di difficolt, o 'ancora che un
test di memoria valido se consente di distinguere pazienti
che soffrono di turbe della memoria di origine differente.
Questa validit diagnostica si manifesta nel corso della pratica
clinica e non formalizzata, ma intrattiene comunque legami
stretti con la validit teorica. In effetti, l'osservazione realizzata per mezzo di test ha pi possibilit di essere utile se
prende posto in un modello validato di funzionamento psicologico del soggetto.
In quanto strumenti di prognosi, i test forniscono informazioni utili per promuovere azioni di prevenzione, di orientamento e eli formazione. La validit predittiva ben formalizzata e pu essere espressa sotto forma di coefficienti.
Per giudicare la validit predittiva di un test ' necessario
uno studio preliminare. Il test viene applicato ad un gruppo di
soggetti e, qualche mese o qualche anno pi tardi, si va ad Osservare la posizione (lei soggetti rispetto alla variabile considerata a scopo prognostico (questa variabile si chiama criterio;
pu trattarsi, ad esempio, del successo nell'istruzione o dell'adattamento ad una professione). Si predispongono quindi per
gli stessi soggetti due serie (li osservazioni di cui si misura il
grado di associazione con il calcolo del coefficiente di correlazione che il coefficiente di validit predittiva del test per il criterio considerato (e per i soggetti esaminati). Un coefficiente
elevato indica che era possibile una buona previsione. Si potr
allora utilizzare questa informazione per fare dei pronostici veritieri. Si prediranno dei punteggi elevati al criterio per coloro
che hanno ottenuto punteggi elevati al test (predittore). Procedendo cos, si ammette che i fattori che hanno spiegato la
riuscita al criterio nel passato continueranno a spiegarla nel futuro, il che suppone una stabilit abbastanza buona dell'ambiente o, nel caso in cui questa non sia assicurata, una revisione
frequente della validit. Se il coefficiente di correlazione tra il
test e il criterio debole, si potranno fare solamente pronostici
imprecisi, nel qual caso pi opportuno astenersi completamente dal fare previsioni sui soggetti.
L'esame del diagramma di correlazione permette di precisare i valori pronosticati dal criterio e l'importanza dell'errore
di pronostico. Per un dato valore del predittore si prevede, per
i soggetti che hanno ottenuto tale valore, la media dei punteggi
43

al criterio. Lo scarto medio tra questo punteggio medio e i punteggi effettivamente osservati una misura della precisione del
pronostico (vedi tab. 6).
TAB. 6. Tavola di correlazione Ira test e criterio

Punteggi
al criterio

Punteggi al test
0-2

3-5

6-8

9-11

12-11

15-1.7

18-20

21-23

7
5

li

10

8
3

7
6

4
2

113 soggetti sono caratterizzati dal loro punteggio al test e dal loro punteggio al criterio, ad esempio il voto ad un esame. (Di 6 soggetti che hanno avuto un pun teggio conipreso tra 0 e 2 al test, 3 hanno avuto un punteggio di 2 al criterio, 1 un punteggio di 3
e 2 un punteggio di 4.) La correlazione tra il test e il criterio di 0,65. Quale voto, ad
esempio, si pu predire al criterio per i 25 soggetti che hanno un punteggio compreso
tra 12 e 14 al test? Si porrebbe predire il voto ottenuto pii) frequentemente nel corso
degli studi in questione (qui il voto 5 ottenuto da 9 soggetti). Si mostra clic, in generale,
con distribuzioni dei voti al criterio, per un voto dato al predittore, la predizione della
media di queste distribuzioni quella che minimizza gli errori di pronostico. Nell'esempio scelto cos il voto 5. Pcr misurare l'importanza dell'errore di previsione, si pu
calcolare lo scarto medio tra il punteggio pronosticato e il punteggio ottenuto nel corso
degli studi. Nell'esempio scelto lo scarto medio diI,1 pomi.

Citiamo a titolo esemplificativo i lavori in cui ci si propone


di prevedere la riuscita scolastica degli adolescenti a partire dalle
Matrici Progressive di Raven (livello superiore). T coefficienti di
validit prognostica sono dell'ordine di 0,40 per la conoscenza
della lingua e di 0,60 per la riuscita nelle discipline scientifiche.
Succede frequentemente che si proceda nello stesso momento sia alla misura del predittore che a quella del criterio. Si
parla allora di validit concorrente. L'interesse principale della
validit concorrente d'indicare in quale misura possibile
rimpiazzare una procedura d'osservazione costosa con una
procedura che lo meno, generalmente un test. Se, ad esem44

pio, c' una forte correlazione tra il livello di lettura valutato


da insegnanti durante corsi preparatori (criterio) e i punteggi
ad un test di lettura (predittore), si potr sostituire il giudizio
delle insegnanti con l'applicazione del test. Se si hanno buone
ragioni di pensare che le differenze tra gli individui osservate
sul predittore sono antecedenti a quelle osservate sul criterio,
si pu ritenere che la validit concorrente fornisce informazioni
equivalenti a quelle della validit prognostica. Si pu trovare
un esempio di validit concorrente nella tabella 7 (in questo
caso, la validit empirica non espressa da un coefficiente di
correlazione, tuttavia i dati indicano una correlazione tra i punteggi al test e il corso di studi intrapreso).
A13.7 . Punteggi medi alla serie H (1962) del test di Rauco riguardante 745 studenti
australiani accedenti alle diverse facolt universitarie
Lettere

5.2.

21,9

Scienze

25,1

Ingegneria
Giurisprudenza

25,6
20,8

Medicina

24,1

Odontoiatria

22,1

Agraria
Economia e commercio

24,1
22,3

La validit teorica

Un test ha una validit teorica tanto pi soddisfacente


quanto pi si conosce ci che il test sta misurando, ovvero
tanto pi le osservazioni realizzate con quel test possono essere interpretate in modo coerente e senza venire smentite da
dati sperimentali o d'osservazione. La validit teorica dei test
di intelligenza pu essere definita in una prospettiva strutti H
rale e in una prospettiva funzionale. Nella prima, ci si domander come si situa il test rispetto alle teorie dell'organizzazione delle capacit cognitive, ossia in relazione alle grandi
dimensioni dell'efficienza cognitiva che permettono di differenziare gli individui. Nella seconda, ci si domander come si
colloca il test in rapporto ai parametri dei modelli di funzionamento cognitivo, o, in altri termini, ci si interrogher sulle
parentele tra le operazioni mentali sollecitate dagli itera del
45

test e quelle descritte dai modelli di funzionamento del soggetto. Illustriamo queste nozioni riprendendo la prova delle
matrici progressive.
Abbiamo gi fatto riferimento nel primo capitolo alla teoria dell'organizzazione delle differenze individuali nell'ambito
verbo-concettuale di Horn e Cattell 11966; cfr. L'ideati 19901.
Questa teoria individua alcune grandi abilit o fattori: l'intelligenza cristallizzata, data dalle conoscenze di cui dispongono i soggetti e dalla loro organizzazione (si manifesta particolarmente con la comprensione verbale); l'intelligenza fluida,
che la capacit di mettere in atto i meccanismi di base del
ragionamento in situazioni in cui le conoscenze di base sono
poco importanti; la visualizzazione, che la capacit di rappresentarsi e di trasformare visivamen t e gli oggetti; la creativit o capacit di produrre associazioni di parole o idee originali; e, infine, una capacit a reagire velocemente (velocit di
reazione). Queste differenti abilit non sono poi completamente indipendenti, poich, a partire dalle loro intercorrelazioni, possibile definire una capacit cognitiva generale (o
un fattore generale) vicino all'intelligenza fluida. Quando Raven ha messo a punto il suo test, voleva espressamente costruire una prova di capacit generale e, come Spearman, pensava che il miglior mezzo per raggiungere questo obiettivo
fosse di scegliere delle situazioni che consentissero di distinguere gli individui sulla base della loro abilit a scoprire e applicare delle relazioni (cio, utilizzando un vocabolario successivo alla costruzione del test, sulla base della loro intelligenza fluida). Ci si deve allora domandare se le Matrici Progressive siano appunto un test di capacit generale e di intelligenza fluida. Dato che i soggetti si classificano praticamente
allo stesso modo al test di Raven e all'insieme dei test di intelligenza fortemente saturati dal fattore generale, si pu rispondere affermativamente a questa domanda.
Per giudicare la validit teorica al test di Raven in una prospettiva funzionale, ci si deve riferire alle teorie sul ragionamento induttivo. Consideriamo la teoria proposta da Sternberg 11977; Sternberg e Gardner 1982; cfr. Huteau 1985;
1995; Lautrey 19951 Questa teoria scompone il ragionamento
induttivo in una sequenza di operazioni intellettive o di componenti elementari che si articolano all'interno di componenti
cli livello gerarchico superordinato o metacomponenti. Tra
46

le componenti elementari troviamo la costruzione di una rappresentazione analitica degli elementi di una situazione (codifica), la definizione di relazioni tra gli elementi (inferenza), la
generalizzazione di queste relazioni (analogia) e la loro utilizzazione per generare nuovi elementi (applicazione).
Nell'item delle Matrici Progressive riportato nella figura
4, ad esempio, la componente di codifica l'operazione con
cui i diversi attributi delle figure vengono identificati e fissati
in memoria (grande quadrato, piccolo quadrato, croce, cerchio...). La componente di inferenza l'operazione con cui la
regola di trasformazione delle figure viene scoperta confrontando tra loro gli attributi di ognuna; nella prima colonna questa operazione di confronto porta a scoprire che la terza figura
si ottiene sommando la croce della seconda nel piccolo quadrato della prima; nella seconda colonna l'inferenza consente
di cogliere che la terza figura ottenuta aggiungendo il cerchio della seconda alla croce della prima. La componente di
analogia quella che viene messa in gioco nel confronto tra la
trasformazione della prima colonna e quella della seconda;
essa porta ad astrarre le caratteristiche comuni alle due regole
e a comprendere che le prime due figure si sommano per generare la terza. L'applicazione l'operazione con la quale la
regola che stata astratta con l'inferenza e l'analogia viene applicata alla terza colonna per scoprire la figura mancante. Qui,
la somma delle prime due figure porta ad anticipare la figura
mancante aggiungendo la croce con il piccolo cerchio della seconda figura nel piccolo quadrato della prima (senza che la
croce appaia nel quadrato grande). L'ultima operazione, la
scelta della risposta, consiste nel cercare, tra le differenti figure proposte al di sotto dell'item, quella che corrisponde alla
risposta gi anticipata. Le metacomponenti sono le operazioni
con le quali queste differenti componenti elementari sono ordinate e controllate. Una di queste metacomponenti, ad esempio, ha la funzione di modificare la distribuzione delle risorse
cognitive (attenzione, tempo) tra le diverse componenti elementari in funzione degli ostacoli incontrati. Una strategia, ad
esempio, pu essere quella di passare all'inferenza non appena
viene individuata una differenza tra le figure della prima colonna; un'altra potrebbe essere di dedicare pi tempo e risorse
ad una codifica esaustiva prima di passare all'inferenza. La
messa in atto efficace di queste componenti elementari e me47

tacomponenti suppone, fin dall'inizio del ragionamento e nel


corso del suo svolgimento, una strategia analitica che consente
di dissociare i differenti elementi da codificare, Essa richiede
anche particolare attenzione all'elaborazione di una rappresentazione adeguata della situazione poich su tale rappresentazione che opereranno l'inferenza, l'analogia e l'applicazione.
Questa descrizione del ragionamento induttivo si applica
abbastanza bene agli item del test di Raven nel momento in
cui diventano difficili e non possono essere risolti intuitivamente. Si pu accertare l'esistenza di questo cambiamento osservando, specialmente in situazioni normali, i processi messi
in atto dal soggetto.
S noti che ci sono due aspetti della validit teorica di un
test: la qualit del suo rapporto o della sua integrazione con
una teoria e la validit di tale teoria.
Piuttosto che verificare se una teoria valida rende conto
delle procedure di soluzione attivate per rispondere agli item
di un test, si pu seguire una direzione in qualche modo inversa: analizzare le procedure di risoluzione degli item di un
test, e poi mostrare che sono abbastanza generali. Questo metodo stato applicato alle Matrici Progressive di Raven da
Carpenter, Just e Shell 11.990] ed ha fornito loro risultati completamente compatibili con il modello che verr descritto qui
di seguito. Questi autori, secondo una metodologia classica in
psicologia cognitiva, mettono in evidenza le procedure di soluzione degli item a partire dai commenti dei soggetti nel corso
dello svolgimento della prova (protocolli verbali), dalle registrazioni dei movimenti oculari e dalla frequenza e natura degli errori.. dati raccolti mostrano che i soggetti scompongono
ogni problema in una serie di microproblemi che vengono risolti in successione. Quando l'item richiede l'applicazione di
numerose regole, anch'esse sono scoperte in successione, sulla
base di numerosi confronti tra gli elementi della matrice. Il
successo ad un item implica quindi il superamento d tutta una
serie di piccoli problemi pi elementari e l'integrazione progressiva delle soluzioni. Carpemer e collaboratori mostrano
che le differenze tra soggetti molto efficienti e soggetti mediamente efficienti derivano da differenze nella capacit di definire dei sotto-obiettivi, di conservare nella memoria di lavoro
e integrare le informazioni ottenute nel corso della sequenza
48

di soluzione. A partire dai principi di soluzione messi n evidenza da queste analisi, gli autori hanno elaborato un programma informatico che simula in modo soddisfacente i comportamenti osservati nei soggetti reali. Ad esempio, l'ordine di
complessit degli item, cos come definito dalla simulazione,
coincide con l'ordine di difficolt determinato dalle frequenze
d successo degli item reali. Essi mostrano inoltre clic quest'analisi dei processi di soluzione si applica a tutta una classe
di processi di ragionamento.
In sintesi, un test una situazione di valutazione codificata. Innanzitutto, questa situazione standardizzata per migliorare l'oggettivit dell'osservazione effettuata: le risposte e
in generale i comportamenti dei soggetti non potranno essere
adeguatamente confrontati, a meno che non vengano ottenuti
in situazioni il pi possibile somiglianti e la loro valutazione
sia la stessa indipendentemente dall'osservatore. Questa situazione di valutazione classificata anche in modo da collocare il soggetto osservato all'interno della popolazione d riferimento a cui appartiene. L'affidabilit della valutazione effettuata pu essere espressa con differenti coefficienti di fedelt. Infine, indagini sulla validit sono state condotte per appurare che si valuti proprio ci che il test intende valutare.
Queste propriet dei test sono state presentate riguardo ai
test di intelligenza, ma esse caratterizzano anche i test di personalit (sia che s tratti d autodescrizioni o di osservazioni
del comportamento), i test sulle abilit scolastiche e i test di
attitudine professionale.

NOTE, AI, CANTOLO SECONDO

' La correlazione il grado di dipendenza tra due variabili. coefficienti


di correlazione variano da +1 a --1. Un coefficiente di +I esprime una relazione diretta perfetta tra le due variabili. In questo esempio indicher che
tutti i soggetti che hanno superato l'item sono anche quelli che hanno il miglior punteggio alla prova. Un coefficiente di 1 esprime una relazione inversa (i soggetti che hanno superato l'item sono quelli che hanno i punteggi
pi bassi alla prova). Un coefficiente nullo traduce l'assenza di relazione tra
le due variabili. Coefficienti come quelli indicati, da 0,40 a 0,60, corrispondono ad una relazione diretta di forza moderata.
= La deviazione standard esprime la dispersione dei punteggi attorno
alla media della distribuzione. Corrisponde -allo scarto medio dei punteggi
dei soggetti dalla media.

49

' Questi valori sono convenzionali, ma mini sono scelti del tutto u caso:
100 per definizione il QI medio di un gruppo di et quando il Q1 definito dal quoziente dell'et mentale e dell'et cronologica, e 15 approssimativamente il valore osservato dalle deviazioni standard delle scale di QIStem (con le fluttuazioni di cui si discusso in precedenza). Scegliendo questi valori piuttosto che altri ci si assicura una certa corrispondenza tra il Q1
individuato con una scala di tipo Wechsler e il QI rilevato con una scala di
tipo Stern. l per questo motivo, del resto criticabile, che si utilizza l termine QI per indicare il punteggio standard totale ottenuto con una scala di
tipo Wechsler.

(AMIDI TERZO

LE, GRANDI CATEGORIE DEI TEST


DI INTELLIGENZA

Esistono numerosi test di intelligenza e sarebbe noioso


farne una lista. Introdurremo invece 'alcuni criteri a partire
dai quali possibile distinguerli. Un test rappresentativo di
ognuna delle principali categorie sar poi presentato dettagliatamente in modo da poter capire in che cosa consiste,
come stato costruito e che cosa si propone di misurare.

I diversi tipi di test di intelligenza


A partire dalle loro condizioni di somministrazione, si
possono distinguere test collettivi e test a somminstrazione
individuale. Nei test di gruppo, di cui le Matrici Progressive
di Raven sono un esempio, i problemi sono presentati in
forma scritta e il soggetto deve spesso scegliere una risposta
tra numerose proposte. La somministrazione semplice e le
possibilit di osservazione del comportamento limitate. Nei
test individuali la somministrazione pi complessa. Lo psicologo deve spesso dare delle consegne durante tutto il test,
controllare che siano comprese interamente, misurare dei
tempi, rilevare dei successi o dei parziali fallimenti, ecc. I test
individuali sono anche delle situazioni pi ricche rispetto ai
test di gruppo per quanto riguarda le opportunit di osservazione, e lo psicologo pu attingere informazioni che non
sono computate nella valutazione della prestazione al test.
Dal punto di vista del contenuto delle prove, si distinguono tradizionalmente i test verbali, che richiedono la comprensione del linguaggio, e i test non verbali, nei quali il ruolo
del linguaggio minimizzato, sia nelle consegne sia nella produzione della risposta. Un test come le Matrici Progressive
di Raven un test non verbale (il che non significa che il successo in questo test sia indipendente dalle abilit verbali). Tra
50

51

i test non verbali, quelli detti di performance S0130 quelli


nei quali il soggetto deve manipolare materiale concreto.
Si possono anche distinguere i test a seconda che l'intelligenza valutata sia concepita come una capacit globale (ad
esempio il Binet-Simon) o come un insieme di capacit che
devono essere considerate separatamente (ad esempio, i test
fattoriali). Nel primo caso, il test costituito in modo tale che
la capacit globale, definita nella teoria di riferimento, si manifesti in tutte le situazioni proposte per valutarla. Ma queste situazioni non hanno in se stesse un interesse particolare,
non sono che dei pretesti per la manifestazione della capacit
globale. Questa sar stimata sommando le performance nelle
diverse situazioni. Si otterr cos un punteggio globale che
potr avere la forma semplice d un punteggio ponderato, o
la forma pi complessa di un QI, o ancora la forma di uno
stadio di sviluppo. Nel secondo caso, quando la prospettiva
analitica, si definiscono delle categorie di situazioni sempre
in riferimento ad una teoria, nelle quali collocare ogni abilit.
Le performance non sono sommate che all'interno di ogni
classe. I risultati s presentano allora sotto forma di un profilo di abilit.
Di fatto l'opposizione tra le concezioni globali e le concezioni analitiche meno marcata di quanto non sembri, per
lo meno fino a che si rimane nel campo dell'intelligenza
verbo-concettuale. Nel quadro di una valutazione che si
vuole globale, si pu sempre procedere a delle valutazioni pi
analitiche (le vedremo con la scala Wechsler). Nel quadro di
una valutazione analitica, si pu sempre, dato che esistono
correlazioni positive tra le singole abilit, calcolare un punteggio che distingua gli individui sulla base di ci che c' di
comune tra tutte queste abilit (lo vedremo in seguito con i
test fattoriali).
2. Le scale di intelligenza: l'esempio della WAIS
Le scale rientrano nella categoria dei test basati su una
concezione globale di intelligenza. Questa concezione sar illustrata sull'esempio dell'adattamento italiano della Wechsler
Adult Intelligence Scale (WAIS) che, come indica il nome,
una scala di intelligenza concepita per l'esame degli adulti.
52

2.1..I principi generali di costruzione


La WAIS stata messa a punto nella sua prima versione da
David Wechsler nel 1939. Wechsler era psicologo e lavorava n
un ospedale psichiatrico di New York; si trovava a dover valutare le capacit intellettive dei suoi pazienti adulti. La StanfordBinet, il test individuale di intelligenza pi utilizzato a quei
tempi negli Stati Uniti, gli sembrava poco adatta all'esame di
pazienti adulti per numerose ragioni.
Innanzitutto, gli item erano stati concepiti per essere familiari a dei bambini ed alcuni di essi provocavano per questa
ragione un certo disagio negli adulti, a cui venivano proposti.
Inoltre, Wechsler trovava che la Stanford-Binet valutasse le capacit intellettive essenzialmente attraverso le verbalizzazioni
dei soggetti, il linguaggio. Gli sembrava opportuno equilibrare
gli item che facevano appello al linguaggio con item detti di
performance, per i quali cio la capacit di risolvere problemi
potesse essere valutata attraverso la manipolazione di materiale
concreto, senza che il soggetto dovesse usare il linguaggio per
dare la sua risposta. Infine, esprimere il risultato sotto forma
di un quoziente di rapporto tra l'et mentale e l'et cronologica non aveva alcun senso nel caso degli adulti.
La messa a punto della WAIS, prima scala di intelligenza
adatta all'esame degli adulti, mirava a risolvere questi problemi. La concezione di intelligenza che ha ispirato Wechsler
era molto vicina a quella di Binet: essa non si basava su una
vera teoria dell'intelligenza, ma piuttosto su un approccio
molto pragmatico. Wechsler pensava, come Binet, che la valutazione dovesse riguardare processi complessi, come la memoria, l'attenzione e il ragionamento, integrando un certo numero
di abilit pi elementari. Egli considerava appunto l'intelligenza come una capacit di adattamento piuttosto globale, osservabile pi nel modo in cui le diverse funzioni cognitive sono
coordinate che nell'efficienza di tale o talaltra funzione elementare. Egli era dunque sostenitore, come Binet, del campionamento di varie situazioni per comporre la scala, con l'idea che l'intelligenza venga valutata come risultante globale
dell'efficienza in questo insieme di subtest, piuttosto che per
l'uno o l'altro dei successi puntuali.
Per rendere la scala pi adatta a degli adulti Wechsler
controllato che il contenuto degli item fosse vicino a situazioni
loro familiari. Per ridurre il peso del linguaggio, egli ha diviso
53

la scala in due sottoscale di uguale importanza, l'una verbale


e l'altra di performance, in modo tale che si potesse calcolare
un QI verbale ed un QI di performance. Questa decisione relativizza la concezione globale dell'intelligenza che ispirava
Wechsler, poich ammette che si possa trovare un QI piuttosto differente a seconda che lo si valuti in situazioni verbali
o in situazioni non verbali. E, d'altronde, una delle propriet
di questa scala quella di mettere in evidenza discrepanze del
genere.
Il problema relativo all'inadeguatezza della nozione di
et mentale era anch'esso delicato e difficile da risolvere.
Nelle scale di intelligenza, le performance aumentano in effetti con l'et fin verso i 16-20 anni, a seconda delle scale o
delle prove, ma non si evolvono oltre, salvo con l'invecchiamento, per cui si osserva un declino in certe prove. Nel corso
della loro vita gli adulti continuano certamente ad acquisire
esperienza e ad accumulare conoscenze, specialmente nel
loro ambito professionale. Ma come abbiamo sottolineato a
proposito del test di Binet-Simon, i test di intelligenza fanno
il minor riferimento possibile alle conoscenze scolastiche o
professionali. 11 loro obiettivo non di valutare il livello d
istruzione o la competenza sviluppata in uno specifico settore, ma l'abilit di risolvere problemi, di apprendere, di
adattarsi a situazioni nuove. Questa capacita cresce in funzione dell'et fin verso l'adolescenza, ma non oltre. C non
impedisce che una volta raggiunta l'et adulta, si riscontrino
significative differenze individuali nel livello raggiunto in
queste scale di intelligenza.
La nozione di et mentale dunque inutilizzabile con gli
adulti. Abbiamo visto nel capitolo 2, a proposito delle distribuzioni di punteggio, che Wechsler ha risolto il problema caratterizzando i soggetti per la loro posizione all'interno della
distribuzione dei punteggi del loro gruppo di et. Trasformando i punteggi d ogni gruppo di et in modo tale che ci
sia una media di 100 e una deviazione standard di 15, stata
loro attribuita una distribuzione confrontabile a quella di un
Ql. Nel momento in cui non rappresenta pi il quoziente di
rapporto tra l'et mentale e l'et cronologica, il QI della
WAIS non pi un indice di velocit di sviluppo, ma un indicatore del rango che occupa il punteggio ottenuto tra quelli
della popolazione di riferimento.
54

2.2. Presentazione della scala


La scala messa a punto da Wechsler stata adattata e rivista diverse volte negli Stati Uniti. Essa stata anche tradotta e
adattata per la popolazione italiana. Quella presentata qui di
seguito la versione rivista (WAIS-R), nel suo adattamento italiano [Wechsler 19971. La WAIS-R si compone di undici subtest, sei per la parte verbale e cinque per la scala di performance. Far seguito una breve descrizione di ognuno degli undici subtest con un esempio di itero simile a quelli del test vero
e proprio'.
La scala verbale
Informazioni: 29 domande di cultura generale, molto varie, che un adulto ha in teoria avuto l'opportunit di acquisire
nella nostra cultura; ad esempio: Dove si trova il Messico?.
Memoria di cifre: come nel test di Binet-Simon, il soggetto deve ripetere esattamente la serie di cifre elencata dallo
sperimentatore. Queste serie vanno da tre a nove cifre da ripetere nello stesso ordine in cui sono state presentate e da tre
a otto cifre da ripetere nell'ordine inverso.
Vocabolario: 35 parole di difficolt crescente sono presentate contemporaneamente a voce e per scritto, domandandone il significato; ad esempio: incenerire.
Arihneika: 14 piccoli problemi sono proposti oralmente
e devono essere risolti senza l'ausilio di carta e penna; ad esempio: Se avete 4.800 lire e ne spendete 1.350, quante ve ne rimangono?.
Comprensione: la prova propone 16 domande in cui si
richiede al soggetto di spiegare delle osservazioni della vita
quotidiana, dei proverbi; ad esempio: Che cosa significa il
proverbio: non c' fumo senza arrosto?.
Somiglianze: 14 quesiti che richiedono di individuare in
che cosa due elementi si assomigliano; ad esempio: Mela-susina. Questa prova valuta la capacit di formare dei concetti
astratti a partire dall'analisi delle somiglianze e delle differenze
tra due oggetti.
nuance
La scala di performance
Completantento di figure: 20 immagini che il soggetto
deve esaminare attentamente per trovare la parte mancante.
55

Riordinamento di storie figurate: 10 iter") d difficolt


crescente che propongono ognuno una serie di immagini in
disordine. Compito del soggetto di ordinarli in modo tale
che raccontino una storia. La figura 9 presenta un item di
esempio.
Cubi: 9 figure geometriche composte di parti rosse e
bianche sono presentate una dopo l'altra. Compito del soggetto di ricostruire ognuna delle figure presentate con l'aiuto
di 9 cubi colorati, di rosso su due facce, di bianco su due facce
e di rosso/bianco sulle altre due facce.
Ricostruzione di oggetti: pezzetti di cartone vengono presentati n disordine e il soggetto deve assemblarli in modo che
formino l'immagine di un oggetto familiare. La prova comporta quattro item di questo tipo.
Cifrarlo: si presenta al soggetto un foglio dove righe in
cui si succedono serie di cifre sono appaiate a righe in cui ad
ogni cifra corrisponde un quadretto bianco. Al soggetto viene
richiesto d riempire ogni quadretto bianco con il simbolo che
secondo il codice riportato in alto nella pagina corrisponde a
quella cifra (il codice pu ad esempio indicare sotto 1 il segno
^, sotto 2 il segno +, e cos via). li soggetto ha un minuto e
mezzo per, completare il maggior numero di casi possibili, mettendo sotto ogni cifra il simbolo appropriato.
Nei cinque subtest della scala di performance appena descritti il punteggio finale tiene conto sia dei tempi di esecuzione
sia dell'accuratezza della risposta.

o
o

2.3.

Le qualit metriche della 1FAIS-R

L'adattamento della scala alla popolazione italiana ha richiesto nn solo la traduzione del manuale, ma anche l'individuazione, nei subtest pi dipendenti dalla cultura, degli
item equivalenti. Alcune delle domande del subtest di informazioni della versione americana, ad esempio, non sono
adatte alla cultura italiana e sono state sostituite. Inoltre,
stato necessario standardizzare la scala per la popolazione
italiana. L'ultima standardizzazione della versione italiana
della WAIS-R stata fatta su un campione di 11.630 soggetti
adulti rappresentativi della popolazione italiana, suddivisi in
6 gruppi di et da 16 a 64 anni, ogni gruppo composto per
met di maschi e per met di femmine. Questa standardz56

o
oo

.9

'e*

(.5

nazione fornisce il gruppo di riferimento all'interno del quale


va situata la performance del soggetto esaminato.
Attendibili/. I coefficienti di attendibilit per l'adattamento. italiano sono stati calcolati con il metodo split-half, ottenuto calcolando le correlazioni tra le due met del test composte dagli item pari e da quelli dispari (vedi cap. 2). Solo per
i subtest Memoria di cifre e Cifrario le attendibilit sono state
calcolate con il metodo test-retest, ad una distanza di tempo
tra le due somministrazioni variabile da 5 a 15 giorni. I coefficienti di attendibilit sono stati calcolati per ogni singolo subtest, per ogni gruppo di et, per il QI performance, il QI verbale e il QI totale. Le attendibilit medie di questo campione
variarlo da 0,76 della Ricostruzione di oggetti a 0,95 del Vocabolario. Le attendibilit medie dei subtest americani variano
da 0,68 della Ricostruzione di oggetti a 0,96 del Vocabolario.
Ci significa che, formando una met della scala con gli item
pari e un'altra met con gli item dispari, soggetti del campione
sono classificati approssimativamente allo stesso modo con le
due met del test cos costruite e ottengono un QI abbastanza
simile (una corrispondenza perfetta corrisponderebbe ad un
coefficiente pari a 1).

tidit . Poich l'ultimo adattamento italiano della


WAIS-R molto recente [1997] non si dispone ancora di dati
relativi alla sua validit. Le indicazioni sulla validit della
WAIS-R riportate qui sono per la maggior parte ricavate dalla
versione americana.
Uno dei modi per validare un nuovo test eli intelligenza
quello di verificare che le misure ottenute con il test correlino
con quelle che si ottengono proponendo agli stessi soggetti un
test d'intelligenza validato. Proponendo la WAIS-R e lo Stanford-Binet a degli adolescenti, si ottenuta una correlazione eli
0,80 tra i QI delle due prove. Allo stesso modo stata osservata
una correlazione di 0,70 tra il QI calcolato sulla scala di performance e il QI delle matrici progressive presentate nel capitolo 2. Si pu quindi ritenere che la WAIS-R misuri approssimativamente la stessa cosa delle altre prove di intelligenza, bench sia intuibile la circolarit di questa forma di validazione.
Un'altra forma di validazione empirica (cfr. cap. 2) consiste nel definire un criterio di intelligenza e verificare che esista

58

una correlazione tra il punteggio ottenuto al test e questo criterio. IL in questo modo che si sono ottenute correlazioni di
0,40 e 0,50 tra il QI della WAIS-R e il successo scolastico, in
studenti di liceo, di universit o di politecnici. Ma ci si pu comunque domandare se il successo scolastico sia un buon criterio di intelligenza. A rigore, si pu soltanto concludere che
la WAIS-R valuta degli aspetti di intelligenza utili per riuscire
negli studi. Nella ricerca sul ritardo mentale, il QI ottenuto alla
WAIS-R si rivelato un buon predittore della rapidit con la
quale i soggetti potrebbero concludere gli studi e del loro successivo inserimento nel mondo del lavoro.
La validazione teorica consiste nel verificare se i risultati
del test corrispondano alle predizioni fatte sulla base della teoria che ha ispirato la sua costruzione. Abbiamo gi osservato
che Wechsler non aveva una vera e propria teoria dell'intelligenza nel momento in cui mise a punto questa scala, il che limita effettivamente le possibilit di validazione teorica. Egli
riteneva che i differenti subtest mettessero in evidenza una
stessa capacit globale. Se quest'idea corretta, si dovrebbero
ottenere buone correlazioni tra le scale e l'analisi fattoriale di
queste correlazioni dovrebbe consentire di estrarre un fattore
generale di successo. Le analisi fattoriali della WAIS-R hanno
chiaramente mostrato l'esistenza del fattore generale atteso,
che spiega circa il 50% della varianza totale. Esse hanno anche mostrato che una volta estratta la varianza di questo fattore generale, di gran lunga il pi importante, si ottenevano
tre fattori. Il primo raggruppa i subtest di informazioni, di
comprensione, eli vocabolario e di somiglianze; ci significa
che queste quattro prove hanno pi delle altre la tendenza ad
essere superate insieme. Questo primo fattore generalmente
interpretato come un fattore di comprensione verbale. Un secondo fattore che raggruppa le prove di completamento di figure, riordinamento di storie figurate, cubi e ricostruzione di
oggetti, generalmente interpretato come un fattore d organizzazione visuospaziale. Infine, un terzo fattore raggruppa la
prova eli memoria di cifre, quella eli ragionamento aritmetico
e quella del cifrario e viene interpretato come un fattore di resistenza alla distrazione o eli attenzione. L'esistenza di questi
tre fattori relativizza la nozione di capacit generale e legittima
in parte la distinzione che Wechsler aveva introdotto a priori
tra una scala verbale e una scala di performance.
59

2.4. L'intepretazione del risultati


Il manuale della WAIS-R fornisce indicazioni precise per
attribuire un punteggio ad ogni singolo itero di ogni subtest.
Sommando questi punteggi si ottiene un punteggio grezzo per
ogni subtest. La figura 10 rappresenta lo schema riassuntivo
dei punteggi di un soggetto di 60 anni ai differenti subtest della
WAIS-R.

TABELLA RIASSUNTIVA

Punteggio Punteggio
grezzo standard
TEST VERBALI

Informazioni

q-1

44-

Memoria
di cifre
Vocabolario

44'

/10

Aritmetica

Comprensione
Somiglianze
Punteggio verbale

TEST DI PERFORMANCE

Completamento
di figure
Riordinamento di
storie figurate
Cubi
Ricostruzionee
di oggetti
Cifrario

9
6

q7

.f5

48

Punteggio (li performance

-14

11

49

40

9.1

41

SCALA VERBALE

SCALA iotAil

6'-

402

SCALA 1)1 PERFORMANCE33

97

95

99

lo. Tabella riassuntiva dei punteggi ottenuti alla WA1S-R.

I punteggi grezzi ai differenti subtest appaiono nella colonna di sinistra. Una tavola di conversione consente (li trasformare questi punteggi grezzi in punteggi standard, che sono
riportati nella colonna di destra. Al punteggio grezzo di 21
nella prova di informazioni, ad esempio, corrisponde un punteggio standard di 12.1 punteggi standard vanno, per ogni subtest, da 1 a 19. Corrispondono ad una suddivisione in 19 categorie della distribuzione normalizzata dei punteggi grezzi osservati nel campione di adulti utilizzato per la standardizzazione del test (sulla nozione di distribuzione normalizzata, cfr.
cap. 2, p. 34). Per ogni subtest la media dei punteggi standard
60

10 e la deviazione standard 3. Dire che un soggetto ha un


punteggio ponderato di 12 vale a dire che egli nella dodicesima categoria su 19, il che tenuto conto delle propriet della
distribuzione normale significa che il 6.3% dei punteggi
grezzi osservati nella standardizzazione erano inferiori e il 25%
superiori a quelli della sua categoria.
La tappa seguente consiste nel sommare punteggi ponderati, considerando dapprima separatamente la parte verbale
e di performance della scala. Questo produce un punteggio di
62 per la parte verbale e di 33 per la performance (cfr. fig. 10).
Un'altra tavola di conversione fornita dal manuale stabilisce i
QI corrispondenti: un QI verbale di 102 e un QI performance
di 97.
Per lo stesso principio, si possono anche sommare i punteggi ponderati verbale e performance, che forniscono un totale di 95, di cui la tabella di conversione ci d il QI globale,
99. Sapendo che, in questo tipo di scala, il QI ha una media di
100 e una deviazione standard di 15, avere un Q1 di 99 significa che la prestazione del soggetto si colloca intorno alla media del suo gruppo di et, e che il 50% circa dei soggetti del
campione di standardizzazione ha avuto dei punteggi pi elevati, mentre il restante 50% ha avuto dei punteggi meno elevati.
Abbiamo detto che il soggetto si situava nella media del
suo gruppo di et e non nella media del gruppo degli adulti,
poich la conversione dei punteggi ponderati in QI si fa tenendo conto del gruppo di et del soggetto. Ci reso necessario dal fatto che con l'et, l'efficienza nei differenti subtest
tende a diminuire (in modo diverso a seconda dei subtest). Possiamo notare che un punteggio ponderato totale di 95, ottenuto dal nostro soggetto di 60 anni, corrisponde ad un Qi di
93 nel gruppo di 20-24 anni di et e ad un QI di 113 nel gruppo
di 75-79 anni di et. Il QI ottenuto alla WAIS-R posiziona dunque il soggetto all'interno del suo gruppo di et. Dire che il nostro soggetto di 60 anni ho un QI di 99 indica che la sua efficienza intellettiva nella soluzione di problemi, quali appaiono
nella WAIS-R, lo situa nella media degli adulti di 60 anni. La
prima interpretazione dei risultati della prova consiste quindi
nel collocare, sulla base del Q1 ottenuto, l'efficienza intellettiva globale del soggetto in relazione a quella dei soggetti del
suo gruppo di et.
61

La WAIS-R permette tuttavia di andare oltre indagando se


esistono forme di eterogeneit tra le differenti parti della prova.
Un'analisi classica consiste nel confrontare il QI verbale con
il QI performance per vedere se l'efficienza intellettiva equivalente in questi due ambiti. Un altro esempio classico il confronto tra subtest che resistono in maniera diversa al declino
dovuto .all'et. Wechsler aveva in effetti notato che alcuni subtest della scala tengono bene con l'et (informazioni e vocabolario per la scala verbale, ricostruzione di oggetti e completamento di figure per la scala di performance), mentre altri non tengono (memoria di cifre e somiglianze per la scala
verbale, cifrario e cubi per la scala di performance).
Con questo tipo di analisi lo psicologo entra in un approccio pi clinico di interpretazione dei risultati. Per essere
fondato, questo approccio deve poggiare su due tipi di garanzia: l'eterogeneit analizzata deve essere significativa dal
punto di vista statistico e dal punto di vista teorico. Questi due
punti saranno illustrati con l'esempio della differenza tra QI
verbale e QI performance.
Nel protocollo che ci servito da esempio, il QI verbale
superiore di 5 punti al QI performance (vedi fig. 10). Questo
scarto statisticamente significativo? In altri termini, sufficientemente rilevante da poter essere attribuito a cause diverse
dalle fluttuazioni dovute agli errori di misura sui due QI? Per
saperlo bisogna fare riferimento alle tavole statistiche stabilite
con la standardizzazione del test e riportate dal manuale. Esse
consentono di vedere che, nel gruppo di et di questo soggetto, una differenza tra il QI verbale e il QI performance non
significativa, con una probabilit di rischio del .5%, se non
a partire da 9 punti di differenza. Lo scarto osservato qui
quindi ordinario e sarebbe probabilmente un errore interpretarlo come un indice di un malfunzionamento cognitivo.
Nel caso in cui la differenza tra QI verbale e QI performance si mostrasse sufficientemente importante da essere significativa, rimane da definirne il significato e la difficolt deriva
dal fatto che ce ne possono essere diversi. Un QI verbale nettamente inferiore ad un QI performance pu essere, ad esempio, la conseguenza a lungo termine di disturbi nell'acquisizione del linguaggio, ma potrebbe anche essere indice di una
lesione recente dell'emisfero sinistro (che la sede deputata
all'elaborazione del linguaggio). Tuttavia, si sa anche che

62

un'inferiorit relativa del Qi verbale rispetto al QI performance pi frequente nei bambini cresciuti n un ambiente socioculturale sfavorevole e anche in coloro che esercitano una
professione che fa poco appello alla comunicazione verbale,
ecc. Il significato di tale risultato pu dunque essere interpretato solo se messo in relazione con altri elementi informativi
ricavati dalla storia del soggetto o da test pi specifici destinati a confermare o sconfermare l'una ci l'altra di queste interpretazioni. L'approccio diagnostico che viene qui descritto
simile a quello del medico che cerca di interpretare un sintomo; la garanzia della diagnosi poggia sulla coerenza che l'interpretazione pu dare ad un insieme di risultati: questo ci
che noi abbiamo definito in precedenza il significato teorico.
La stessa logica pu essere seguita nel confrontare i punteggi ponderati dei differenti subtest. Poich tutti questi punteggi ponderati hanno la stessa media e la stessa deviazione
standard, essi possono essere direttamente confrontati ed
possibile tracciarne un profilo da cui emergano i punti deboli
e i punti di forza dell'efficienza intellettiva del soggetto. Di
nuovo, bisogna innanzitutto assicurarsi che gli scarti che si
cerca di interpretare siano significativi. Nel protocollo del nostro soggetto si nota (vedi fig. 10) un punteggio ponderato particolarmente basso alla prova dei cubi. Nella relativa tavola del
manuale, si pu osservare che con una soglia di rischio del
15% (15% di probabilit di sbagliare), una differenza tra due
punteggi ponderati pu essere considerata significativa a partire da 2,5 punti. C' allora un senso nel cercare un significato
alla scarsa prestazione nella prova dei cubi, in relazione all'efficienza osservata nella maggior parte delle altre prove di
performance. E a questo punto che possono intervenire le osservazioni pi qualitative fatte dallo psicologo durante la somministrazione, relative al modo in cui il soggetto procede nella
prova, il suo metodo, il suo atteggiamento di fronte alle difficolt, ecc., cos come le conoscenze cliniche sul significato di
un deficit specifico in tale prova o in tale gruppo di prove.
Questi aspetti dell'interpretazione dei risultati fanno ampiamente appello all'esperienza clinica e alla competenza professionale dello psicologo. Fanno chiaramente emergere che
un risultato considerato isolatamente, un QI, uno scarto tra
due subtest, non ha di per s alcun significato, ma deve essere
interpretato in funzione di un insieme di altri elementi di in63

formazione che fanno appello alle competenze e conoscenze


acquisite nel corso della formazione al mestiere di psicologo e
della sua pratica.
Il successo ottenuto dalla WAIS-R ha indotto a mettere a
punto nel 1950 una versione per bambini, la Wechsler
ligence Scale for Children (WISC), adatta al periodo di et
dai 6 ai 16 anni, e, pi recentemente, una versione adatta al
periodo tra 4 e i 6 anni e mezzo, la Wechsler Preschool Erimary Scale of. Intellgence (WPPSI). La WISC e la WPPSI
sono costruite esattamente sugli stessi principi della WAIS-R
e hanno adattamento e standardizzazione per l'Italia.

3. I test fattoriali di intelligenza


Binet e Wechsler si rappresentavano l'intelligenza come
una capacit globale e le loro scale avevano come obiettivo
principale di fornire una valutazione riassuntiva di questa capacit in un indice unico, et mentale o QI. Tuttavia, l'utilizzo di queste scale ha consentito cli notare che i successi nei
diversi subtest potevano essere eterogenei e i profili cos ot,
tenuti potevano essere interpretati diversamente. Questa pratica ammette di fatto la multidimensionalit dell'intelligenza,
che si manifesta anche nelle scale concepite all'origine per una
sua valutazione globale.
I test detti fattoriali, ai contrario, sono stati concepiti
principalmente per mettere in evidenza il carattere multidimensionale dell'intelligenza. Essi sono detti fattoriali, perch il metodo matematico sul quale sono basati l'analisi fattoriale, i cui principi generali sono stati presentati nel capitolo 1.
3.1.

Un esempio di batteria di tesi fattoriali di intelligenza: il


PMA ili Thurstone

Per identificare i fattori comuni ad alcuni dei compiti cognitivi, fattori corrispondenti secondo lui alle abilit mentali
primarie (Primary Mental Abilities, o PMA), Thurstone ha
messo a punto una batteria di una sessantina di test differenti.
Cos come la costruzione delle scale eli intelligenza, la messa
a punto di questa batteria di test stata piuttosto empirica.
64

La variet dei test introdotti nella batteria, e quindi il numero


e la natura dei fattori dell'intelligenza che possono essere
estratti dipendono dall'idea che il ricercatore si fatto dell'intelligenza. In assenza di una teoria forte, non ci sono soluzioni soddisfacenti al problema della scelta delle situazioni
da introdurre nella batteria. I sessanta test pensati da Thurstone rappresentano quindi una parte dell'universo dei compiti cognitivi, ma solo una parte.
Thurstone ha dapprima proposto questa batteria di test
ad un gran numero di studenti dei college americani, poi, in
seguito ad alcune modifiche, l'ha successivamente proposta a
pi di un migliaio di liceali. fattoriale richiede che
un certo numero di test venga proposto ad un numero abbastanza elevato di soggetti, il che spiega la ragione per cui la
maggior parte dei test fattoriali vengono concepiti come delle
prove brevi, di meno di dieci minuti, che vengono proposte
carta e matita e collettivamente.
Le analisi fattoriali effettuate su questi sessanta test hanno
consentito di estrarre sette fattori primari abbastanza stabili
e ben identificabili: comprensione verbale (V), fluidit verbale (W), abilit numerica (N), inferenza (I), abilit spaziale
(S), velocit percettiva (P) e memoria (M). I test che hanno
mostrato le maggiori saturazioni in ognuno di questi fattori
sono stati mantenuti a formare delle batterie pi ridotte, CORIprendenti un test per ogni fattore. La batteria fattoriale PMA
tradotta e adattata in Italia tratta da questo studio. Si compone di test carta e matita, a somministrazione collettiva, corrispondenti ad abilit primarie distinte da Thurstone.
3.2.

Mese' ? /azione dei test che compongono la batteria fattoriale


PAIA

Qui di seguito sono presentati i cinque test che compongono la batteria intermedia, il cui livello di difficolt adattato
ad un'et compresa tra 11 e 17 anni. Ogni test denominato
sulla base del fattore di cui rappresentativo.
Fattore V significato verbale. Questo test valuta la competenza e la finezza di discriminazione dei significati verbali.
Consiste di 50 item cli difficolt crescente: si propongono una
parola bersaglio e, alla sua destra, 5 parole tra le quali ri65

chiesto di individuare quella con lo stesso significato della parola target. Ad esempio:
Rilucere a) crepitare b) cesellare e) brillare d) dipingere
e) arrugginirsi.
Il tempo concesso di 4 minuti e il punteggio dato dal
numero di risposte corrette realizzate in questo lasso di
tempo.

nel produrre, in un tempo limitato, il maggior numero di parole che cominciano con una lettera data, ad esempio, nello
scrivere in 5 minuti tutte le parole che cominciano per p
che vengono in mente. Il punteggio dato dal numero di parole diverse trovate.

Fattore S: abilit spaziale. Q uesto test valuta l'efficienza


delle operazioni spaziali. composto da 20 itero di difficolt
crescente composti ciascuno da un disegno target presentato a
sinistra. A destra vengono presentati sei disegni e tra essi bisogna individuare quelli che non sono altro che l'itero d sinistra
ruotato (gli altri sono rovesciati).
Il tempo concesso di 5 minuti e il punteggio dato dal
numero di risposte corrette ottenute.

Standardizzazione. manuale dell'adattamento italiano


della batteria PMA IThurstone e Thurstone 1982; 1986] fornisce una standardizzazione sulla base dei risultati ottenuti al
test da un campione di 844 studenti dai 12 ai 15 anni frequentanti le tre classi della scuola media inferiore (prima, seconda e terza) con al massimo un anno di ritardo . rispetto ad
una scolarit normale. Circa met del campione composto
da maschi e l'altra met da femmine. Vengono fornite le medie per et e per scolarit dei cinque test. Inoltre, sulla base
della distribuzione dei punteggi in percentili, possibile collocare un soggetto in relazione ai soggetti della sua et del
campione di riferimento. Ad esempio, se un soggetto di 12
anni ha un punteggio alla prova di significato verbale di 15
risposte corrette si situa, secondo la tabella, al 40 percentile.
Questo indica che circa il 35% dei soggetti ha avuto un punteggio inferiore e circa il 55% uno superiore.

Qui bisogna barrare le figure A ed E


FIG. 1 1. Itero di esempio del test dell'area spaziale della batteria PNIA.

Fattore E: ragionamento. 30 item di difficolt crescente,


in cui al soggetto viene chiesto di fornire il seguito di una serie di lettere. Questo test valuta l'efficienza dei processi di inferenza.
Ad esempio: abcdabceabcfabc?
Fattore N: abilit numerica. L'abilit valutata l'efficienza nella manipolazione dei numeri. Il test propone 70 addizioni di quattro numeri di due cifre, sotto le quali indicato un totale. il compito consiste nel determinare, per
ognuna, il pi velocemente possibile se il totale giusto o sbagliato. Il punteggio il numero d risposte corrette fornito in
6 minuti.
Fattore W fluidit verbale. Questa prova valuta l'abilit
di recuperare velocemente delle parole. Il compito consiste
66

3.3. Le qualit metriche della batteria PMA

Validit. Poich l'adattamento italiano della batteria


PMA riporta scarsi dati relativi alla sua validit, in questo
paragrafo faremo riferimento alla validit calcolata sulla versione francese della batteria.
La validit empirica della batteria PMA stata indagata
considerando diversi criteri. Utilizzando il punteggio totale
che integra i diversi test della batteria si ottenuta una correlazione dell'ordine di 0,70 con altre misure di intelligenza.
Si sono osservate anche correlazioni significative tra ogni singolo test della batteria, preso singolarmente, e il suo omologo
in altre batterie fattoriali. Ad esempio, in uno studio in cui
560 soggetti di 12 anni hanno fatto il PMA ed un'altra batteria fattoriale (la. GATB), le correlazioni sono state d 0,77
tra i due test verbali, di 0,51 tra i due test spaziali, 0,68 tra i
due test di ragionamento e 0,65 tra i due test numerici (nella
GATB non c' un test di fluidit verbale).
67

Un altro dei criteri di validazione empirica utilizzati stato


il successo scolastico. Uno degli studi, ad esempio, ha calcolato in un campione di 600 liceali le correlazioni tra i punteggi
al PMA e i punteggi ottenuti, tre anni pi tardi, ad una batteria di test sulle conoscenze scolastiche, Iowa Tests of Educational Development. Tre anni dopo, le correlazioni di ogni test
con il punteggio totale della batteria sulle conoscenze scolastiche sono le seguenti: 0,68 con il test verbale, 0,23 con il test
spaziale, 0,54 con il test di ragionamento, 0,38 con il test numerico e 0,33 con il test di fluidit verbale. Come si pu osservare, i test verbale e di ragionamento sono i migliori predttori del successo scolastico tre anni dopo. Ci induce ad utilizzare, per pronosticare il successo scolastico, un punteggio
composto che combina questi due test attribuendo un peso
doppio ai punteggi del test verbale secondo la formula 2V -i- R.
Questo punteggio correla circa 0,70 con il punteggio totale di
conoscenza scolastica. Le correlazioni con le valutazioni scolastiche date dai professori sono un po' meno forti, dell'ordine
di 0,50. Ci si pu spiegare sulla base del Fatto che i voti dati
dagli insegnanti sono meno fedeli (comportano maggiori fonti
di variazione incontrollate) rispetto ai punteggi ai test cli conoscenza. Bench questa batteria sia concepita per valutare
abilit diverse, frequente che si utilizzi un punteggio totale
come indice globale di intelligenza confrontabile con il La
ragione che esistono correlazioni tra questi cinque test e che
come stato evidenziato a proposito dell'analisi fattoriale
si pu anche estrarre un fattore generale di intelligenza che satura queste cinque prove in misura variabile (vedi cap. i ).
Nel caso dei test fattoriali, la validit teorica si pu ottenere
attraverso la verifica della corrispondenza tra la struttura ottenuta con l'analisi fattoriale di questi test e la struttura attesa. In
altre parole, i test che si considerano come rilevanti per uno
stesso fattore devono essere maggiormente saturati da questo
fattore che dagli altri e i test che si considerano rilevanti per fattori differenti devono essere saturati da questi fattori differenti.
Si pu verificare che ci quanto successe per questi cinque
test nelle analisi fattoriali eseguite da Thurstone quando mise a
punto tale batteria [Thurstone e Thurstone 19411. Questo passaggio diventa realmente ipotetico-deduttivo nel momento in
cui lo psicologo crea un nuovo test concepito per essere un indicatore di uno dei fattori. La valdazione teorica consiste allora
68

nel verificare che, introducendo il test insieme ad altri in un'analisi fattoriale, esso ben saturato dal fattore atteso. A titolo
esemplificativo, la prova di significato verbale della batteria
PMA, che consiste nel trovare un sinonimo, fortemente saturata dal fattore verbale (0,68) e per nulla dal fattore di fluidit
verbale (0,01). Thurstone ha costruito una nuova prova di fluidir verbale nella quale si chiede al soggetto di trovare tre sinonimi per ogni parola data. Egli faceva l'ipotesi che nonostante
la somiglianza di questa prova con quella di significato verbale
(trovare un sinonimo), il test mettesse in gioco la fluidit verbale poich richiede che il soggetto fornisca pi parole di una
categoria data. Nell'analisi fattoriale in cui questa nuova prova
stata introdotta, essa aveva effettivamente una saturazione di
0,51 con il fattore fluidit verbale e una saturazione nulla con il
fattore significato verbale', il che validava l'ipotesi di Thurstone
sulla natura di questo nuovo test.
3.4. 1,Intepretazirme dei risultati
(interpretazione dei risultati si fonda sulla standardizzazione che consente di collocare il punteggio del soggetto in ciascuno dei test in rapporto ai punteggi osservati nella popola' zione di riferimento. L'interesse delle batterie fattoriali di
permettere di stabilire un profilo d abilit che si pu esprimere graficamente su un asse cartesiano (vedi fig. 8). Il profilo
permette di osservare con un colpo d'occhio se le diverse abilit sono omogenee o no, dove sono i punti forti e i punti deboli, ecc. Abbiamo visto a proposito della WAIS che l'analisi
dei profili di punteggio fatta anche con le scale di intelligenza.
La differenza che le batterie fattoriali sono state costruite per
mettere in evidenza delle dimensioni differenti dell'intelligenza, mentre questo non il caso dei subtest delle scale di intelligenza. La conseguenza che le interpretazioni basate sui
profili dei punteggi hanno maggior fondamento con le batterie fattoriali.
4. I test ispirati da teorie pi recenti
Nei loro principi teorici, i test presentati nei paragrafi precedenti sono stati concepiti ormai circa mezzo secolo fa. Da al69

lora sono stati oggetto di numerose revisioni con l'obiettivo di


rianalizzare il loro contenuto e ristandardizzarli, mai concetti
di intelligenza che ne hanno ispirato la costruzione sono datati.
Da allora le idee sull'intelligenza si sono evolute. Nuove teorie
sono apparse e s pu dire che abbiano rivoluzionato la concezione dei test. In ogni caso, per poco che siano stati rivisti e
ristandardizzati (vedi quadro 1), i vecchi test hanno resistito
nel tempo. Sono ancora i pi utilizzati nella pratica e continuano ad essere utili nella diagnosi di disfunzioni cognitive e
nelle previsioni di successo negli apprendimenti.

QUADRO 1.

-11, LIVELLO SALE


Alcuni item devono essere rivisti periodicamente. Ci succede
ad esempio per gli item del subtest delle informazioni delle scale
Wechsler, il cui contenuto per
definizione dipendente dal periodo storico. Ma i test di intelligenza devono essere anche periodicamente ristandardizzati, poich il livello medio di performance tende ad aumentare con le
generazioni. Le ragioni di questo
fenomeno sono complesse da
analizzare e sono oggetto di discussione. Possono essere dovute
a degli errori (come ad esempio il
cambiamento di tendenza di
fronte al compromesso tra velocit e correttezza della risposta), a

degli effetti di familiarizzazione


con le situazioni (dovuti ad esempio alla diffusione di giochi analoghi a quelli del test), o ancora a
reali incrementi delle capacit intellettive con l'evoluzione della
societ (effetti dell'aumento della
scolarizzazione, della moltiplicazione delle fonti di informazione,
delle occasioni di stimolazione intellettuale, ecc.). Si possono trovare esempi di indagini che mostrano questo aumento del livello
di performance col progredire
delle generazioni e interpretazioni contraddittorie del fenomeno [ad esempio, Baudelot e
Establet 1989; Midler, Jantz e
Kop 1989; Flynn 1987].

Una delle ragioni della resistenza al tempo da parte dei vecchi test riguarda soprattutto l'approccio molto pragmatico dei
loro autori. Binet, Wechsler e Thurstone hanno utilizzato situazioni di valutazione che si sono rivelate buoni indicatori del

70

funzionamento cognitivo a dispetto del fatto che non avevano


una conoscenza precisa dei meccanismi sottostanti. Le teorie
apparse successivamente hanno poi permesso di capire meglio
perch questo o quell'item fossero buoni indicatori di questo
o quell'aspetto dell'intelligenza, ma solo in rari casi hanno consentito di costruire test radicalmente diversi da quelli appena
presentati.
C' comunque qualche notevole eccezione a questo. Presenteremo qui di seguito alcuni esempi di test di intelligenza
elaborati a partire da concezioni teoriche pi recenti, i test piagetiani e il K-ABC.
4.1. I test piagellani
La teoria di Piaget senza dubbio quella che ha rinnovato
pi profondamente le idee sullo sviluppo dell'intelligenza I.
Piaget 1970, per una presentazione generale]. Questa teoria
vuole rendere conto sia della genesi della conoscenza scientifica nella storia dell'umanit (epistemologia genetica) sia della
genesi del pensiero logico nel bambino (psicologia genetica).
La teoria di Piaget strutturalista e costruttivista. Strutturalista nella misura in cui Piaget riteneva che l'uomo comprendesse il mondo assimilandolo alle proprie strutture mentali.
Costruttivista nella misura in cui pensava che queste strutture
cognitive, questi strumenti mentali della conoscenza, non fossero n innati n derivati dall'esperienza, ma si costruissero attraverso il coordinamento delle azioni. Insomma, agendo sul
mondo per trasformarlo, il soggetto costruisce, con la coordinazione delle sue azioni, dei sistemi di trasformazione: schemi
d'azione messi in pratica nel periodo sensomotorio, poi schemi
d'azione interiorizzati nel momento in cui il bambino diventa
capace di rappresentazione. Questi schemi d'azione interiorizzati diventano allora delle operazioni di pensiero. Una buona
parte dell'opera di -Piaget consistita nell'identificare le strutture operatorie costruite successivamente dal bambino, man
mano che cresce. La costruzione di ognuna di queste strutture
segna uno stadio di sviluppo e questi diversi stadi sono percorsi con un ordine invariante. I grandi stadi di sviluppo del
pensiero logico che Piaget ha identificato nel bambino sono lo
stadio sensomotorio (da O a 18 mesi o due anni circa), lo stadio preoperatorio (da 2 -a 7-8 anni circa), lo stadio operatorio
71

concreto (da 8 a 10-11 anni circa) e lo stadio formale (a partire


da 11-12 anni circa). Questi grandi stadi di sviluppo sono a loro
volta suddivisi in sottostadi e a ciascuno di essi corrisponde una
struttura cognitiva che gli propria e caratterizza in quel determinato momento il ragionamento del bambino.
Piaget non si interessato ai test e nemmeno alle differenze
individuali. Il suo obiettivo stato innanzitutto di descrivere le
strutture cognitive e le leggi generali della loro costruzione. Per
far ci, egli ha immaginato una moltitudine di situazioni, spesso
molto ingegnose, destinate a mettere in evidenza gli stadi di sviluppo del pensiero logico. Altri psicologi hanno ripreso queste
situazioni adattandole a situazioni test che permettessero di valutare lo stadio di sviluppo del pensiero logico. Un esempio cli
test italiano di questa categoria il test OLC, Operazioni Logiche e Conservazione, messo a punto da Vianello e Marin I1997].
Il test OLC fa riferimento in particolare alle operazioni logicoaritmetiche e alle nozioni di conservazione e valuta il passaggio
da uno stadio preoperatoro ad uno stadio operatorio concreto.
La struttura del test prevede 4 aree (seriazione, numerazione,
classificazione e conservazione) per ciascuna delle quali sono
predisposti 6 item. Ogni item ha una valutazione dicotomica (superato o non superato, I o 0) e il punteggio totale massimo
perci di 24. Ad esempio, un item della seriazione richiede al
soggetto, date 7 bottiglie, di far corrispondere ad ogni bottiglia
un bicchiere dei 7 disponibili: verr attribuito il punteggio di 1
se il soggetto avr correttamente svolto il compito. Gli item sono
presentati in ordine di difficolt, dal pi semplice al pi difficile.
Il test OLC concepito per bambini dai 4 agli 8 anni e consente
di tradurre il punteggio del soggetto in un'et mentale ed anche
in un Ql.
Un test piagetiano adatto invece a soggetti di et pi elevata
la scala di sviluppo del pensiero logico (EDPL) messa a punto
da Fransois Longeot [19691. Questa scala riprende cinque delle
situazioni utilizzate da Piaget nelle sue ricerche. Queste situazioni hanno come obiettivo di mettere in evidenza la struttura
del ragionamento in differenti ambiti della conoscenza: logica,
fisica e rappresentazione dello spazio. A titolo esemplificativo,
la prova che riguarda la fisica valuta lo stadio di ragionamento
del soggetto nello sviluppo della nozione di conservazione. Secondo Piaget, una delle manifestazioni dello strutturarsi delle
operazioni concrete il ragionamento che permette di capire che
72

le trasformazioni degli oggetti lasciano alcune delle loro propriet invariate: date due palline di pasta da modellare A e B del
tutto simili, il cambiamento della pallina B (appiattimento, trasformazione in rotolo, trasformazione in pezzetti) modifica il suo
peso in relazione a quello della pallina A? E queste trasformazioni modificano il suo volume in relazione a quello della pallina A? L'EDPL stata concepita per il periodo di et dagli 8-9
anni ai 15-16 anni, cio per il periodo di sviluppo che va dallo
stadio delle operazioni concrete a quello delle operazioni formali.
In relazione ai test di intelligenza classici, i test piagetiani
hanno varie componenti di originalit:
1. il livello di sviluppo cognitivo del soggetto non pi definito dal suo rango nella distribuzione dei punteggi della popolazione di riferimento, ma in riferimento ad un criterio teorico: lo stadio di sviluppo al quale il suo modo di ragionare corrisponde;
2. il comportamento del soggetto nelle prove pu essere interpretato in riferimento ad una teoria esplicita dello sviluppo
cognitivo;
3. il livello di sviluppo cognitivo del soggetto valutato attraverso una caratteristica, il suo stadio, che transitoria. In questo, lo stadio comparabile all'et mentale, ma s distingue dal
QI che caratterizza il soggetto in modo relativamente stabile;
4. l'esistenza di una sottostante teoria sufficientemente precisa evita di dover definire la standardizzazione della somministrazione del test in modo rigido, come con le prove di ori.
gine pi empirica. minore qui la necessit di comportarsi allo
stesso modo con ogni soggetto, mentre importante dare i
suggerimenti appropriati per vedere fin dove il soggetto pu
arrivare con il suo ragionamento. Questo metodo critico di indagine quello che utilizzava Piaget e il principio stato conservato nei test piagetiani a somministrazione individuale;
5. la validazione teorica del test si appoggia principalmente
sul metodo di analisi gerarchica. Gl item corrispondenti ai differenti stadi di ragionamento devono essere superati nell'ordine previsto dalla teoria. Questa coerenza con l'ordine teoricamente atteso pu essere valutata da un indice che va da 0,
quando l'ordine di successo degli item non diverso da quello
atteso sulla base del caso, a 1 quando l'ordine osservato corrisponde esattamente all'ordine atteso. Nell'EDPL, la scala di
73

Longeot, gli indici gerarchici delle diverse prove sono tutti superiori a 0,90, il che indica che gli item corrispondenti ai differemi stadi si ordinano praticamente come atteso sulla base della
teoria. Nelle prove collettive, invece, questi indici sono dell'ordine di 0,70, che meno soddisfacente.
Tenuto conto della loro originalit, che dipende in buona
parte dal loro ancoraggio teorico, si sarebbe potuto credere che
i test piagetiani avrebbero soppiantato i test di intelligenza classici, di concezione pi empirica. Non stato cos. Ci sono numerose ragioni che possono spiegare questo fatto ma noi qui ne
presenteremo solo una. L'utilizzo di questo tipo di test ha fatto
emergere velocemente che un soggetto poteva essere caratterizzato da stadi di sviluppo diversi nelle differenti prove che
compongono il test [cfr. Lautrey 1980b]. Non era dunque possibile caratterizzare un soggetto sulla base del suo stadio di sviluppo cognitivo, al singolare. Si quindi giunti a calcolare un
punteggio globale che, per convenzione, collocava il soggetto
ad uno stadio; lo stadio cos definito non pi comunque molto
diverso da un Qi. Tanto pi che la correlazione tra il punteggio totale dei test piagetiani e il QI ottenuto alle scale di intelligenza classiche si mostrata molto forte: varia da 0,70 a 0,80
a seconda delle ricerche, il che fa pensare che l'abilit valutata
da questi due test non sia poi molto diversa. Nella stessa logica,
se si sottopongono gli item di test piagetiani ad un'analisi fattoriale si trovano all'incirca gli stessi fattori che con i test fattoriali [Lautrey, Rieben e de Ribaupierre 1986]. Di conseguenza,
bench elaborati a partire da una teoria dello sviluppo cognitivo nuova, i test piagetiani non hanno rinnovato profondamente i test di intelligenza. Si sono rivelati particolarmente appropriati nella valutazione dello sviluppo del pensiero logico,
ma non hanno detronizzato le scale di sviluppo a pi largo spettro.
4.2. Il .K-A BC
Il K-ABC (Kaufman-Assessment Battery for Children) una
scala di valutazione dello sviluppo dell'intelligenza concepita per
il periodo dai 2 anni e mezzo ai 12 anni, che stata pubblicata
negli Stati Uniti da Alan e Nadeen Kaufman nel 1983 e adattata
in Francia nel 1993 [Kaufman e Kaufman 1983], mentre in Italia stata solo proposta in via sperimentale presso alcuni centri,

74

ma non mai stata standardizzata. Il quadro teorico che sottende


la costruzione della scala si fonda su studi di neuropscologia e
di psicologia cognitiva che hanno evidenziato la necessit di distinguere tra due grandi tipi di processi mentali: i processi sequenziali e i processi simultanei. Per sostenere questa distinzione
gli autori si riferiscono a lavori d Lucia, che collocava la sede
delle elaborazioni sequenziali dell'informazione nelle regioni
fronto-temporali del cervello e quello delle elaborazioni simultanee nelle regioni parieto-occipitali. Essi si rifanno anche ai lavori di neuropsicologia e di psicologia cognitiva che hanno mostrato una specializzazione dell'emisfero sinistro del cervello nel
trattamento analitico delle informazioni e una specializzazione dell'emisfero destro nel trattamento globale. La variet
delle denominazioni e delle localizzazioni cerebrali a cui ci si riferisce nei diversi lavori di ricerca lascia pensare che.a questione
della localizzazione cerebrale dei vari processi probabilmente
pi complessa di quanto non si sia creduto. Nel mettere a punto
questa nuova batteria, l'obiettivo dei Kaufman era di rinnovare
i test d intelligenza da un doppio punto di vista: creare una scala
orientata alla caratterizzazione dei processi mentali (sequenziale,
simultaneo) piuttosto che ad ambiti di contenuto (verbale, spaziale) e dar loro dei fondamenti teorici pi solidi di quelli delle
scale precedenti. A questo scopo essi hanno costruito una batteria composta di tre subscale ben distinte: l'una valuta l'efficienza dei processi sequenziali, l'altra quella dei processi simultanei e la terza le conoscenze. I processi sequenziali sono quelli
messi in atto quando i differenti aspetti dell'informazione sono
elaborati l'uno dopo l'altro, in sequenza nel tempo. I processi simultanei sono invece quelli messi in atto quando i differenti
aspetti dell'informazione disponibile sono elaborati in parallelo,
nello stesso tempo. Le prime due subscale sono esclusivamente
orientate alla valutazione dell'efficienza di queste due grandi categorie di processi mentali. La terza subscala che valuta a parte
le conoscenze ben distinta da queste prime due, come non avviene nel Binet-Simon o nella WATS, in modo tale che si possa
ben distinguere la quantit e la qualit delle conoscenze acquisite, da una parte, rispetto all'efficienza dei processi grazie ai
quali esse sono state acquisite, dall'altra.
Nella subscala dei processi sequenziali, si trova una prova
di ripetizione d cifre, il cui principio lo stesso che nel BinetSimon e nella WATS, una prova di ricordo di parole, di natura
75

simile, e una prova pi originale, ispirata al lavoro di Luria, che


consiste nel mostrare al soggetto una successione di movimenti
della mano che egli deve riprodurre (vedi fig. 12).

I tre movimenti di base da riprodurre nelle diverse sequenze sono la Man() piatta
(M), di lato (C) e il pugno (P). Il soggetto deve qui riprodurre i cinque movimenti
(M, P, C, M, C). Il numero dei movimenti presentati varia da 2 a 6 a seconda dell'et
del soggetto.
FIC..1. 12. Esempio di item analogo a quello della prova di movimento della mano
nel K-ABC.

La subscala dei processi simultanei comporta un numero


pi elevato di prove. Alcune sono similia subtest della scala di
performance della WAIS o della \V.lSC (ad esempio il test serie di fotografie che analogo alla prova di riordinamento di storie figurate della WAIS, eccetto che gli elementi in disordine a
partire dai quali bisogna ricostruire la storia sono delle fotografie e non delle figure). Altre sono pi nuove, ad esempio la
prova di riconoscimento di forme, nella quale il soggetto deve
riconoscere l'oggetto di cui gli viene presentata un'immagine
degradata (vedi fig. 13).

La forma da riconoscere qui quella di un uccello. Le immagini sono degradate eli


minando una parte pi o meno rilevante del tratto.
FIG. 13. Itero di esempio della prova cli riconoscimento di [orme del K-ABC.

76

Le prove della terza subscala, quella delle conoscenze, sono


concepite sulla base dello stesso principio delle prove di informazioni, di vocabolario o di aritmetica della WAIS o della
WISC e comportano anche prove di comprensione della lettura. Esse vengono presentate n una forma accattivante e
adatta a bambini piccoli. Ad esempio, la prova di informazioni
non proposta sotto forma di domande come nella WAIS o
nella WISC, ma mostrando ai bambini delle fotografie d personaggi o monumenti celebri che devono riconoscere (ad
esempio, la foto della torre "Eiffel).
I punteggi grezzi di queste tre subscale sono trasformati in
punteggi standard e i punteggi standard in QI, secondo gli
stessi principi della WAIS. Si possono cos confrontare i punteggi ottenuti ai diversi subtest e stabilire dei profili. Le qualit metriche di questa batteria sono del tutto confrontabili con
quelle delle scale precedenti e l'analisi fattoriale dei differenti
subtest che la compongono conferma che le prove sequenziali
e simultanee sono saturate da fattori diversi.
Mettendo l'accento sulla valutazione dell'efficienza dei due
tipi di processi, sequenziali e simultanei, questa nuova scala ha
realmente rinnovato la concezione dei test di intelligenza e consentito di valutare aspetti differenti dai test precedenti? Abbiamo bisogno di fare un passo indietro per dirlo. Possiamo
notare infatti che le tre scale del 'K-ABC valutano tre aspetti
dell'intelligenza che sono simili a quelli ottenuti con l'analisi
fattoriale della WAIS: un fattore verbale che satura subtest simili a quelli della scala di informazioni del K-ABC; un fattore
visuo-spaziale che satura le prove di performance simili a quelle
della scala dei processi simultanei; e infine un fattore che satura soprattutto la prova di ripetizione eli cifre e il cifrario, interpretato come un fattore d resistenza alla distrazione o eli attenzione, il cui contenuto quindi confrontabile con quello dei
processi sequenziali del K-ABC. Inoltre, la correlazione tra il
()I ottenuto al K-ABC e il QI ottenuto ad altre scale di intelligenza abbastanza forte (circa di 0,70), il che indica che la capacit generale valutata da questa scala abbastanza legata a
quella valutata dalle scale di intelligenza gi esistenti.
in sintesi, i test costruiti a partire dalle teorie dell'intelligenza pi recenti hanno cercato di analizzare il funzionamento
cognitivo da un angolo diverso. I test piagetiani Sono interessati alle strutture attraverso le quali, secondo Piaget, si articola
77

lo sviluppo del pensiero logico. il K-ABC ha come obiettivo la


valutazione dell'efficienza di due forme diverse di elaborazione
dell'informazione: simultanea e sequcnziale. Ciascuno di questi nuovi approcci arricchisce il lavoro degli psicologi di possibilit di diagnosi pi sensibili e articolate. Rimane il fatto che,
per buona parte, questi test ispirati a teorie recenti valutano le
stesse abilit dei test classici. Da un certo punto di vista, il fatto
che queste prove concepite a partire da quadri teorici piuttosto diversi valutino all'incirca la stessa cosa delle prove anteriori contribuisce alla validazione teorica a -posteriori dell'approccio empirico e pragmatico dei primi ideatori dei test
d'intelligenza.

NOTE AL CAPITOLO TERZO

' La pubblicazione di item di test pone un problema particolare. Nel


momento in cui gli item di un test sono divulgati, alcuni dei soggetti che
fanno il test possono averli conosciuti e non si trovano quindi pi esattamente nelle stesse condizioni degli altri soggetti, particolare che non soddisfa uno dei principi di costruzione dei test. Per superare questa difficolt,
utilizzeremo gli esempi che vengono dati ai soggetti a titolo dimostrativo
prima del test stesso o, quando tali esempi non esistono, un item fittizio,
analogo in teoria agli item del test.

Ci teniamo a precisare, per il lettore che ha qualche nozione di analisi


fattoriale, che si tratta di un'analisi in fattori obliqui, nella quale esistono
correlazioni tra i fattori (questa tecnica ha l'effetto di contrastare le saturazioni nei due fattori).

78

CAPITOLO QUARTO

L'UTILIZZO DEI TEST DI INTELLIGENZA

Fin dall'inizio del secolo, i test vengono utilizzati, pi o


meno frequentemente a seconda dei paesi e dei problemi
da affrontare, in diversi settori della vita sociale. Si possono
distinguere due grandi classi di utilizzo: l'aiuto diagnostico
e il contributo all'inserimento sociale. Nelle situazioni di
aiuto diagnostico, lo psicologo cerca di comprendere la natura del problema della persona che ha di fronte e che cerca
di aiutare. Possono essere seri disturbi della condotta, difficolt scolastiche, incertezze relative alle decisioni da prendere e alle strategie da mettere in atto nell'ambito dell'orientamento scolastico o professionale, o ancora di disagio
nelle situazioni della vita quotidiana, familiare o professionale. In tutti questi casi, appare utile, tra gli altri strumenti
di indagine, applicare dei test e, eventualmente, dei test di
intelligenza.
L'utilizzo dei test come contributo al processo di inserimento sociale di natura completamente differente. Questa modalit di utilizzo si incontra essenzialmente nell'ambito educativo (selezione scolastica) e del lavoro (reclutamento del personale). Si ritiene quindi che il test fornisca
delle informazioni che, associate ad altre, permetteranno di
decidere riguardo all'inserimento di individui in percorsi di
formazione o in impieghi particolari. Le domande che si
possono formulare sull'uso dei test non sono naturalmente
della stessa natura n della stessa rilevanza in questi due tipi
di situazioni.
Esamineremo in questo capitolo i dibattiti e le polemiche di cui i test d'intelligenza sono stati oggetto, l'utilizzo
che oggi ne viene fatto e alcune questioni di ordine etico e
deontologico che nascono di conseguenza.

79

1. I dibattiti e le polemiche sull'uso dei test in ambito sociale


Le domande relative ai test e le critiche che essi hanno suscitato sono tra loro differenti; alcune risalgono all'origine
stessa dei test, mentre altre hanno assunto forme diverse nei
differenti contesti nazionali.
1.1. De tipologie di domande
I test d'intelligenza possono essere esaminati e anche criticati da un punto di vista filosofico, psicologico e sociale.
I primi test sono apparsi all'inizio del secolo, all'interno di
una psicologia nascente che, rompendo con la tradizione filosofica, si avvicinava alle scienze naturali e si proponeva non soltanto di studiare i fenomeni psicologici, analizzandoli a partire
dai comportamenti osservabili, ma anche di misurarli. Opponendosi cos frontalmente alle posizioni idealiste dominanti,
questa psicologia ha evidentemente incontrato forti resistenze.
Il rifiuto dei test corrispondeva allora ad una presa di posizione
filosofica: non si pesano le anime! Questo dibattito oggi superato. La psicologia oggettiva diventata una disciplina riconosciuta, i cui apporti sono considerati significativi. Ma si trovano sempre persone, e a volte anche personalit eminenti, che
affermano che l'intelligenza umana cos complessa che inutile cercare di comprenderla obiettivamente e di misurarla.
Nessuno contesta la complessit dei fenomeni che si evocano
con il termine intelligenza: chiaro che la psicologia non pu
che fornirne delle rappresentazioni parziali e approssimative (
cos anche per molti aspetti del reale che non riguardano la psicologia).il vero problema sapere se queste rappresentazioni
siano o no suscettibili di miglioramento: le discipline empiriche, e questo il fondamento della loro esistenza, sono impegnate ad ottener misure sempre pi soddisfacenti.
i test sono stati oggetto di critiche in seno alla psicologia
stessa. Queste sono di due tipi: riguardano sia la portata delle
osservazioni, e sono allora di ispirazione comportamcntista1,
sia il loro significato, e sono allora di ispirazione cognitivista2.
Se il soggetto viene caratterizzato dalla sua performance al test,
ci vale per un ampio insieme di situazioni (intendendo che il
test collocabile su un'ampia dimensione) o per un gruppo circoscritto di situazioni prossime a quella del test (e allora col80

locabile su una dimensione ristretta)? Se si considera che il comportamento degli individui s esprime principalmente attraverso
le propriet delle situazioni in cui essi sono inseriti e per gli apprendimenti specifici che hanno avuto l'occasione di realizzare,
li si potr distinguere solo relativamente a queste situazioni e
apprendimenti specifici. S potr parlare allora di differenze di
intelligenza, ma soltanto per una situazione data o un gruppo
di situazioni simili. I test d'intelligenza intendono invece spesso
caratterizzare i soggetti in maniera generale. Si pu quindi, in
questa prospettiva, ritenerli delle generalizzazioni improprie.
Nell'ambito di questa critica generale, stato talvolta sottolineato il carattere scolastico delle situazioni test, particolarmente
evidente con i test carta e matita. L'intelligenza misurata dai test
sarebbe allora un'intelligenza scolastica, messa in atto da individui isolati in situazioni artificiali.
La critica pu anche riguardare il significato delle performance osservate. Questo tipo di critica sottolinea le ambiguit delle performance individuali rilevate alla somministrazione di un test. vero che i test classici ci forniscono soltanto
informazioni sulla performance del soggetto (l'abbiamo visto
nel cap. 2 con il test delle Matrici Progressive). Una stessa performance non avr necessariamente lo stesso significato se ottenuta mettendo in atto processi mentali diversi. Di conseguenza, l'informazione fornita dai test perder parte del suo interesse,
Q ueste critiche, diversamente da quelle filosofiche, sono
interne al campo della psicologia. L cos possibile tenerne
conto nella costruzione dei test. Nel capitolo precedente abbiamo riferito di due sostanziali evoluzioni in materia d misurazione dell'intelligenza: il passaggio da concezioni unidimensionali a concezioni pluridimensionali e la considerazione dei,
processi cognitivi responsabili dell'elaborazione della risposta.
Quest'ultima tendenza stata evocata a proposito della valutazione dei processi sequenziali e simultanei nel K-ABC. Essa
ancora pi sviluppata all'interno di un filone di ricerca che
tenta di costruire modelli dei processi cognitivi che il soggetto
mette in atto nella risoluzione degli item del test. Un esempio
di lavoro realizzato in questo ambito di ricerca stato descritto
alla fine del capitolo 2 a proposito delle componenti del processo di soluzione degli item delle Matrici Progressive di Raven.
81

Il terzo tipo di problema riguarda le funzioni che i test possono rivestire nella nostra societ e concerne principalmente le
questioni relative all'inserimento sociale degli individui e le
conclusioni sull'organizzazione della vita sociale che si possono
trarre dalle osservazioni fatte per mezzo dei test. Il problema
stato sollevato principalmente da valutazioni che si pongono
nel campo delle politiche educative (come interpretare le diseguaglianze in materia di educazione? come organizzare il sistema di formazione?) e secondariamente da problemi di lavoro o di impiego. Queste domande conducono ad alcune osservazioni politiche. Due temi ritornano costantemente: quello
dell'equit delle differenziazioni operate dai test e quello delle
origini delle differenze individuali, tra cui la questione del
ruolo dell'eredit. Dopo aver richiamato qualche dato storico,
esamineremo la forma assunta dal dibattito e dalle polemiche
sulla funzione sociopolitica dell'impiego dei test negli Stati
Uniti, nell'ex Unione sovietica e in Francia.
1.2. La nascita dei test e la loro diffusione
I test sono nati dall'incontro tra una domanda sociale e una
necessit della psicologia scientifica. Fin dalla loro origine ci si
pu quindi interrogare sulle loro funzioni sociali e sui loro fondamenti scientifici. Alla fine del XIX secolo e all'inizio del XX,
la necessit di disporre di procedure di valutazione dell'efficienza cognitiva degli individui si manifesta in numerosi settori
della vita sociale. Questa domanda apparsa dapprima, all'inizio del XIX secolo, in alcuni asili che accoglievano i ritardati
mentali gravi, dove si cominciava a nutrire preoccupazione riguardo-alla loro educazione. La richiesta diagnostica era motivata dal desiderio di ottenere delle stime dei livelli di deficit, al
fine di affinare i metodi di riabilitazione e di costituire gruppi
omogenei. Apparve pi tardi anche nelle scuole con l'estensione dell'insegnamento primario. Un po' pi tardi, l'esigenza
di misure di questo tipo si manifest nelle fabbriche. Si trattava di migliorare le procedure di reclutamento degli operai,
non soltanto al fine di aumentare la produzione ma anche la sicurezza (le prime indagini riguardarono conducenti dei tram).
L'orientamento professionale apparir sulla scia dei primi tentativi di selezione professionale al fine di poter disporre di valutazioni delle abilit che consentivano un buon adattamento
82

alla professione. Tra queste abilit ce ne sono alcune che contribuiscono a determinare l'intelligenza.
Con Binet, il lavoro sui test resta circoscritto a finalit educative essenzialmente legate all'educazione speciale e -all'insegnamento primario. La partecipazione degli psicologi alla preparazione dell'esercito americano, in seguito al coinvolgimento
degli Stati Uniti nella prima guerra mondiale nel 1917, avrebbe
stimolato una considerevole estensione del lavoro sui test. Test
collettivi furono costruiti e proposti a pi di tre milioni di reclute che furono di conseguenza, sulla base dei risultati ottenuti ai test, destinati a funzioni diverse nell'esercito. Vennero
messe a punto procedure speciali per il reclutamento di piloti
e di personale necessario al buon funzionamento dell'esercito.
Il fatto che gli americani si fossero trovati tra i vincitori del conflitto fu considerato di conseguenza una sufficiente validazione
dei test! All'indomani della guerra, i test cominciarono ad essere utilizzati in quasi tutti i settori della societ: nelle scuole
secondarie e nelle universit, nelle imprese e nelle amministrazioni, nel mondo giudiziario, e naturalmente si continu ad utilizzarli nell'esercito. Bench con minore ampiezza che negli
Stati Uniti, il lavoro e l'interesse per i test (si parla di psicotecniche) si svilupp anche nella maggior parte dei paesi industrializzati [Zurfluh 19761. In Europa, l'Inghilterra il paese
che mostr il maggior interesse (i test cominciarono ad essere
utilizzati negli anni Venti). Ma questo sviluppo e i dibattiti che
lo accompagnarono assunsero forme differenti a seconda dei
paesi.
1.3. I dibattiti sui test di intelligenza negli Stati Uniti: eredit e
influenze culturali
Nel periodo tra le due guerre, i dibattiti sui test riguardarono le conclusioni da trarre dai risultati osservati nel gigantesco testing del 1917 (i risultati furono pubblicati nel 1921). Le
differenze tra gruppi, osservate come noto tra neri e bianchi,
furono sistematicamente interpretate come delle differenze
ereditarie. La superiorit media ai test de neri del nord rispetto
a quelli del sud, ad esempio, non venne interpretata in relazione a fattori ambientali piuttosto evidenti come il tasso di
scolarizzazione. Si prefer inventare la tesi delle migrazioni selettive secondo la quale i neri pi intelligenti del sud sarebbero
83

emigrati al nord. L'applicazione di norme per lo meno discutibili conduceva a concludere che il 37% della popolazione
aveva un ritardo mentale! Queste affermazioni erano ben lontane dall'essere irrilevanti, ma diedero argomentazioni agli eugenisti, che raccomandavano restrizioni della vita sessuale dei
ritardati mentali nonch la loro sterilizzazione, agli xenofobi,
partigiani di una politica di immigrazione selettiva, e ai razzisti. Se il punto di vista ereditarista era maggioritario, non
c'era tuttavia unanimit tra gli psicologi, da cui derivarono una
serie di controversie. La pi viva oppose, nel 1922-1923, Terman, adattatore del test di Binet e partigiano delle tesi ereditari te che abbandoner qualche anno pi tardi, e Lippman.
Lippman non metteva in discussione l'interesse dei test di intelligenza, ma criticava severamente la soglia scelta per definire
il ritardo mentale e, soprattutto, affermava che l'intelligenza
non poteva essere valutata indipendentemente dagli apprendimenti e rifiutava perci l'idea di un'intelligenza pura, una
sorta di sostanza misteriosa impermeabile alle influenze educative. Molte delle polemiche e dei dibattiti successivi non
hanno fatto che riprodurre questo contrasto iniziale [Cronbach 1975; Gould 1983; Paicheler 19921. Si pu notare che
tutte queste discussioni riguardano i test di intelligenza, e pi
in particolare i test collettivi, indipendentemente dalla standardizzazione utilizzata che diventa del tutto secondaria. Ora,
dato che i risultati a test sono nella maggior parte dei casi
espressi in quoziente intellettivo, si arrivati a credere, soprattutto attraverso i media, che il QI a dover essere criticato,
anche nel momento in cui i problemi sono gli stessi che si utilizzi o meno la nozione di QI.
Le critiche di Lippman non riguardavano test, ma soltanto l'interpretazione delle osservazioni fatte per mezzo (lei
test. All'indomani della seconda guerra mondiale, si svilupparono invece critiche che riguardavano i test stessi. Eels e colleghi [1951], sociologi di Chicago, misero in discussione l'imparzialit apparente dei test. Essi sostenevano che i bambini
degli ambienti popolari non sono necessariamente meno intelligenti dei bambini delle classi agiate ed piuttosto evidente
che i test, per il loro contenuto familiare ai bambini delle classi
agiate, favoriscono questi bambini a svantaggio di quelli delle
classi popolari. Eels e colleghi, per validare la loro tesi, esaminarono i test allora in uso e tentarono di costruire un test so84

cialmente equo, impresa che alla fine s sarebbe rivelata quasi


impossibile. La critica di Eels e colleghi fu all'origine di un'importante corrente di ricerca sulle influenze culturali nei test
sulla quale torneremo in seguito.
Il dibattito sul ruolo dell'ereditariet nella spiegazione
delle differenze individuali un dibattito permanente. L'anno
1969 ne segna un momento di grande forza. Ci si interroga
sull'efficacia dei grandi programmi socioeducativi promossi
per la lotta contro la povert e per l'integrazione delle minoranze nere e ispaniche. L allora che uno psicologo dell'Universit di Berkeley, Arthur Jensen, pubblic un lungo articolo
in cui tent di mostrare che: 1) i programmi socioeducativi non
sono efficaci; 2) l'intelligenza e il successo scolastico nella popolazione bianca sono determinati principalmente dalla componente ereditaria; e 3) anche le differenze di prestazione tra
bianchi e neri a scuola e nei test si spiegano attraverso la componente ereditaria, Non rimane quindi, secondo Jensen, che
mettere fine ai programmi socioeducativi. In altri scritti, Jensen svilupp l'idea che ci siano due forme di intelligenza, l'una
nobile e creativa, l'altra semplicemente associativa, che queste
forme di intelligenza siano determinate dall'eredit, che la
prima sia pi frequente nella popolazione bianca mentre l'altra in quella nera, e che quindi sia opportuno prevedere due
modalit di insegnamento. :fensen ricevette qualche parere a
sostegno della sua ipotesi: noto quello di Eysenck, uno psicologo che fu per lungo tempo la personalit pi rappresentativa della scuola psicometrica inglese, di tradizione galtoniana.
Le sue tesi, comunque, che ancora una volta non riguardavano
i test ma la loro interpretazione, ebbero tra gli psicologi un'attenzione limitata (in Francia, ad esempio, nessuna personalit
conosciuta nel mondo della psicologia assunse pubblicamente
la posizione eli Jensen). Un altro periodo intenso nel dibattito
sul ruolo dell'ereditariet nell'origine delle differenze individuali stato quello relativo alla pubblicazione nel 1994 di The
Bell Curve con la firma di Herrnstein, uno psicologo che aveva
gi mostrato il suo sostegno a Jensen nel 1971,
e di Murray, un
esperto di scienze politiche. Questi autori hanno riattualizzato
le posizioni di Jensen affermando che la differenziazione sociale, negli Stati Uniti operava su una base cognitiva e che le
differenze cognitive tra individui e tra gruppi erano largamente
dipendenti dal patrimonio ereditario.
85

Le posizioni difese da jensen, Herrnstein e Murray sono


espressione di un certo darwinismo sociale. Esse affermano che
le diseguaglianze sono naturali; non vale quindi la pena d cercare di riformare la societ per ridurle, ma preferibile organizzarla di conseguenza. Queste posizioni poggiano su due postulati: il carattere unidimensionale (che consente di farla coincidere con la stratificazione sociale) e il ruolo
massiccio delle determinanti ereditarie. Oggi ben chiaro che
l'intelligenza pluridimensionale e che, tenuto conto dei fenomeni di interazione tra il patrimonio genetico e i fattori ambientali, non ha senso cercare di quantificare il peso rispettivamente dell'eredit e dell'ambiente nel determinare le differenze individuali. Malgrado i tentativi di un certo numero di
mezzi di informazione di importare queste polemiche, esse ebbero un'eco relativamente debole in Europa dove, in generale,
per ragioni sia storiche sia sociologiche, le relazioni tra le comunit sono viste in termini radicalmente diversi. Si pu anche notare, e ci ritorneremo, che l'uso dei test molto pi limitato nel sistema scolastico europeo (francese ed italiano, ad
esempio) e che, soprattutto, le pratiche d selezione non sono
fondate sui test di intelligenza, ma in particolare sui risultati
scolastici.
1.4.

I test in Unione Sovietica: dall'entusiasmo al rifiuto

All'indomani della rivoluzione d'ottobre il governo sovietico incoraggi lo sviluppo delle psicotecniche, considerate
come una disciplina scientificamente fondata e del tutto adatta
a contribuire alla costruzione del socialismo. Nel 1931 si tenne
a Mosca il settimo congresso di psicotecnica e i congressisti occidentali rimasero impressionati dagli strumenti di cui vennero
a conoscenza e invidiarono i mezzi di cui disponevano i loro
colleghi sovietici che operavano in completo accordo Con il governo del loro paese avendo coscienza di partecipare alla costruzione di una psicologia, marxista.
Ma questa bella armonia non sarebbe durata. Dall'inizio
degli anni Trenta cominciarono a nascere critiche contro i test
e diventarono via via sempre pi vive. Nel 1936 una risoluzione
del comitato centrale del partito comunista relativa ai cambiamenti nei commissariati dell'educazione viet molto semplicemente i test. Vennero forniti due tipi di giustificazione. Le
86

prime riguardavano quelli che s potrebbero chiamare gli effetti perversi dei test nel sistema educativo. Si rimproverava infatti agli psicologi dell'et evolutiva clic utilizzavano test di essere responsabili del moltiplicarsi delle classi speciali e di aver
preso il potere nelle scuole a danno degli insegnanti. Le seconde, di gran lunga le pi importanti, erano esclusivamente
d ordine ideologico. Le ricerche sui test e la pratica psicotecnica furono giudicate incompatibili con il marxismo e di conseguenza borghesi e antiscientifiche (come la genetica
mendeliana, la fisica quantistica e la psicoanalisi). La legislazione che organizzava il lavoro degli psicologi venne soppressa,
l'insegnamento dei test abolito e i libri sull'argomento distrutti.
Gli animatori del movimento dei test scomparvero dalla scena.
Interi filoni della psicologia sovietica furono infatti liquidati e
non rimase che un pavlovismo ufficiale che riduceva lo studio
del comportamento alla possibilit d evidenziarne il condizionamento. I test riapparvero in Unione Sovietica negli anni Settanta. Questa critica ideologica dei test sarebbe stata ripresa
anche in Francia da numerosi intellettuali, particolarmente psicologi appartenenti al movimento comunista.
1.5. .11 dibattito sui test in Francia: la giusta selezione e la legittimazione delle diseguaglianze.'
TI movimento dei test in Francia fu influenzato da due forti
personalit: Alfred Binet ed Edouard Toulouse. L'influenza di
Binet, scomparso prematuramente nel 1911, si essenzialmente esercitata attraverso il suo test. Quella di Toulouse, bench egli fosse meno conosciuto, stata ben pi profonda. Toulouse (1865-1947) era uno psichiatra che nel corso della sua
vita condusse ricerche fondamentali (particolarmente sul rapporto tra il genio e la neuropatia) e cre numerosi laboratori,
proponendo soluzioni ai problemi sociali (in particolare nell'ambito della salute mentale). Toulouse era un appassionato
sostenitore dei metodi oggettivi, quindi dei test. Preoccupato
di spiegare i comportamenti a partire dai fenomeni psicologici
elementari e dalla fisiologia, egli ader alle posizioni riduzioniste adottate dalla maggior parte degli psicologi all'inizio del secolo (ad eccezione di Binet). I primi test elaborati da Toulouse
e dai suoi collaboratori nel 1904, che assomigliavano molto alle
situazioni che si incontravano nei laboratori di psicologia spe-


87

rimentale, riguardavano la valutazione dei processi psicologici


elementari. Toulouse era anche profondamente impegnato
nella sua epoca e propose delle riforme ispirate alla filosofia
positivista che riprendevano le rivendicazioni egualitarie dei
movimenti sociali del momento. -Fino agli anni Quaranta e Cinquanta, alcuni allievi di Toulouse, Henri Laugier, Jean-Maurice
Lahy, Henri Pieron, furono i pi ardenti promotori della psicotecnica [Huteau 19961
Per Toulouse e i suoi allievi l'utilizzo dei test non era solo
un mezzo per razionalizzare la vita sociale, ma anche per promuovere di pi la giustizia. Essi erano convinti che gli psicotecnici dovessero giocare un ruolo di esperti nell'ambito del
lavoro, determinando per mezzo dei test le abilit necessarie
all'esercizio delle professioni, orientando le politiche di formazione professionale, riformando le condizioni di lavoro e
indagando sulle cause degli scioperi. L'obiettivo prefisso era
quello di ripartire pi equamente il compito sociale tra gli
operai e i padroni. Toulouse e i suoi allievi videro anche in un
orientamento professionale fondato su misure di abilit un
mezzo per correggere le diseguaglianze di accesso all'educazione. Pi sostanzialmente, essi si proclamarono senza riserve
per una scuola unica (fino alla seconda guerra mondiale ci furono infatti due scuole: la scuola primaria, con un proseguimento alla scuola primaria superiore, frequentata da bambini
di origine popolare, e le classi primarie dei licei con il liceo
come proseguimento naturale, riservate ai bambini delle classi
agiate) e proposero, all'uscita da un tronco comune, una
giusta selezione fondata su misure di abilit oggettive. Negli
anni Venti e Trenta vennero presentate numerose proposte di
legge per organizzare il sistema di insegnamento in questa prospettiva.
L'uso dei test in questo modo proposto, dall'inizio clel secolo all'indomani della seconda guerra mondiale, s'inscrive nel
quadro di una politica rivolta a riformare in senso progressista
il sistema sociale. Ci spiega il fatto che i test siano stati percepiti come strumenti al servizio del progresso sociale nel movimento sindacale e nel movimento socialista, e come tecniche
pericolose, di cui si contestava la validit, nell'ambiente borghese conservatore. Questi dibattiti non avevano molto a che
vedere con quelli che si stavano sviluppando pressoch nello
stesso momento oltreoceano. Malgrado il loro ardore, Tou88

louse e i suoi allievi non riuscirono se non parzialmente ad imporre il proprio punto di vista. Certamente i test furono sempre pi utilizzati nella selezione e soprattutto nell'orientamento
professionale, ma la selezione scolastica continu ad avvenire
precocemente e su una base sociale. Il progetto psicotecnico
rimase un'utopia.
All'indomani della seconda guerra mondiale, il paesaggio
cambi radicalmente: le critiche pi vive rivolte ai test non vennero pi dai settori conservatori dell'opinione pubblica ma dagli intellettuali e dagli psicologi membri o simpatizzanti del
partito comunista, che trovavano perfettamente giustificate le
misure prese in Unione Sovietica nel 1936 (gli echi e le influenze di questo dibattito si sarebbero fatti sentire anche in
Italia). I test vennero presentati come un mezzo per confermare, per legittimare, e anche per far accettare le disegnaglianze dell'ordine sociale (La Raison, 1952, n. 4). Mettendo in primo piano la funzione ideologica attribuita ai test,
non si insisteva sul fatto che lo scarto tra bambini cresciuti in
ambienti favorevoli o sfavorevoli fosse minore con i test che
con i voti scolastici. Gli psicologi degli anni Trenta che pensavano di contribuire al progresso sociale promuovendo l'uso dei
test vennero considerati degli idealisti ingenui. Intorno al 1.968
numerose opere avrebbero ripreso queste tesi, attenuandole o
radicalizzandole [Salvat 1969; 'fon 19741.
Come negli Stati Uniti, n Gran Bretagna questi dibattiti e
polemiche riguardarono soprattutto la scuola e la selezione
scolastica. Ma a differenza di ci che si visto in questi due
paesi, in Francia e in Italia essi hanno mantenuto un carattere
accademico e astratto che deriva dall'assenza di un vero scopo
sociale. Si trattava cio di mettere in gioco delle questioni ideologiche piuttosto che delle pratiche sociali. In effetti, in Francia i test non sono mai stati utilizzati come mezzo di selezione
scolastica (ad eccezione dell'insegnamento speciale per i
portatori di handicap). I test sono stati massicciamente utilizzati nell'insegnamento secondario dalla fine degli anni Cinquanta all'inizio degli anni Ottanta, ma gli orientamenti sono
sempre stati basati sulla valutazione scolastica.
I dibattiti pi vivaci sui test, quelli condotti da un punto di
vista sociopolitico, non riguardavano i test come metodi di osservazione, bens l'origine delle differenze individuali e l'equit
delle procedure di inserimento sociale. Queste domande non
89

ebbero risposte scientifiche soddisfacenti, primo perch ]e conoscenze scientifiche non erano sufficienti, e secondo perch
la questione riguardava una scelta di valori, che ha suscitato dibattiti con una forte componente ideologica, opponendo concezioni globali dell'uomo e della societ [Lemaine e Matalon
1985]. Da allora, non sorprendente che questi dibattiti non
si siano conclusi e che a seconda del contesto sociostorico abbiano preso forme diverse.
1.6. 11 dibattito sui test in Italia
La discussione sui test di intelligenza notoriamente stata
associata a dibattiti sulle differenze in razze diverse, in uomini
e donne, in individui di ambienti differenti, e anche in Italia
stata condotta, sia pur in maniera meno massiva che in altri
paesi, sul fondamento dell'uso dei test.
Soprattutto negli anni successivi al 1968, i test di intelligenza venivano messi in discussione in quanto strumenti utilizzati dalla societ borghese, e venivano attaccati proprio
per questa ragione. In quegli anni, per esempio, il sistema echicativo italiano si era organizzato in modo sistematico. prevedendo classi diverse non solo per bambini con gravi difficolt,
ma anche per bambini con difficolt pi lievi che tuttavia sembravano abbisognare cli un percorso educativo particolare. Si,
parlava nel primo caso di classi speciali e nel secondo caso di
classi differenziali.
Per le classi speciali era prevista una diagnosi basata sostanzialmente sui test di intelligenza; per le classi differenziali
questo uso era meno diffuso, ma poteva comunque essere
presente. E noto che le classi speciali e le classi differenziali
costituivano una modalit di isolamento e di ghettizzazione
di certi bambini. In Italia si era infatti sviluppato un movimento pionieristico contro questa segregazione, e quindi
contro uno degli strumenti cli questa segregazione, il test di
intelligenza.
Tra l'altro a quell'epoca si rilevava come esistesse una
chiara relazione tra svantaggio socioculturale e basso punteggio ai test di intelligenza. Questo tipo di rapporto era stato trovato non solo in altri paesi del mondo ma anche n e
aveva appunto portato alla sottolineatura dei test culture fair
per i quali la valenza socioculturale era meno presente. Un par90

ticolare caso, localizzato ma estremamente interessante, di questa attivit di segregazione svolta usando il nome di prestigio
di una cosiddetta scienza, rappresentato dalla discriminazione operata sulle comunit culturali.
Se questo pu essere avvenuto in Italia su bambini particolarmente svantaggiati o su bambini di minoranze culturali e
linguistiche, la discriminazione pi clamorosa riguard invece
i bambini figli d italiani che erano all'estero. Alcuni studiosi
italiani rilevavano come i figli di italiani in Germania finissero
quasi tutti in classi che avevano le caratteristiche simili alle
classi speciali o differenziali italiane proprio in base al fatto che
avevano ottenuto punteggi bassi ai test di intelligenza.
Emerse in modo evidente che i test di intelligenza erano
fortemente caratterizzati dal punto di vista linguistico e i bambini che non conoscevano bene la lingua tedesca chiaramente
fallivano. Era molto amaro constatare che uno strumento nato
per fini di sviluppo di conoscenze offrisse una modalit per
emarginare minoranze non gradite. In seguito a questi eventi
ci furono molte iniziative in Italia contro i test di intelligenza,
comparvero diversi lavori sia in libri sia in riviste scientifiche
non solo riferite alla comunit strettamente psicologica, ma anche a comunit p ampie. Per esempio la rivista Sapere pubblic interventi contro questo uso dei test di intelligenza. Cadi,
Padovani e Trentini riconoscono due correnti di pensiero relative ai test di intelligenza all'interno della psicologia sociale,
l'una contraria, dei clinici, e l'altra favorevole, degli psicometristi [Cadi 1972].
La critica ai test, che partiva da fondamenti giusti ma chiaramente faceva riferimento solo a questi cattivi usi degli strumenti, si allarg a tal punto che in quegli anni l'uso degli strumenti divenne sempre pi raro e per parecchio tempo fu considerato scientificamente inappropriato e anche politicamente
reazionario fare riferimento al concetto di intelligenza associato all'uso di strumenti.
Oggigiorno le posizioni non sono pi cos estreme e la critica molto meno aspra. Il test ha acquistato di nuovo una valenza priva di connotazioni ideologiche che lo definisce come
strumento di diagnosi pi o meno apprezzato nel campo della
psicologia. Il problema a cui si pi sensibili non tanto la
bont o meno dell'utilizzo del test, ma l'uso corretto delle
informazioni che fornisce.
91

2. Le pratiche attuali
In diversi paesi del mondo i test di intelligenza sono utilizzati con obiettivi abbastanza differenti nei tre grandi settori di
applicazione della psicologia: ambito educativo, sanit e lavoro.
2.1.

L'utilizzo dei test di intelligenza in ambito educativo

Quando l'importanza dei problemi lo giustifica, lo psicologo pu fare un esame psicologico del bambino, chiedendo
naturalmente l'autorizzazione ai genitori.
L'esame psicologico comporta in generale numerosi elementi, variabili secondo la natura del problema posto: colloqui con i genitori, colloqui con il bambino, test di conoscenza
scolastica, prove di personalit, ecc. Tra questi elementi, i test
di intelligenza occupano un posto preponderante, specialmente per l'uso di scale a somministrazione individuale.
In ambito scolastico in Italia i test di intelligenza veri e propri non sono largamente utilizzati, soprattutto quando vengono presentati come tali, per la diffidenza che esiste in relazione alla misurazione dell'intelligenza e anche per l'indicazione spesso presente di evitare di pervenire a misure che riguardano la sfera pi personale dello studente.
Questa situazione per cambier con l'introduzione dello
psicologo scolastico che potrebbe essere incaricato di mansioni
pi strettamente psicologiche e anche impegnato ad esami approfonditi dello studente.
D'altra parte gi adesso nell'ambito della scuola figure
quali lo psicopedagogista o lo psicologo in convenzione possono collaborare nella raccolta di informazioni relative ad abilit cognitive specifiche che in qualche modo costituiscono
componenti dell'intelligenza.
Per esempio in alcuni casi stato usato il test di intelligenza
PMA che offre informazioni relative a componenti distinte, faitorialmente isolate, dell'intelligenza quali il ragionamento, le
abilit visuospaziali, le competenze semantiche, ecc.
Inoltre i Servizi che collaborano con la scuola sono spesso
chiamati a esami dei bambini che coinvolgono la misurazione
dell'intelligenza.
Per esempio per la diagnosi cli handicap mentale si procede
di routine a una valutazione dell'intelligenza per vedere se ef
92

fettivamente il bambino presenta un potenziale intellettivo che


al d sotto del valore critico di soglia (di solito posto a 70).
Similmente, per la valutazione dei disturbi specifici d apprendimento, quali per esempio la dislessia, la discalculia, disturbi di attenzione, si procede di routine ad escludere la possibilit che le difficolt del bambino siano associate ad un deficit intellettivo vero e proprio.
Sia per la diagnosi d ritardo mentale, sia per la diagnosi di
disturbo specifico di apprendimento, si procede pertanto alla
valutazione dell'intelligenza e lo strumento pi utilizzato in
questo caso costituito dalla scala WISC.
In 'Francia le pi utilizzate sono le scale di Wechsler, le pi
note anche in Italia (WPPSI a livello prescolare e WISC a livello di scuola elementare), la nuova scala metrica dell'intelligenza (adattamento del test Binet-Simon ad opera d R. Zazzo
e collaboratori) e, molto pi raramente, scale ispirate alla teoria piagetiana o il K-ABC. I risultati a questi test sono interpretati nel quadro di una diagnosi clinica, messi in relazione all'insieme di informazioni raccolte nel corso dell'esame psicologico.
Le informazioni fornite dal test di intelligenza si rivelano
particolarmente utili nel momento in cui lo psicologo vuole sapere se le difficolt incontrate dal bambino sono riferibili ad
un ritardo globale dello sviluppo intellettivo o a dei disturbi
strumentali pi specifici, ad esempio disturbi nell'apprendimento della lettura, della scrittura o del calcolo, o ancora a dei
disturbi relazionali, con la famiglia o l'insegnante. Le indicazioni numeriche come il QI o la posizione nel gruppo di et
danno dei riferimenti il cui significato dipende da altri elementi
raccolti nel corso dell'esame, ma anche da osservazioni fatte
nel corso della somministrazione del test di intelligenza: atteggiamento di fronte alla novit, atteggiamento di fronte al fallimento, reazioni emotive, comunicazione, ecc.
Le soluzioni proposte dallo psicologo per ridurre problemi che hanno portato alla consultazione possono essere
semplici consigli agli insegnanti o ai genitori, indicazioni di rieducazione o sostegno appropriato ai disturbi specificamente
diagnosticati (dislessia, discalculia, disturbi psicomotori, ecc.),
operati da un gruppo di lavoro (comprendente lo psicologo,
riabilitatori e insegnanti di sostegno che intervengono in un settore scolastico). In Francia, mediante i test viene valutata l'am93

missione a classi di insegnamento speciale (mentre in Italia le


classi speciali sono state quasi completamente abolite e il punteggio di QI stato invece spesso utilizzato per l'assegnazione
al bambino di un insegnante di sostegno). L'inserimento in
classi speciali valutato in Francia da una commissione dipartimentale per l'insegnamento speciale, o da un organo locale,
che ha come interlocutori i genitori dell'allievo. I risultati ai test
di intelligenza, interpretati dagli psicologi scolastici, sono uno
degli elementi determinanti su cui la commissione si basa per
valutare l'opportunit di inserimento in una classe speciale. La
domanda sociale che aveva motivato Binet a costruire il primo
test di intelligenza esiste ancora oggi e i test che discendono da
quella prima scala di intelligenza rispondono tuttora a quella
domanda.
La questione dell'utilizzo dei test di intelligenza si pone in
modo del tutto diverso nell'ambito dell'orientamento scolastico e professionale. In Francia si contano circa 4.000 esperti
di orientamento-psicologi che intervengono soprattutto nell'insegnamento secondario. Il loro compito principale di aiutare i giovani a decidere riguardo al proprio futtiro scolastico
e professionale. Questo aiuto nella formazione delle scelte e
nella decisione avviene, ben inteso, con l'apporto di informazioni sulla rete scolastica, le professioni, il mercato del lavoro,
ma anche con l'apporto di informazioni utili a far prendere coscienza al soggetto stesso delle proprie potenzialit e dei propri interessi. Tra le differenti tecniche che il consiglio di orientamento pu utilizzare per raccogliere informazioni relative a
questi ultimi aspetti (passatempi, questionari sugli interessi,
scale di maturit vocazionale, ecc.) figurano anche i test di
intelligenza, il cui utilizzo in questo ambito divenuto tuttavia
piuttosto marginale.
Non comunque sempre stato cos. I test sono stati utilizzati in modo piuttosto massiccio e sistematico dai consigli sull'orientamento in un periodo che va dalla met degli anni Cinquanta circa agli inizi degli anni Ottanta. Questo periodo stato
quello dell'estensione dell'insegnamento secondario a fasce
sempre pi numerose di giovani. Sulla linea di idee della giusta selezione che hanno ispirato lo sviluppo della corrente psicometrica nella scuola francese, ci si serviti dei test di intelligenza per individuare tra gli studenti i cui risultati scolastici lasciavano a desiderare quelli con scarse possibilit di successo

94

nella scuola secondaria. I test utilizzati erano batterie fattoriali


collettive del tipo della batteria PIVI A che stata presentata nel
capitolo precedente.
Questo impiego massiccio dei test, motivato da buone intenzioni, si rapidamente trasformato in abuso, con l'apparizione, ad esempio nella regione parigina, dei mezzi informatici
di correzione. Si verificato che gli esperti di orientamento passavano da una classe all'altra con le loro valigie di test collettivi, inviando i protocolli al centro di calcolo del - servizio accademico, e ricevendo indietro delle liste che fornivano per ogni
allievo un profilo di abilit. Ci da una parte portava ad annientare il numero di casi esaminati, dall'altra si perdeva in ricchezza di informazioni raccolte su ogni individuo e la discussione con gli insegnanti avveniva su una base Molto povera.
Emerse presto che l'accordo tra esperti di orientamento e insegnanti sull'interesse dei test, quando esisteva, poggiava
spesso su un malinteso. Mentre gli esperti di orientamento cercavano di rivedere casi di disaccordo tra i risultati ai test e i
risultati scolastici, gli insegnanti si soffermavano sui casi di accordo molto pi numerosi nei quali vedevano una legittimazione della classificazione scolastica.
Questa pratica sistematica dei test collettivi di abilit diminuita rapidamente a partire dalla fine degli anni Settanta per
scomparire poi quasi completamente. Il movimento di contestazione dei test ha senza dubbio giocato un ruolo importante
in questo rapido riflusso, tanto pi che l'organizzazione degli
esami collettivi era effettivamente suscettibile di critiche da numerosi punti di vista. Ma in particolare questo riflusso ha coinciso con una profonda ristrutturazione del ruolo dell'esperto
di orientamento. Da un lato, la ricerca di talenti nascosti non
aveva pi interesse a partire dal momento in cui si era acquisita la generalizzazione dell'insegnamento secondario; dall'altro, gli esperti di orientamento si sono sempre pi identificati
in una funzione educativa di aiuto allo sviluppo personale e alla
formazione delle scelte.
2.2. L'utilizzo dei tesi di intelligenza in ambito sanitario
In ambito sanitario, in tutto il mondo, frequente l'utilizzazione dei test di intelligenza, al fine di ottenere una informazione complessiva dell'efficienza intellettiva dell'individuo o
95

per venire incontro a scopi specifici. Si, gi menzionato, in relazione all'ambito scolastico, come i Servizi sociosanitari possano essere impegnati in una valutazione dell'intelligenza che
permetta di meglio riconoscere le caratteristiche sottostanti ad
una difficolt di apprendimento.
Per quanto concerne l'ambito dell'adulto, in tutti i casi in
cui il funzionamento cognitivo di un individuo pone delle problematiche, pu essere opportuno associare una valutazione intellettiva, e questo pu per esempio riguardare le difficolt che
presentano certi anziani, per meglio comprendere la natura di
un eventuale deterioramento senile. In questo caso ai classici
test di intelligenza si associano test pi semplici e direttamente
finalizzati all'esame dell'anziano. Per esempio, una procedura
rapida che permette di riconoscere la permanenza di certe funzionalit cognitive, anche in presenza di un indubbio deterioramento, rappresentata dal Mini-Mental State che offre una
informazione complessiva sullo stato dell'anziano e viene utilizzato di frequente nella realt psichiatrica italiana, proprio per
le sue caratteristiche di semplicit d'uso e rapidit. Obiettivi ed
esigenze analoghe possono presentarsi infatti in ambito psichiatrico ove spesso si ricorso, e si ricorre tuttora, alla raccolta di informazioni sullo stato generale del paziente, valendosi anche del test di intelligenza.
Anche in questo caso lo strumento conseguente alle procedure ideate da Wechsler, si tratta allora del WAIS, pu essere
di ampia utilizzazione.
In ambito pi strettamente neo ropsicologico esiste una
marcata preferenza per una diagnosi che si riferisca alla specifica lacuna del soggetto, che spesso ben localizzabile o comunque dissociabile da altre componenti intellettive che invece
hanno un buon funzionamento. Tuttavia anche in questo caso
un esame di fondo pu prevedere l'uso di un test di intelligenza.
In Italia e in Francia si contano diverse migliaia di psicologi attivi in ambito sanitario. Hanno una specializzazione in
psicologia clinica e intervengono in vari quadri istituzionali:
ospedali psichiatrici, ospedali generali, associazioni, collettivit
territoriali (ad esempio, circoscrizioni sanitarie e sociali), case
di cura private, istituzioni giudiziarie, ecc.
Nel settore psichiatrico, le consulenze a livello dell'et
evolutiva hanno spesso origine da problemi di adattamento
scolastico. L'impiego di test di intelligenza nell'esame psico96

logico assume allora le stesse funzioni che per gli psicologi scolastici. Nelle consulenze con adulti, l'esame psicologico avviene in ambito psichiatrico. L'inclusione di test di intelligenza
nell'esame psicologico pu essere motivata dal problema diagnostico incontrato. Si pu ad esempio operare una distinzione tra turbe psichiche e ritardo mentale generale, definire
un ipotetico deterioramento mentale in una persona anziana,
conoscere la misura in cui l'evoluzione di un disturbo psichiatrico ha colpito la funzionalit intellettiva, ecc. Lo psicologo che compie l'esame pu ricorrere a un test di intelligenza
per avere un'idea generale di come il soggetto si comporta di
fronte a un compito da risolvere, del modo con cui Io affronta,
del suo atteggiamento di fronte alle difficolt, delle sue reazioni emotive.
Nell'ambito non psichiatrico, i test di intelligenza vengono
utilizzati nelle consultazioni di neuropsicologia, tra i diversi
strumenti impiegati per fare il bilancio dei danni neurologici
conseguenti a lesioni cerebrali. Nei servizi di medicina generale, essi possono essere utilizzati nel caso in cui si tratti di valutare le eventuali ripercussioni di un disturbo somatico sullo
sviluppo intellettivo (se ad esempio un disturbo della crescita
fisica ha o meno delle ripercussioni sullo sviluppo intellettivo
del bambino). Un test di intelligenza pu anche aiutare a precisare la parte di realt e la parte di sofferenza psicosomatica
nel caso in cui un paziente lamenti che le sue capacit intellettive non sono pi come prima (e la diagnosi in questi casi pu
diventare terapeutica). Nell'ambito giudiziario, un esempio di
impiego dei test di intelligenza quello volto ad apprezzare la
credibilit di una testimonianza.
La variet dei casi in cui i test di intelligenza possono apportare informazioni utili nell'esame psicologico lascia pensare
che il loro impiego sia abbastanza frequente in ambito sanitario. Un'indagine recente condotta in Francia lo conferma [Castro, Meljac e Joubert 19961. Tra gli psicologi clinici interrogati, l'88% considera l'utilizzo dei test indissociabile dalla loro
pratica. Tra i dieci test pi usati cinque sono test di intelligenza
(la WISC, la WAIS, la WPPSI, il K-ABC e la scala di BrunetLzine, che una scala di sviluppo per la prima infanzia). Questa situazione del tutto simile a quella che si potuta osservare su scala mondiale in una ricerca riguardante i test pi utilizzati in 44 paesi [Oakland e Hu 1992], dove emerso che fra
97

i primi dieci test pi utilizzati cinque sono di intelligenza: 1)


\XTISC, 2) Matrici Progressive di Raven, 3) scala Stanford-I3inet, 4) test di attitudini differenziali, 5) WAIS, mentre gli altri
cinque sono test di personalit.
Il movimento di critica dei test che ha caratterizzato gli
anni Settanta aveva anche provocato una riduzione nell'impiego di prove standardizzate, tra gli psicologi clinici. In questo ambito stato essenzialmente sulla base della psicoanalisi,
sulla quale principalmente fondata la psicologia clinica in
Francia, che si sviluppato questo movimento critico. L'inchiesta a cui si fatto riferimento in precedenza mostra che la
situazione decisamente cambiata: Per lungo tempo percepiti come gli strumenti servili della classificazione a tutti i costi o come degli ostacoli inutili sulla via della relazione con l'altro, e quindi considerati come gli oggetti cattivi dello psicologo, i test nella nostra indagine sembrano aver ritrovato il
loro posto nell'attivit valutativa quotidiana dello psicologo clinico [Castro, Meljac e joubert 1996, 76].
2.3. .L'utitzzo dei test di intelligenza nel lavoro
Nell'ambiente del lavoro, i test sono talvolta utilizzati nel
corso di procedure di reclutamento o di orientamento, talora, pi
raramente, anche come aiuto nella decisione sulle competenze.
L'uso dei test di intelligenza n ambito lavorativo ampiamente diffuso anche in Italia. Per esempio, nella selezione del
personale si ricorre frequentemente alla misura dell'intelligenza generale, misura che si dimostra discretamente o altamente predittiva della capacit lavorativa della persona che richiede di essere assunta, in base alla sottostante indicazione che
persone pi intelligenti riescono comunque ad essere in generale, anche se non sempre, migliori lavoratori.
Va aggiunto che in processi di selezione meglio mirati non
ci si basa su un'assunzione di abilit intellettiva generale unica,
ma invece sulla considerazione di abilit differenziate, nell'ipotesi che per certi compiti sia meglio che il lavoratore presenti
abilit in certe componenti e per altri in altre.
Per esempio, se si deve assumere un impiegato che deve
essere abile nell'esaminare carte e nel produrre documenti, le
abilit linguistiche possono essere pi importanti di quelle visuo-spaziali, cosa che al contrario pu essere richiesta nella se98

lezione di operatori per mansioni come potrebbero essere


quelle legate nell'orientamento nello spazio.
Due casi un po' a margine dell'ambiente di lavoro, che per
costituiscono esempi significativi di utilizzazione dei test di intelligenza, sono rappresentati dal mondo militare e dall'esame
di guida.
In ambito militare l'uso dei test di intelligenza stato sempre amplissimo, tanto che le somministrazioni pi estese e le
standardizzazioni con elevati numeri di soggetti hanno interessato l'esercito.
Anche l'esame di guida pu richiedere l'uso di test cognitivi, per valutare la capacit della persona ad affrontare situazioni particolari; tuttavia in questo caso generalmente si sottolinea l'importanza di usare test pi specificamente legati ai
compiti della guida, come per esempio prove di attenzione.
In Francia un caso interessante che mostra l'applicazione
dei test al mondo del lavoro quello che riguarda le imprese
di trasporti. In queste aziende, i test erano inizialmente utilizzati solo per il reclutamento degli autisti o dei macchinisti. Negli anni Sessanta, in Francia, il loro utilizzo si esteso al reclutamento per altre mansioni di sicurezza, poi, negli anni Settanta, alle funzioni commerciali e infine al reclutamento per
tutte le mansioni. Questa rivoluzione della politica di reclutamento avvenuta in completo accordo con i sindacati.
Da allora, candidati all'impiego nelle ferrovie francesi
(SNCF), che sono diverse migliaia ogni anno, sono sottoposti
a una batteria composta di test di intelligenza, test psicomotori
e test di personalit. Questa batteria viene proposta anche nel
corso della carriera per ragioni di riorientamento o di promozione. I test di intelligenza sono test fattoriali analoghi al PMA
presentato nel capitolo precedente; corrispondono ai fattori
principali classicamente individuati nelle analisi fattoriali di
compiti intellettivi: verbale, numerico, spaziale, di ragionamento e percettivo. La batteria composta anche da qualche
test pi specifico che valuta l'efficienza in compiti di confronto,
caratteristici di attivit di ufficio, o in compiti di attenzione (gestione simultanea di diversi stimoli) tipici di certi impieghi nel
campo della sicurezza.
La somministrazione di queste prove informatizzata e
dura circa un'ora e trenta minuti. Questo tipo di somministrazione ha vantaggi di flessibilit e consente una correzione au99

tomatica. La batteria stata standardizzata su un campione di


7.000 soggetti. La validazione non ha riguardato alcuna delle
prove prese singolarmente, ma la globalit della prova, pi O
meno favorevole al reclutamento in una mansione specifica,
che lo psicologo fornisce a partire dall'insieme delle informazioni raccolte. Per quanto riguarda i test di intelligenza, lo psicologo si interessa solitamente dell'andamento del profilo di
abilit e del suo adeguamento alla funzione postulata. A titolo
d'esempio, un profilo in cui dominano le abilit verbali giudicato pi compatibile con le funzioni commerciali che un profilo nel quale queste abilit costituiscono un punto debole.
profilo di abilit viene valutato anche dal punto di vista della
sua coerenza o della sua incoerenza con la formazione del
soggetto o il suo diploma. Le questioni che nascono dalla relazione tra i risultati al test ed altri elementi di informazione
costituiscono gli argomenti di colloquio con il candidato. L'esame psicologico comporta in effetti due colloqui, uno prima
della somministrazione dei test, l'altro sulla base dei risultati.
Nel corso del colloquio finale, lo psicologo indica al candidato
il giudizio pi o meno favorevole sulla mansione richiesta, che
trasmetter alla persona incaricata dell'assunzione del personale (il parere dello psicologo non che uno degli elementi
presi n considerazione per la decisione di assunzione). Se il
candidato lo desidera, lo psicologo gli fornisce anche un resoconto sui punti forti e deboli del suo profilo di risultati e, all'occorrenza, un consiglio per l'orientamento.

QUADRO 2.

che colloca la prestazione del


soggetto in relazione a quella
della sua popolazione di riferimento. L'informatizzazione della
somministrazione
razione pu infine
dare informazioni sui tempi di risposta ai differenti item e pi in
generale sulla gestione del tempo
nel corso della prova.
Un secondo livello di utilizzo delle risorse informatiche
consiste nel rendere la somministrazione interattiva. In questo
caso, il computer programmato
per adattare gli item da proporre
alle risposte del soggetto. Ci
consente di determinare abbastanza rapidamente, con domande critiche, il livello di difficolt che un soggetto in grado
di superare e, una volta definito
questo limite, di determinare il
livello di efficienza all'interno.
Questa somministrazione personalizzata, che riduce rapidamente il campo degli item utili,
consente di ridurre i tempi di
somministrazione conducendo
ad una diagnosi pi sensibile.
Il terzo livello di utilizzo
delle risorse informatiche consiste nel formulare un modello dei
processi cognitivi in gioco nella
soluzione del test e concepire su

questa base la situazione di test


(insieme degli item concepiti per
isolare i diversi processi ipotizzati) e gli indici comportamentali
(caratteristiche dei tempi di risposta e degli errori) che permetteranno di caratterizzare all'interno di questo modello i processi messi in atto da ogni soggetto. A questo livello non si
tratta pi soltanto di inserire i
test esistenti su di un supporto
informatico per utilizzarli in
modo pi efficace, ma di concepire nuovi test in funzione delle
nuove possibilit aperte dall'informatica per l'analisi dei processi cognitivi. L'informatizzazione fornisce i mezzi per analizzare in tempi reali una grande
quantit di informazioni grazie
alle quali possibile creare un
modello della dinamica del comportamento del soggetto nel
corso della risoluzione del test. I
tentativi fatti a questo livello
sono ancora molto rari. Gli ostacoli sono soprattutto teorici: le
nostre conoscenze sui processi
cognitivi umani consentono per
ora di creare solo modelli piuttosto grossolani della dinamica
di soluzione di problemi di un
soggetto.

L'INFORMATIZZAZIONE DEI "l'Est

Si possono distinguere tre


grandi livelli di utilizzo dell'informatica nella testistica. La
prima consiste nel presentare su
di tino schermo gli item che
prima erano mostrati su carta e
far scegliere la risposta corretta
con la tastiera o il mouse piuttosto che segnando con la matita.
Uno dei vantaggi dell'informa
100

tizzazione quello di evitare alcune delle costrizioni della somministrazione collettiva, permettendo ad ognuno di procedere
secondo il suo ritmo sulla sua postazione di lavoro. Un secondo
vantaggio non trascurabile
quello di automatizzare la correzione: possibile avere alla fine
della somministrazione il listato

L'utilizzo dei test tradizionale e sistematico anche nell'esercito, nelle procedure di selezione delle giovani reclute. Per
selezionare e orientare le 400.000 reclute che l'esercito chiama
ogni anno, in Francia stata messa a punto una procedura in
cui i test di intelligenza hanno un ruolo importante. I test utilizzati sono dei test fattoriali di abilit del tipo eli quelli del
PMA e dei test psicomotori. Come in tutti i casi in cui si debba
101

esaminare un gran numero di soggetti, l'esercito si orientato


verso l'informatizzazione della somministrazione. Nel quadro
2 si possono trovare alcune precisazioni sull'evoluzione che
l'informatizzazione ha provocato nel mondo dei test.
Il sistema ESPACE (impiego di un sistema di somministrazione automatica e di correzione degli esami) messo a
punto dall'esercito si situa al secondo dei livelli di utilizzo dell'informatica, con l'ambizione di evolvere verso il terzo di questi livelli, almeno sul piano della ricerca. La batteria di test include i test psicomotori e i test fattoriali di intelligenza corrispondenti alle principali abilit. Ogni soggetto svolge le prove
in una cabina chiusa che lo pone in condizioni d'isolamento
analoghe a quelle che egli potrebbe sperimentare ad esempio
nella cabina di pilotaggio di un carro armato. Egli di fronte
ad una postazione di lavoro che possiede dei dispositivi per i
quali pu ricevere informazioni (uno schermo e degli altoparlanti) e dei dispositivi con i quali rispondere (bottoni, maniglie
e pedali). La somministrazione interattiva. Ad esempio, se le
prime informazioni fornite per iscritto sono comprese male e
fanno sospettare un problema d analfabetismo, le informazioni vengono presentate oralmente nel corso dell'esame. Secondo la medesima logica, la somministrazione organizzata
in modo che il soggetto raggiunga in ognuna delle prove il limite delle sue capacit d apprendimento e delle sue capacit
attentive (aggiungendo, una volta raggiunto il tetto di apprendimento, un numero crescente di compiti concorrenti che devono essere svolti contemporaneamente).
I profili di abilit nella batteria dei test vengono utilizzati
per inserire le reclute nelle otto grandi categorie di impiego definite dall'esercito (ad esempio, addetto alle armi da combattimento, tiratore con armi di grosso calibro, ecc.). Le predizioni
fatte sulla base dei test sono state validate prendendo come criterio il successo in diversi impieghi.
La validazione dei test utilizzata in procedure di selezione
professionale pone spesso un problema difficile nella misura in
cui non pu poggiare che sui risultati dei soggetti selezionati. I
coefficienti di validit tra risultati ai test all'ingresso e l'ulteriore successo professionale, o il successo ulteriore in una formazione selettiva, sono spesso deboli per la debole dispersione
delle performance al test di coloro che vengono selezionati (poich la selezione ha favorito solo quelli con i punteggi pi ele102

vati). L'ideale sarebbe scegliere i soggetti completamente a caso,


senza tenere conto dei test, per poter validamente calcolare in
seguito la correlazione tra un certo profilo ai test e il successo
in diverse categorie di professioni. Questa opportunit stata
offerta ai servizi psicotecnici dell'esercito, a titolo sperimentale
n alcune unit dell'esercito, per validare la procedura d selezione ESPACE (stando attenti affinch i soggetti non vengano
in alcun modo danneggiati da questa procedura, e vengano riassegnati secondo le loro abilit dopo un periodo di prova).
Questi esempi di utilizzo sistematico dei test di intelligenza
come elementi considerati ai fini del reclutamento non devono
far pensare che questa pratica sia diffusa. In Francia le procedure di reclutamento nelle imprese s basano essenzialmente sul
curriculum vitae (come in Italia), su un colloquio non strutturato e, spesso, sull'analisi grafologica. La grafologia una peculiarit francese [Levy-Leboyer 994] tanto pi sorprendente
se si considera che studi metodologicamente rigorosi non hanno
mai mostrato una qualsiasi validit di questa forma di valutazione. Secondo le indagini che hanno riguardato i metodi di selezione utilizzati dalle imprese o dalle agenzie di reclutamento,
la percentuale di selezioni in cui utilizzata la grafologia, quasi
nulla negli altri paesi del mondo, in Francia va dal 93% [Bruclion-Schweitzer e FerfiCLIX 1991] al 49% dei casi [Shackleton
e Newell 1991]. I test cognitivi e i questionari di personalit
sono utilizzati in modo simile, nel 30% dei casi circa.
Nel settore del lavoro, test fattoriali d'intelligenza vengono
talvolta utilizzati anche per l'orientamento ad una formazione
qualificante. Questo tipo di impiego abbastanza sistematico
presso l'Associazione per la formazione professionale degli
adulti (AFPA), che propone diversi stage di formazione agli
adulti con l'obiettivo di fornire una qualificazione o un reinserimento professionale. I profili ottenuti ad una batteria di test
fattoriali di abilit uno degli elementi che vengono presi in
considerazione per l'orientamento dei candidati nella scelta dei
diversi stage proposti dall'AIDA: stage preparatori piuttosto
che direttamente una formazione qualificativa e, in questo secondo caso, tra le diverse formazioni qualificative.
I test di intelligenza sono talvolta utilizzati anche in centri
di bilancio delle competenze. Questi centri sono stati istituiti
in Francia da una legge del 1991 che ha aperto a tutti i dipendenti delle aziende, e pi in generale a tutti i volontari, il di103

ritto di analizzare le proprie competenze professionali e personali ed anche le attitudini e le motivazioni al fine di definire
un progetto di formazione e/o un progetto professionale.
Chiunque lo desideri pu chiedere di beneficiare di un bilancio di competenze, il cui costo pu essere addebitato alla voce
piano di formazione sia della sua ditta, sia di un organismo
simile. Non raro che le persone che chiedono di beneficiare
di questo servizio esprimano, agli psicologi che lavorano in
questo centro e li aiutano a fare il bilancio delle loro competenze, il desiderio di includere test di intelligenza tra gli elementi di valutazione.
Riassumendo, questa presentazione dei principali impieghi
dei test di intelligenza, soprattutto in Francia, mostra che, nell'ambito dell'educazione e della sanit, i test sono principalmente utilizzati per l'aiuto diagnostico, mentre, nell'ambito del
lavoro, essi sono impiegati soprattutto per l'inserimento sociale. Nel primo caso sono utilizzate soprattutto le scale di intelligenza a somministrazione individuale, mentre nel secondo
caso i test fattoriali a somministrazione collettiva, con un interesse marcato per l'analisi del profilo di abilit. In questo secondo caso, l'informatizzazione dei test e la somministrazione
individuale su di un terminale video tendono a rimpiazzare la
somministrazione in gruppo nella forma carta e matita.

Etica e deontologia

3.

La preoccupazione di disporre cli test affidabili ed equi ha


condotto a definire rigide norme per la loro costruzione e applicazione, accordando, soprattutto negli Stati Uniti, un posto
particolare all'individuazione di eventuali errori (biases) culturali. In parallelo, mentre gli psicologi elaboravano codici deontologici, stata messa a punto in numerosi paesi una regolamentazione alle pratiche di testing, al fine di fornirne un quadro anche giuridico.
3.1.

Norme e biases culturali

Definite da gruppi di psicologi di riconosciuta competenza,


essenzialmente tecnici e professionisti, le norme forniscono criteri per valutare la qualit dei test (non semplicemente i test di

1.04

intelligenza ma anche, naturalmente, i test di conoscenza scolastica e i questionari di personalit) e le pratiche che li riguardano. Tutti gli studiosi e gli utilizzatori dei test sono invitati a
conoscerle. Alcune di queste norme sono molto dettagliate.
Quelle pubblicate negli Stati Uniti e adattate regolarmente dal
19.54, gli Standards for Educational and Psycbological Testing, ch
gran lunga le pi complete, riempiono un buon centinaio di pagine. Per quanto riguarda la costruzione dei test, le norme richiamano le esigenze della metodologia psicometrica. Si insiste
naturalmente sulla necessit di disporre di informazioni riguardanti la validit delle prove (validit teorica e validit empirica
in relazione agli obiettivi proposti) e la loro fedelt. Si raccomanda anche di procedere a periodiche revisioni dei test. Que ste devono infatti poter beneficiare delle ricerche condotte sulla
versione precedente ed necessario dunque verificare periodicamente che siano sempre adeguate agli obiettivi preposti. Si
sottolinea infine che assolutamente necessario disporre di
punteggi standardizzati il pi possibile attuali e rispettare procedure precise nel momento in cui si confrontano punteggi ottenuti con prove diverse o in condizioni diverse. Le norme riguardano anche le modalit di utilizzo dei test distinguendo diversi settori di applicazione: la pratica clinica, la psicologia scolastica, l'orientamento, la selezione, l'utilizzo dei test per la certificazione professionale (non si tratta pi in questo caso di test
d'intelligenza in senso stretto) e per la valutazione di programmi
educativi e sociali. Si insiste sulle competenze richieste a chi
vuole impiegarli e sulla natura delle informazioni di cui devono
disporre (fornite dai manuali che accompagnano le prove) al
fine di fare dei test il miglior uso. Infine, le norme trattano problemi particolari posti dal testing delle minoranze linguistiche
e dei gruppi che vivono in condizioni piuttosto difficili, il che
ci pone la questione dei biases culturali.
Questa questione stata sollevata, l'abbiamo visto, fin dall'inizio degli anni Cinquanta da Eels e collaboratori. Essa ha
forti implicazioni pratiche nella misura in cui i test, se distorti,
sottostimano il merito di alcuni gruppi rispetto ad altri. Queste implicazioni sono forti in tutti i paesi in cui si utilizzano test
a fini di selezione poich ovunque si incontrano differenze sociali, di natura etnica, socioeconomica o sessuale, che possono
dare origine a biases. Negli Stati Uniti, giuristi e psicologi
hanno dato a questa questione un'attenzione particolare, in se105

guito alla legge sui diritti civili, nel 1964, il cui obiettivo era di
eliminare tutte le forme di discriminazione.
Dalla fine degli anni Sessanta, i tribunali hanno avuto a che
fare con numerose lamentele di persone e di gruppi che si ritenevano lesi dalle procedure di valutazione attraverso i test.
Alcuni processi sono stati ampiamente commentati dalla
stampa e sono divenuti celebri. Alcuni genitori hanno contestato il fondamento dell'inserimento dei loro bambini in classi
per ritardati, alcuni candidati all'iscrizione all'universit hanno
ritenuto la loro non-ammissione del tutto ingiustificata, professionisti alla ricerca di un impiego hanno creduto di essere
stati ingiustamente scartati. Bench le norme giuridiche non
siano perfettamente coerenti, in numerosi casi i test sono stati
messi sotto accusa e i loro autori ingiunti a produrre modalit
di valutazione non distorte.
Si cos sviluppata una corrente di ricerche sui biases. In
modo molto generale, si afferma che c' un bias quando i punteggi ad un test non hanno lo stesso significato, la stessa vali
dita per individui appartenenti a gruppi diversi. Nell'ambito
delle operazioni di selezione, questa differenza di significato
pu condurre a penalizzare un gruppo. Prendiamo un esempio fittizio. Ci sono due gruppi: un gruppo favorito F e un
gruppo sfavorito D. I punteggi di F sono superiori a quelli di
D in un test. Se si utilizza la correlazione positiva tra questo
test e un criterio (l'efficienza professionale ad esempio) per
procedere ad una selezione, s sceglier per forza un maggior
numero di persone del gruppo F. Ma pu anche darsi che non
esistano differenze tra il gruppo F e il gruppo D al criterio (se
emerge che in media i soggetti del gruppo D hanno gli stessi
punteggi di quelli del gruppo F). Il test pu, in effetti, predire
accuratamente il successo al criterio all'interno di ogni gruppo,
ma non le differenze di successo tra i gruppi. In questo esempio, una selezione fondata sui punteggi al predittore penalizza
ingiustamente il gruppo D ed in questo senso distorta a favore del gruppo F.
In linea di principio, l'origine dei biases pu essere diversa,
la stessa caratteristica psicologica pu non avere lo stesso significato nei due gruppi se interagisce con altre caratteristiche
dei soggetti di tali gruppi (si pu pensare, ad esempio, che l'intelligenza misurata da uno stesso test non abbia lo stesso significato a seconda che i soggetti sappiano leggere o meno). La
106

modalit di somministrazione e di correzione del test pu avere


effetti diversi a seconda dei gruppi (se i test sono proposti da
donne, questo pu influenzare diversamente ragazzi e ragazze?). La struttura interna delle risposte pu non essere la
stessa da un gruppo all'altro.
Le ricerche sull'eventuale presenza di diversi biases ha mostrato che i test attuali non sono o sono poco distorti. Un test
pu dunque distinguere dei gruppi senza per questo essere distorto. Questa affermazione non tuttavia condivisa unanimemente: per alcuni la sola differenza tra due gruppi testimonia
un bias, o, in altri termini, tutte le differenze tra gruppi sono effetto di un errore di misura o di un artefatto. Tale ipotesi difficile da verificare, soprattutto quando si tratta di gruppi che,
in seno ad una data cultura, non dispongono delle stesse opportunit per sviluppare le loro capacit [Lautrey 1980a1.
Certamente, sarebbe augurabile, che gli individui di differente origine sociale fossero ugualmente rappresentati nei diversi settori della societ; che, ad esempio, all'interno dell'universit ci fosse la stessa percentuale di figli di operai e di figli
di dirigenti. Per approssimarsi ad un tale obiettivo si pu praticare una discriminazione positiva a favore dei gruppi svantaggiati e permettere cos ad alcuni dei loro membri di superare le barriere di selezione. In alcune universit americane, ad
esempio, sono stati imposti dei livelli percentuali di rappresentativit per assicurare un'equa presenza di bianchi e di neri.
Cos facendo, in funzione dei valori, si cambiano i criteri di selezione. Il criterio meritocratico classico a ciascuno secondo
le proprie capacit ponderato da un criterio pi collettivo
fare in modo che la societ guadagni in coesione . I beneficiari della discriminazione positiva saranno senza dubbio soddisfatti, ma gli altri si riterranno lesi e sosterranno, eventualmente davanti a un tribunale, che non stato equo escluderli
a favore di altri, meno capaci. Questi problemi di inserimento
sociale corrispondono a delle dinamiche sociopolitiche di portata maggiore che superano la questione posta dai test, anche
se i test contribuiscono ad esplicitarle e formalizzarle.
3.2. Codice deontologico e legislazione
La riflessione sull'etica, che individua dei valori, e la deontologia, che concerne la morale professionale, si sviluppata
107

tra gli psicologi all'indomani della seconda guerra mondiale. I


primi codici deontologici elaborati dalle organizzazioni professionali di psicologi si collocano intorno agli anni CinquantaSessanta. In Francia, la Societ francese di psicologia pubblic
il suo codice deontologico nel 1961 (un nuovo codice, stabilito
in collaborazione con altre organizzazioni di psicologi, stato
adottato nel 1996). In Italia un codice deontologico in vigore
dal 16 febbraio 1998, a seguito di un referendum condotto su
tutto il territorio nazionale. I codici deontologici riguardano
l'insieme delle pratiche psicologiche. Possono essere generali
o centrati pi in specifico su di un ambito (la psicologia scolastica, del lavoro o la ricerca). I codici non hanno valore legale
ma esprimono semplicemente delle regole di condotta (vedi
quadro 3). Le organizzazioni professionali che li hanno preparati non soltanto invitano i loro membri a rispettarli, ma assicurano loro sostegno nel caso in cui sia difficoltoso metterli in
pratica nel loro ambiente di lavoro. Tutti i codici si collocano
in una prospettiva umanista: lo psicologo deve rispettare i diritti fondamentali delle persone, l loro libert e la loro dignit.
I codici insistono anche sulla necessit di utilizzare, in maniera
illuminata, delle tecniche valide Wourguign.on 1994; Dupont
1994; Levy-Leboyer 1987; Schlegel 19941.
Il recente codice deontologico italiano risulta ispirato a
quattro imperativi. Il primo quello della tutela del rapporto
fiduciario che intercorre tra lo psicologo e chi si avvale delle
sue prestazioni. Il rispetto delle persone, della loro dignit e
della loro vita privata assicurato dal segreto professionale,
dalla confidenzialit con cui trattato anche l'accesso alle informazioni raccolte e dalle limitazioni alle possibili indagini.
Lo psicologo in principio tenuto al segreto professionale. il
beneficiario del servizio psicologico il proprietario e l'unico
destinatario dei risultati dettagliati dell'indagine. Nel caso di
collaborazione con altri soggetti tenuti al segreto professionale
lo psicologo pu condividere solo le informazioni strettamente
necessarie al tipo di collaborazione.
Il secondo imperativo dato dalla necessit di possedere
una competenza specifica all'abilit professionale; ci implica
l'obbligo di fornirsi di questa competenza e di aggiornarla adeguatamente. La qualit delle prestazioni offerte dagli psicologi
dipende a sua volta dalla loro qualifica e dai loro metodi. In
Italia il titolo di psicologo viene attribuito dopo cinque anni di
108

formazione universitaria e deve essere seguito da un anno di tirocinio e da un esame di stato per l'autorizzazione ad esercitare la professione.
Le indicazioni fornite dal codice deontologico rimangono
tuttavia spesso piuttosto vaghe e la loro applicazione talvolta
problematica. Cosa si intende per una tecnica scientificamente
valida se non ci si riferisce a delle norme? Qual l'informazione veramente pertinente da cercare in una diagnosi o in una
procedura di selezione? Nel contesto dell'aiuto agli altri probabilmente pi facile rispettare il codice deontologico, anche
se le problematiche sollevate sui test e in particolare sui test di
intelligenza investono questo ambito con tutta la loro forza. In
altri ambiti comunque la situazione anche peggiore. La privacy messa in discussione nelle procedure di selezione: lo psicologo obbligato a fornire informazioni sul candidato perch
pagato per questo!

QUADRO 3.
LA DEONTOLOGIA DELL'USO DEI TESI

Ecco alcuni articoli del co-


dice francese del 1996 che riguar-
dano le modalit tecniche dell'e-
sercizio della professione, moda-

lit che includono l'impiego dei

test. La pratica dello psicologo
non si riduce ai metodi e alle tec-
niche che egli mette in atto. Essa
indissociabile da una valuta-
zione critica e da un'analisi teo-

rica di queste tecniche (articolo
17). Le tecniche utilizzate dallo

psicologo per la valutazione, a fini
diretti di diagnosi, di orienta-
mento o di selezione, devono es-
sere state scientificamente vali-
date (articolo 18). Lo psico-
logo consapevole del carattere
relativo delle sue valutazioni e in-
terpretazioni. Non trae conclu-
sioni riduttive o definitive sulle

abilit o sulla personalit degli individui quando appunto queste


conclusioni possono avere un'influenza diretta sulla loro esistenza (articolo 19).
Anche il codice deontologico italiano riporta in alcuni articoli indicazioni sull'uso di strumenti e sulla loro interpretazione. Tali indicazioni, per, volendo essere generali e applicatili
ad ambiti diagnostici e di ricerca,
perdono parte della potenziale
incisivit presente invece negli
articoli francesi. In particolare
nell'articolo 5 troviamo che Lo
psicologo
usa strumenti teorico-pratici per i quali ha acquisito adeguata competenza
.
Lo psicologo impiega meiodologie delle quali in grado di indi-

109

care le fonti e i riferimenti scientifici, e non suscita, nelle attese


del cliente e/o utente, aspettative
infondate. Mentre nell'articolo
7 viene sottolineata l'importanza
dell'attendibilit e validit dei

dati: lo psicologo valuta attentamente, anche in relazione al


contesto, il grado di validit e di
attendibilit di informazioni,
dati e fonti su cui basa le conclusioni raggiunte.

NOTE AL CAPITOLO QUARTO

' Tl comportamentismo una corrente teorica che, nelle sue forme pi


radicali, limita la psicologia alla ricerca di leggi che legano ad un comportamento un determinato stimolo, rifiutando il ricorso a variabili secondarie
che intervengono tra l'entrata (stimolo) e l'uscita (la risposta).
= Il cognitivismo si oppone al comportamentismo per il fatto che considera l'esistenza di attivit interne, quelle che si articolano tra lo stimolo e
il comportamento, come parte integrante della psicologia scientifica.

110

CONCLUSIONI

Un test un dispositivo d'osservazione concepito per valutare certe caratteristiche psicologiche degli individui, collocando le loro condotte in relazione a quelle che sono state osservate in seno alla popolazione alla quale gli individui appartengono. Per compiere questa funzione un test deve essere
stato standardizzato, e le misure che il test consente di raccogliere devono essersi mostrate valide ed affidabili. L'intelligenza non l'unica caratteristica psicologica che possa essere
valutata dai test: esistono infatti test di conoscenza di vari domini, test psicomotori, test d personalit, ecc. La particolarit
dei test di intelligenza di valutare un'abilit piuttosto generale di adattamento cognitivo a situazioni nuove. Questo metodo di valutazione dell'intelligenza ha mostrato il suo interesse, ma anche i suoi limiti.
Due tipi di limitazione dei test d'intelligenza devono essere
tenuti in considerazione nel loro utilizzo. Uno riguarda il livello
di generalit effettivo della capacit di adattamento cognitivo
valutata, l'altro riguarda la molteplicit dei determinanti della
performance osservata.
Sul primo punto, bisogna innanzi tutto osservare che la validit di un test d'intelligenza limitata alla cultura in seno alla
quale il test stato concepito. L'intelligenza umana si sviluppa
attraverso l'uso di linguaggi, di simboli, di rappresentazioni che
sono gli strumenti del pensiero e danno significato alle situazioni.
il funzionamento dell'intelligenza umana inscindibile dagli
strumenti simbolici e concettuali sui quali si basa. La situazione
test nel suo insieme (la relazione individuale con l'esaminatore,
il materiale utilizzato, il tipo di problema posto, ecc.) non consente di valutare le capacit di adattamento del soggetto testato
a meno che tale situazione non abbia per lui un senso.
Immaginiamo per un istante che il problema della diagnosi
del ritardo mentale si sia posta nella societ pigmea. Gli item
111

che un collega di Binet avrebbe scelto come marcatori delle


differenti tappe dello sviluppo cognitivo dei bambini pigmei
sarebbero stati ben diversi da quelli di Binet e Simon. Avrebbero riguardato problemi significativi nella societ pigmea e relativi ad ambiti importanti per l'adattamento in questa societ.
La scala di Binet-pigmeo avrebbe potuto articolarsi in item riguardanti la costruzione o l'utilizzo efficiente cli un arco, di
orientamento in uno spazio su grande scala, ecc. E verosimile
che le performance di piccoli occidentali in una scala di questo tipo non sarebbero altrettanto predittive del loro successo
scolastico del Binet-Simon, non pi di quanto la performance
al Binet-Simon dei bambini pigmei sarebbe un buon predittore
della capacit di adattamento cognitivo alla societ pigmea. I
tentativi di costruzione di test di intelligenza indipendenti dalla
cultura non hanno avuto successo. Anche quando ci si sforza
d ridurre il ruolo delle conoscenze, del linguaggio, risulta che
la condotta del soggetto dipende dalla rappresentazione che
egli si fatto di ci che ci si aspetta da lui in questa situazione,
e tale rappresentazione dipende dal contesto culturale in cui
l'individuo stato educato. La contestualizzazione dell'intelligenza limita necessariamente la generalit della capacit di
adattamento cognitivo valutata e rende priva cli senso l'idea
stessa di intelligenza indipendente dalla cultura. I test descritti
in quest'opera non hanno dunque validit che con gli individui cresciuti in societ i cui modi di pensare sono sufficientemente prossimi a quelli dove test sono stati concepiti.
Un secondo limite di carattere generale della capacit di
adattamento cognitivo valutata da questi test riguarda ci che,
anche in una cultura come la nostra, essi non valutano, in altre
parole tutte le categorie di situazioni che richiedono una differente forma di intelligenza. Ad esempio, la capacit di interpretare le disposizioni d'animo e i sentimenti degli altri verso
se stessi da indici comportamentali non verbali (espressioni del
viso, gesti, posture, ecc.), la capacit di controllare l'espressione delle proprie emozioni, la capacit di influenzare gli altri sono delle componenti cli ci che stato definito intelligenza
sociale o intelligenza emozionale. Questa intelligenza gioca un
ruolo importante nell'adattamento alla vita in societ. La capacit di influenzare gli altri, ad esempio. probabilmente di
grande importanza nell'ambito commerciale o in quello politico. Nei test classici non vi valutazione di questa forma di in112

telligenza, bens il test essenzialmente verbo-concettuale. Diversi tentativi di costruzione di test di intelligenza sociale
hanno dato risultati ancora incerti: la validit e la fedelt di questi test si sono dimostrate inferiori a quelle dei test di intelligenza verbo-concettuale. Certe componenti dell'intelligenza
sociale sono in correlazione con l'intelligenza verbo-concettuale, mentre altre no, il che limita, ancora una volta, la generalit dell'intelligenza misurata dai test descritti in quest'opera.
Questi test valutano soprattutto la forma d'intelligenza necessaria per andare bene a scuola, e, pi generalmente, per apprendere nel contesto di un insegnamento esplicito. Si tratta
dell'intelligenza che si chiama talvolta accademica o geometrica. Non bisogna sottostimare l'importanza di questa
forma di intelligenza, n la relativa generalit del suo utilizzo
nella nostra societ. Essa gioca in effetti un ruolo primordiale
nelle societ complesse in cui l'acculturazione passa in buona
parte attraverso una trasmissione scolastica dei saperi. Ma, al
di l di questo, essa non esaurisce la diversit delle risorse cognitive umane.
In seno all'intelligenza stessa che noi abbiamo chiamato
verbo-concettuale, le analisi fattoriali dei test hanno permesso
di distinguere diverse dimensioni corrispondenti ad abilit relativamente differenziate (verbale, numerica e spaziale). Il fatto
che esistano delle correlazioni positive tra tutti questi test la
scia tuttavia spazio ad un fattore generale di successo nell'insieme dei test. C' un consenso abbastanza ampio, in epoca recente, su di un modello gerarchico della struttura fattoriale dell'intelligenza costruito a sua volta da un fattore generale di intelligenza e da fattori di gruppo corrispondenti ad abilit distinte. Si pu dunque effettivamente parlare di un fattore di intelligenza generale, ma soltanto se si tratta di un fattore d intelligenza verbo-concettuale.
Un secondo tipo di limite dei test di intelligenza riguarda
la molteplicit delle determinanti della performance osservata.
Una stessa performance in un test pu essere ottenuta con meccanismi diversi, strategie diverse; il soggetto pu essere pi o
meno familiare con il contenuto del test; uno stesso punteggio,
uno stesso QI, uno stesso scarto tra OI verbale e Qi performance possono avere significati diversi. Il risultato ad un test di
intelligenza deve essere messo in relazione con l'insieme delle
informazioni raccolte nel corso dell'esame psicologico per po113

ter essere interpretato. Questa ambiguit' della performance


rende alquanto discutibili le pratiche in cui, alla semplice vista
del risultato al test, s danno consigli o si prendono decisioni
relative all'inserimento sociale degli individui.
La standardizzazione dei test fa in modo che, con un apprendimento ridotto, quasi chiunque possa somministrare un
test di intelligenza. Da qui a ritenere che non abbia importanza
chi interpreta il risultato del test il passo breve e, ahim, talvolta lo si fa. Si manifestano periodicamente pressioni affinch
l'utilizzo dei test non sia solo riservato ai detentori del titolo di
psicologo. Nello stesso ordine di idee, ora si propone su Internet di testare da s la propria intelligenza, o pi grave ancora, di testare da s l'intelligenza del proprio bambino. Questa tendenza ci sembra pericolosa in quanto solo la formazione
psicologica consente di conoscere i diversi limiti dei test di intelligenza e i problemi deontologici posti dal loro utilizzo.
L'interesse della corrente di ricerca sui test di mirare a
stabilire dei fatti che siano ripetibili per chiunque si ponga nelle
stesse condizioni. Questo obiettivo centrale di ogni tentativo
di misurazione e deve quindi essere anche al centro di ogni tentativo di valutazione oggettiva dell'intelligenza. La standardizzazione mira a rendere la valutazione il meno dipendente possibile dalla persona che la effettua e dunque a renderla ripetibile, pubblica e trasparente. Il coefficiente di stabilit indica
inoltre in che misura questa valutazione ripetibile nel tempo.
I dispositivi che assicurano la ripetibilit della valutazione sono
lontani dall'essere perfetti e sono essi stessi suscettibili di evoluzione. Ci si pu ad esempio immaginare modalit pi soddisfacenti di standardizzare la somministrazione di un test che
non mettere tutti i soggetti strettamente nella stessa situazione.
Ma l'esigenza sottostante deve essere mantenuta. Essa ha come
obiettivo quello di rendere la valutazione accessibile ad una verifica e all'analisi critica di ognuno.
Il metodo dei test permette anche di inscrivere la procedura di valutazione nella direzione di una verifica vera e propria dell'approccio scientifico. Stabilire la validit teorica di un
test di intelligenza non diverso dal sottoporre a verifica le concezioni che hanno ispirato la sua costruzione. Le concezioni
dell'intelligenza che hanno guidato la costruzione dei primi test
non erano certamente delle teorie molto elaborate, ma i successivi sviluppi teorici hanno consentito di comprendere me114

glio perch certi item, che erano stati scelti in partenza in una
prospettiva pratica, erano buoni indicatori dell'efficienza cognitiva. Alcuni esempi di questi ritorni della teoria sui test sono
stati forniti in quest'opera, proprio a proposito della reinterpretazione degli item delle matrici progressive nel contesto di
modelli di elaborazione dell'informazione. All'inverso, la costruzione di test che operazionalizzano una teoria dell'intelligenza ha talvolta contribuito a metterla in questione. cos che
l'elaborazione di test ispirati alla teoria di Piaget ha contribuito
a scuotere la concezione degli stadi di sviluppo cognitivo che
si fondavano su questa teoria.
- Se la costruzione dei test di intelligenza si inscritta fin dall'inizio in questo percorso di mutuo scambio tra elaborazione
teorica e verifica empirica, ci si pu tuttavia rammaricare del
fatto che la relazione tra ricerca di base e la sua applicazione
stata a lungo molto limitata. Ci sono per questo delle ragioni
storiche. Per Binet, la riflessione teorica sull'intelligenza e la
messa a punto di una scala destinata a misurarla erano due momenti strettamente articolati di uno stesso percorso. Il successo
dei test stato tale per il fatto che la risposta ad una domanda
sociale ha richiamato i ricercatori dalle loro questioni teoriche.
Bisogna aggiungere a questo che, anche se l'avessero voluto,
difficilmente gli psicologi che utilizzavano i test di intelligenza
avrebbero avuto modo di rinnovarli teoricamente nella fase di
ricerca in psicologia in cui ha dominato il comportamentismo.
Lo sviluppo del cognitivismo, che ha preso slancio a partire dagli anni Settanta, offre un quadro pi favorevole al rinnovamento delle idee sul funzionamento dell'intelligenza. Le ricerche hanno per ora rivolto il loro interesse alla rappresentazione
dei processi di elaborazione dell'informazione in gioco nella
soluzione degli item dei test esistenti piuttosto che all'elaborazione di nuovi test [Huteau 1995; Huteau e Lantrey 1978; Lautrey 1995; Lautrey e Huteau 1990]. La situazione attuale sembra tuttavia pi favorevole di quella passata n quanto la ricerca
di base su differenti aspetti del funzionamento intellettivo e la
costruzione di strumenti che consentano di valutarli praticamente camminano parallelamente e con uno stesso passo.

115

LETTURE CONSIGLIATE

Il lettore che intenda approfondire i temi affrontati nel volume


qui di seguito trover segnalati alcuni titoli in edizione italiana.
Per quanto riguarda la definizione del concetto di intelli g enza e
le teorie ad esso collegate utili approfondimenti si trovano nelle opere
di Stenberg: R.J. Stenberg, Teorie dell'intelligenza, Milano, Bompiani,
1987; R.J. Stenberg e L. Spear-Sweding, Le tre intelligenze. Come potenziare le capacit analitiche, creative e pratiche, Trento, Erickson,
1997 e in II. Gardner, Formae mentir. Saggio sulla pluralit della intelligenza, Milano, Feltrinelli, 1991.
In ambito della teoria dei test il volume di L. Boncori, Teoria e
tecniche dei test, Torino, Bollati Boringhieri, 1993 offre assieme a
quello di A. Anastasi, I test psicologici, Milano, Angeli, 1995" un'ampia rassegna dei test disponibili sul mercato con una descrizione delle
loro qualit metriche e di contenuto. Il volume della Boncori privilegia la letteratura europea e i test prodotti da autori italiani, mentre
quello della Anastasi si concentra principalmente sulla realt anglosassone e americana in particolare.
Sulle caratteristiche metriche dei test di utile consultazione sono
V. Rubini, Test e misurazioni psicologiche, Bologna, H Mulino, 1984 e
il pi recente L. Pedrabissi e M. Santinello, I test psicologici, Bologna,
Il Mulino, 1997. Entrambi i volumi forniscono le basi per valutare la
qualit di un test e le indicazioni indispensabili per comprendere i
manuali che accompagnano ciascun reattivo psicologico.
Infine, sui test di intelligenza WAIS-R e WISC e sull'interpretazione dei risultati da essi ottenuti: M. Lang, C. Nosengo e C.M. Xella,
La scala WATS Uso clinico e valutazione qualitativa, Milano, Cortina,
1996; A. Orsini, WTSC-R. Contributo alla tar a tura italiana, Firenze,
Organizzazioni Speciali, 1993; A. Orsini, WAIS-R. Contributo alla taratu ra italiana, Firenze, Organizzazioni Speciali, 1997 e F. Padovani,
L'interpretazione psicologica della WAIS-R, Firenze, Organizzazioni
Speciali, 1999.

119