Sei sulla pagina 1di 15

I test INVALSI sono scientificamente sol...

by Enrico Rogora - http://www.roars.it/online/ redazione.roars@gmail.com


date:2015-09-13

I test INVALSI sono scientificamente solidi? I limiti del modello di


Rasch
2014-07-31 00:37:39 By Enrico Rogora
I test INVALSI poggiano su una solida base scientifica? In questo articolo, Enrico Rogora descrive e
spiega i limiti del modello di Rasch, il quale, scientificamene parlando, costituisce la pietra angolare
dei test INVALSI. Meno di un anno fa, un analogo problema di solidit scientifica, riferito per ai test
OCSE-PISA, era stato ripreso anche dalla BBC che aveva dato spazio ai giudizi fortemente critici di
David Spiegelhalter, il quale, oltre ad essere professore a Cambridge, uno dei pi rinomati statistici
a livello mondiale. Lo scorso maggio stata indirizzata all'OCSE una richiesta di moratoria sottoscritta
da unottantina di accademici che denunciavano gli effetti distorsivi dei test PISA nei confronti delle
politiche nazionali sull'istruzione In risposta a questa lettera aperta, un altro gruppo di studiosi ha
scritto una lettera di sostegno allOCSE in cui viene ripresa una metafora gi usata anche per i test
INVALSI: i test standardizzati sarebbero come un termometro a cui non saggio rinunciare. Tuttavia,
alla luce della letteratura scientifica internazionale ed anche del presente articolo, ci sono ragioni per
nutrire dubbi sul corretto funzionamento del "termometro di Rasch". Ed anche sulla facilit di
aggiustarlo.

page 1 / 15

I test INVALSI sono scientificamente sol...

by Enrico Rogora - http://www.roars.it/online/ redazione.roars@gmail.com


date:2015-09-13

Nota introduttiva
Per la quasi totalit dellopinione pubblica, ma anche degli insegnanti e degli accademici,
l'elaborazione dei risultati dei test standardizzati una scatola nera il cui corretto funzionamento
viene assunto sulla fiducia. Chi daltronde avrebbe le competenze per entrare nel merito dei
marchingegni statistici utilizzati? Anche chi ne contesta luso a causa delle distorsioni che provoca
nelle politiche educative raramente ne mette in dubbio la correttezza.
La metafora del termometro usata dai sostenitori dei test chiara: per un medico la misura della
temperatura fornisce uninformazione rudimentale sulla salute del paziente, ma una misura tutto
sommato affidabile:
Hospitals use a thermometer, which allows doctors to get useful, albeit partial and imperfect,
information based on a standardized measure that is comparable over time and across patients.

page 2 / 15

I test INVALSI sono scientificamente sol...

by Enrico Rogora - http://www.roars.it/online/ redazione.roars@gmail.com


date:2015-09-13

Una metafora che per si rivela a doppio taglio: cosa succederebbe se i medici fossero talmente
focalizzati sulle misure di temperatura da curare qualsiasi forma di malattia ricorrendo agli
antipiretici? La metafora del termometro d ancor pi da pensare quando si prende atto di alcuni
recenti sviluppi del dibattito internazionale sui test standardizzati. Alla luce della letteratura
scientifica, infatti, tuttaltro che certo questi "termometri" siano capaci di fornire a standardized
measure that is comparable over time and across patients.
Ma dove sta il problema? Niente sembra pi facile che elaborare i risultati di un test standardizzato.
Dopo tutto, basta contare il numero delle risposte esatte e di quelle sbagliate. O no?
No, non cos facile. Prima di tutto, bisogna considerare che non tutti i quesiti hanno la stessa
difficolt. Poca cosa si dir: basta assegnare un punteggio via via pi alto alle domande pi difficili.
Ma come si fa a stabilire se e quanto una domanda pi facile di un'altra? Beh, basta verificare
quanti esaminati riescono a dare la risposta giusta.
Un attimo, cos non funziona, perch non tutti gli esaminati hanno la stessa "abilit" (qualsiasi cosa
possa voler dire) e la distribuzione dei diversi gradi di abilit cambia da un campione di esaminati
all'altro. Potrei tentare di misurare l'abilit degli esaminati confrontando i punti che ottengono nel
test, ma cos tornerei al punto di partenza, proprio come un cane che si morde la coda.
Estrarre delle informazioni dai test standardizzati non cos semplice come leggere la temperatura
sulla scala graduata di un termometro.
Per calibrare questo particolare "termometro" bisogna contemporaneamente ricostruire il grado di
difficolt delle domande e l'abilit degli esaminati. Bisogna passare attraverso la risoluzione di un
particolare problema matematico-statistico. Come facciamo a sapere se questo problema ammette
soluzione e se questa soluzione ha senso? Dipende dalle ipotesi che facciamo e, dopo che le abbiamo
fatte, dall'avere dei dati che non le contraddicano.
Ora, i termometri dei test PISA e dei test INVALSI si servono dello stesso principio di misurazione
della temperatura, ovvero del cosiddetto modello di Rasch, che specifica appunto le ipotesi
matematico-statistiche utilizzate nella procedura di calibrazione.
Riguardo alle ipotesi del Modello di Rasch, due sono i problemi da affrontare:
1. non sembrano essere le uniche possibil;
2. non c' garanzia che siano soddisfatte dai dati.
Venendo al primo punto, le ipotesi appaiono tutt'altro che di validit universale, tanto vero che nella
fase di caibrazione vengono scartate sia le domande sia gli esaminati che non sono conformi al
modello. Insomma, appare difficile parlare di "oggettivit" dei risultati. Piuttosto, facendo ricorso ad
un ossimoro, verrebbe da dire con Rogora che labilit matematica testata dallINVALSI labilit di
risolvere i test INVALSI. Come spiegato pi sotto, una conseguenza dell'adozione di un modello
soggetto a ipotesi cos restrittive la sostanziale immodificabilit del syllabus, almeno fino a quando
si vuole preservare la consistenza e le comparabilit con le precedenti rilevazioni.
Riguardo al secondo punto, in che misura le ipotesi del Modello di Rasch trovano conferma nei dati?
Nel caso dei test OCSE-PISA, David Spiegelhalter, in un suo post apparso sul blog della Royal Statistical
Society, ha sottolineato che il modello di Rasch demonstrably inadequate e over-simplified,
confermando quanto sostenuto da Svend Kreiner in un suo articolo scientifico apparso sulla rivista

page 3 / 15

I test INVALSI sono scientificamente sol...

by Enrico Rogora - http://www.roars.it/online/ redazione.roars@gmail.com


date:2015-09-13

Psychometrika[a]. Lo stesso Ray Adams, capo dellOECD analysis team, non ha potuto negare che, si
se effettua un test statistico di ipotesi sui dati PISA analizzati da Kreiner, il modello di Rasch risulta
respinto (Comments on Kreiner 2011).

In
un articolo apparso sul blog della Royal Statistical Society, lo statistico di fama mondiale David
Spiegelhalter, spiega le ragioni della sua perplessit nei confronti della metodologia statistica su cui
poggiano i test OCSE-PISA. In particolare, Spiegelhalter concorda con le riserve sollevate da S. Kreiner,
secondo il quale per i dati PISA le prove contro il modello di Rasch sono schiaccianti (The
evidence against the Rasch model is overwhelming).
E i test INVALSI? Gnaldi et al, hanno sottoposto a verifica le ipotesi di applicabilit del modello di
Rasch sui test INVALSI 2009 di Italiano e Matematica per le scuole medie (Gnaldi et al., Joint
Assessment of the Differential Item Functioning and Latent Trait Dimensionality of Students National
Tests, submitted). Se si d fede alla loro analisi, le ipotesi di applicabilit del modello di Rasch
risultano respinte. In particolare, l'analisi mostrerebbe una
dependance of students scores on attributes other than those the scale is intended to measure, that
is students gender and geographical area.

Il test di italiano soffre inoltre di un altro problema, in quanto


a single score cannot be sensibly used to describe students attainment on the Italian Test (especially
on the Grammar section), as the difference among students does not depend univocally on a single
ability level.

Ma che pignoli questi statistici, penser qualcuno. Si scomodato persino il Financial Times per
ricordare a Spiegelhalter che i confronti accademici sono sempre imperfetti, ma questo non
significa che non li si possa mai fare. In effetti, sarebbe inutile turbarsi per sbavature scientifiche
che modificano solo marginalmente gli esiti finali.

page 4 / 15

I test INVALSI sono scientificamente sol...

by Enrico Rogora - http://www.roars.it/online/ redazione.roars@gmail.com


date:2015-09-13

Kreiner ha provato a fare dei calcoli per quantificare gli effetti di queste "sbavature": la posizione del
Regno Unito nel Reading Test 2006 oscillerebbe tra 14 e 30, quella della Danimarka tra 5 e 37, quella
del Canada tra 2 e 25 e quella del Giappone tra 8 e 40. Se si trattasse di un termometro, ci sarebbe il
rischio di confondere una febbre da cavallo con un congelamento. The best we can say about Pisa
rankings is that they are useless conclude Kreiner.
Spiegelhalter ha anche confrontato gli esiti di due diverse edizioni dei test PISA di matematica ed ha
osservato una "stranezza": la maggior parte delle nazioni che nel 2003 avevano ottenuto risultati
sopra le media sono poi peggiorate nel 2013. Spiegelhalter osserva che esattamente il
comportamento che ci si aspetta di vedere quando una classifica in gran parte influenzata dal caso:
This is exactly the pattern expected when much of the influence on the ranking is due to random
variation, and is known as regression-to-the-mean, which reinforces my feeling that the precision of
the estimates is not as great as claimed. When this pattern is observed, one should be very cautious
about ascribing reasons for changes.

un po come lanciare un dado due volte. Se il primo lancio ha dato 5, con il secondo lancio pi
probabile scendere che salire. Ecco perch, secondo Spiegelhalter, "learning lessons from PISA is as
hard as predicting who will win a football match".
Ma giunto il momento di chiudere questa nota introduttiva e di cedere la parola ad Enrico Rogora
che nel seguito ci illustra funzionamento e limiti del modello di Rasch applicato ai test INVALSI.
Giuseppe De Nicolao (Redattore Roars)
[a] S. Kreiner mostra che, relativamente ai test PISA 2006 di "Reading skills", la validit del modello
viene respinta ("rejected") per tutte le nazioni tranne il Lichtenstein; inoltre, nella quasi totalit dei
casi i p-values sono inferiori a 10^-4, vedi Table A.1 in (S.Kreiner, Psycometrika 2013).

Il modello di Rasch
Enrico Rogora

Introduzione
Ormai numerosi, anche in Italia, sono gli ambiti in cui si utilizzano test basati su domande a risposta
multipla a fini valutativi. L'Istituto Nazionale per la Valutazione del sistema Educativo di Istruzione e di
Educazione, INVALSI, prepara test che utilizzano sia domande a risposta multipla sia domande a
risposta aperta, con griglia di correzione predeterminata. Questi test sono al centro da anni di
innumerevoli discussioni e polemiche[1].
Scopo di queste riflessioni quello di contribuire alla comprensione di un aspetto particolare, ma a

page 5 / 15

I test INVALSI sono scientificamente sol...

by Enrico Rogora - http://www.roars.it/online/ redazione.roars@gmail.com


date:2015-09-13

mio avviso rilevante, di questa discussione: il modello statistico utilizzato dall'INVALSI per l'analisi dei
risultati, cio il cosiddetto modello di Rasch.
Credo che una discussione organica sui test debba essere fatta sul piano pi elevato dei rapporti tra
strumenti valutativi e processi di insegnamento/apprendimento, ma credo anche che sia utile avviare
una discussione su alcuni aspetti tecnici, talvolta utilizzati come dogmi assoluti, dietro cui trincerarsi
per evitare il confronto. Inoltre, la scelta del modello di Rasch come strumento di analisi dei dati
porta necessariamente a conseguenze non irrilevanti sui contenuti dei test, come spero di chiarire
alla fine di questo articolo e mi sembra utile conoscere in anticipo gli effetti di tali scelte.

Indici e misure
Prendiamo la frase: questo test misura le abilit matematiche degli studenti che ci molto
probabilmente gi capitato di sentire. La parola misura fa pensare a un'operazione analoga alla
misura dell'altezza di una persona. Ma se per l'altezza si tratta di una grandezza ben determinata e
dal significato condiviso, che tutti sanno come misurare, nel caso delle abilit matematiche si pu
intendere invece semplicemente[2] che si assegnato un qualche punteggio (per esempio il numero
delle risposte esatte) ad un test costituito da un certo numero di domande di matematica. La misura
dell'altezza gode di propriet che il punteggio ottenuto da uno studente in un test non ha.
Innanzitutto, nel caso dei test, la propriet che si vuole misurare tutt'altro che chiara. Non esiste
una nozione univoca e condivisa di abilit matematica e domande diverse testano, in generale, abilit
diverse[3]. Inoltre, il punteggio assegnato in un test non in generale confrontabile con quello
assegnato in un'altro test: per esempio un primo individuo pu ottenere in un certo test A un
punteggio superiore a quello ottenuto da un secondo individuo in un certo test B perch "il primo
individuo pi bravo del secondo" o perch "il test A pi facile del test B", cio la supposta
misurazione verrebbe a dipendere dallo strumento di misura.
In questa differenza del significato del termine misura si annidano pericolosi fraintendimenti.
Chiamare misurazione una qualunque assegnazione di un punteggio ad un test ci fa pensare ad una
oggettivit comparabile con quella che si pu ottenere misurando le grandezze fisiche che invece
ben lungi dall'essere giustificata.
Il modello di Rasch un modello probabilistico, sviluppato dallo statistico danese Georg Rasch
(1901-1980), con l'intento di definire operativamente un modo per stimare, dai risultati di un test,
misure di abilit degli individui e di difficolt delle domande del test o item.
La domanda intorno a cui ruotano le mie riflessioni la seguente: possiamo affermare che utilizzando
il modello di Rasch riusciamo ad ottenere misure di abilit paragonabili alle misure fisiche?
La mia opinione, che spero di motivare nel resto dell'articolo, che le misure psicometriche o misure
indirette dedotte dall'applicazione del modello di Rasch, pur costituendo un sostanziale passo avanti
rispetto a meri indici numerici, non sono comparabili alle misure della fisica. Inoltre, tanto pi si
prende sul serio il modello di Rasch e si cerca di rendere queste misure indirette comparabili alle
misure della fisica, tanto pi necessario delegare a un gruppo chiuso di esperti la definizione della
variabile che si vuole misurare. In altre parole, parafrasando una famosa legge fisica propongo
scherzosamente il seguente principio di indeterminazione per le misure di Rasch: detta q la distanza
di una misura di Rasch da una misura oggettiva di una propriet ben determinata e detta d la
distanza tra il processo di stima dei parametri del modello di Rasch da un processo di misurazione
trasparente e democratico

page 6 / 15

I test INVALSI sono scientificamente sol...

by Enrico Rogora - http://www.roars.it/online/ redazione.roars@gmail.com


date:2015-09-13

q*d>!H!
dove !H! (da leggere "H imbavagliato") una costante (costante di Plank psicometrica).
Spero di riuscire a spiegare nel seguito e in maniera comprensibile ai non specialisti, perch questa
parafrasi scherzosa abbia un fondamento serio. Per fare ci necessario esporre sinteticamente
alcune idee su cui si fonda il modello di Rasch.

Il modello di Rasch
I risultati della correzione di un test vengono organizzati in una tabella, o matrice in cui ogni riga
rappresenta una persona e ogni colonna un item. Nei test composti di sole domande a risposta
multipla standard[4], la correzione assegna il punteggio 1 ad ogni risposta esatta e 0 ad ogni risposta
sbagliata o non data. Per esempio, si consideri un test composto di due sole domande, cui
partecipano quattro persone. La matrice delle risposte sia
1
0
1
0
0
1
1
1
In questo test la prima e la seconda persona hanno risposto correttamente alla prima domanda e
non hanno risposto correttamente alla seconda, la terza non ha risposto correttamente alla prima
domanda ma ha risposto correttamente alla seconda, la quarta ha risposto correttamente a
entrambe.
Il modello di Rasch ipotizza un modello di generazione stocastica di siffatte tabelle, in conseguenza
del quale si possono implementare algoritmi per stimare dalla matrice delle risposte un parametro
per ogni persona e un parametro per ogni item, che prendono il nome di parametri di abilit e
parametri di difficolt rispettivamente. La giustificazione e i limiti di tali denominazioni verranno
discusse pi avanti.
Il modello di Rasch quindi un modello probabilistico per la stima di parametri nascosti a partire da
dati osservabili. Questo genere di modelli si presenta in molte situazioni che hanno applicazioni
anche alla vita di tutti i giorni: per esempio nel problema del riconoscimento vocale si usa il modello
delle catene di Markov a stati nascosti e in quello della ricostruzioni del moto tridimensionali a partire
da dati accelerometrici, utile per esempio nella conduzione degli aeroplani, si usa il modello dei filtri
di Kalman.
Per modellare un processo stocastico che generi tabelle di zeri e uno, la prima cosa che pu venire in
mente quella di lanciare ripetutamente una moneta. Se viene testa segner uno nella
corrispondente casella, se viene croce segner zero. Questo primo modello assolutamente
inadeguato in quanto produrr dati simili a quelli raccolti in test troppo particolari: quelli in cui ogni
domanda ha solo due possibili risposte e ogni persona risponde a caso. Riflettendo sui limiti di
questo modello, ci rendiamo conto che esso appiattisce completamente le persone. Quelle che sono
pi preparate devono avere una probabilit maggiore di rispondere correttamente di quelle meno
preparate. Possiamo immaginare allora un modello in cui per ogni persona si scelga una diversa
moneta e che si tratti di una moneta truccata. Tanto pi preparata la persona tanto pi la sua
moneta sar truccata in modo da aumentare la probabilit che esca testa. Anche cos per il modello
non pu funzionare bene. La probabilit di rispondere correttamente deve anche diminuire
all'aumentare della difficolt della domanda. Per affinare il modello possiamo associare ad ogni

page 7 / 15

I test INVALSI sono scientificamente sol...

by Enrico Rogora - http://www.roars.it/online/ redazione.roars@gmail.com


date:2015-09-13

persona un parametro a, ad ogni item un parametro d e specificare una funzione di risposta


p(a,d) che fornisce la probabilit che uno studente di abilit a risponda correttamente a un item di
difficolt d cio scegliamo una moneta diversa per ogni interazione studente/item e truccata in
accordo con la funzione p(a,d).
Si noti che per denotare il parametro a ho usato una volta il termine abilit un'altra il termine
preparazione. Con questa ambiguit ho voluto sottolineare l'arbitrariet del nome. In effetti i
parametri a e d sono definiti in maniera puramente formale. Quanto questa definizione sia correlata
con l'abilit, con la preparazione o quant'altro non ce lo pu (e non ce lo deve) dire il modello.
Torniamo alla funzione di risposta, che abbiamo lasciato ancora indeterminata, e per la quale
ragionevole richiedere che assuma valori compresi tra zero e uno (per rappresentare una probabilit),
che cresca al crescere di a (che un parametro che vorremmo correlare all'abilit) e che decresca al
crescere di d (che un parametro che vorremmo correlare alla difficolt).
Per specificare il suo modello, Rasch[5] si domanda a questo punto se possibile scegliere la funzione
p in maniera tale che i parametri a e d siano misure e non semplici numeri e propone la seguente
condizione necessaria:
quando una persona ha abilit doppia di un'altra, e un item ha difficolt doppia di un altro, la prima
persona dovr poter risolvere il primo problema con la stessa facilit con cui la seconda persona
risolve il secondo[6].
Con riferimento alla funzione di risposta,
richiedendo p(2a,2d)=p(a,d) e pi in generale,
p(ka,kd)=p(a,d) per ogni a,d e k numeri positivi

questa

condizione

si

pu

formalizzare

(+).

La propriet (+) viene definita da Rasch conformit. Tra le funzioni che verificano la condizione di
conformit, Rasch sceglie quella che considera pi semplice e propone un modello in cui[7]:
Ogni persona ha una certa probabilit di risolvere correttamente ogni problema di un dato genere e
la sua probabilit, indipendentemente dalle risposte ai precedenti problemi, data dalla formula[8]

problema.

dove a una caratteristica della persona e d una caratteristica del

A partire dal modello di Rasch possibile valutare la verosimiglianza di ogni matrice di dati in
funzione dei parametri del modello. Se abbiamo N persone di abilit a1,...,aN che rispondono a
domande di difficolt d1,...,dn, la verosimiglianza della matrice delle risposte si ottiene, in virt della
condizione di indipendenza formulata da Rasch, moltiplicando le probabilit delle osservazioni in ogni
cella della matrice, ovvero p(ai, dj) se sulla i-esima riga e j-esima colonna c' 1 oppure 1- p(ai, dj) se
sulla i-esima riga e j-esima colonna c' 0. Uno dei metodi per stimare i parametri consiste

page 8 / 15

I test INVALSI sono scientificamente sol...

by Enrico Rogora - http://www.roars.it/online/ redazione.roars@gmail.com


date:2015-09-13

semplicemente nello scegliere quelli che massimizzano la verosimiglianza dei dati. Il problema
conduce alla ricerca delle soluzioni di un sistema di equazioni non lineari, per cui esistono metodi
efficienti di soluzione numerica.
Ovviamente la funzione (*) non l'unica che verifica la condizione di conformit ma con questa scelta
valgono ulteriori propriet molto interessanti, sia dal punto di vista teorico che pratico, per esempio
la propriet che Rasch chiama di oggettivit specifica.

Oggettivit specifica
La discussione di questa propriet a mio avviso esemplare delle discussione relative al modello di
Rasch. Il significato sostanziale della propriet non chiaro in quanto non facile separare quello che
si nasconde dietro la sua definizione formale da quello che ci si vuol vedere ma che in effetti non c'.
La discussione tecnica e mi limiter ad esporre alcune considerazioni non tecniche e a suggerire
alcuni approfondimenti.
Dice Rasch[9]:
Agli inizi degli anni 60 ho introdotto un nuovo - o piuttosto una pi definita versione di un vecchio concetto epistemologico. Ho mantenuto per esso il nome di oggettivit, ma siccome il significato di
questa parola passato attraverso numerose modificazioni sin dalla sua origine ellenica e viene
ancora utilizzato, nei discorsi di ogni giorno e in quelli scientifici, in molti contesti diversi, ho aggiunto
un predicato restrittivo: specifica[10].

Secondo Stenner[11],
Georg Rasch ha utilizzato il termine "oggettivit specifica" per descrivere quel caso essenziale nelle
misurazioni in cui il confronto tra individui diventa indipendente dagli strumenti particolari -- test o
item o altro genere di stimoli -- che vengono utilizzati. Simmetricamente dovrebbe essere possibile
confrontare stimoli che appartengono alla stessa classe -- misurando la medesima cosa -indipendentemente da quale particolare individuo, all'interno della classe considerata, fosse
strumentale per il confronto[12].

Da queste citazioni, e ancor di pi dal titolo del lavoro di Rasch da cui stata tratta la prima: On
specific objectivity: An attempt at formalizing the request for generality and validity of scientific
statements, si trae l'impressione che la specifica oggettivit sia un principio fondamentale e
imprescindibile per dare un senso alle misure. Ma se si scava pi profondamente si scopre che le
cose non sono affatto cos nette.
Secondo Van Linden[13] il principio di oggettivit specifica introdotto da Rasch si compone in realt di
due diversi principi, uno di carattere matematico e uno di carattere statistico.
Dal punto di vista matematico, si tratta di una propriet formale di una equazione funzionale, gi
considerata da diversi matematici prima di Rasch[14]. Una delle conseguenze di questa propriet

page 9 / 15

I test INVALSI sono scientificamente sol...

by Enrico Rogora - http://www.roars.it/online/ redazione.roars@gmail.com


date:2015-09-13

che, nel modello di Rasch, possibile definire una funzione matematica per confrontare la
prestazione tra individui diversi che non dipende dai parametri di difficolt degli item.
L'interpretazione di questa propriet da parte di molti, e secondo van der Linden anche di Rasch[15],
che si tratti di una condizione necessaria perch i parametri siano delle misure. Sempre secondo
van der Linden invece questa separazione dei parametri nelle operazioni di confronto, pur essendo
utile, non affatto necessaria. superfluo aggiungere che, in ogni caso, la condizione formale di
oggettivit specifica, necessaria o non necessaria che sia, ben lungi dall'essere sufficiente a
garantire che le stime dei parametri dei modelli di Rasch siano misure utili e chiaramente
determinate.
Dal punto di vista statistico, dice sempre van der Linden:
sotto la condizione che valga il modello di Rasch, se la lunghezza di due test diversi tende all'infinito,
gli stimatori di massima verosimiglianza condizionale dell'abilit della stessa persona hanno lo stesso
valore atteso, ma, di norma, varianza diversa. In altre parole, il significato corretto che la presenza
di statistiche sufficienti permette l'uso di stimatori consistenti dei parametri del modello di Rasch.
"Oggettivit specifica" non ha altro significato oltre a questo![16]

I tentativi di leggere oltre questo ha portato a numerosi fraintendimenti[17]


la generalit degli enunciati di Rasch e il suo confondere i concetti di statistiche sufficienti e di
oggettivit specifica che porta ad ascrivere propriet non realistiche al modello di Rasch. Per esempio
molto diffusa la credenza che a causa della presenza di statistiche sufficienti, la stima di massima
verosimiglianza condizionale nel modello di Rasch permetta la stima degli stessi parametri di abilit
da campioni diversi di item dello stesso test. Questa affermazione dal punto di vista statistico
troppo semplicistica per essere vera[18].

La discussione sul significato della propriet di oggettivit specifica mostra in maniera esemplare
quanto sia facile creare confusione quando si trasmette un contenuto scientifico. Usare le parole del
linguaggio comune porta facilmente a estendere il senso di un contenuto scientifico, per esempio una
propriet formale di un modello matematico, oltre al suo ristretto dominio di validit. un compito
difficile, e a mio avviso troppo spesso trascurato da chi si occupa professionalmente di scienza, quello
di trasmettere, oltre a un contenuto scientifico, anche il senso dei limiti della sua applicabilit.

Osservazioni sul modello di Rasch


Il modello di Rasch non molto flessibile. Per descrivere una matrice N*n di dati (le risposte di N
persone a n item) ha a disposizione N + n parametri e quindi impone una limitazione sulla struttura
dei dati, che deve essere attentamente vagliata prima di trarne qualsiasi conseguenza. Non deve
trarre in inganno il fatto che sempre possibile dare una stima dei parametri del modello, qualsiasi

page 10 / 15

I test INVALSI sono scientificamente sol...

by Enrico Rogora - http://www.roars.it/online/ redazione.roars@gmail.com


date:2015-09-13

sia l'insieme dei dati raccolti. Una stima fornisce i parametri ottimali rispetto ad un dato criterio (per
esempio il criterio di massima verosimiglianza) ma il fatto di individuare i parametri ottimali non
implica che il modello sia adeguato alla descrizione dei dati.
Non entro in questa sede nella discussione dei problemi relativi alla valutazione della bont
dell'adattamento del modello di Rasch con i dati, salvo rinviare ad alcune critiche sull'adeguatezza dei
test di aggiustamento per il modello di Rasch[19].
Per applicare il modello di Rasch necessario controllare la qualit degli item. Qualit significa, in
questo contesto, conformit dell'item con il modello. In particolare si richiede che sia un item al quale
gli studenti non rispondano a caso e che la sua discriminazione sia uguale a uno.
La prima ipotesi sembra in contrasto con il vincolo che la risposta sbagliata sia valutata come la
risposta non data, ma se le domande non sono troppo difficili e i distrattori (cio le risposte errate)
sono plausibili si osserva nella pratica che le deviazioni da questa ipotesi non sono solitamente
statisticamente significative. sempre necessario per fare un'analisi accurata dei dati per
confermarlo.
La seconda assunzione , a mio avviso, di carattere esclusivamente formale.
Gli utilizzatori del modello di Rasch, in presenza di significative deviazioni da queste ipotesi, eliminano
l'item. A tal fine organizzano dei pretest necessari alla verifica della conformit degli item al modello
di Rasch. La scelta di imporre a priori il modello sui dati e di modificare i dati eliminando item e
individui che non sono conformi al modello, fonte di una diatriba infinita tra i sostenitori e gli
avversari del modello di Rasch[20]. La motivazione dei sostenitori del modello sostanzialmente che
il modello di Rasch l'unico che fornisce misure psicometriche valide e quindi ci che non
conforme al modello di Rasch non misurabile. Un item che non verifica le ipotesi del modello di
Rasch come un metro rotto[21].
La mia opinione che le ragioni per cui i sostenitori del modello di Rasch affermano che questo
modello sia l'unico in grado di fornire misure psicometriche valide non sono convincenti, come ho
cercato di spiegare nel paragrafo sulla propriet di specificit oggettiva. Si tratta di voler vedere in
propriet matematiche o statistiche del modello di Rasch, alle volte neanche ben formulate, pi di
quanto ci sia in realt. Credo anche per che aggiungere parametri per rendere il modello pi
aderente ai dati non faccia compiere sostanziali passi avanti nella direzione di ottenere una misura
oggettiva di una propriet ben determinata per le ragioni che cercher di spiegare nel prossimo
paragrafo.

Critiche alle misure indirette


Le misure stimate con il modello di Rasch sono misure indirette[22]. Anche se le misure indirette
costituiscono un passo avanti significativo in confronto ai meri indici numerici, esistono differenze,
secondo me sostanziali, tra le misure indirette e le misure della fisica: innanzitutto, la precisione delle
stime di una misura indiretta, oltre a essere molto inferiore, molto meno controllabile e poi le
propriet che si cerca di misurare non sono ben definite.
La mia opinione sulle misure indirette che si tratti di misure imprecise di propriet non ben definite
in condizioni critiche. Limmagine intuitiva che mi sono fatto di una misura indiretta la seguente:
come misurare il peso di una persona con una riga storta mentre la persona corre. Nell'immagine ho
scritto: misurare il peso con una riga. Non un errore, ma il tentativo di mettere a fuoco un problema

page 11 / 15

I test INVALSI sono scientificamente sol...

by Enrico Rogora - http://www.roars.it/online/ redazione.roars@gmail.com


date:2015-09-13

sostanziale. In una misurazione indiretta non abbiamo accesso diretto alla propriet che vogliamo
misurare. Per esempio, quando diciamo abilit matematica misurata da un test, intendiamo abilit di
svolgere il test che stato proposto. Ci immaginiamo che questa abilit sia correlata con l'abilit
matematica che vorremmo misurare e ci troviamo quindi in una situazione analoga a quella in cui ci
troveremmo misurando il peso invece dell'altezza[23].
Le misure indirette infine vengono effettuate in condizioni critiche perch le condizioni al contorno
non sono controllabili, come al contrario avviene per le misure fisiche. Le misure fisiche si fanno in
laboratorio su una realt artificiale e questa una loro caratteristica fondamentale. Il fatto di
misurare in laboratorio uno dei tratti fondamentali della rivoluzione galileiana. La fisica moderna
non la scienza di Aristotele che si limita ad osservare il fenomeno ma sostituisce il fenomeno reale
con un fenomeno artificiale pi controllabile, e solo a questo punto procede con le misurazioni.
Questo controllo del fenomeno prima di misurare non pu essere fatto con le misure indirette. Ci
sono autori che dicono che questo ostacolo epistemologico impedisce la possibilit stessa di definire
misure indirette.
Io credo che possa essere comunque utile considerare misure indirette, purch ci si renda conto che
loggettivit della misura, se di misura si tratta, discutibile.
Le misure indirette sono comunque utili? Dipende! come il risultato di un'analisi clinica. Messo in
mano a un bravo medico pu essere utile a confermare una diagnosi o a far suonare in anticipo un
campanello d'allarme. Messo in mano a un cattivo medico, o peggio al paziente stesso, pu produrre
esiti catastrofici.
Un'ultima osservazione riguarda la trasparenza delle misure indirette. Quando si stima una misura
indiretta con un modello probabilistico fondamentale verificare che il modello utilizzato sia in buon
accordo con i dati, altrimenti le misure indirette perdono completamente di senso. Questo introduce
un grave rischio per la trasparenza delle misure indirette, per esempio nelle valutazioni, perch il
controllo della loro qualit e della loro significativit delegata, nella migliore delle ipotesi a un
gruppo di esperti, e nella peggiore alla fiducia cieca in procedure automatiche.

Critiche all'applicazione del modello di Rasch ai risultati dei test INVALSI


Dopo aver mosso alcune critiche generali alle misure indirette e in particolare a quelle dedotte dal
modello di Rasch, vorrei concludere le mie riflessioni sollevando due ulteriori critiche specifiche alle
applicazioni del modello di Rasch all'analisi dei risultati dei test INVALSI.
Le misure indirette di abilit, stimate nelle rilevazioni INVALSI, introducono un elemento quantitativo
che, invece di aiutare a chiarire i termini del dibattito e sulla valutazione dei sistemi educativi, rischia
di mascherare i problemi reali spostando la discussione su un piano sbagliato. A una classe politica,
che conosce poco i problemi che deve affrontare e che non sa o non riesce ad assumere le proprie
responsabilit di riformare il sistema educativo nazionale, risulta estremamente comodo cercare un
criterio semplice che guidi automaticamente o giustifichi le proprie scelte. Credo che sia utile e
doveroso sottolineare con forza che questi criteri non sono affatto oggettivi e indiscutibili.
In secondo luogo, il modello di Rasch prescrive una interazione piuttosto rigida tra item e individui.
Per dare senso alla stima dei parametri di abilit e difficolt necessario che gli item siano
strettamente conformi alle ipotesi del modello e quindi necessario seguire un protocollo lungo,
faticoso e costoso per la preparazione e per la selezione degli item. Il protocollo utilizzato
dall'INVALSI per costruire un test definisce la variabile che si intende misurare. In altre parole, e

page 12 / 15

I test INVALSI sono scientificamente sol...

by Enrico Rogora - http://www.roars.it/online/ redazione.roars@gmail.com


date:2015-09-13

questo necessaria conseguenza del modello di Rasch, l'abilit matematica testata dall'INVALSI
l'abilit di risolvere i test INVALSI. Non voglio entrare nel merito se questo sia giusto o sbagliato,
voglio solo osservare che necessariamente questo non modificabile. In altre parole, se vogliamo
modificare in maniera sostanziale il syllabus sulla base del quale l'INVALSI ha preparato finora le
proprie prove, il principio di misurazione basato sul modello di Rasch prevede che dobbiamo rifare
tutto il lavoro di verifica della coerenza degli item e ricontrollare e probabilmente eliminare buona
parte dei risultati delle rilevazioni precedenti. In conseguenza del modello di Rasch, in altre parole,
tassativamente vietato variare la sostanza del syllabus INVALSI, perch questo equivale a modificare
la variabile che si sta misurando.
Prendere sul serio il modello di Rasch pone anche dei vincoli al processo di rinnovamento dei
preparatori delle domande, chiesto a gran voce da molti. Poich per poter continuare a misurare la
stessa variabile necessario che ogni item sia statisticamente omogeneo ai precedenti, se prendiamo
sul serio il modello di Rasch tassativamente vietato aggiungere nuove dimensioni alle modalit di
valutazione dei contenuti del syllabus INVALSI.
In conseguenza, per avvicinare le misure di abilit e difficolt all'ideale (secondo me comunque
irraggiungibile) di oggettivit delle misure della fisica bisogna necessariamente sacrificare le
possibilit di sottoporre a un controllo esterno e di modificare le procedure, i syllabi e in definitiva la
visione della matematica di chi gestisce le prove INVALSI. questo il senso del principio di
indeterminazione per le misure di Rasch che ho enunciato nel secondo paragrafo.

[1]
cfr.
Intervista
di
G.
Israel
a
Orizzonte
scuola.
http://www.orizzontescuola.it/news/giorgio-israel-invalsi-istituto-fuori-controllo-prof-state-guardia-po
treste-diventare-semplicie l'interessante sito in cui vengono raccolti autorevoli pareri pro e contro i test standardizzati
http://standardizedtests.procon.org/
[2] Non il caso dei test INVALSI, come vedremo.
[3] Cfr. per esempio le considerazioni nell'articolo gi citato di Giorgio Israel.
[4] Mi limiter a discutere questa tipologia di test perch il modello per l'analisi statistica
sostanzialmente lo stesso anche per test pi complicati che ammettono griglie di correzione
standardizzate pi complicate.
[5] G. Rasch, Probabilistic models for some Intelligence and attainment tests, Chicago, the University
of Chicago Press, 1980.
[6] G. Rasch, op. cit.
[7] G. Rasch, op. cit.
[8] Il modello di Rasch viene oggi specificato con riferimento alla funzione

page 13 / 15

I test INVALSI sono scientificamente sol...

by Enrico Rogora - http://www.roars.it/online/ redazione.roars@gmail.com


date:2015-09-13

L'equivalenza con la formulazione precedente, utile per confrontare il modello di


Rasch con gli altri modelli della Item Response Theory (IRT), si ottiene ponendo

[9] G. Rasch, On specific objectivity: An attempt at formlizing the request for


generality and validity of scientific statements. Danish Yearbook of Philosophy, 14, pp. 58-94, 1977.
disponibile on line: http://www.rasch.org/memo18.htm
[10] Traduzione dell'originale:
In the beginning of the 60'es I introduced a new - or rather a more definite version of an old epistemological concept. I preserved the name of objectivity for it, but since the meaning of that word
has undergone many changes since its Hellenic origin and is still, in everyday speech as well as in
scientific discourse, used with many different contents, I added a restricting predicate: specific.

[11] A. J. Stenner, Specific objectivity - local and general.Rasch Measurement Transactions, 1994, 8:3
p.374 - disponibile on line: http://www.rasch.org/rmt/rmt83e.htm
[12] Traduzione dell'originale:
Georg Rasch used the term "specific objectivity" to describe that case essential to measurement in
which "comparisons between individuals become independent of which particular instruments -tests or items or other stimuli -- have been used. Symmetrically, it ought to be possible to compare
stimuli belonging to the same class -- measuring the same thing -- independent of which particular
individuals, within a class considered, were instrumental for comparison."

[13] W. J. van der Linden, Fundamental Measurement and the Fundamentals of Rasch Measurement,
in ed. M. Wilson (ed.), Objective Measurement, theory into practice, vol. 2, Ablex Publishing
Corporation, Norwood, New Jersey, 1994, pp. 3-25.
[14] G. Fischer, Applying the principles of specific objectivity and of generalizability to the
measurement of change, Psychometrika, v. 52 (4), pp. 565-587, 1987.
[15] van der Linden, op. cit., p. 18.
[16] Traduzione dell'originale:
under the condition that the Rasch model holds, if the lengths of two different tests go to infinity, the
conditional maximum likelihood estimators of the ability of the same person have the same expected
value but are likely to have different variances. In other words, the correct inference is that the
presence of sufficient statistics paves the way for the use of consistent estimators of the parameters

page 14 / 15

I test INVALSI sono scientificamente sol...

by Enrico Rogora - http://www.roars.it/online/ redazione.roars@gmail.com


date:2015-09-13

in the Rasch model. "Specific objectivity" has no meaning beyond this!

[17] Van der Linden, op. cit.


[18] Traduzione dell'originale:
It is the generality of Rasch's claims and his mixing up of the concepts of specific objectivity and
sufficient statistics that could lead to ascribing unrealistic properties to the Rasch model. For
example, the belief is widespread that due to the presence of sufficient statistics, conditional
maximum likelihood estimation in the Rasch model allows estimation of the same ability parameters
from different samples of test items. This statement is statistically too simple to be true.

[19] Per esempio: Wood ha mostrato come si possano rendere conformi al modello di Rasch anche
dati casuali in Wood R., Fitting ther Rasch model: a heady tale. British Journal of Mathematical and
StatisticalPsychology, 31, pp. 27-32, 1978; Goldstein e Blinkhorn hanno criticato le procedure
utilizzate per l'analisi di adeguatezza del modello di Rasch in Goldstein H., Blinkhorn S. The Rasch
model still does not fit, British educational research journal, Vol. 8, n. 2, pp. 167-1701982
[20] Cfr. per esempio, W. Fisher, The Rasch debate, in ed. M. Wilson (ed.), Objective Measurement,
theory into practice, vol. 2, Ablex Publishing Corporation, Norwood, New Jersey, 1994, pp. 36-73,
Goldstein, H. Dimensionality, bias, independence and measurement scale problems in latent trait test
score models. British Journal of Mathematical and Statistical Psychology, 1980 33: 234-246.
[21] W. Fisher, The Rasch debate.
[22] E. Rogora, Valutare e scegliere, il ruolo della matematica, Lettera matematica PRISTEM, 87 (4), pp.
4-7. Disponible on line, http://matematica.unibocconi.it/sites/default/files/LM87_Rogora.pdf.
[23] In realt la situazione in cui ci troviamo ancora pi intricata in quanto non affatto chiaro che
la propriet che ci interessa sia definibile, unodimensionale e misurabile. Cfr. la discussione
nell'intervista citata di Giorgio Israel.

Copyright :
All this contents are published under Creative Commons Attribution-NonCommercial-ShareAlike
2.5 Generic License.
for reproduced, please specify from this website ROARS AND give the URL.
Article linkhttp://www.roars.it/online/?p=37800

page 15 / 15
Powered by TCPDF (www.tcpdf.org)