Sei sulla pagina 1di 28

La valutazione linguistica

Tecniche per il testing linguistico


1.

Le prove oggettive

Le prove scolastiche tradizionali avevano il limite di imporre sia allo studente che al docente una
mediazione troppo soggettiva, e talora arbitraria, nella interpretazione del compito e delle domande
e nella valutazione delle risposte. Capitava (e capita ancora) che una stessa prestazione venisse
valutata diversamente da docenti diversi o anche dallo stesso docente in momenti diversi. Per
superare i limiti delle prove soggettive si sviluppata la docimologia e, in ambito linguistico, il
language testing. Il test cosiddetto oggettivo , infatti, un tipo di prova che presenta degli stimoli
chiusi e soprattutto permette di predeterminare la risposta esatta di ogni quesito e, di conseguenza,
la possibilit di prestabilire il punteggio da assegnare a seconda che la risposta sia esatta, omessa o
sbagliata. In tal modo chiunque corregga quel test non potr che assegnare sempre e solo un dato
punteggio.
chiaro che qui oggettivit si applica esclusivamente al modo in cui una prova viene corretta,
perch per quanto riguarda gli altri aspetti della prova, come i contenuti e le stesse tecniche di
esecuzione sono scelti dall'insegnante o dall'autore della prova.
In relazione ai modi in cui il quesito viene proposto o del formato della prova o del tipo di
compito richiesto al candidato, nel testing linguistico si hanno diversi tipi di prove oggettive; tra i
principali ricordiamo la scelta binaria, la scelta multipla, i completamenti, le corrispondenze (o
matching), gli incastri (o riordino di elementi linguistici), la sostituzione, l'editing.

1.a

Scelta binaria

A scelta binaria sono quei quesiti che richiedono di scegliere tra due semplici ed opposte
alternative, come s/no, vero/falso, giusto/sbagliato e simili. All'allievo si chiede semplicemente di
segnalare l'alternativa che giudica esatta.
Con questo tipo di test si possono rilevare solo conoscenze molto semplici, di tipo riproduttivo
che non vanno oltre il semplice riconoscimento di informazioni lette o ascoltate o apprese. La
probabilit di risposta corretta data casualmente molto alta, statisticamente pari al 50 per cento,
per cui non si pu essere sicuri che gli esiti derivanti dalle risposte scelte rispecchino le reali
competenze possedute.
Quando si usano test a scelta binaria all'interno di una prova complessiva che prevede pi test
vari per formato e lunghezza, bene usarli nella parte iniziale sia per dare all'intera prova una
progressione dal pi semplice al pi complesso, sia per disporre l'allievo in una situazione pi
serena cominciando con una prova pi semplice.

1.b Scelta multipla


Si tratta di una tecnica che nel formato standard prevede un quesito (stem) seguito da tre o pi
risposte delle quali una sola quella corretta. Tuttavia diversi possono essere i formati, ma tutti
devono consentire la possibilit di scelta tra pi alternative (dette anche varianti o uscite). Maggiore
il numero delle uscite, maggiore l'attendibilit della tecnica usata come prova, in quanto
costringe lo studente a riflettere di pi prima di scegliere, e sul piano statistico diminuisce la
percentuale di probabilit di rispondere correttamente scegliendo a caso.

La valutazione linguistica

Il multiple choice una prova di rapida esecuzione (l'allievo indica semplicemente l'elemento o
gli elementi linguistici corretti scegliendoli fra quelli suggeriti) e semplice e veloce da correggere. I
dati ottenuti sono facilmente comparabili. E pi efficace come tecnica di riflessione e di
apprendimento che come strumento di verifica, in quanto pi difficilmente lo studente bara contro
se stesso.
La scelta multipla pu interessare elementi linguistici discreti (singole parole o singole
informazioni) o conoscenze ed informazioni generali o globali. Pu riferirsi a strutture linguistiche
determinate come a informazioni contenute in testi, o costituire una sorta di ricapitolazione di
quanto stato presentato in un certo numero di lezioni o unit didattiche.
Insomma, la scelta multipla si pu utilizzare per verificare la comprensione di testi orali o
scritti, la competenza linguistica, pragmatica, lessicale o testuale.
Se l'esecuzione e la correzione facile ed immediata, non altrettanto semplice e rapida sempre
la costruzione di un test a scelta multipla. Perch, infatti, questo sia didatticamente utile ed efficace
richiede un'attenta selezione delle alternative (o distrattori) che accompagnano l'item corretto.
Queste devono essere tali da far riflettere l'allievo; perci non devono essere ovvie o banali o,
peggio ancora, assurde, ma dovranno presentare dei tratti di somiglianza con la risposta corretta.
Uno dei limiti del test a scelta multipla dato dalla possibilit che l'allievo possa rispondere "a
caso". Altro limite rappresentato dalla possibilit di indurre artatamente in errore o di far fissare
una forma erronea in chi non troppo sicuro delle conoscenze apprese o in chi per carattere tende a
problematizzare tutto e a interrogarsi continuamente. Per questo importante che lo studente non lo
consideri semplicemente uno strumento di valutazione ma lo veda, invece, come un'occasione di
ampliamento delle conoscenze, come uno strumento di analisi pi approfondita ed un'occasione di
confronto di ipotesi. Per rendere meno aleatorie e casuali le risposte, si potrebbe, magari nel
colloquio orale successivo alla prova scritta, invitare gli allievi a motivare la scelta operata
esprimendo le ragioni che li hanno guidati a scegliere una particolare variante e ad escludere le
altre.
Il test a scelta multipla pu variare nel formato, in base al numero delle alternative proposte, o
dell'item o degli item da individuare o come corretti o come errati, pu prevedere l'individuazione
degli elementi che completano in modo appropriato enunciati o testi, o che siano risposte
appropriate a specifiche domande.
1. Numero delle alternative (o distrattori). Le alternative tra le quali individuare quella/e
corretta/e possono essere tre o quattro o cinque. Pi alto il numero delle alternative pi bassa
diventa la probabilit della risposta esatta casuale. D'altro canto, tuttavia, pi difficile diviene
per l'estensore del test trovare alternative didatticamente e linguisticamente congrue ed efficaci.
Esempi:
Marco andato negli Stati Uniti con la sua moglie.
Marco andato negli Stati Uniti con le sue moglie.
Marco andato negli Stati Uniti con sua moglie.

[a]
[b]
[c]

Non sono riuscito a chiudere occhio.


Ho passato la notte in casa.
Ho passato la notte in bianco.
Ho passato la notte al verde.
Ho passato la notte in camicia.

[a]
[b]
[c]
[d]

2. Individuazione dell'alternativa errata. L'allievo deve riconoscere tra i distrattori proposti


quello errato o meno appropriato al particolare contesto. In questo tipo di formato le forme
corrette potranno essere due o tre ed una quella errata.
Esempi:

La valutazione linguistica

[a] subito.
1. E' difficile decidere, qui[b] in piedi.
[c] su due piedi.
2. Prendi un caff?
Volentieri!
[a]
Meno male!
[b]
S, grazie!
[c]
No, non bevo caff!
[d]

(risp. errata [b])

(risp. errata [b])

3. Completamento e scelta multipla. Si propongono agli allievi delle frasi che andranno
completate con le parole pi appropriate, scegliendole tra le tre o quattro suggerite. Oltre che su
singole frasi non collegate fra loro, questo esercizio pu essere condotto anche su testi. In
questo secondo caso per ogni lacuna si suggeriranno tre o pi elementi dei quali uno solo
quello appropriato.
Esempi:
1. Durante il mio viaggio in Italia ........ molte foto.
[a] ho preso [b] ho dato [c] ho fatto (risp.giusta [c])
2. Vai al concerto anche tu? S, ........ molto a sentirlo.
[a] mi interessa [b] ci tengo [c] mi piacerebbe

(risp.giusta [b])

4. Scelta fra pi risposte. Lo studente dovr indicare tra quelle suggerite la risposta esatta alla
domanda formulata. Questo esercizio frequentemente usato per verificare le conoscenze
acquisite in uno specifico ambito disciplinare. Nei corsi di lingua straniera spesso usato per
verificare o rinforzare la comprensione di un testo precedentemente letto o ascoltato.

1.b.1. La valutazione dei test a scelta multipla


Nella correzione e successiva valutazione delle prove a scelta multipla si pone il problema del
guessing, vale a dire della risposta data a caso. Le probabilit di azzeccare la risposta giusta in test
di riconoscimento a scelta multipla dipende dal numero delle alternative proposte per ogni quesito:
cos in un test a scelta binaria c una probabilit su due, pari al 50%, in un test a tre alternative ce
n una su tre (il 33% ), mentre con quattro alternative ce n una su quattro, vale a dire il 25%. Ed
allora per diminuire leffetto del guessing e per differenziare il punteggio di chi, non sapendo
rispondere, si astiene dal rispondere rispetto a chi invece tenta comunque di indovinare, si applica
una penalizzazione. Al punteggio ottenuto sommando le risposte esatte si sottrae una frazione di
punto pari alla probabilit di azzeccare la risposta giusta rispondendo a caso, secondo la formula
seguente:
PE
In cui,

S
n 1

P = Punteggio corretto ottenuto


E = Numero delle risposte esatte
S = Numero delle risposte sbagliate
n = numero delle alternative per ogni item.

La valutazione linguistica

Se, ad esempio, in un test a scelta multipla con 100 quesiti e quattro varianti per ogni item, uno
studente risponde correttamente a 69 domande otterr un punteggio di 57,3, cos ottenuto:
32
P=
68 = 68 10,7 = 57,3.
(4-1)
Se invece le varianti fossero 3 , per un ugual numero di soluzioni esatte si avrebbe il punteggio di
52.
Per evitare i numeri decimali determinati da frazioni di unit, si pu attribuire ad ogni item un peso
pari alla probabilit di indovinare rispondendo a caso, quindi uguale ad n-1. In tal modo si elimina il
denominatore della frazione e si pu operare con numeri interi. La formula sar, allora, la seguente:
Cos operando il punteggio massimo teorico della prova sar due, o tre o quattro volte il numero
S

P E
n 1
n 1

totale degli item che compongono la prova stessa e lintervallo della scala sar pari al numero delle
varianti proposte per ogni quesito.
Per l'esempio sopra indicato avremo il seguente risultato:
32

P 68
3; 204 32 172
3

In questo caso il punteggio massimo teorico pari a 300 (100 * 3). Non applicando nessuna
penalizzazione, il punteggio sarebbe stato pari al numero delle risposte esatte, vale a dire 68.
La penalizzazione ha come scopo quello di spingere gli allievi a non dare una risposta
comunque, anche quando non sono molto sicuri della sua esattezza.
Il punteggio assegnato, con o senza penalizzazione, detto anche punteggio grezzo: con tale
termine si vuole intendere che il punteggio di partenza per elaborazioni e confronti con esiti
conseguiti in altre prove o in altri test della stessa sessione d'esame. Ad esempio, se un test a scelta
multipla concorre per il 40 % al punteggio complessivo di una prova di comprensione della lettura
per la quale si assegna un punteggio massimo teorico di 50 punti, il punteggio grezzo ottenuto da un
soggetto sar rapportato al peso che la scelta multipla ha nella prova globale.

1.b.2

Suggerimenti per la redazione di una prova a scelta multipla

La scelta multipla deve essere coerente con


gli obiettivi che si prefigge
il tipo di abilit che intende misurare o rinforzare
il livello di competenza linguistica degli allievi
Per questo bene
1. evitare che lallievo arrivi per esclusione alla risposta esatta;
2. evitare di usare parole od espressioni nuove o sconosciute agli allievi;
3. nella formulazione delle varianti, usare termini di significato preciso e non generico o
ambiguo;
4. evitare di dare indizi sull'item esatto;
5. che, tra la variante giusta e i distrattori, ci sia possibilmente non pi di uno o due tratti di
differenza;

La valutazione linguistica

6. evitare che i distrattori siano tra loro pressoch sinonimi;


7. evitare, quando la risposta esatta una sola, che ci siano distrattori accettabili o corretti;
8. evitare nella formulazione delle varianti le duplicazioni superflue;
9. evitare una successione di negazioni;
10. evitare proposizioni del problema e item molto lunghi
11. che le alternative siano omogenee per impostazione concettuale, lunghezza e tipo di
linguaggio
12. che ci sia contiguit logica, grammaticale e sintattica tra il problema o domanda e le
soluzioni o risposte.
Molti di questi suggerimenti valgono per i formati di test oggettivi di seguito descritti.

La valutazione linguistica

LA MISURAZIONE

1. La misurazione in didattica
In ambito didattico i rapporti tra dimensioni qualitative e quantitative sono stati visti spesso
come antitetici o come inconciliabili. E questo atteggiamento ancora presente in molti docenti che
guardano con sospetto qualsiasi operazione di quantificazione e misurazione di comportamenti e
prestazioni che sono espressione di capacit cognitive e manifestazioni della personalit di un
individuo. Eppure anche quando apparentemente si rifugge da forme di misurazione di tipo
numerico per valutare qualcuno o qualcosa e si ricorre ad aggettivi o descrizioni si fanno delle
operazioni di confronto, si fanno delle graduatorie, e quindi indirettamente si esprimono delle
misure.
I termini misurazione, test e valutazione sono spesso usati nella scuola in maniera
intercambiabile come se fossero sinonimi, dato che in pratica fanno riferimento alla stessa attivit.
Quando si vuole valutare un allievo gli si assegna un compito, una prova, gli si fa fare un test e il
punteggio del test diventa il metro di misurazione della competenza che si vuole valutare. Questa
attenzione agli aspetti superficiali fa trascurare i significati diversi che questi termini hanno.
Misurare, nelle scienze sociali, un processo di quantificazione delle caratteristiche delle
persone sulla base di procedimenti e regole. La quantificazione consiste nellassociare un simbolo,
o un numero, ad un oggetto ben definito o ad una sua particolare propriet secondo regole precise in
modo che a quella stessa propriet si possano attribuire alcune caratteristiche dei numeri che cos
vengono a rappresentarla. In altri termini, significa servirsi di un insieme di domande standardizzate
relative ad un argomento o ambito disciplinare e, attribuendo a ciascuna delle risposte un punteggio,
ottenere per mezzo di una regola una misura. Operare poi sui numeri significa operare sulle qualit
che quei numeri rappresentano. Diventa cos pi semplice operare confronti tra loggetto (o una sua
propriet) da misurare e un altro oggetto analogo scelto come riferimento.
Allinterno del concetto di misura implicita lidea che non si misurano gli oggetti o le
persone ma una loro caratteristica e qualit come la lunghezza, il peso, lapprendimento
lintelligenza, vale dire caratteristiche o qualit fisiche o mentali. Mentre le caratteristiche fisiche
come laltezza e il peso possono essere osservate direttamente, con il testing si mira a quantificare
attributi, tratti e abilit di natura cognitiva o mentale che possono essere osservati solo
indirettamente. Le caratteristiche mentali includono tratti come lattitudine, lintelligenza, la
motivazione, la dipendenza/indipendenza di campo, la predisposizione, la lingua materna, la fluenza
nel parlare, il profitto nella comprensione della lettura ecc. Qualsiasi qualit o abilit venga
misurata, importante comprendere che sono le qualit e le abilit che vengono misurate e non le
persone. Qualsiasi test o batteria di test non potr mai misurare adeguatamente un essere umano
nella sua complessit.
Nella misurazione la quantificazione deve essere fatta secondo regole e procedimenti espliciti.
Assegnare a caso o alla cieca dei numeri alle qualit di una persona non pu essere una
misurazione. Perch una misurazione sia tale occorre che losservazione di una qualit sia
replicabile da parte di altri osservatori, in altri contesti e con altri individui. Ad esempio, chiunque
pu valutare labilit nel parlare di una persona, ma se un esaminatore focalizza la sua attenzione
sullaccuratezza della pronuncia ed un altro sullampiezza del lessico usato, oppure se uno assegna i
punti con un sistema percentuale ed un altro in base ad una scala a cinque punti non si pu dire che

La valutazione linguistica

abbiano adottato regole e procedimenti omogenei, e quindi le singole misurazioni non sono fra loro
comparabili.
Per misurare occorre, allora,
a) definire, preliminarmente e univocamente, le caratteristiche o qualit delloggetto che si
vuole misurare;
b) determinare le regole di associazione e di relazione di tali qualit con un numero;
c) definire le procedure da seguire per classificare eventi, oggetti, qualit, in modo univoco, al
fine di rendere riproducibile loperazione e i suoi esiti.
Una delle pi importanti funzioni della misurazione quella di rappresentare nella maniera
meno ambigua possibile e in modo univoco una certa realt o unidea concettuale di essa.
La misurazione pu essere considerata quindi un procedimento di facilitazione della
conoscenza e di interpretazione di alcuni fenomeni anche complessi come pu essere quello di
apprendimento/insegnamento linguistico.
Il problema vero e pi importante della misurazione , non tanto quello della riduzione a
quantit, quanto quello della rappresentativit della qualit scelta da misurare. Per assicurarla
necessario saper scegliere e usare criteri, scale e strumenti di misura congruenti con la qualit, con
lo scopo della misurazione e con il contesto in cui la misurazione viene svolta. Pu succedere, ad
esempio, che luso di scale e procedure improprie alteri la rappresentativit e la significativit dei
dati cui si giunti. In tal caso la misurazione fallisce i propri obiettivi e diviene inutile, se non
dannosa.
Saper fare delle misurazioni valide, attendibili e precise, saper costruire e usare strumenti
adeguati alla misurazione, saper trattare i dati rilevati costituiscono le precondizioni necessarie per
guidare con piena consapevolezza i processi formativi e rappresentano momenti decisivi e
imprescindibili di qualsiasi valutazione, e soprattutto di quelle sulla base delle quali si prendono poi
decisioni che incidono significativamente nella vita di altre persone.

2.

Il confronto fra i dati

La procedura principe di ogni misurazione in ambito pedagogico il confronto. Questo pi che


un metodo pu essere inteso come il fondamento di tutti i metodi di misurazione: esso mira, infatti,
a stabilire in maniera semplice e diretta la somiglianza o la differenza tra due o pi elementi. In
senso statistico il confronto mira a scoprire ci che vi di simile in fenomeni diversi e ci che c' di
diverso in fenomeni simili.
Come si detto all'inizio di questo lavoro, preliminare ad ogni confronto la raccolta o
rilevazione dei dati grezzi, alla quale segue lo spoglio e la raccolta in tabelle e rappresentazioni
grafiche. In una classe di lingua i dati grezzi sono rappresentati dai punteggi o voti assegnati alle
diverse prove che gli allievi hanno sostenuto in un dato momento o in momenti successivi del corso.
I dati qualitativi sono raccolti per categorie, vale a dire in serie temporali continue o discontinue,
mentre i dati quantitativi sono presentati in "seriazioni" che evidenziano le frequenze crescenti o
decrescenti del tratto preso in esame.
Le modalit in cui sono distribuiti i dati quantitativi sono indicate come classi di frequenza, per
cui si considerano appartenenti ad una stessa classe le unit con una misura compresa fra il limite
inferiore e il limite superiore precedentemente fissati. Se il limite superiore di una classe coincide
con il limite inferiore della successiva, se non stabilito diversamente, si intende per convenzione
incluso il limite inferiore ed escluso quello superiore. Se ad esempio si assegnano a degli allievi che
hanno sostenuto una prova dei giudizi espressi con lettere (es.: A, B, C, D), e B attribuito a quanti
hanno conseguito un punteggio compreso fra 70 e 90 ed A a quanti hanno conseguito un punteggio

La valutazione linguistica

fra 90 e 100, chi ottiene il punteggio di 90 otterr il giudizio A in quanto 90 il limite inferiore della
classe successiva.
La differenza fra i due limiti di una classe si dice ampiezza (nell'esempio precedente l'ampiezza
di B 19) mentre viene indicato con intervallo di classe la differenza tra i valori centrali di due
classi contigue. Tornando all'esempio portato sopra, visto che 95 il valore centrale della classe A
ed 80 il valore centrale della classe B, l'intervallo tra le due classi pari a 15.
Un primo passo nel confronto dei dati rappresentato dal calcolo delle frequenze all'interno del
campione di dati preso in esame. Si dice frequenza assoluta il numero dei casi che rientrano nella
classe, frequenza cumulata quella che si ottiene sommando tutte le frequenze semplici al disotto di
un limite superiore, frequenza retrocumulata quella che somma le frequenze semplici al di sopra di
un limite inferiore, frequenza relativa quella data dal rapporto tra le frequenze considerate e il totale
dei casi. La frequenza relativa pu essere espressa anche in termini percentuali.
Si veda la tabella seguente1:
Giudizio

Fasce risultati

Frequenze

% cumulata

A (ottimo)

157-182

43

4,67%

4,67%

B (buono)

131-156

239

25,98%

30,65%

C (sufficiente)

104-130

386

41,96%

72,61%

D (insufficiente)

78-103

188

20,43%

93,04%

E (grav. insuf.)

da 1 a 77

64

6,96%

100,00%

Tabella 1

Il modo in cui le frequenze sono riportate nella tabella 1 di tipo univariato, cio vengono
riportati i valori di una sola variabile per una data lista: nel caso specifico la competenza linguistica
generale in italiano L2. Se invece si vogliono mettere in rapporto due variabili alla volta, occorre
costruire una tabella a doppia entrata divisa in righe e colonne; in questa forma vengono dati i valori
delle bivariate. Questo tipo di tabella detto anche matrice ed indicata attraverso il prodotto del
numero delle righe per le colonne. Una matrice 6x5 indica una tabella costituita da sei righe e
cinque colonne.
Per i dati quantitativi si ricorre anche ai grafici costruiti su un piano cartesiano.
Nelle scienze pedagogiche l'osservazione dei dati pu interessare non solo gruppi o vasti insiemi
di soggetti ma anche un singolo soggetto. In tal caso si ha un approccio individuale: si prende in
esame un soggetto alla volta e si cerca di descriverne, nel modo pi esauriente possibile, la
situazione in rapporto allo stesso soggetto e all'ambiente. Tale tipo di approccio detto anche
"clinico". Bench spesso connesso a psicoterapie o ad interventi di sostegno o di aiuto tale
approccio prescinde dalla nozione di malattia, ma evidenzia il senso di un'attenzione e di una guida
individualizzata. Il metodo principale dell'approccio clinico il colloquio, che deve essere s
prestrutturato, ma deve essere allo stesso tempo flessibile ed aperto. Se l'osservazione di un
soggetto riguarda il presente, allora si ha, rimanendo nella terminologia medica, una diagnosi, se
invece l'osservazione vede la raccolta di dati retrospettivi si ha un'anamnesi, se l'osservazione mira
a fare previsioni per il futuro si ha una prognosi. Le tre forme di osservazione danno luogo ad una
osservazione longitudinale o diacronica.
Nell'osservazione del singolo caso si guadagna in termini di profondit e in precisione ma si
perde in comparabilit in quanto che il caso singolo non pu essere generalizzato.
1

La tabella si riferisce ai punteggi conseguiti dai candidati al certificato di conoscenza


della lingua italiana al terzo livello (CELI 3) nella sessione di giugno 1999. La
distribuzione nelle classi stata fatta in base al calcolo della media e della deviazione
standard.
8

La valutazione linguistica

Per poter fare confronti occorre seguire un approccio collettivo, vale a dire raccogliere parecchi
dati di soggetti diversi e confrontarli su alcune variabili ritenute importanti. Questo tipo di
osservazione detta trasversale o sincronica. Una ricerca longitudinale effettua confronti tra dati
iniziali e dati finali degli stessi soggetti, mentre una ricerca trasversale effettua confronti simultanei
tra soggetti diversi.
In ambito scolastico l'osservazione solitamente condotta attraverso test. La somministrazione
collettiva dei test permette i confronti e quindi l'elaborazione statistica dei dati. Una tale procedura
detta nomotetica, in quanto tende a stabilire leggi di carattere generale.

3. Le scale di misurazione
In relazione alle propriet dei numeri che si associano alloggetto o ad una sua qualit, si
possono avere quattro modi fondamentali di misurazione ai quali corrispondono altrettante scale: la
scala nominale, la scala ordinale, la scala ad intervalli e la scala di rapporti.
Queste scale vengono proposte in questo ordine perch hanno caratteristiche formali
cumulative, nel senso che ognuna possiede tutte le propriet possedute dalle precedenti, pi altre
che sono specifiche di quella scala.
La scala nominale: consiste nellidentificare tutto ci che possiede una determinata
caratteristica e nel separarlo da ci che non la possiede. come attribuire un nome a determinate
qualit che vengono presentate come criterio di riferimento per formare classi omogenee distinte
per la presenza o assenza di quella qualit. Un nome pu essere sia una singola parola (per esempio
alfabeta: identifica tutti coloro che sanno leggere e scrivere, non importa a quale livello) come un
gruppo di parole, ossia una definizione (ad esempio, studente straniero laureato in fisica). Se, ad
esempio, si vuole quantificare lattributo lingua nativa, ci si servir di una scala nominale. La
caratteristica distintiva di una scala nominale che i suoi elementi non sono ordinati gli uni rispetto
agli altri. Laver diviso un gruppo di allievi secondo la lingua materna non significa aver fatto una
graduatoria, ma aver semplicemente assegnato ciascun individuo al proprio gruppo linguistico. In
ambito didattico la scala nominale pu essere utilizzata per distinguere le prestazioni degli allievi
che presentano una predeterminata qualit dalle altre che non la presentano. Ci comporta che
preliminarmente alla somministrazione di una prova o test si definiscano gli standard di accettabilit
sulla base dei quali si distingueranno gli allievi che superano la prova da quelli che non la superano.
Rispetto, quindi, alla classe identificata, si possono avere solo due casi: linclusione o
lesclusione. Possiamo dire che la scala nominale una scala binaria, o a due posizioni, s o no.
Ognuna delle classi identificate conterr elementi dello stesso tipo, cio omogenei rispetto alla
qualit scelta come criterio di classificazione. Per questo la scala nominale gode delle propriet
della simmetria e della transitivit. La prima indica che se fra due elementi A e B compresi nella
classe esiste una data relazione, la stessa relazione esiste fra B e A. La propriet transitiva ci dice
che se A=B e B=C anche A=C.
Le operazioni consentite a livello si scala nominale sono il calcolo della frequenza (o numero)
dei casi che cadono in ciascuna classe, il calcolo della moda, vale a dire della frequenza pi alta tra
le classi, e il calcolo delle percentuali e delle proporzioni (quando il numero degli elementi presi in
esame sufficiente). Questi ultimi valori sono utili per confronti tra classificazioni che si
riferiscono a popolazioni di diversa consistenza numerica. Si possono inoltre calcolare indici di
relazioni tra le variabili come la distribuzione binomiale, quella del chi quadro (2) che permette di
verificare se siano significative le differenze di frequenza registrate in due o pi campioni, e in
particolare molti test statistici non parametrici, che presuppongono che il campione dei dati di
riferimento non appartenga ad una popolazione casuale (come quasi sempre capita con gli allievi di

La valutazione linguistica

una scuola). Sono, tuttavia, calcoli che non necessario compiere per la verifica dellapprendimento
durante i processi di formazione quotidiani.
Una scala nominale consente di fare una prima generale classificazione, e pu essere vista
come preliminare a misurazioni pi complesse che prevedono lindividuazione delle possibili
gradazioni di una data qualit. Infatti, per quanto accurata sia una descrizione nella maggior parte
dei casi ci rendiamo conto che non sufficiente sapere che un oggetto possiede una data
caratteristica, ma ci occorre sapere anche in quale misura la possiede. Ad esempio, la classe indicata
con la parola alfabeta include sia chi a stento riesce a fare la propria firma come il grande scrittore
vincitore del premio Nobel per la letteratura. Diventano allora importanti altri tipi di scale che ci
indicano in quale misura una data qualit posseduta.
La scala ordinale: distingue i soggetti secondo il grado o livello in cui possiedono una data
qualit o caratteristica, determinando cos una graduatoria in cui si distingue il primo, il secondo, il
terzo, lennesimo nel grado di possesso del carattere rilevato. Come in un gara podistica diciamo
che chi si piazzato al terzo posto meno veloce del primo e del secondo ma pi veloce del quarto
o del settimo, cos in un test di comprensione di un testo orale possiamo dire che chi in base al
punteggio si colloca al terzo posto comprende quel testo con quelle caratteristiche meglio di chi si
collocato al quarto o al settimo posto.
Le classi che definiscono un certo grado di intensit della qualit presa in considerazione,
solitamente indicate con numeri, sono dette ranghi, e la scala rating scale o scala di ranghi. Con
questa si possono definire relazioni di maggioranza, minoranza o uguaglianza tra le variabili o
qualit misurate. La distanza fra i diversi punti della graduatoria non costante ed determinabile
solo facendo ricorso ad altre scale:
1 2 3
12

9 10

11

I voti che si impiegano nelle scuole superiori o nelle universit come pure i punteggi che nei
test linguistici si assegnano alle prove soggettive sono un tipico esempio di scala ordinale. Essi
indicano dei valori di posizione la cui distanza non univocamente determinabile, dato che questa
dipende spesso dalla valutazione di chi li impiega. La distanza che intercorre, ad esempio, tra un
cinque e un sei dipende dal concetto di sufficienza del docente o da quello che lui definisce come
tale2. Per questo, al di fuori del contesto specifico, un sei di un docente pu corrispondere ad un
quattro di un altro docente o addirittura ad un otto di un altro ancora. Il significato corretto di un
voto espresso con un numero solo quello di una graduatoria, per la quale chi ha avuto un 7 ha
ricevuto pi di chi ha preso un 6 o un 5. La scala ordinale, insomma, non consente di fare confronti
decontestualizzati.
Oltre che con numeri ordinali, la posizione di graduatoria pu essere espressa anche con
aggettivi o avverbi che esprimono il diverso grado di possesso di una data qualit o abilit:
moltissimo, abbastanza, poco, per niente; ottimo, buono, discreto, sufficiente, insufficiente ecc.
Circa la questione tanto dibattuta se a scuola meglio dare "voti" o "giudizi", si pu dire che si
tratta di una falsa questione, perch, ripetiamo, i numeri, in decimi o in trentesimi, che si assegnano
corrispondono a dei giudizi che dispongono in una graduatoria gli allievi.
2

Nellesperienza scolastica di un allievo di una scuola italiana c lampia gamma di voti intermedi tra il 5 e
il 6: il5, 5+, 5++, 5, 5, 6--, 6-, 6 e altri secondo la fantasia del docente. Cosa che si verifica generalmente
solo per questi voti limitrofi alla sufficienza, e non per altri. Insomma, la distanza tra il 5 e il 6 percepita
come diversa tra il 3 e il 4 o il 7 e l8, proprio perch i voti scolastici non sono una scala ad intervalli. Tale
distanza osserva Porcelli non lesito di interpolazioni arbitrarie in un sistema che per legge, prevede solo
voti interi; essa riflette invece lineguale distribuzione delle frequenze dei dati antropometrici e psicometrici.
Intendiamo dire che quando ci riferiamo a parametri relativi alla persona umana i casi pi vicini alla media
sono molto pi numerosi dei casi che si allontano da essa. (Porcelli, 1992: p.35)
10

La valutazione linguistica

La scala ordinale, come quella nominale gode della propriet transitiva, per cui se A > B e B >
C allora A > C.
Per la scala ordinale si possono fare molte operazioni che non sono possibili su quelle
nominali. Sono infatti possibili diversi calcoli di natura statistica, anche piuttosto complessi, come
la correlazione tra due variabili poste in graduatoria, ed altri pi semplici ma anche utili allanalisi
dei dati raccolti, come la gamma o campo di variazione, la mediana, la media e gli indici del valore
di posizione dei punteggi quali i centili, i decili e i quartili, che vedremo pi avanti.
La scala a intervalli: quella che presenta una distanza costante fra due qualsiasi punti
consecutivi. Lintervallo viene cos a rappresentare un indicatore quantitativo e qualitativo della
differenza tra due punti. Oltre alla caratteristica di graduare in modo ordinato gli elementi come
nella scala ordinale, la scala ad intervalli presenta distanze o intervalli uguali tra livelli ordinati.
Nelle scale a intervalli lo zero assume valore convenzionale, come nelle scale termometriche, e
non gi assenza della qualit o abilit misurata.
Le scale in cui lo zero indica invece assenza di misura sono le scale a rapporti, le uniche che
permettano il calcolo dei rapporti proporzionali tra misure diverse e che quindi consentano di
considerare di ugual valore gli esiti di due rapporti. Ad esempio se io ho due etti di caff e tu quattro
etti, posso dire che tu hai una quantit di caff doppia rispetto alla mia, cos se una fontana in un
quarto dora versa 100 litri di acqua in unora ne verser il quadruplo, quattrocento litri. Tali tipi di
scale, che hanno lo zero assoluto, sono usate per misurare le caratteristiche fisiche e non sono
utilizzabili nelle scienze umane, tranne le scale temporali trattate come assolute come avviene in un
cronometraggio e i tempi sono allora doppi o tripli ecc.
La scala ad intervalli quella che viene solitamente impiegata nelle misurazioni effettuate con
la somministrazione di prove oggettive di verifica, ad esempio con le scelte multiple. In tali prove,
infatti, il peso o valore espresso in termini di punteggio assegnato a ciascun item permette di
determinare a priori il punteggio massimo conseguibile nel caso in cui si risponda correttamente a
tutti gli item. Tale punteggio massimo rappresenta lampiezza della scala che viene impiegata per
misurare le prestazioni rilevate con le specifiche sezioni di quel test o con lintera prova.
Se in un test a scelta multipla, costituito da 10 item si assegnano 3 punti per ogni risposta esatta
e si penalizza con un punto in meno ogni errore od omissione, la scala sar costituita da intervalli
regolari distanti tra loro 4 punti; il punteggio pi basso, per la penalizzazione sar pari a 10:

-10
-6
-2
2
6
10
14
18
22
26
30
Una scala di questo tipo consente di determinare con esattezza la quantit di possesso della
abilit rilevata, la differenza di intensit del possesso della abilit o caratteristica misurata tra due
diversi elementi o punteggi e la misura del rapporto di quelle intensit.
Con la scala ad intervalli sono possibili diversi calcoli: oltre quelli previsti per le due scale
precedenti, possibile il calcolo della media aritmetica, gli indici di variabilit o dispersione dei
punteggi come la deviazione standard e il coefficiente di variazione e diverse correlazioni. Si
possono, inoltre, impiegare numerosi altri test statistici, anche parametrici, di analisi e
interpretazione dei dati rilevati.
Ognuna delle quattro scale sopra descritte fornisce un diverso tipo di informazione e le quattro
scale di misurazione sono ordinate, luna rispetto allaltra, in base alla quantit di informazione che
possono fornire. Spieghiamo con degli esempi. Io posso indicare la temperatura ambientale con
afosa, molto calda, calda, fresca, fredda, molto fredda, rigida, vale a dire suddivido i miei
apprezzamenti sulla temperatura in sette fasce, a ciascuna delle quali faccio corrispondere una
descrizione. Al posto degli aggettivi potrei usare delle lettere o dei numeri, ciascuno dei quali
11

La valutazione linguistica

corrisponderebbe ad un aggettivo, ma non cambierebbe nulla. Ma se invece di usare questi aggettivi


uso il termometro posso dire non solo che la temperatura di oggi maggiore o minore rispetto a
quella di ieri ma anche di quanto maggiore e minore. Da una scala ordinale passo ad una scala ad
intervalli che d maggiori informazioni.
Le diverse scale si riferiscono a diversi livelli di misurazione. La scala nominale rappresenta il
livello pi basso, dato che consente di distinguere solo sulla base di categorie diverse, mentre la
scala di rapporti rappresenta il livello pi alto in quanto possiede oltre alle propriet delle altre tre
anche quella di indicare i rapporti esistenti tra gli elementi presi in considerazione.
Nella tabella che segue sono indicate progressivamente le caratteristiche proprie di ognuna
delle scale:
Tipo di scala / Propriet
Nominale
Ordinale
Ad intervalli
Di rapporti

Distinguere
+
+
+
+

Ordinare Intervallare
+
+
+
+
+

Proporzionare
+

La distinzione fra le scale utile per rendersi conto del tipo di misure da utilizzare in classe.
Escluso, come si detto, il ricorso alla scala di rapporti ( inesatto, ad esempio, dire che la
comprensione di un testo scritto da parte dellallievo A il doppio di quella dellallievo B), le altre
tre scale possono soddisfare le esigenze di misurazione delle competenze acquisite dagli allievi.
Cos:
- quando facciamo solo delle descrizioni che non contengano elementi comparativi usiamo
una scala nominale (per esempio: lallievo, quando parla in lingua 2, riesce ad esprimersi in
modo corretto e puntuale su temi di carattere quotidiano);
- quando si esprimono apprezzamenti implicitamente o esplicitamente comparativi facciamo
ricorso alla scala ordinale;
- quando le prestazioni sono riconducibili ad unit sulla base della quale possiamo esprimere
delle quantit (ad esempio, le risposte esatte a quesiti a scelta multipla) allora usiamo la
scala ad intervalli.
4.

Lanalisi statistica dei dati valutativi

Quando si somministra un test lo si fa perch si vuole conoscere landamento


dellapprendimento da parte di un gruppo di allievi, magari anche in rapporto a quelle che sono le
aspettative dellinsegnante, e conoscere anche il livello di apprendimento di ciascun allievo. Una
conoscenza sicuramente fornita dai punteggi che vengono assegnati a ciascun allievo, ma una
conoscenza pi precisa si pu avere se i vari punteggi vengono confrontati tra loro e analizzati,
magari, servendosi di operatori statistici. Soprattutto se si opera con scale a intervalli lanalisi
statistica dei dati particolarmente utile.
La prima operazione da fare, una volta che sono stati assegnati i punteggi ai vari elaborati,
quella di sistemarli in ordine crescente, dal pi basso al pi alto o viceversa. A questo punto si
pu procedere alla determinazione delle misure di tendenza centrale, misure che ci consentono
di conoscere la tendenza complessiva degli apprendimenti del gruppo preso nel suo insieme.
Queste misure ci indicano, infatti, dove tendono a concentrarsi i dati, quali sono i pi
significativi, a quale livello in genere si situano e qual la loro fisionomia. Le misura di
tendenza centrale calcolabili con la scala a intervalli sono la media aritmetica, la mediana e la
moda.

12

La valutazione linguistica

La media aritmetica (X) la somma di tutti i punteggi divisa per il numero dei punteggi:

Me

x i
N

(dove il simbolo della somma, e Xi indica i singoli punteggi, ed N il numero dei punteggi)
La mediana quel valore che, in una distribuzione di elementi ordinata in modo crescente o
decrescente, occupa la posizione centrale. Il calcolo del valore assunto dalla mediana cambia a
seconda che il numero dei dati della distribuzione sia dispari o pari. Nel primo caso coincider
con il dato o punteggio che ha alla sua destra e alla sua sinistra un uguale numero di punteggi.
Dati, ad esempio i seguenti punteggi:
12, 13, 15, 16, 18, 22, 23, 25, 26
la mediana (Md) coincide con il valore 18, che ha quattro punteggi alla sua sinistra e quattro alla
sua destra. Quando i punteggi sono molto numerosi la posizione della mediana pu essere
individuata con la seguente formula:
(n+1)
Md = --------2
Quando il numero dei dati pari la posizione della mediana cadr tra i due punteggi centrali, e il
suo valore sar dato dalla media aritmetica di quei due punteggi, e pu non corrispondere ad un
punteggio realmente assegnato. Dati, ad esempio, i seguenti punteggi:
12, 13, 15, 16, 18, 22, 23, 24, 25, 26
la mediana si collocher tra il 5 e il 6 punteggio, sar infatti:
(18 + 22)
Md = ------------- = 20
2
La caratteristica peculiare della mediana di esprimere il valore centrale di una distribuzione
permette di conoscere immediatamente, tra due o pi distribuzioni, qual quella in cui la
maggioranza dei punteggi al di sopra o al disotto del punteggio ritenuto come accettabile. Cos
se, ad esempio, nella classe A la mediana 15 e nella classe B 19, e la prestazione considerata
sufficiente pari a 18, allora nel primo gruppo almeno la met pi uno dei punteggi
insufficiente mentre nel secondo gruppo la met pi uno ha conoscenze superiori alla
sufficienza.
La mediana si applica sia a scale ordinali che a scale ad intervalli.
La moda (Mo) rappresenta quel punteggio della distribuzione che si ripete con maggior
frequenza. Cos nella seguente serie di punteggi:
12, 12, 16,16, 18, 18, 18, 20, 21, 22, 22, 22, 22, 23, 25, 25, 26, 26,
la moda sar 22 dal momento che questo il valore pi ricorrente. Se in una serie di punteggi ce
ne sono due con frequenza sensibilmente pi alta rispetto agli altri punteggi a bassa frequenza,
possiamo dire che la distribuzione bimodale (cio ha due mode).
Anche se, per certi versi la moda, tra le misure di tendenza centrale, quella meno
rappresentativa, anche vero che in certe circostanze pu offrire informazioni preziose. Infatti,
sia quando il numero dei punteggi pi ricorrenti molto alto rispetto ai punteggi complessivi, sia
quando si registrano due o pi mode consistenti con valori tra essi relativamente distanti,
evidente che ci sono forti differenze di preparazione o di apprendimento allinterno del gruppo
classe.

13

La valutazione linguistica

In una scala ad intervalli possibile fissare il punteggio massimo teorico conseguibile in


una specifica prova. Ad esempio in un test a scelta multipla costituito da 20 item o quesiti per i
quali si assegnano tre punti in caso di risposta corretta, avr un punteggio massimo teorico di 60
(20x3).
Le singole misure da sole dicono poco, messe in relazione diventano fonti di nuove
informazioni. Per esempio un confronto tra la media e il punteggio massimo teorico ci d la
misura dellampiezza dello scarto tra i risultati attesi e quelli effettivamente registrati. Un
docente che, ad esempio, mette a punto un test a scelta multipla sui tempi passati per verificare
lapprendimento da parte di allievi ditaliano come L2 di questo aspetto della grammatica
italiana dopo una serie di lezioni, valuter come soddisfacenti i risultati della classe se il
punteggio medio si avvicina al massimo teorico, mentre riterr scadente un risultato medio di
molto lontano dal punteggio massimo teorico.
Il confronto tra media e mediana, invece, potr indicare al docente se la maggior parte degli
allievi ha conseguito punteggi pi alti, pi bassi o coincidenti con la media, se cio la
maggioranza degli allievi al di sopra o al di sotto della media complessiva delle prestazioni del
gruppo. Se la mediana superiore alla media vorr dire che almeno la met pi uno degli allievi
ha conseguito punteggi pi alti di quelli medi del gruppo; se viceversa la mediana inferiore alla
media, la situazione sar opposta.
Dati i seguenti punteggi:
2, 5, 8, 11, 12, 14, 14, 15, 16, 16, 16, 16, 18, 19, 21, 22, 22, 23, 24, 24, 24, 26, 29
la media pari a 17 e la mediana pari a 16, di conseguenza la maggioranza dei punteggi
inferiore alla media (12 contro 11).
Quando media, mediana e moda coincidono, i punteggi si distribuiscono in modo casuale o
normale, rappresentando una vera propria curva gaussiana. La distribuzione dei punteggi
simmetrica nella parte superiore e in quella inferiore.

Media
Mediana
moda

Questo andamento caratterizza i fenomeni casuali e molti di quelli naturali in cui appunto le
tre misure di tendenza centrale tendono a coincidere.
Le misure di tendenza centrale non ci forniscono informazioni circa la posizione e la
variabilit, rispetto alla media dei singoli punteggi, ovvero le conoscenze specifiche di ciascuno
rispetto a quelle che caratterizzano lintero gruppo. Per avere tali informazioni occorre procedere
ad ulteriori e diverse modalit di trattamento dei punteggi grezzi.
4.1. Gamma e dispersione dei punteggi
Come si detto le misure della tendenza centrale non ci dicono molto circa lomogeneit o
la dispersione dei punteggi, vale a dire se i livelli di competenza e apprendimento degli allievi
sono simili o molto diversi. I punteggi, infatti, potrebbero essere tra loro molto vicini oppure
essere distribuiti su una gamma molto ampia. Si osservino le seguenti distribuzioni:
14

La valutazione linguistica

a.
9, 16, 18, 18, 18, 18, 18, 22, 25
b.
10, 13, 15, 18, 18, 19, 21, 22, 26
in entrambe media, moda e mediana coincidono ( pari a 18), tuttavia, pur nellesiguit del
campione, si coglie che mentre nel primo gruppo quasi tutti i punteggi si concentrano attorno al
valore centrale, nel secondo gruppo i punti sono distribuiti su un ventaglio pi ampio e sono tra loro
diversi. Le misure di tendenza centrale da sole non ci danno unidea di come si distribuiscono i
punteggi, ed allora un primo, generico, indicatore della variabilit dei punteggi dato dalla distanza
che intercorre tra il punteggio massimo e il punteggio minimo, vale a dire la gamma (G):
G = P.max P. min.
La gamma rappresenta quindi la distanza che intercorre tra la prestazione migliore e la
peggiore in una prova.
Per quanto importante la gamma una misura abbastanza grossolana e non sempre
significativa. Le due serie di punteggi sopra riportati hanno la stessa gamma, e tuttavia la
dispersione dei punteggi molto diversa.
Una misura affidabile per la dispersione dei punteggi in una scala ad intervalli attorno ai valori
medi la deviazione standard ( o scarto quadratico medio). La deviazione standard oltre a dare
indicazioni pi analitiche sulla reale distribuzione dei dati , rappresenta la pi importante misura di
variabilit su cui si fondano molti dei criteri di standardizzazione dei punteggi grezzi.
La deviazione standard solitamente indicata con un sigma (), e per calcolarla si estrae la
radice quadrata dalla media dei quadrati degli scostamenti dei punteggi dal valore medio della
distribuzione:

i
n

dove il simbolo di somma, Xi indica i singoli punteggi; la media aritmetica dei punteggi ed
n il numero dei punteggi della distribuzione.
Pur essendo oggi molto semplice mediante un computer calcolare la deviazione standard,
tuttavia, anche per comprendere meglio il meccanismo di funzionamento della formula, si pu
provare a calcolarla con carta e penna. Ecco le operazioni da seguire:
1. nella prima colonna di un foglio di carta millimetrata (o a quadretti) si riportano i punteggi
in ordine crescente
2. si calcola la media e la si trascrive in fondo alla prima colonna
3. in una seconda colonna si scrivono le differenze algebriche tra il punteggio e la media
4. in una terza colonna si trascrivono i quadrati degli scarti indicati nella seconda colonna.
Questi saranno naturalmente tutti positivi anche se lo scarto era negativo. In fondo alla
colonna si riporta la somma di questi quadrati;
5. si divide questa somma per il numero dei punteggi e si estrae la radice quadrata, che sar,
appunto, il valore della deviazione standard.
Le procedure sopra descritte sono quelle seguite nella tabella che segue, in cui sono riportati i
punteggi sopra descritti relativi al secondo gruppo di allievi:

Numero
progressivo

Punteggi
ordinati

Scarto
punteggio /
15

Quadrato dello
scarto dalla

La valutazione linguistica

1
2
3
4
5
6
7
8
9
N= 9

188
----------9

10
13
15
18
18
19
21
22
26
Media
18

media
-8
-5
-3
0
0
1
3
4
8
=

media
64
25
9
0
0
1
9
16
64
= 188

20,888 = 4,57.

Quando la deviazione standard compresa entro il 10-15 per cento del valore assunto dalla
media, si ha che gli esiti di una prova sono tra loro molto omogenei: i singoli punteggi non si
discostano molto dalla media delle prestazioni. Quanto pi la sigma si allontana da questa soglia,
tanto maggiore sar la differenza tra i risultati, o se si vuole, la dispersione sar maggiore.
Nellesempio di cui alla tabella precedente (anche se il campione piuttosto esiguo) la deviazione
standard relativamente alta rispetto alla media (18), il che sta a significare una dispersione dei
punteggi relativamente accentuata.
1.2

La standardizzazione dei punteggi

Oltre ai confronti tra le misure di tendenza centrale e di dispersione, altre comparazioni


possono essere condotte per rendere pi affidabili i punteggi grezzi. Con opportune procedure,
infatti, i punteggi possono essere standardizzati impiegando come unit di misura la deviazione
standard. Tra i pi importanti punteggi standardizzati vi sono: la distribuzione penteneria, i punti Z
e i punti T.
Distribuzione penteneria. un sistema di classificazione dei punteggi, assai diffuso in area
anglosassone, che consiste nel distinguere le posizioni relative delle diverse prestazioni (misure o
punteggi) in 5 fasce in ordine decrescente, A, B, C, D ed E, ciascuna dellampiezza di una
deviazione standard. Le prime tre fasce individuano le prestazioni ritenute accettabili, mentre le
ultime due si riferiscono alle prestazioni insufficienti. La fascia centrale costituita dai punteggi
che si collocano a cavallo della media aritmetica, vale a dire i punteggi che vanno da X- /2 a X+
/2 (da meno mezza deviazione standard dalla media a pi mezza deviazione standard dalla
media ). Aggiungendo allestremo superiore di C una deviazione standard si fissa lestremo
superiore di B, e tutti i punteggi superiori a questo estremo saranno classificati come appartenenti
ad A. Operando alo stesso modo a sinistra della fascia C si determinano i punteggi di D ed E.
Dati ad esempio i seguenti punteggi grezzi conseguiti da un campione di 38 candidati stranieri in
una prova tipo cloze per il conseguimento di un certificato di conoscenza della lingua italiana come
lingua straniera:
26, 26, 25, 25, 25, 25, 23, 23, 22, 22, 22, 22, 22, 22, 21, 21, 21, 20, 20, 19, 19, 19, 18, 18, 18, 17,
17, 16, 16, 14, 14, 13, 12, 12, 10, 8, 5, 2;

16

La valutazione linguistica

essendo la media pari a 18,42 e la deviazione standard del valore di 5,68, le 5 fasce sono cos
distinte:
- la fascia C, compresa fra 15,58 e 21,26, include approssimativamente 16 punteggi;
- la fascia B, compresa fra 21,26 e 26,95, include 11 punteggi;
- la fascia A, con punti superiori a 26, 95, non registra nessun punteggio;
- la fascia D, compresa fra 9,88 e 15,57, include 7 punteggi;
- la fascia E, con punti inferiori a 9,88, include 4 punteggi.
La distribuzione dei punteggi nelle cinque fasce pu essere graficamente rappresentata con la nota
curva di Gauss. Nel caso di una distribuzione teoricamente normale dei diversi punteggi, nella
fascia centrale si collocherebbe la maggioranza dei punteggi, mentre nelle fasce intermedie ed
estreme si collocherebbero percentuali simmetricamente pi basse, come si pu vedere nel grafico
seguente:

E
7%

D
24%

C
38%

B
24%

A
7%

Le cinque fasce cos individuate corrispondono ad una scala di giudizi espressi con aggettivi,
ottimo, buono, sufficiente, insufficiente, assai insufficiente.
La curva normale teorica difficilmente riscontrabile nelle rappresentazioni dei risultati di una
prova scolastica, perch il campione non pu essere costituito da un numero elevato di dati e i
fenomeni che vengono misurati non sono caratteristiche fisiche e naturali della persona come il peso
o laltezza per stabilire laltezza media di una classe della popolazione di un paese. Tuttavia il
modello della distribuzione penteneria stato utilizzato anche in ambito scolastico, partendo dal
presupposto che, come per i fenomeni di ordine naturale, in una prova somministrata ad un gran
numero di allievi la maggior parte dei punteggi si addensa attorno ai valori centrali, mentre si
registreranno frequenze progressivamente pi basse per i valori intermedi e per quelli pi alti e pi
bassi. In altri termini come se si affermasse che i risultati dellapprendimento rispecchiano la
distribuzione di caratteristiche naturali come lintelligenza, la predisposizione ecc.. Se la
distribuzione normale teorica impossibile ritrovarla nelle prestazioni di una singola classe o anche
di unintera scuola, invece possibile registrarla in quei test generali e aspecifici che sono le prove
che vengono sostenute per il conseguimento di un certificato di conoscenza di una lingua straniera.
Qui lalto numero dei candidati, leterogeneit culturale, sociale linguistica dei candidati, il tipo di
prove che riflettono un modello di competenza duso della lingua astratto, nel senso che non tiene
conto della specifica formazione o conoscenza linguistica dei candidati, rendono il campione molto
simile ai campioni che gli statistici prendono in considerazione per misurare un fenomeno
naturale. Una conferma di ci viene, ad esempio, dai dati sulla certificazione dellitaliano come
L2 rilasciata dallUniversit per stranieri di Perugia. Dallanalisi emerge chiaramente che, per i
livelli in cui si concentra il maggior numero di candidati, la distribuzione dei valori degli esiti finali
si avvicina di molto alla distribuzione normale teorica.

17

La valutazione linguistica

La distribuzione penteneria solo un modello per organizzare e analizzare dei dati e non gi il
rispecchiamento fedele di una realt o di un fenomeno. Accettare acriticamente come ineluttabile
che i punteggi di una classe o di una scuola si distribuiscano secondo la curva a campana di Gauss
pu essere pericoloso in quanto vizia la valutazione serena degli esiti di una prova. Questo
atteggiamento produce quello che viene indicato come effetto della distribuzione forzata dei
risultati, secondo cui gli esiti della formazioni rispecchiano landamento della curva normale di
molti fenomeni naturali, o degli errori accidentali delle misurazioni. In base a ci, ad esempio, al
termine di un anno scolastico, solo il 20 per cento circa degli allievi raggiunge il livello ottimale
fissato per quel corso, il 20 per cento si situa ai livelli pi bassi di insufficienza mentre il restante 60
per cento si situa attorno alla media della sufficienza. Laccettare una simile distribuzione come
ineluttabile finisce per condizionare il giudizio dellinsegnante, rappresenta una forma di costrizione
dei risultati dovuta alla mancata valorizzazione delle funzioni specialistiche della didattica e della
verifica.
La ricerca didattica pi aggiornata (ad esempio, quella che si riconosce nellipotesi del mastery
learning) rifiuta questa interpretazione naturalistica e sostiene invece che la distribuzione dei
risultati scolastici deve corrispondere ad un raggiungimento ampio e generalizzato degli obiettivi di
apprendimento fissati. Lintervento formativo scolastico ha come obiettivo quello di produrre un
cambiamento significativo negli allievi e non pu accettare fatalisticamente che una percentuale
fissa di allievi fallisca il proprio obiettivo. Lintervento formativo deve anzi far s che i punteggi di
prove oggettive capaci di rilevare con buona attendibilit il conseguimento degli obiettivi cognitivi
di un corso, si distribuiscano secondo quella che i teorici del Mastery learning chiamano la curva a
J. Si tratta di una curva che rappresenta il raggiungimento da parte di quasi tutti gli allievi di
quelle conoscenze che negli insegnamenti tradizionali raggiungeva solo il 10-20 per cento.
Queste osservazioni non annullano il valore docimologico della distribuzione penteneria. Si
vuole solo sottolineare che ogni strumento di misurazione aiuta a conoscere meglio un fenomeno,
ma ci sono fenomeni, come quelli dellapprendimento, alla conoscenza dei quali ci si arriva sempre
con una certa approssimazione, e i vari strumenti di natura statistica che vengono utilizzati hanno lo
scopo di facilitare la conoscenza. Quando, infatti, si vuole conoscere la posizione relativa di una
prestazione di un allievo in confronto con gli altri o con se stesso, allora il ricorso alla distribuzione
penteneria, proprio per la sua caratteristica di evidenziare le differenze di posizione, risulta
sufficientemente utile.
Punti Z e punti T. La distribuzione penteneria assegnando i vari punteggi a fasce relativamente
ampie non evidenzia le differenze allinterno della stessa fascia e magari evidenzia due punteggi
grezzi fra loro vicini ma appartenenti a fasce diverse: la distanza tra il punto pi alto e quello pi
basso di una fascia ovviamente maggiore di quella che intercorre tra i punteggi di confine di due
fasce contigue. Per ovviare a questi limiti della distribuzione penteneria, che appunto non ci dice
molto sul valore e significato di un singolo punteggio si ricorre ai punteggi standardizzati. Quelli
ritenuti standard per antonomasia sono i punti Z e i punti T.
I punti standardizzati permettono di fare confronti precisi fra punteggi riportati in tempi diversi
o in prove diverse o con diverso punteggio massimo teorico da uno stesso allievo o da allievi
diversi. Questi punteggi, infatti, individuano la posizione relativa di ciascun punteggio grezzo in
rapporto alla media e allampiezza della deviazione standard della serie cui ciascun punteggio
appartiene. Cos, se un allievo in una prova con un massimo teorico di 50 punti ha preso 40 punti
ed in unaltra prova con un massimo di 100 ha preso 80 punti, non possiamo dire che in entrambe le
prove ha ottenuto lo stesso risultato, pari all80 per cento del massimo teorico, se non conosciamo
landamento dellintero gruppo sottoposto alla stessa prova. Magari, 40 punti nella prima prova il
punteggio pi alto conseguito dallintera classe mentre gli 80 punti della seconda prova sono il
punteggio pi basso conseguito dagli allievi che si sono collocati in quella fascia di punteggi. Per
18

La valutazione linguistica

avere uninformazione pi precisa sul valore relativo di un punteggio e quindi per poterlo
confrontare con il punteggio conseguito in un'altra prova o in un altro momento dobbiamo far
riferimento a punti standard.
Per sapere se il primo punteggio dellesempio sopra riportato superiore o uguale o inferiore al
secondo, dobbiamo prendere in considerazione le medie e le deviazioni standard delle distribuzioni
cui i due punteggi appartengono, poich dalla loro grandezza dipendono le posizioni relative dei
singoli punteggi. Quanto pi alta la media e pi bassa la deviazione standard, maggiore il
valore relativo dei punteggi che superano la media.
I punti Z segnalano a quale distanza dalla media si situano i singoli punteggi grezzi, e questa
distanza misurata utilizzando come unit di misura la deviazione standard. In altri termini il punto
Z ci dice di quante deviazioni standard un punteggio grezzo si discosta dalla media.
I punti Z si ottengono quindi misurando in deviazioni standard la differenza tra il punteggio
grezzo e la media. La formula la seguente:
Z

Xi X

In una distribuzione normale, sei punti Z comprendono la quasi totalit dei dati in essa
racchiusi. Si osservi la tabella della pagina seguente: per la prima prova, quella relativa ad un test di
completamento tipo cloze, con una deviazione standard pari a 5,69 ed una media pari a 18,42, il
punteggio del candidato n.10 pari a 25 su 30 e il valore del punto Z 1,16, cos ottenuto:
25 18,42
Z=
-------------- = 1,16
5,69
I punti Z permettono di fare confronti immediati tra punteggi conseguiti in diverse prove da
uno pi soggetti di uno stesso gruppo o di gruppi diversi, proprio perch calcolati su una base
omogenea (media e deviazione standard). Dal confronto tra due o pi punti Z risulter migliore
quello con valore relativo pi alto. Facendo riferimento alla tabella della pagina seguente si pu
vedere come il candidato n. 30, che nella prova tipo cloze ha conseguito un punteggio di 25 su 30 e
nella prova di comprensione di testi scritti ha ottenuto 23 punti su 27, ha un punteggio Z migliore
nella prima prova rispetto alla seconda: 1,16 rispetto a 0,99: eppure i punteggi grezzi sono
percentualmente molto simili. Le differenze tra i due punti Z si spiegano perch le deviazioni
standard delle due distribuzioni sono diverse, a fronte di medie pressoch simili tra i due gruppi.
I punti Z, come si nota anche dalla citata tabella della pagina seguente, prevedono anche valori
negativi, che pur rispecchiando una prestazione non eccellente, non hanno certo una positiva
valenza motivazionale. Ottenere un punteggio negativo, anche se vicinissimo alla media non aiuta
lautostima dellallievo o del candidato. Per ovviare a questa connotazione negativa del punto Z si
sono impiegati i punti T, che sono quindi una variazione dei punti Z. con questi si pone,
convenzionalmente, la media come pari a 50 e il sigma uguale a dieci. In questo modo si hanno solo
punteggi con segno positivo. I punti T visualizzano la posizione relativa delle singole prestazioni
attraverso la misura dello scarto superiore o inferiore a 50: sopra il 50 individua una prestazione
soddisfacente, sotto il 50 insoddisfacente o comunque inferiore alla media.
La formula dei punti T la seguente:
10 (Xi X)
T =
50 +

Se si vuole trasformare immediatamente un punto Z in punto T basta fare la seguente operazione:


T = 50 + 10 (Z). Cos un punteggio Z uguale a 0,28, applicando la formula precedente, diventa
52,78.
19

La valutazione linguistica

Completamento tipo cloze


N
d'ordine
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38

Scelta multipla

Punteggi

punti Z

punti T

14
21
19
10
2
13
14
12
22
25
16
23
18
22
21
26
22
22
25
22
5
16
20
19
25
26
20
8
12
25
17
19
22
17
23
18
18
21

-0,78
0,45
0,10
-1,48
-2,89
-0,95
-0,78
-1,13
0,63
1,16
-0,43
0,81
-0,07
0,63
0,45
1,33
0,63
0,63
1,16
0,63
-2,36
-0,43
0,28
0,10
1,16
1,33
0,28
-1,83
-1,13
1,16
-0,25
0,10
0,63
-0,25
0,81
-0,07
-0,07
0,45

42,23
54,53
51,02
35,19
21,13
40,47
42,23
38,71
56,29
61,57
45,74
58,05
49,26
56,29
54,53
63,33
56,29
56,29
61,57
56,29
26,40
45,74
52,78
51,02
61,57
63,33
52,78
31,68
38,71
61,57
47,50
51,02
56,29
47,50
58,05
49,26
49,26
54,53

Dev. Stand.
Media
Mediana
Moda

5,69
18,42
19,5
22

N.
Punteggi
dordine
1
19
2
11
3
23
4
19
5
23
6
7
7
23
8
15
9
23
10
19
11
15
12
15
13
19
14
23
15
15
16
27
17
19
18
27
19
11
20
19
21
15
22
15
23
11
24
15
25
7
26
19
27
23
28
19
29
23
30
23
31
15
32
19
33
23
34
23
35
19
36
11
37
15
38
19
4,98
18,05
19
19

Tabella 2

20

punti Z

punti T

0,19
-1,42
0,99
0,19
0,99
-2,22
0,99
-0,61
0,99
0,19
-0,61
-0,61
0,19
0,99
-0,61
1,80
0,19
1,80
-1,42
0,19
-0,61
-0,61
-1,42
-0,61
-2,22
0,19
0,99
0,19
0,99
0,99
-0,61
0,19
0,99
0,99
0,19
-1,42
-0,61
0,19

51,90
35,83
59,94
51,90
59,94
27,80
59,94
43,87
59,94
51,90
43,87
43,87
51,90
59,94
43,87
67,97
51,90
67,97
35,83
51,90
43,87
43,87
35,83
43,87
27,80
51,90
59,94
51,90
59,94
59,94
43,87
51,90
59,94
59,94
51,90
35,83
43,87
51,90

La valutazione linguistica

5. Lanalisi degli item


La somministrazione di un test, la sua correzione e attribuzione dei punteggi sono operazioni
necessarie ai fini della valutazione. In base ai punteggi assegnati si stabilisce chi e come ha superato
una data prova. Tuttavia queste operazioni non ci dicono se il test abbia funzionato correttamente
nel suo complesso e nelle sue singole parti, se il test sia stato adeguato alle capacit effettive degli
allievi, se, ad esempio, i distrattori siano stati troppo o scarsamente distraenti o le domande siano
state ambigue o imprecise. Una valutazione completa implica una riflessione sulle caratteristiche
strutturali e sul funzionamento della prova somministrata, altrimenti si rimarrebbe sempre nel
campo dellempirismo e dellaccettazione acritica di dati aprioristicamente considerati attendibili.
Un modo per valutare lappropriatezza di un test offerta dallanalisi degli item. Questa parte
dal presupposto che, anche se tutti gli item concorrono a costituire il punteggio complessivo del
test, alcuni vi contribuiscono in modo pi significativo e determinante di altri. Lo scopo dellanalisi
degli item allora quello di identificare quali item e in quale misura contribuiscono a determinare il
punteggio di ciascun allievo ma soprattutto se la loro formulazione stata congruente con
lobiettivo. Lanalisi degli item ci d le misure di tre importanti caratteristiche degli item stessi: la
difficolt, la discriminativit o discriminazione e la distrattivit.
La difficolt di un item pu essere intesa come la resistenza che un quesito pone alla sua corretta
risoluzione; la discriminativit indica la capacit di un quesito di distinguere gli allievi che
forniscono una prestazione complessivamente migliore da quelli che forniscono una prova pi
scarsa; la distrattivit, invece, si riferisce alla capacit dei singoli distrattori di far deviare dalla
risposta corretta. Per ciascuna di queste caratteristiche possibile calcolare il relativo indice.
a.
Lindice di difficolt3 si misura stabilendo il rapporto fra il numero degli allievi che hanno
fornito una risposta errata e il numero degli allievi che si sono sottoposti al test. Si avr quindi un
valore massimo di difficolt pari a 1, quando tutti rispondono in modo errato, ed uno minimo pari a
0 quanto tutti rispondono correttamente.
La formula per calcolare lindice di difficolt :
TE
------N
In cui TE indica il totale degli allievi che hanno dato una risposta errata a quel singolo item e N
pari al numero degli allievi.
Esempio: se in una classe di 20 allievi al primo item di un test a scelta multipla rispondono
correttamente 20, lindice di difficolt sar: 5/20 = 0,25.
Df =

b.
Lindice di discriminativit (o di discriminazione) si fonda sullassunto che gli allievi che
fanno meglio lintero test dovrebbero fornire una prestazione migliore su ogni singolo item. Per
calcolare tale indice occorre preliminarmente individuare il gruppo che ha conseguito i punteggi pi
3

Tale indice pu essere indicato anche come indice di facilit; in tal caso si prende come punto di riferimento
il totale delle soluzioni corrette, per cui 1 indica il massimo di facilit, quando tutti rispondono correttamente
al quesito e 0 il minimo di facilit, quando nessuno risponde correttamente.
21

La valutazione linguistica

elevati e quello che ha ottenuto i punteggi pi bassi. Se il test stato somministrato ad un numero di
allievi molto elevato, ciascuno di questi gruppi sar pari ad un quarto dellintero campione, se
invece il test riguarda una singola classe o un numero pi ridotto di allievi allora i punteggi possono
esser suddivisi in tre gruppi e tener conto solo del pi alto e del pi basso. Si conta poi per ciascun
item il numero di quanti della fascia superiore hanno risposto correttamente e ad esso si sottrae il
numero delle risposte corrette date dalla fascia inferiore. Si divide la differenza cos ottenuta per il
numero degli allievi di ciascuno dei gruppi presi in considerazione, secondo la seguente formula di
Johnson:
ES - EI
D = -----------N
dove: ES il numero delle risposte esatte registrate nella fascia superiore, EI il numero delle
risposte esatte registrate nella fascia inferiore, ed N il numero dei punteggi che costituiscono
ciascun gruppo preso in considerazione.
Esempio: se in una classe di 20 allievi abbiamo isolato i 7 risultati migliori e i 7 peggiori e
abbiamo calcolato che tra i primi 7 hanno risposto correttamente in 5 mentre tra i secondi hanno
risposto correttamente in 2, lindice di discriminazione sar: (5-2)/7 = 0,42.
Un determinato item ha il massimo valore di discriminazione positiva (+1) se ad esso
rispondono correttamente tutti i soggetti del gruppo superiore e nessuno del gruppo inferiore; ha il
massimo valore di discriminazione negativa (-1) se si verifica esattamente il contrario. Se lindice
0 vuol dire che gli allievi dei due gruppi non si sono differenziati nella risposta ad un dato item.
Come si pu constatare lindice di discriminazione oscilla tra +1 e 1. Quanto pi lindice si
avvicina a +1 tanto pi litem svolge una funzione discriminante, cio separa le conoscenze reali da
quelle fittizie e ci ha grande rilievo soprattutto nelle prove di verifica formativa con le quali si
vogliono identificare univocamente le lacune per poter intervenire sulle loro cause con specificit,
sistematicit e tempestivit.
Un criterio diverso per cogliere in
maniera, sia pure pi approssimativa,
l'indice di discriminazione di un item
rappresentato dall'uso di un abaco. E
l'abaco di Flanagan stato studiato per
determinare in un test i quesiti pi
discriminanti . Per far ci occorre
dividere i soggetti in due gruppi: quelli
superiori alla mediana e quelli
inferiori alla mediana. Per ognuno dei
due gruppi si calcola la percentuale di
quanti hanno risolto correttamente un
dato item. Una volta calcolate queste
due percentuali, si situa quella ottenuta
nel gruppo dei migliori sull'ordinata,
mentre la seconda, quella dei peggiori,
sull'ascissa.
Alzando
due
perpendicolari dai punti cos fissati si
potr leggere sul grafico, nel punto
d'incrocio, il coefficiente voluto. Se
questo alto si concluder che quel quesito riescono a risolverlo i bravi e gli altri no, e quindi quel
quesito seleziona gli alunni preparati dagli altri. Tale operazione ripetuta per tutti gli item di una
prova ci dar un'idea sulla discriminativit complessiva del test.
22

La valutazione linguistica

Va notato che nei piccoli campioni un leggero spostamento nelle frequenze produce sensibili
differenze nelle percentuali e quindi nei coefficienti. Per questo il numero dei soggetti dovrebbe
essere piuttosto elevato (almeno 300) per avere coefficienti stabili e affidabili.
Dopo aver identificato gli item poco discriminativi, conviene cercarne le ragioni. Ed allora si
potrebbe riscontrare che la ragione riconducibile alla presenza di uno o due o pi distrattori forti
che hanno una plausibilit tanto elevata da ingannare anche i migliori allievi, oppure che l'item
formulato in maniera ambigua e tale da ingenerare risposte a caso. Un item risultato in una provapilota poco discriminativo andr modificato o migliorato, se invece il tempo di farlo dovesse
mancare allora meglio eliminarlo nella stesura finale.
c.
La distrattivit (valida solo per le scelte multiple) misura la percentuale degli errori per
ciascun item riconducibili a ciascun distrattore. I distrattori non efficaci saranno scelti da pochissimi
allievi e non contribuiscono allattendibilit del test. Nel caso in cui lo stesso test venga riproposto
ad altri allievi i distrattori inefficaci andrebbero sostituiti. ovvio che la misura della distrattivit
assume rilevanza quando il test stato somministrato ad un numero abbastanza elevato di allievi;
diversamente, ci si dovr accontentare di una stima approssimativa dei distrattori che si sono
mostrati inefficaci.
In linea di massima, un buon test non dovrebbe essere troppo difficile, ma presentare una
accettabile discriminativit. Tutti i distrattori dovrebbero essere efficaci. Possiamo considerare
come accettabili indici di difficolt e di discriminazione che si attestano tra lo 0,30 e lo 0,60. Tra i
due parametri c una certa correlazione: un item molto facile o troppo difficile sar poco
discriminativo perch i punteggi dei due gruppi, essendo uguali, si annullano.

Vediamo ora in concreto come si potrebbe procedere al calcolo degli indici di difficolt e di
discriminativit dei singoli item.

Si costruisca una tabella con tante colonne quanti sono gli item del test e tante righe quanti sono
gli allievi del campione preso in esame. Sulla riga di intestazione vanno riportati i numeri che
individuano i singoli item e rispettivamente sulla prima e sulla seconda colonna il numero
dordine che individua i singoli allievi (potrebbe essere il numero o la posizione che occupano
nel registro di classe) e in ordine crescente i punteggi conseguiti dagli allievi.

Allintersezione fra ciascuna riga e ciascuna colonna si annoti leventuale errore scrivendo la
lettera o il numero che li identificano nel test.

Nelle ultime due righe si riportino gli indici di difficolt e di discriminazione calcolati secondo
le formule sopra descritte.

Un esempio concreto quello proposto nella tabella 3, che si riferisce ad un test di


completamento tipo cloze somministrato nella sessione desame per il conseguimento del
certificato di conoscenza della lingua italiana al livello terzo rilasciato dallUniversit per
stranieri di Perugia. In particolare il campione costituito da 38 candidati della sede di
Atene scelti casualmente tra gli oltre 600 che hanno sostenuto la prova del terzo livello.
Nella prima colonna compare il numero dordine assegnato ai candidati, nella seconda
colonna i punteggi conseguiti attribuiti con due criteri, il primo tiene conto semplicemente
delle lacune completate in modo appropriato, il secondo tiene conto anche dellindice di
23

La valutazione linguistica

difficolt delle diverse lacune in rapporto al gruppo preso in esame, per cui il peso di
ciascun item da completare oscilla da un minimo di 1 ad un massimo di 5 in relazione
allindice di difficolt. La tabella ordinata secondo lordine decrescente dei punteggi.
Nelle colonne successive indicata con le lettere g ed e i completamenti corretti e
quelli errati. Nelle due ultime righe sono indicati per ogni item lindice di difficolt e
lindice di discriminativit.

24

N
Punteg ite ite ite ite Ite ite ite ite Ite
ord
. m1 m2 m3 m4 m5 m6 m7 m8 m9
.
26
16
g
g
g
g
g
g
g
g
e
24
26
26
g
g
g
g
g
g
g
g
e
24
25
10
g
g
e
g
g
g
g
g
g
24
25
30
g
g
g
g
g
g
g
g
e
24
25
19
g
g
g
g
g
g
g
g
e
23
25
25
g
g
e
g
g
g
g
g
e
23
23
12
g
g
e
e
g
g
g
g
e
23
23
35
g
e
g
g
g
g
g
g
e
22
22
14
g
g
g
g
e
g
g
e
e
21
22
18
g
e
g
g
g
g
g
e
e
21
22
20
g
e
g
g
g
g
e
g
e
21
22
9
g
g
g
g
g
g
e
g
e
20
22
17
g
e
g
g
g
g
e
g
e
20
22
33
g
g
g
g
g
g
g
g
e
20
21
38
g
e
g
g
g
g
g
g
e
20
21
2
g
g
e
g
g
g
g
g
e
20
21
15
e
g
g
g
g
g
g
g
e
20
20
23
g
g
e
g
g
g
g
g
e
20

ite
m
10

ite
m
11

ite
m
12

ite
m
13

ite
m
14

ite
m
15

ite
m
16

ite
m
17

ite
m
18

ite
m
19

ite
m
20

ite
m
21

ite
m
22

ite
m
23

ite
m
24

ite
m
25

ite
m
26

ite
m
27

ite
m
28

ite
m
29

ite
m
30

La valutazione linguistica

27
3
24
32
13
37
36
34
31
22
11
1
7
6
29
8
4
28

20
19
19
18
19
18
19
18
18
19
18
18
18
17
17
18
17
17
16
16
16
15
14
14
14
14
13
13
12
15
12
14
10
12
08
12

21

05 8

02 7

0,1
8

0,5
0

0,4
5

0,2
4

0,2
6

0,0
5

0,4
7

0,1
3

0,9
7

0,3
7

0,1
3

0,0
3

0,2
4

0,3
2

0,1
8

0,4
7

0,4
7

0,2
1

0,5
0

0,6
8

0,2
4

0,3
7

0,3
4

0,8
4

0,3
4

0,3
4

0,5
5

0,3
9

0,5
3

Indice
difficolt

27

0,7
0,38
1

La valutazione linguistica

Ind.
Discrimin.

0,4
6

0,4
6

0,4
6

0,4
6

0,4
6

0,1
5

0,6
2

0,0
0

0,0
8

0,4
6

0,2
3

0,0
8

0,2
3

0,7
7

0,4
6

Tabella 3.

28

0,6
2

0,4
6

0,3
8

0,5
4

0,2
3

0,5
4

0,6
9

0,4
6

0,0
8

0,5
4

0,3
8

0,3
1

0,5
4

0,5
4

0,3
0,39
1

La valutazione linguistica

Dallanalisi della tabella in questione si pu aver una conferma di quanto si affermato sopra: gli item
con un indice di difficolt intorno allo 0,30 hanno un pi alto indice discriminativo (ad esempio gli item n. 7,
14, 16 e 22), mentre gli item molto facili o molto difficili sono anche meno discriminanti: ad esempio gli
item n.8 e 9 che hanno luno un indice di difficolt molto basso (0,13) e laltro molto alto (0,97) hanno un
indice di discriminativit pressoch uguale: 0 e 0,08. Il particolare rapporto tra difficolt e discriminativit,
per cui i due parametri entro una certa fascia di valori sono tra loro inversamente proporzionali, confermato
dallindice di correlazione, che per il campione preso in esame lievemente negativo, pari infatti a 0,11.
Se a questo dato statistico aggiungiamo che la media dellindice di difficolt e di discriminazione per il
campione in oggetto di 0,38 e 0,39, allora possiamo dire che il test si rivelato abbastanza appropriato al
gruppo cui stato proposto in quanto non troppo facile n troppo difficile e con un livello di discriminativit
accettabile.
Se, come in questo caso, il test aveva lo scopo di verificare il possesso di alcune abilit integrate
collegate alla comprensione di un testo (competenza linguistico-grammaticale, competenza testuale e
competenza culturale), allora sulla base dellanalisi condotta possiamo dire che esso stato sufficientemente
adeguato, e che i risultati possono considerarsi sufficientemente attendibili. vero che il campione preso in
esame esiguo, per cui la difficolt o facilit di alcune lacune pu essere collegabile al campione stesso,
tuttavia lequilibrio dei valori medi ottenuti conferma lappropriatezza della prova per il particolare gruppo al
quale stata proposta.
Un attento esame delle risposte date alle varie scelte multiple va sempre fatto. Ci pu sempre essere un
distrattore che appare pi efficace o comunque pi preferito rispetto alla risposta corretta. L'item analysis
diventa allora uno strumento efficace che permette di partire da prove mediocri e di arrivare, attraverso fasi
successive di affinamento, a prove soddisfacenti. Individuando, infatti, i tipi di errore di costruzione che si
fanno si tender sempre pi a evitarli, in tal modo l'autore dei test raffiner sempre pi, con il tempo e
l'esperienza, le tecniche di costruzione di test .
d. Coefficiente di correlazione del punto biseriale. Il punto biseriale un coefficiente di correlazione
ottenuto confrontando i risultati di tutti gli studenti su un singolo item con i risultati di tutti gli studenti
nell'intera prova. (meno quell'item) Il punto biseriale viene generalmente calcolato con specifici programmi
di statistica su computer. La correlazione biseriale di punto, rpb, data dalla seguente formula:

rpb

x p xq

pq

in cui
xp il punteggio medio totale di tutti i candidati che hanno risposto correttamente a quell'item
xq il punteggio medio totale di tutti i candidati che non hanno risposto o hanno risposto erroneamente a
quell'item
p la proporzione del numero totale dei candidati che hanno risposto correttamente a quell'item
q la proporzione del numero totale dei candidati che non hanno saputo rispondere a quell'item
lo scarto standard dei punteggi del test per tutti i candidati.
In genere, gli item il cui coefficiente di correlazione biseriale di punto uguale o superiore a 0.30 sono
considerati accettabili. Quando la correlazione biseriale di punto ha valore negativo, significa che i candidati
migliori non hanno saputo scegliere la risposta giusta a quell'item. Questo potrebbe far pensare che c'era
un'altra opzione diversa da quella corretta plausibile, tale da sembrare legittimamente giusta. Un'opzione di
questo tipo detta distrattore positivo. In un test bene non utilizzare un item simile, ma occorre togliere il
distrattore positivo e pre-testarlo di nuovo.

29