Sei sulla pagina 1di 12

Appendice 3

Il piano di campionamento italiano


dellindagine PISA 2003
di GIUSEPPE BOVE
Universit degli Studi Roma Tre

Introduzione
La popolazione oggetto di indagine e
la costruzione della lista delle scuole
La stratificazione delle scuole
Il dimensionamento dei campioni negli strati
Lestrazione del campione delle scuole
Il contatto con le scuole e la selezione degli studenti del campione
Campione raggiunto con lindagine
La ponderazione e il calcolo dellerrore
Riferimenti bibliografici

288
289
290
291
293
294
294
295
298

Appendice 3. Il piano di campionamento italiano dellindagine PISA 2003

INTRODUZIONE
Il campione italiano dellindagine PISA 2003 un campione a due stadi stratificato. Le unit di primo stadio, stratificate ed estratte con probabilit variabili, sono le scuole italiane nelle quali sono presenti studenti quindicenni. Le
unit di secondo stadio sono gli studenti quindicenni, estratti con probabilit
uguali in ciascuna scuola campione. Tali caratteristiche del disegno campionario sono stabilite dal Consorzio internazionale responsabile dellindagine
dal punto di vista tecnico-scientifico che, attraverso lAustralian Council for
Educational Research (ACER) e la societ WESTAT, supervisiona tutte le diverse fasi applicative del campionamento. In particolare, stabilito che:
in ogni paese il campione sia costituito da almeno 4.500 studenti di quindici anni estratti da un campione di almeno 150 scuole. Quando il singolo
paese intende sovra-campionare alcuni sottogruppi della popolazione
(come stato il caso per lItalia), la dimensione campionaria (scuole e studenti) viene opportunamente modificata per tener conto del diverso livello di precisione;
le esclusioni di studenti dalla lista della popolazione obiettivo da cui
estrarre il campione non debbano superare nel complesso il limite del 5%,
articolato nel modo seguente: limite del 2% per lesclusione di scuole per
studenti con disabilit; limite dello 0,5% per scuole estremamente piccole o non accessibili; limite del 2,5% per le esclusioni previste di studenti
con disabilit allinterno delle scuole;
un tasso di risposta iniziale dell85% e dell80% si realizzi, rispettivamente,
per le scuole e gli studenti. Quando le unit campionarie iniziali vengono
rimpiazzate con sostituzioni i tassi di risposta richiesti vengono opportunamente aumentati.
Il Consorzio inoltre: controlla che siano individuate in modo appropriato let
degli studenti e il periodo dellindagine sul campo; verifica le esclusioni di
scuole e studenti operate preliminarmente nella fase di costituzione delle liste da cui vengono estratti i campioni; assiste nella definizione della stratificazione e della dimensione campionaria; seleziona il campione di scuole; calcola i pesi campionari da utilizzare per scuole e studenti al fine di ottenere
stime accurate; calcola indicatori di qualit e di comparabilit, ed altri dati di
riferimento per ciascun paese.
Il gruppo nazionale di ricerca propone il periodo di rilevazione (e di conseguenza lintervallo di nascita degli studenti oggetto di indagine) e i livelli di
esclusione per scuole e studenti, allinterno delle limitazioni precedentemente richiamate. Tale gruppo, inoltre, costruisce la lista delle scuole con studenti quindicenni da cui estrarre il campione, propone una opportuna stratificazione delle scuole e la relativa dimensione campionaria, organizza e controlla lindagine sul campo e tiene cura della lista delle scuole campionate e
delle relative sostituzioni.
Procederemo nei prossimi paragrafi a descrivere le caratteristiche del campione italiano dellindagine e i vari momenti che ne hanno caratterizzato la
costruzione, con particolare riferimento alle fasi che hanno coinvolto il gruppo di ricerca nazionale.

288

Come stato richiamato anche in precedenza, la popolazione obiettivo (o defined target population) dellindagine era costituita dagli studenti nati nel
1987 e iscritti nellanno scolastico 2002-2003 nelle scuole italiane statali e non
statali. Poich questo tipo di popolazione presente sia nella scuola secondaria superiore che, in proporzione molto ridotta ma caratterizzata, in quella
inferiore, stato necessario (anche in seguito alle richieste specifiche di
ACER e WESTAT) costruire la lista di entrambi i tipi di scuole.
Nel Settembre del 2002, periodo in cui stato necessario costruire la lista
delle scuole da cui estrarre il campione finale dellindagine, stato possibile
ottenere dal MIUR sia la lista delle scuole statali che quella delle non statali,
comprendenti scuole secondarie inferiori e superiori. Per le scuole la copertura delle due liste risultava totale. Inoltre per la quasi totalit delle scuole
(fanno eccezione 99 scuole superiori non statali) si disponeva dei dati riguardanti il numero totale di studenti iscritti e il numero di studenti iscritti per anno di corso. Non essendo presente, invece, la consistenza degli studenti per
anno di nascita, stato necessario preliminarmente costruire una misura approssimata delle consistenze di studenti quindicenni per ciascuna scuola (variabile ENR).
Per le scuole in cui esiste un anno di corso in cui prevalentemente concentrata la presenza di studenti quindicenni (modal grade), il Consorzio internazionale prevede la possibilit di utilizzare la consistenza degli studenti di tale anno come valore della variabile ENR. Per questo motivo, per le scuole medie superiori statali e non statali si utilizzata a tale scopo linformazione degli iscritti alla classe seconda, costituita prevalentemente da studenti quindicenni che hanno effettuato il loro percorso scolastico con regolarit, ossia senza anticipi o ripetizioni di anni.

Appendice 3. Il piano di campionamento italiano dellindagine PISA 2003

LA POPOLAZIONE OGGETTO DI INDAGINE E LA COSTRUZIONE


DELLA LISTA DELLE SCUOLE

Per le scuole medie inferiori, non essendo possibile applicare lo stesso metodo descritto in precedenza, si percorsa una diversa strada. I dati disponibili presso il MIUR consentono di conoscere distintamente per regione la percentuale di studenti quindicenni per ciascuno dei tre anni di corso della scuola media inferiore. Le percentuali dei tre anni di corso sono quindi state applicate in ciascuna scuola media inferiore della lista, tenendo conto della rispettiva regione di appartenenza, ricavando in tal modo una misura approssimata della consistenza di studenti quindicenni della scuola. Tali consistenze sono state utilizzate come valori della variabile ENR.
Non sono state operate esclusioni a livello di scuole. Le esclusioni a livello di
studenti, allinterno delle scuole, erano previste unicamente per gli studenti
impossibilitati a sostenere le prove a causa di disabilit funzionale, disabilit
mentale o insufficiente padronanza della lingua (nel caso di studenti stranieri arrivati in Italia da meno di un anno) e, sulla base dei dati disponibili al
MIUR, avrebbero dovuto essere pari allo 0,8% della popolazione obiettivo. Il
tasso di esclusione risultato poi per il campione pari all1,5%, comunque inferiore al tasso di esclusione massimo consentito a livello internazionale (per
questo tipo di motivi) che del 2,5%.

289

Appendice 3. Il piano di campionamento italiano dellindagine PISA 2003

LA STRATIFICAZIONE DELLE SCUOLE


Come detto in precedenza il disegno di campionamento a due stadi stratificato. Al primo stadio le scuole sono state stratificate. La procedura di stratificazione stata tuttavia piuttosto articolata, a causa soprattutto della presenza delle scuole medie inferiori e in generale delle scuole di dimensioni ridotte (sotto la dimensione fissata dal TCS = Target Cluster Size di 35 studenti quindicenni). La presenza di scuole con pochi studenti quindicenni (1-3
studenti) rischia di far crescere in modo eccessivo la dimensione del campione in termini di numero di scuole, soprattutto quando ci sono un ampio numero di strati per i quali si vogliono ottenere stime campionarie abbastanza
precise. Si tenga conto inoltre che, per motivi legati al calcolo della variabilit delle stime, ogni strato dovr contenere almeno due scuole.
Inizialmente le scuole erano state stratificate utilizzando le seguenti variabili
di stratificazione esplicita:
AREA GEOGRAFICA (11 livelli) comprendenti 6 Regioni/Provincie e le 5 macro-aree (Nord-Ovest, Nord-Est, Centro, Sud, Sud-Isole), con lobiettivo di ottenere stime affidabili sia per le 5 macroaree che per le 6 Regioni/Provincie
autonome che hanno partecipato a PISA 2003 con campioni rappresentativi
del proprio territorio.
Piemonte-Nord-Ovest
Lombardia-Nord Ovest
Resto del Nord Ovest (Liguria e Valle dAosta)
Veneto-Nord Est
Trento-Nord-Est
Bolzano-Nord Est
Resto del Nord Est (Emilia Romagna, Friuli Venezia Giulia)
Toscana-Centro
Resto del Centro (Lazio, Marche, Umbria)
Sud (Campania, Abruzzo, Molise, Puglia)
Sud-Isole (Basilicata, Calabria, Sicilia, Sardegna)
TIPO SCUOLA (2 livelli)
Statali
Non-statali
PROGRAMMA (4 livelli + 1 solo per Bolzano)
Licei
Tecnici
Professionali-Artistici
Scuole medie inferiori
Professionali non statali Bolzano (presente solo nellarea geografica di Bolzano)
Lutilizzo di tali variabili portava inizialmente alla determinazione di 88 strati
espliciti. La presenza in molti di questi strati di scuole di ridotte dimensioni
suggeriva di procedere ad una diminuzione del numero di strati espliciti. Infatti, in questi casi, il Consorzio internazionale della ricerca richiede di creare
ulteriori strati specifici per le scuole molto piccole (fino a 17 studenti quindicenni) o moderatamente piccole (tra 18 e 34 studenti quindicenni), al fine di
rispettare le dimensioni per il campione (150 scuole x 35 studenti = 5.250 studenti).

290

Effettuata tale analisi della dimensione, per ciascuna area geografica lo strato delle scuole large stato ulteriormente suddiviso secondo le 3 modalit
della variabile programma (Licei, Tecnici, Professionali-Artistici), con leccezione delle aree di Trento e Bolzano, nelle quali le scuole large erano poche
e tutte incluse nel campione.
La procedura campionaria per PISA prevede inoltre di poter utilizzare variabili di stratificazione implicita che consentono di migliorare la precisione delle stime e di ridurre lerrore dovuto alle sostituzioni delle unit campionarie.
La variabile Tipo scuola (statali e non statali) stata quindi utilizzata con tale ruolo, cos come la variabile Programma negli strati delle scuole very small
e moderately small e in quelli delle scuole di Trento e Bolzano.
Tale procedura ha portato alla definizione finale di 44 strati. Lallocazione del
campione di scuole negli strati viene descritto nel successivo paragrafo.

Appendice 3. Il piano di campionamento italiano dellindagine PISA 2003

Per questo motivo il Consorzio internazionale ha suggerito di utilizzare inizialmente lArea geografica (11 livelli) come prima variabile di stratificazione
esplicita. Allinterno di ciascuna area stata quindi effettuata unanalisi secondo la dimensione delle scuole, utilizzando le tre modalit very small (fino
a 17 studenti quindicenni), moderately small (tra 18 e 34 studenti quindicenni) e large (35 studenti quindicenni e oltre). Uno strato di scuole very small
stato creato solo quando linsieme di tali scuole ha rappresentato almeno l1%
delle scuole dellarea geografica. Altrimenti queste sono state inglobate in un
eventuale strato di scuole moderately small. Uno strato di scuole moderately
small stato creato solo quando linsieme di tali scuole ha rappresentato almeno il 4% delle scuole dellarea geografica. Altrimenti queste sono state inglobate nello strato delle scuole large. Quando nessuna delle due precedenti condizioni stata riscontrata, per larea geografica non sono stati creati strati di scuole very small o moderately small.

IL DIMENSIONAMENTO DEI CAMPIONI NEGLI STRATI


La creazione di strati di scuole very small e moderately small ha influenzato
la determinazione della dimensione del campione, che ha dovuto contenerne un adeguato numero. Al tempo stesso stato necessario evitare una presenza eccessiva di queste scuole poich esse hanno pochi studenti quindicenni, e quindi la loro selezione rende necessario aumentare il numero delle
scuole da campionare al fine di mantenere la dimensione campionaria finale
richiesta per PISA (almeno 4.500 studenti).
La determinazione della dimensione campionaria di ciascuno strato avvenuta per fasi, come la procedura di stratificazione delineata nel precedente
paragrafo.
Si determinata preliminarmente una dimensione campionaria iniziale per
ciascuna area geografica sulla base delle precedenti esperienze in tale campo di indagine e di considerazioni di carattere pratico. Tale dimensione stata fissata pari a 50 scuole per le 6 aree geografiche in cui era necessario un sovra-campionamento (Piemonte, Lombardia, Veneto, Bolzano, Trento, Toscana). Per le rimanenti 5 aree geografiche (Resto del Nord-Ovest, Resto del
Nord-Est, Resto del Centro, Sud, Sud-Isole) la dimensione campionaria iniziale stata determinata distribuendo le 150 scuole previste per il campione
nazionale, proporzionalmente alla quota del totale nazionale della ENR (pari

291

Appendice 3. Il piano di campionamento italiano dellindagine PISA 2003

a 576.614 studenti) detenuta dallarea geografica. Ad esempio, per larea geografica SUD la quota di ENR era pari a (141.648: 576.614)=0,2456 (circa il 25%).
Di conseguenza la rispettiva dimensione campionaria iniziale era ottenuta come prodotto: 150 x 0,2456 = 36,8 arrotondato a 37 scuole. Analogamente sono
state ottenute le dimensioni campionarie iniziali per il Resto del Nord-Ovest
(3 scuole), Resto del Nord-Est (10 scuole), Resto del Centro (20 scuole), SudIsole (32 scuole).
A questo punto, per ciascuna area geografica, le precedenti dimensioni campionarie iniziali sono state opportunamente aumentate in ragione della maggiore o minore presenza di scuole very small e moderately small.
Si calcolata preliminarmente la quota di ENR dellarea geografica relativa a
ciascuno dei tre strati (very small, moderately small e large) presenti in essa.
Si ripartito tra gli strati il totale di studenti da selezionare, previsti sulla base della dimensione campionaria iniziale dellarea, secondo le quote precedentemente determinate, ma con un decremento di circa il 50% per la percentuale dello strato very small, a vantaggio degli strati moderately small e
large, il cui peso viene aumentato in ragione della met del peso percentuale dello strato very small.
Per avere il numero di scuole da estrarre in ciascuno strato si diviso lammontare di studenti ottenuto, per 35 nel caso dello strato large, e per la dimensione media per scuola della ENR nei rimanenti due strati very small e
moderately small.
Quando lo strato large stato suddiviso ulteriormente nei tre strati Licei,
Tecnici, Professionali-Artistici, le scuole sono state ripartite tra essi proporzionalmente alle rispettive quote di ENR.
Infine, in tutti i casi in cui uno strato prevedesse una sola scuola campione tale numero stato aumentato a due scuole per necessit connesse alle stime
di variabilit.
Riportiamo di seguito la distribuzione del campione previsto, in termini di
scuole e studenti, prima nelle 5 Ripartizioni geografiche del territorio nazionale e poi nelle 6 Aree per le quali era previsto un sovra-campionamento.

Tabella 1 Allocazione del campione nelle Ripartizioni geografiche


Ripartizione
Nord Ovest
Nord Est
Centro
Sud
Sud-Isole
Totale Italia

292

Numero Numero di studenti


di Scuole
nel campione
140
3785
180
4652
88
2477
45
1327
40
1115
493
13356

Area

Numero Numero di studenti


di Scuole
nel campione

Piemonte

65

1755

Lombardia

65

1761

Veneto

66

1731

Trento

50

1158

Bolzano

50

1387

Toscana

63

1760

LESTRAZIONE DEL CAMPIONE DELLE SCUOLE


Lestrazione delle scuole avvenuta indipendentemente in ciascuno dei 44
strati. A ciascuna scuola dello strato si assegnata preliminarmente una misura di ampiezza (MOS) basata sulla variabile ENR, pari al TCS=35 per le
scuole che avevano valori della ENR fino a 35 studenti, e uguale alla ENR negli altri casi. Questo, insieme alla creazione di strati specifici, ha assicurato
una buona rappresentativit degli studenti delle scuole di dimensioni ridotte. Il campione stato quindi estratto con probabilit proporzionali alla MOS.
In letteratura tale campione denominato campione con probabilit proporzionali alla dimensione.
Preliminarmente allestrazione, la lista delle scuole dello strato stata ordinata secondo le modalit delle variabili di stratificazione implicita (statalenon statale e secondo il programma negli strati che lo richiedessero). Allinterno di ciascuno strato implicito cos determinato, le scuole sono state ulteriormente ordinate secondo la ENR, alternando lordinamento decrescente di
uno strato a quello crescente del successivo. Questa procedura consente di
ridurre sia la distorsione dovuta alle eventuali sostituzioni che lerrore standard delle stime campionarie. Preliminarmente allestrazione campionaria,
allinterno di ciascuno strato esplicito, viene creata la variabile MOS cumulata per tener conto delle probabilit proporzionali alla dimensione delle scuole.
La procedura di selezione delle scuole del campione di strato stata di tipo
sistematico, sulla base di un intervallo di campionamento dato dal rapporto
tra il totale della MOS dello strato e il numero di scuole da campionare in esso. Successivamente viene calcolato il prodotto tra un numero casuale generato da una distribuzione uniforme nellintervallo 0-1 e lintervallo di campionamento. La prima scuola estratta quindi la prima, nellordinamento di strato, con la MOS cumulata uguale o maggiore del prodotto precedentemente
calcolato; le successive sono ottenute in modo analogo, aggiungendo ogni
volta un intervallo di campionamento al numero ottenuto al passo precedente. Tale procedura assicura le condizioni di proporzionalit alla dimensione
delle probabilit di inclusione precedentemente richiamate.
Una volta determinate le scuole da campionare nello strato, per ciascuna di
esse si determinano due scuole da utilizzare per eventuali sostituzioni scegliendo la scuola che precede e quella che segue la scuola selezionata nella
lista ordinata delle scuole dello strato.
Il Consorzio internazionale ha in questo modo estratto il campione delle 493
scuole previste dal piano di campionamento e delle relative scuole da utilizzare per le sostituzioni, trasmettendone la lista al gruppo di ricerca italiano

Appendice 3. Il piano di campionamento italiano dellindagine PISA 2003

Tabella 2 Allocazione del campione nelle Aree sovra-campionate

293

Appendice 3. Il piano di campionamento italiano dellindagine PISA 2003

dellINVALSI. Questultimo ha quindi provveduto ad avviare i contatti con le


scuole e a monitorarne la partecipazione, procedendo alle eventuali sostituzioni.

IL CONTATTO CON LE SCUOLE E LA SELEZIONE DEGLI STUDENTI


DEL CAMPIONE
I contatti sono stati avviati nel mese di Dicembre del 2002, sia telefonicamente che con una lettera di richiesta di adesione da parte del MIUR. Soltanto 8
delle scuole previste nel campione non hanno aderito allindagine e sono state sostituite attraverso le riserve. Quindi ciascuna scuola del campione ha inviato allINVALSI la lista degli studenti quindicenni iscritti ed il nome di un insegnante responsabile dellorganizzazione e dello svolgimento dellindagine.
Dalle liste predisposte in formato elettronico sono stati estratti con probabilit uguali i 35 studenti del campione, utilizzando un programma elettronico
predisposto dal Consorzio internazionale (KeyQuest). Quando la lista inviata
dalla scuola conteneva un numero inferiore a 35 studenti quindicenni, questi
entravano tutti nel campione. Gli studenti selezionati di ogni scuola sono stati trascritti su unapposita Student tracking form che stata inviata allinsegnante referente, responsabile della somministrazione delle prove.
Nel periodo di Febbraio gli insegnanti referenti hanno partecipato ad un programma di formazione che aveva lo scopo di garantire che la somministrazione avvenisse in condizioni simili in tutte le scuole del campione nazionale.
Parte essenziale della formazione era dedicata alla compilazione e allaggiornamento della Student tracking form. In particolare i referenti dovevano controllare i dati relativi agli studenti (classe di appartenenza e anno di nascita)
e segnalare, utilizzando gli appositi codici, eventuali casi di esclusione della
prova, facendo riferimento a una casistica strettamente definita (studenti portatori di alcuni tipi di handicap, studenti di madre lingua non italiana presenti
in Italia da meno di un anno, studenti ritirati). In base agli aggiornamenti delle Student tracking form di tutte le scuole sono stati predisposti i materiali di
indagine da inviare alle scuole.
La somministrazione delle prove sul campo stata svolta nel periodo di 5
settimane che va dal 10 Marzo all11 Aprile 2003. Nel 10% circa delle scuole
selezionate stato effettuato un controllo della somministrazione da parte di
sette Project Quality Monitors (inviati dal Consorzio internazionale) che si sono recati senza preavviso nelle scuole la mattina prevista per le prove.

CAMPIONE RAGGIUNTO CON LINDAGINE


Il campione effettivamente raggiunto rispecchia ampiamente gli standard fissati dal Consorzio internazionale e consente di ottenere stime attendibili a livello nazionale e per le aree geografiche previste dalla stratificazione, anche
con riferimento ai diversi tipi di istruzione.
Il tasso di risposta iniziale delle scuole stato infatti del 98,3% (485 scuole su
493 previste), ampiamente superiore al tasso richiesto dell85%. In seguito alla sostituzione delle 8 scuole che hanno declinato linvito a partecipare, il tasso di risposta salito al 100%. Dopo la raccolta delle liste di studenti quindicenni inviate dalle scuole, 85 scuole medie e 1 scuola superiore sono state

294

Come richiamato nel secondo paragrafo, il tasso di esclusione relativo agli


studenti che non hanno potuto sostenere le prove a causa di disabilit funzionali, disabilit mentali o insufficiente padronanza della lingua (nel caso di
studenti stranieri) stato dell1,5%, inferiore al tasso di esclusione massimo
del 2,5% previsto dal Consorzio internazionale per questa tipologia di esclusioni. Il tasso di risposta degli studenti stato superiore al 90% e rispetta le
condizioni richieste che prevedono un limite inferiore dell80% per tale tasso.
Nel 10% di casi mancanti sono da includere, oltre agli studenti con disabilit,
anche quelli trasferiti o comunque ritirati al momento della somministrazione
(2,8%), gli studenti assenti (circa il 5%) e quelli che si sono rifiutati di prendere parte alla prova (0,4%). Nelle tabelle seguenti sono riportati i dati riguardanti la partecipazione di scuole e studenti per macro-area geografica e per
le Regioni/Province sovra-campionate.

Tabella 3 Campione raggiunto nelle macro-aree geografiche


Numero di Numero di studenti Numero di studenti che
Scuole
previsti nel campione hanno svolto le prove
Nord Ovest
118
3692
3344
Nord Est
140
4545
4193
Centro
73
2371
2134
Sud
40
1273
1092
Sud-Isole
36
1086
920
Totale Italia
407
12967
11683

Percentuale di copertura
del campione studenti
90,6
92,3
90,0
85,8
84,7
90,1

Ripartizione

Appendice 3. Il piano di campionamento italiano dellindagine PISA 2003

escluse, in accordo con la normativa prevista dal Consorzio internazionale, in


quanto in esse vi erano meno di 3 studenti quindicenni. Il campione raggiunto di scuole quindi risultato di 407 unit, di cui 382 scuole secondarie superiori e 25 scuole medie.

Tabella 4 Campione raggiunto nelle Regioni/Province sovra-campionate


Area
Piemonte

Numero di Numero di studenti Numero di studenti che


Scuole
previsti nel campione hanno svolto le prove
57
1742
1568

Percentuale di copertura
del campione studenti
90,0

Lombardia

52

1702

1547

90,9

Veneto

53

1697

1538

90,6

Trento

33

1122

1031

91,9

Bolzano

43

1362

1297

95,2

Toscana

52

1683

1509

89,7

LA PONDERAZIONE E IL CALCOLO DELLERRORE


Nel piano di campionamento dellindagine PISA 2003, come abbiamo visto, le
unit campionarie di primo stadio (le scuole) non hanno la stessa probabilit
di essere incluse nel campione finale dellindagine, e lo stesso vale per quelle di secondo stadio (gli studenti quindicenni). Le scuole pi grandi hanno
una maggiore probabilit di essere selezionate cos come gli studenti quindicenni selezionati nelle Regioni/Province sovra-campionate. A posteriori
dellestrazione campionaria tali probabilit possono essere influenzate, inoltre, da effetti condizionanti quali dei differenti tassi di risposta. I dati tratti da
ciascuno studente che partecipa allindagine devono quindi essere opportu-

295

Appendice 3. Il piano di campionamento italiano dellindagine PISA 2003

namente ponderati per poter costruire stime attendibili delle quantit di interesse per lindagine (es. i punteggi nelle prove) e dei relativi errori campionari.
Il Consorzio internazionale, attraverso la WESTAT, ha calcolato i pesi campionari per tutti gli studenti del campione. Attraverso questi possibile operare il calcolo delle stime delle quantit di interesse e dei relativi errori standard, nonch effettuare test di significativit coerenti con le caratteristiche
del disegno campionario adottato.
La determinazione del peso campionario influenzata da vari fattori:
il sovra-campionamento di certi sottogruppi della popolazione (es. aree
geografiche particolari) per motivi conoscitivi;
il sotto-campionamento di certi sottogruppi della popolazione (es. scuole
piccole) per motivi di costo e tempo;
il fatto che le informazioni riguardanti la dimensione delle unit di primo
stadio sono approssimate (es. scuole per cui i valori delle variabile ENR
sono molto diversi dal numero di quindicenni effettivamente presenti al
momento della somministrazione);
non-risposte a livello delle unit di primo stadio (es. scuole che non hanno aderito e che non sono state sostituite);
non-risposte a livello delle unit di secondo stadio (es. studenti assenti
nel giorno della somministrazione);
riduzione di alcuni pesi eccessivamente elevati per ridurre la variabilit
delle stime;
aggiustamenti dovuti alla rotazione del campione su alcune prove.
La procedura utilizzata in PISA per la determinazione dei pesi campionari
in accordo con i migliori standard internazionali per le indagini campionarie
di tipo complesso, ed simile a quelle utilizzate in altre indagini educative
internazionali quali IEA TIMSS, IEA CivEd, IEA PIRLS e IAEP.
Il peso campionario finale che si associa a ciascuno studente risulta quindi
determinato da due pesi base (quello derivante dalla probabilit di inclusione della scuola e quello derivante dalla probabilit di selezione dello studente allinterno della rispettiva scuola) e quattro fattori di aggiustamento. Se
indichiamo con Wij il peso assegnato allo studente j nella scuola i, esso si pu
esprimere nella formula seguente:
Wij = t2ij f1i f2i t1i w2ij w1i
in cui:
w1i il reciproco della probabilit di inclusione della scuola i;
w2ij il reciproco della probabilit di selezione dello studente j allinterno
della scuola i;
f1i un fattore di aggiustamento per le non risposte a livello-scuola;
f2i un fattore di aggiustamento per le non risposte a livello-studente per
la scuola i;
t1i un fattore di aggiustamento per ridurre i valori w1i eccessivamente elevati;
t2ij un fattore di aggiustamento per ridurre i valori del prodotto dei precedenti fattori della formula eccessivamente elevati.

296

Nella precedente formula si comprende, almeno intuitivamente, che i valori


assunti dai fattori di aggiustamento dipendono dal particolare campione di
studenti che sar selezionato. Ne consegue che i pesi campionari finali costituiscono delle grandezze aleatorie (o casuali) caratterizzate da un certo livello di variabilit. Poich la gran parte delle quantit di interesse che si vogliono stimare con lindagine funzione di tali pesi e dei rispettivi valori osservati sugli studenti del campione, se ne deduce che il calcolo analitico degli
errori standard risulta caratterizzato da espressioni molto complesse, che variano da situazione a situazione. Nasce quindi lesigenza di utilizzare metodi
di calcolo dellerrore che prescindano dalle complessit analitiche del particolare problema di stima, appena menzionate, e abbiano unapplicabilit generale.
Per questo motivo nellindagine PISA la stima degli errori standard avviene
utilizzando una procedura di calcolo iterativa basata sulla replicazione del
campione, tecnica le cui propriet sono state analizzate in diverse pubblicazioni scientifiche e studi empirici (cfr. ad esempio Wolter 1985, Cicchitelli,
Herzel e Montanari 1992, Rust e Rao 1996, Brick, Morganstein e Valliant 2000).
Si tratta di suddividere il campione in pi sottocampioni estratti con lo stesso piano di campionamento previsto per il campione intero, effettuando per
ciascun sottocampione un stima della quantit di interesse. Un vantaggio di
tale procedura che lespressione dello stimatore della varianza (quadrato
dellerrore standard) particolarmente semplice e non dipende dal particolare piano di campionamento adottato. Lespressione generale fornita nella seguente formula:
G
)
)
)
v = c ( ( k ) )2

( )

Appendice 3. Il piano di campionamento italiano dellindagine PISA 2003

In PISA 2003, per il campione italiano, non stato necessario effettuare degli
aggiustamenti per valori eccessivamente elevati attraverso i fattori t1i e t2ij.

k =1

in cui:
il parametro da stimare (es. punteggio medio, percentuale, ecc.);
il valore dello stimatore (stima campionaria) di basato sullintero
campione;
(k) la stima campionaria di basata sulle osservazioni del k-esimo sottocampione replica;
G il numero totale dei sottocampioni replica estratti;
c una quantit che dipende dal particolare metodo di replicazione prescelto;
v() la stima della varianza di .
Il metodo di replicazione utilizzato in PISA una variante (metodo di Fay) di
quello denominato delle replicazioni bilanciate ripetute (BRR), e consente di
ottenere stime degli errori standard che godono di importanti propriet statistiche (cfr. ad esempio Judkins 1990).
La stima degli errori standard per le stime di frequenze, percentuali, medie e
altre quantit di interesse per PISA 2003 deve quindi essere effettuata utiliz-

297

Appendice 3. Il piano di campionamento italiano dellindagine PISA 2003

zando alcuni programmi di calcolo statistico di tipo specialistico (es. WesVar,


Sudaan, Stata, Am, il modulo aggiuntivo Complex Samples distribuito da
SPSS). invece sconsigliabile lutilizzo delle procedure di calcolo dei programmi statistici di larga diffusione che, pur consentendo di ottenere stime
corrette delle quantit di interesse per PISA 2003, forniscono in genere stime
non corrette degli errori standard, che risultano spesso molto inferiori al valore reale.
Le dimensioni dellerrore relativo (rapporto tra errore standard e stima campionaria) in PISA 2003 sono piuttosto contenute e consentono di considerare
le stime ottenute a livello nazionale largamente affidabili, sia per quanto riguarda le distribuzioni percentuali dei livelli delle scale (errore relativo generalmente inferiore al 5% allinterno della scala, sugli estremi un po pi elevato e comunque al di sotto del 13%), che per quanto riguarda i rispettivi punteggi medi (errore relativo al di sotto dell1%). Questo significa, ad esempio,
che una percentuale calcolata sul campione per un determinato livello di una
scala si pu estendere con elevata fiducia allintera popolazione, con errori di
approssimazione (in difetto o in eccesso) inferiori al 2,4%. Per i punteggi medi delle diverse scale, compresi tra 450 e 490, lerrore di approssimazione
generalmente nellordine dei 6 punti. Considerazioni analoghe valgono per le
6 regioni sovra-campionate e per le ripartizioni territoriali (Nord Ovest, Nord
Est, Centro, Sud, Sud Isole), per le quali lerrore relativo cresce ma si mantiene a livelli contenuti e comunque tali da consentire un ampio utilizzo delle
stime ottenute. Infine, i livelli dellerrore relativo delle stime dei punteggi
medi delle diverse scale per i vari tipi di programma (Licei, Tecnici, Professionali), risultando anchessi contenuti, consentono di effettuare confronti tra
le tre tipologie scolastiche sia a livello nazionale che allinterno dei diversi
ambiti regionali.
bene infine ricordare che i dati di PISA 2003 possono anche essere utilizzati per lanalisi di altre informazioni di sfondo concernenti gli studenti quindicenni (es. genere, tipologia scolastica di appartenenza, ecc.), ma che in tali
ambiti i livelli dellerrore devono essere verificati caso per caso attraverso lutilizzo dei programmi di calcolo di tipo specialistico sopra richiamati.

RIFERIMENTI BIBLIOGRAFICI
Brick, J.M., Morganstein, D., Valliant, R. (2000), Analysis of complex sample data
using replication, Westat, Rockville, USA.
Cicchitelli, G., Herzel, A., Montanari, G.E. (1992), Il campionamento statistico, il Mulino, Bologna
Judkins D. (1990), Fays method for variance estimation, Journal of Official Statistics, 6, 223-240.
Rust, K.F., Rao, J.N.K. (1996), Variance estimation for complex survey using replication
techniques, Survey Methods in Medical Research, 5, 283-310.
Wolter, K. (1985), Introduction to variance estimation, Springer-Verlag, New York.

298