Sei sulla pagina 1di 79

Gli errori non campionari

Appunti per il Corso di


Metodi Quantitativi per il Marketing

Parte 1



















Dicembre 2010

2






La qualit dellinformazione statistica


La formazione dei dati statistici avviene attraverso lindagine
statistica che pu essere considerata come un processo produttivo che
ha come scopo la produzioni dei dati statistici. In questo contesto si
vuole analizzare la qualit dellinformazione statistica prodotta da tale
processo.
Si utilizza il concetto di informazione statistica (ISTAT, 1992 v.6)
1

poich pi estensivo del concetto di dato statistico.
L'informazione statistica viene definita come l'insieme di tre tipi di
informazione:
- i microdati (o dati elementari): i dati rilevati sulla singola unit,
- i macrodati: i risultati di una qualsiasi funzione di sintesi dei dati
elementari (es. la media, la varianza, la frequenza relativa, ecc.) detti
anche statistiche,
- i metadati: le informazioni qualitative e quantitative riguardanti le
diverse operazioni dell'indagine.

Rifacendosi inoltre alla definizione di qualit utilizzata nei processi di
produzione manifatturiera, lISTAT individua le propriet di qualit di
una indagine statistica definendo come propriet di progettazione
quelle propriet che si riferiscono alla capacit dell'indagine di
soddisfare la domanda proveniente dall'utenza e propriet di
tolleranza quelle propriet che riguardano il processo di misurazione
del fenomeno considerato.
Sono quindi identificate come garanzie di progettazione:
- la tempestivit: il periodo di tempo che intercorre tra la nascita delle
esigenze informative e la disponibilit dei risultati,
- la rilevanza teorica: adeguatezza delle informazioni prodotte alle
necessit informative,

1
Le definizione qui riportate si riferiscono alla situazione in cui si trova ad operare
un istituto quale l'ISTAT il cui scopo produrre informazioni statistiche in gran
parte pubbliche ed ufficiali; quindi solo alcune di queste definizione possono essere
adottate nel caso in cui l'indagine statistica sia condotta da altre entit.

3
- la rilevanza effettiva: quanto dell'informazione prodotta viene
effettivamente utilizzato
- la trasparenza: la possibilit per l'utente di accedere a tutte le
informazioni relative agli strumenti utilizzati (definizioni,
classificazioni, questionario, ecc.) necessarie ad un uso corretto dei
dati.
Le garanzie di tolleranza vengono invece identificate con:
- la precisione campionaria,
- la precisione non campionaria.
La precisione riguarda la precisione dei dati ed definita come la
differenza tra il valore vero ed il valore osservato. Tale differenza pu
essere dovuta all'uso della tecnica campionaria (da cui il concetto di
precisione campionaria) o ai problemi che sorgono nel corso
dellindagine cos che si hanno delle discrepanze tra operazioni
programmate e quelle realizzate (da cui il concetto di precisione non
campionaria)


L'errore statistico

Il concetto di precisione introduce il concetto di errore. Infatti se
un dato non preciso si pu ritenere di essere in presenza di un errore.
L'errore statistico (detto anche errore totale) definito come la
differenza tra il dato che si ottiene dalla rilevazione (misura) del
carattere dellunit osservata (valore osservato) ed il valore vero ossia
il valore reale (senza errori) del carattere dellunit dinteresse
2
.
Lerrore statistico pu interessare un microdato quando riguarda il
valore rilevato presso una singola unit statistica. La differenza tra il
valore ottenuto presso lunit statistica ed il valore vero della stessa
unit pu essere imputato al complesso delle operazioni di rilevazione
e trattamento del dato (mancata rilevazione, errore di risposta
dallintervistato, erronea trascrizione del dato, ecc.).
Lerrore statistico pu interessare una statistica (macrodato). Gli
errori che interessano i dati elementari si ripercuotono inevitabilmente
sulle statistiche di sintesi. Nelle indagini campionarie la statistica pu
differire dal parametro della popolazione a causa dellincompletezza
della rilevazione. E inoltre possibile che gli errori dei dati elementari
si compensino nel calcolo della statistica che in tal caso risulter
corretta ma presenter un aumento della sua variabilit. Se gli errori
dei dati elementari non si compensano la statistica risulter distorta.


2
Nella letteratura sullargomento si indica con valore ci che correttamente si
dovrebbe indicare con il termine modalit
4
L'errore statistico pu essere diviso in errore variabile ed errore
sistematico. Per poter caratterizzare questi due tipi di errori si
supponga che l'indagine sia ripetibile sotto le medesime condizioni
generali, in questo caso in ciascuna delle ipotetiche ripetizioni delle
indagini si ottengono valori differenti, gli errori variabili ( la
differenza tra il valore vero e il valore osservato) sono distribuiti
casualmente con media nulla; gli errori sistematici (distorsioni) sono
invece il risultato di fattori che dipendono dalle condizioni generali in
cui si svolge l'indagine, essi hanno uno specifico "segno" rispetto al
valore vero.

Una ulteriore classificazione dell'errore statistico distingue:

1) L'errore campionario dipende dalla variabilit del fenomeno
studiato, dal disegno di campionamento e dagli stimatori utilizzati;
esso implicito nella natura incompleta delle rilevazione, infatti le
misure sono effettuate solo per le unit del campione le quali
rappresentano una parte delle unit che compongono l'universo
indagato e quindi tali misure presentano delle deviazioni rispetto alle
grandezze reali che si vogliono misurare.
Seguendo la classificazione adottata sopra, l'errore campionario si
suddivide in:
- errore variabile di campionamento dovuto all'utilizzo della tecnica
campionaria per cui lo stimatore differisce per effetto del "caso" dal
valore vero nella popolazione;
- distorsione dello stimatore che dipende dall'utilizzo di uno stimatore
il cui valore atteso (ossia la media delluniverso dei campioni) non
coincide con il parametro da stimare.

2) L'errore non campionario che imputabile al complesso
delle operazioni di rilevazione e di trattamento dei dati (questionario,
intervista, codifica, registrazione ed elaborazione dei dati) ed quindi
funzione degli aspetti organizzativi della rilevazione, del
comportamento di una pluralit di soggetti e del contesto
socioculturale in cui si colloca l'indagine. Questi errori, che possono
manifestarsi in ciascuna delle fasi e delle operazioni di una indagine,
non sono riconducibili all'incompletezza delle rilevazioni
campionarie; per le loro caratteristiche tali errori sono presenti sia
nelle rilevazioni campionarie che nelle rilevazioni complete
(censimenti). Nelle rilevazioni complete sono il solo tipo di errore;
inoltre essi generalmente aumentano con l'aumentare della numerosit
della popolazione indagata cos che, a differenza dell'errore
campionario, non diminuiscono all'aumentare della dimensione del
campione. Pu quindi accadere che, per campioni grandi, gli errori
5
non campionari siano pi importanti di quelli campionari; per
conoscere alcuni caratteri pu quindi essere pi efficace, oltre che
meno costoso, ricorrere ad indagini campionarie piuttosto che ad
indagini complete.
Anche l'errore non campionario si suddivide in:
- errore variabile non campionario (es.: nel caso di diminuzione
della numerosit campionaria per mancate risposte aumenta la
varianza campionaria)
- distorsione non campionaria (es: nel caso di una indagine sul
reddito i rispondenti comunicano di possedere redditi inferiore al
vero)

Quindi l'errore statistico totale pu essere cos definito:

Errore sistematico (distorsione) Errore variabile

Errore campionario Distorsione dello stimatore Errore variabile
campionario

Errore non campionaria Distorsione non campionaria Errore variabile
non campionario


La classificazione degli errori non campionari

Gli errori non campionari che si producono nel corso di una
indagine statistica sono molti e di vario tipo; se si vuole prevenirli o
trattarli cio identificarli, misurarli, eliminarli o ridurli utile
effettuare una classificazione al fine di utilizzare accorgimenti o
metodi specifici.
Una classificazione degli errori non campionari non pu essere
esaustiva e completa. In letteratura esistono varie classificazioni degli
errori non campionari compilate seguendo diversi criteri.
Classificazione secondo le fasi dell'indagine: tale criterio
interessante quando si debbano impostare in termini operativi ed
organizzativi i controlli degli errori non campionari.
Classificazione secondo le cause dell'errore: la debolezza di una
classificazione che faccia riferimento alle cause dell'errore consiste
nel fatto che l'errore spesso dovuto allinterazione di pi fattori e
quindi le cause dell'errore sono molteplici.


Classificazione per tipo di errore

6
Gli errori non campionari che si producono nel corso di una
indagine statistica sono molti e di vario tipo; se si vuole prevenirli o
trattarli cio identificarli, misurarli, eliminarli o ridurli utile
effettuare una classificazione al fine di utilizzare accorgimenti o
metodi specifici.
Una classificazione degli errori non campionari non pu essere
esaustiva e completa. In letteratura esistono varie classificazioni degli
errori non campionari compilate seguendo diversi criteri: la
classificazione secondo le fasi dellindagine statistica ((ISTAT 1992,
op.cit.), la classificazione secondo le cause dellerrore e la
classificazione per tipo di errore.

Tra le varie classificazioni per tipologia di errore si scelto di
presentare quelle che si ritengono pi interessanti.

Cicchitelli et al. (1992, op.cit.) ripropongono la classificazione del
Murthy (1967):

1) Errori di specificazione: specificazione difettosa dei fatti o
specificazione non rispondente agli scopi della rilevazione; omissioni
o duplicazioni dovute a difetti di definizione delle unit della
popolazione o a errori materiali di numerazione.

2) Errori di accertamento: mancanza di rilevatori addestrati ed
esperti; errori di misurazione causate da strumenti o da difficolt
inerenti alla raccolta dei dati; errori dovuti alla memoria, a mancate
risposte ed ad altri fattori; carenza di controlli e di supervisione da
parte degli organi direttivi.
3) Errori di tabulazione: difettoso esame dei dati di base; errori nelle
operazioni di elaborazione dei dati (codifica, perforazione, verifica,
tabulazione, ecc.); errori commessi nella presentazione e nella stampa
di tavole, diagrammi, ecc.

Brasini et al. (1993) propongono invece la seguente classificazione,
sempre per tipo di errore:

1) Errori di mancata osservazione
Gli errori di mancata osservazione sono ulteriormente suddivisi in:
- errori di copertura che dipendono dalla inadeguatezza della lista
- errori di non risposta.

2) Errori di misura o di osservazione.
Gli errori di misura sono suddivisi in:
- errori dovuti all'intervistatore
7
- errori dovuti al questionario
- errori dovuti all'intervistato (di risposta)
- errori specifici della tecnica di raccolta delle informazioni.

Un particolare tipo di errori di misura sono gli errori di trattamento
dei dati che compaiono successivamente alla fase di rilevazione e che
comprendono gli errori di revisione (dovuti ai revisori e alle
procedure automatiche di revisione), gli errori dovuti ai codificatori
e, pi in generale, gli errori di elaborazione.

Lessler e Kasbeek (1992) individuano tre tipi di errore non
campionario:

1) Errori di lista
Si gi fatto notare che con il termine lista viene indicato non solo
l'elenco di tutte le unit della popolazione ma anche tutti i
procedimenti che vengono utilizzati per selezionare tali unit, quando
ne fosse il caso, e reperirle sul campo Vengono quindi indicati come
errori di lista sia gli errori che dipendono dalle imperfezioni della lista
sia gli errori collegati all'individuazione ed al contatto con le unit da
intervistare.

2) Errori di non risposta
Si indicano come errori di non risposta tutti quegli errori provocati
dall'impossibilit di includere nell'indagine una unit della
popolazione da indagare oppure le informazioni che si intendono
ricavare da una domanda.

3) Errori di misura
Gli errori di misura che includono una grande quantit di errori non
campionari hanno in ogni caso una caratteristica comune ovvero di
associare una informazione non corretta ad una unit della
popolazione indagata.

Non sempre un errore pu essere classificato con precisione. Vi
sono errori di non risposta causati da errori di lista il che potrebbe
creare dei dubbi sulla loro collocazione tra gli errori di non risposta.
Un elenco incompleto delle unit della popolazione provoca un errore
di lista, ma se lo scopo di una indagine censire tutte le unit di una
popolazione la mancanza di una unit pu provocare un errore di
copertura (non tutte le unit sono censite) che pu essere considerato,
in questo caso, un errore di misura.
Tuttavia la maggior parte degli errori non campionari possono essere
facilmente classificati in una delle tre categorie di errori il che utile,
8
unitamente all'analisi della causa dell'errore e alla fase dell'indagine in
cui l'errore accade, per individuare l'impatto che questi errori hanno
sui valori dei fenomeni che si intendono misurare e, quando sia
possibile, per prevenirli o correggerli.


La prevenzione e il controllo degli errori non campionari


La prevenzione degli errori non campionari una delle
principali preoccupazioni di chi organizza una indagine statistica.
Questa opera di prevenzione, che ha il suo momento di origine
concettuale ed organizzativa nelle fasi in cui si progetta l'indagine e si
approntano gli strumenti, deve essere condotta lungo tutte le fasi
dell'indagine ed in particolare deve essere esercitata al momento della
raccolta dei dati.
Il controllo degli errori non campionari ovvero la possibilit di
individuarli e misurarli nel corso di una indagine pu essere attuato
sia utilizzando modelli che misurino direttamente la qualit dei
risultati e quantifichino l'importanza dei vari tipi di errori di misura sia
attraverso gli indicatori di qualit e l'analisi delle informazioni
provenienti dalle procedura dell'indagine (errori di lista ed errori di
non risposta).


La progettazione dell'indagine

Dal punto di vista della qualit dei dati la progettazione
costituisce un momento particolarmente delicato perch in tale fase si
predispone come prevenire di fatto gli errori campionari e viene
programmato il controllo di tali errori.
La prevenzione costituisce un obbiettivo di massima importanza
dato che la possibilit di modificare norme e processi nel corso
dell'indagine scarsa e, quando possibile, costosa in termini
organizzativi ed economici.


Il questionario

Con il termine questionario si vuole indicare, in questo contesto,
qualsiasi strumento utilizzato per la raccolta dei dati presso l'unit di
rilevazione; sono quindi considerati questionari anche i modelli per la
raccolta di informazioni amministrative ed i programmi informatici
9
utilizzati per le interviste nel caso delle indagini che si avvalgono di
computer o di altri dispositivi elettronici.
10

Le domande presenti nel questionario possono essere cosi
suddivise:

1) domande per la rilevazione delle variabili di studio,
2) codici identificativi,
3) domande per il controllo dell'intervista.

Per quanto riguarda le domande del primo tipo esse possono
generare errori di misura, errori di non risposta totale e errori di non
risposta parziale in funzione:
- del vocabolario utilizzato,
- della sequenza delle domande,
- delle domande retrospettive,
- delle risposte proxy,
- delle domande delicati ed imbarazzanti,
- della presenza di domande aperte,
- della lunghezza del questionario.
Queste situazioni, i relativi problemi e le modalit per cercare di
evitarli o risolverli vengono analizzati e trattati in occasione della
progettazione del questionario.
Si analizzeranno invece in questo contesto i problemi relativi alle
domande di cui ai punti 2 e 3.


I codici identificativi

I codici identificativi sono di fondamentale importanza per il
sistema di controllo dei dati, essi infatti sono indispensabili per
l'individuazione dei nominativi e delle loro relazioni (es.: gli individui
appartenenti alla stessa famiglia) e costituiscono il legame delle
informazioni del singolo nominativo nelle diverse fonti informative
dell'indagine (questionario, codifica, file). In genere il codice
identificativo il risultato della concatenazione di singoli
identificatori (es.: individuo, indirizzo, zona statistica, comune, ecc.;
oppure ramo di attivit economica,...).
Mediante i codici identificativi possibile:
- distinguere ciascuna unit statistica (es.: un determinato comune dai
rimanenti, un determinato individuo da altri individui).
- assegnare ciascuna unit ad una unit di ordine superiore (es.:
l'individuo alla famiglia, questa al comune...)
- porre in relazione due unit dello stesso tipo o di tipo diverso ma
incluse una nell'altra (es.: la famiglia principale con quella
coabitante, l'area con il rilevatore,..).
11
Si possono distinguere i seguenti tipi di codici:
1) identificatori che collegano il questionario ad unit di ordine
superiore (rilevatore, comune, ...),
2) identificatori che collegano due o pi questionari inerenti ad unit
diverse ma tra le quali presente una relazione logica (famiglia
principale e famiglia coabitante),
3) identificatori interni al modello del questionario per collegare
informazioni relative alla stessa unit di analisi in parti diverse del
questionario (variabili demografiche individuali, raccolte in una parte
comune, alle rimanenti informazioni raccolte su fogli individuali),
4) identificatori per la trasposizione su supporto informatico
5) identificatori aggiuntivi per i differenti modelli di rilevazione che
possono comporre il questionario.

Gli errori di identificazione

Durante le operazioni di apposizione o di trascrizione dei codici
identificativi nei documenti accessori di rilevazione (ad esempio : le
liste di assegnazione) o nel questionario i supervisori o rilevatori
possono commettere, per trascuratezza o per mancata comprensione e
rispetto delle norme, degli errori.
Tali errori possono, nei dati su supporto informatico:
- rendere non distinguibili due o pi unit e creare una duplicazione
(ad esempio.: due individui con lo stesso codice),
- compattare due unit in una sola (ad esempio.: le famiglie di due
comuni riferite ad uno solo),
- suddividere una unit in due o pi unit e quindi creare unit fittizie
(ad esempio: i componenti di una famiglia vengono divisi in due unit
famigliari),
- invalidare il legame di unit (ad esempio: tra la famiglia principale
e la famiglia coabitante).


Le informazioni per controllo dell'intervista

Le informazioni di controllo dell'intervista possono essere
suddivise in due gruppi:
- informazioni da cui derivare indicatori di qualit,
- informazione necessarie ad indagini di controllo (successive o
contemporanee)

Informazioni per gli indicatori di qualit

12
Queste informazioni riguardano la situazione dell'intervista (gli
individui sostituiti, i componenti la famiglia presenti al momento
dell'intervista, le risposte proxy); il giorno, l'ora e la durata
dell'intervista; i conteggi riassuntivi delle unit di analisi o degli
eventi contenuti nel questionario; il codice di identificazione del
rilevatore; le valutazioni sull'accoglimento dell'intervista.
Le modalit dell'intervista (il numero dei ritorni, la durata, il
giorno e l'ora di effettuazione, i rispondenti e le risposte proxy
3
, le
unit sostituite) sono utilizzate per:
- controllare l'operato dei rilevatori attraverso indicatori sul carico di
lavoro, la durata media delle interviste, la percentuale di risposte
proxy
- controllare la reale numerosit campionaria dei rispondenti
attraverso la percentuale degli stessi rispetto alla numerosit
campionaria iniziale
- analizzare le caratteristiche dei non rispondenti;
- analizzare le caratteristiche dei rispondenti proxy per identificare le
popolazioni per le quali i dati raccolti sono mediati da altre unit, tale
informazione un indicatore della possibile esistenza di distorsioni;
- ricostruire le tipologie delle situazioni dell'intervista (le relazioni tra
unit presenti (es.: le relazioni di parentela), la distribuzione per
giorno della settimana, la distribuzione per ora,...) da cui desumere
utili indicazioni per le norme di rilevazioni di indagini successive.

Informazioni per le indagini di controllo

Le informazioni necessarie per effettuare le indagini di controllo
e per analizzare i risultati sono di diverso tipo:
- i codici identificativi di unit gerarchicamente superiori a quella
oggetto di studio gi standardizzati e presenti nel questionario (ad
esempio : il codice di area e di rilevatore da utilizzare per la
compenetrazione del campione)
- le domande aggiuntive appositamente formulate e relativi codici ( ad
esempio: possesso del telefono e relativo numero da utilizzare per
indagini di controllo mediante intervista telefonica).

Gli indicatori e le analisi delle informazioni provenienti dalle
procedure delle indagini possono essere considerati come parametri
approssimati per la valutazione dei dati prodotti.



3
Nel caso delle indagini familiari sono le risposte fornite da un individuo diverso
dall'interessato
13
Gli errori di lista


Gli errori di lista possono causare distorsioni nei risultati finali
in funzione della distribuzione e della quota delle unit mancanti e del
tipo di indagine condotta (esaustiva o campionaria). Yates (1948),
Kish (1965), Groves (1989), Lessler e Kalsbeek (op.cit.) hanno
analizzato questi errori le cui conseguenze sull'affidabilit dei dati
rilevati sono importanti.

I. Esiste una perfetta corrispondenza tra nominativi delle lista e
unit della popolazione obbiettivo, in questo caso la lista non presenta
alcun tipo di problema e non sorgente di errori.

II. La lista incompleta, mancano dunque alcune unit della
popolazione obbiettivo (unit includibili mancanti). Nel caso di una
lista anagrafica si consideri le famiglie che si sono trasferite nel
comune ma non sono ancora state registrate all'anagrafe; una lista
elettorale non include i minorenni; in una lista telefonica sono assenti
i non utenti e coloro che chiedono di non essere inseriti nell'annuario
telefonico.
Una lista incompleta provoca lerrore di copertura la cui conseguenza
quella di sottostimare il totale della popolazione obbiettivo nel caso
di indagini censuarie Nel caso di indagini campionarie le stime
possono presentare distorsioni se le caratteristiche della popolazione
mancante differiscono da quelle della popolazione coperta.

III. Nella lista sono presenti nominativi inesistenti o estranei alla
popolazione obbiettivo (unit non includibili incluse) e quindi non
sono oggetto di rilevazione (si parla in questo caso di sovracopertura
della lista). In una lista anagrafica vi sono famiglie che hanno
trasferito il loro domicilio in altro comune ma esiste un ritardo nel
trasferimento anagrafico della residenza, in una lista fornita da un
archivio sono ancora presenti le aziende commerciali che hanno
cessato l'attivit, in una lista telefonica di utenti della categoria
famiglie sono presenti utenti delle categoria affari.
In questa situazione si hanno degli errori che portano, nel caso di
indagini di tipo censuario, alla sovrastima del totale della popolazione.
Se si ricorre, invece, ad indagini campionarie le statistiche possono
risultare distorte, inoltre aumenta la varianza delle stime a causa della
diminuzione della numerosit del campione programmato.

14
IV. Pi nominativi della lista corrispondono ad una sola unit
della popolazione obbiettivo (nominativi ripetuti) questo un caso
particolare di sovracopertura di lista. Questa situazione pu essere
provocata da difetti della lista ma pu anche essere determinata dalla
caratteristica dellelenco di nominativi che, in mancanza di altre liste,
viene utilizzato come base campionaria per lestrazione di campioni
probabilistici. E il caso degli elenchi telefonici quando una stessa
famiglia (o azienda) dispone di due o pi numeri telefonici. Un altro
esempio costituito dalle liste elettorali usate per estrarre campioni di
famiglie al posto degli elenchi dell'anagrafe che risultano non
disponibili al pubblico, in questo caso le famiglie sono associate a tutti
i nominativi delle unit di individui maggiorenni che la compongono.
Si parla, in questa situazione, anche di duplicazione di lista (unit
duplicate), i problemi risultano analoghi a quelli indicati nel punto III
ovvero si hanno degli errori che portano alla sovrastima del totale
della popolazione, mentre le statistiche stimate tramite campione
possono risultare distorte ed essere interessate da un aumento della
varianza.

V. Un nominativo della lista corrisponde a pi unit della
popolazione obbiettivo (lista con grappoli di unit), come pu
accadere con alloggi e famiglie (nel caso di coabitazione) oppure nelle
liste telefoniche qualora un solo numero sia associato ad una
abitazione in cui coabitano pi nuclei famigliari o ad un ufficio in cui
vi sono pi ditte.

Caratteristica comune di tutti questi difetti, i quali possono coesistere
nella stessa lista, quella di alterare la probabilit di inclusione delle
unit della popolazione In particolare se il piano di campionamento
autoponderante
4
viene a cadere la caratteristica che tutte le unit della
popolazione abbiano la stessa probabilit di essere estratte.

I problemi di copertura o di rappresentativit si pongono, come
si accennato, per le liste anagrafiche, per le liste elettorali, per le
liste degli abbonati telefonici, per gli archivi delle imprese (come le
anagrafi delle Camere di commercio, gli albi delle imprese artigiane,
quelli delle societ cooperative, ecc.). In questi ultimi tipi di liste si ha

4
Un piano campionario detto autoponderante se tutte le unit della
popolazione hanno la stessa probabilit di inclusione del primo ordine,
oppure la stessa frequenza attesa di inclusione. Un esempio di piano
autoponderante il campionamento casuale semplice senza ripetizione
dove le unit della popolazione hanno la stessa probabilit di inclusione data
dal rapporto n/N dove n la numerosit del campione ed N la numerosit
della popolazione iniziale (Cicchitelli et al. op.cit.)
15
la presenza di unit commerciali non pi attive, di duplicazioni che
fanno seguito a trasformazioni di imprese oppure l'esclusione di quelle
di piccola e piccolissima dimensione.
Si consideri, in particolare, il caso delle liste degli abbonati telefonici
che sono molto utilizzate per il crescente ricorso alle indagini
telefoniche per svolgere le indagini demoscopiche e di mercato. La
diffusione del telefono, in Italia, differenziata non solo
territorialmente con differenti coperture da una regione allaltra del
paese e in funzione delle grandezza dei comuni, ma anche sotto il
profilo socioeconomico e demografico. I non utenti costituiscono uno
strato particolare (selezionato) della popolazione le cui caratteristiche
sono le seguenti: condizioni economiche deboli, basso grado di
istruzione, dimensione della famiglia pi elevata, persone anziane e
sole, reddito basso e frequentemente associato ad una occupazione
precaria. L'utilizzo delle liste telefoniche pu quindi determinare che
alcuni particolari segmenti della popolazione obbiettivo siano meno
presenti nella lista. Questo tipo di problema, molto importante alcuni
anni fa, si sta riducendo sempre pi dato che ormai la quasi totalit
della popolazione raggiungibile telefonicamente. Stanno invece
emergendo due nuovi problemi riguardanti le liste telefoniche. Un
problema legato alla richiesta che per in alcuni strati della
popolazione raggiunge percentuali assai elevate, di non rendere
disponibile al pubblico il numero di telefono; il secondo problema
collegato alla ormai elevatissima diffusione del telefono portatile per
il quale non esistono elenchi degli utenti. Gli effetti dellerrore di
copertura dipendono, in questo caso, dall'oggetto dell'indagine ovvero
dal legame tra variabili considerate e le caratteristiche dei segmenti
sottorappresentati nella lista.

Correzione degli errori di lista.

Quando i difetti di lista alterano la probabilit di inclusione delle
unit della popolazione si adottano misure che possano ristabilire
luguaglianza delle probabilit di inclusione tramite modifiche del
piano di campionamento o annullare gli effetti sulle stime mediante
opportune riponderazioni.

Quando i difetti di lista introducono distorsioni nelle stime i metodi
utilizzati per eliminare, almeno in parte, tali distorsioni si basano tutti
sulla ricerca diretta od indiretta di informazioni sulla popolazione
delle unit che a causa di tali difetti non sono implicate nellindagine.


16

Lerrore di copertura

Le unit includibili mancanti
5
, difetto provocato dalle liste
incomplete, non hanno alcuna possibilit di essere selezionate ed
intervistate. Tali unit possono essere difficilmente individuate e
quantificate in quanto si dovrebbe o fare ricorso ad un altra lista pi
aggiornata e pi precisa o effettuare un microcensimento sulla
medesima base territoriale della lista o quanto meno un
aggiornamento, che pu essere effettuato sul campo, della lista
utilizzata. Sono delle applicazioni di queste tecniche sia il confronto
dei risultati censuari con le informazioni anagrafiche di ogni comune
con lo scopo di una revisione qualitativa e quantitativa delle liste
anagrafiche sia l'indagine di confronto tra il censimento e l'anagrafe
condotto sulla base di un campione di fogli di famiglia e delle
corrispondenti informazioni anagrafiche. Nel caso di indagini
telefoniche per cui si ricorre agli elenchi telefonici possibile,
ricorrendo ad altre fonti, conoscere sia il tasso di non copertura a
livello regionale, sia le principali caratteristiche socio-economiche
delle famiglie con telefono e di quelle senza telefono.

Le unit includibili mancanti dalla lista sono all'origine di quello
che chiamato errore di copertura. Si gi avuto occasione di notare
che questo difetto della lista provoca errori che possono essere
considerati a tutti gli effetti errori di non risposta totale.
Per valutare le conseguenze dell'errore di copertura si consideri il caso
in cui si voglia stimare la media del carattere Y della popolazione
obbiettivo. La popolazione obbiettivo, costituita da N unit con media
aritmetica
Y
, viene suddivisa in due strati:

- lo strato costituito dalle
N
p
unit presenti nella lista
- lo strato costituito dalle
N
m
unit mancanti dalla lista.

Le medie aritmetiche del carattere Y nelle due popolazioni cos
definite risultano rispettivamente:

Y
p
e Y
m



5
Si ricorda che le unit oggetto di rilevazione sono dette includibili e vengono
designate mediante un criterio di includibilit che deriva dalla definizione della
popolazione obbiettivo.
17
Mentre le percentuale di unit presenti e non presenti nella lista viene
misurata con i seguenti indici:

W N / N e W N / N
p p m m
= =


La percentuale di unit non presenti nella lista (
m
W
) viene indicata
anche con il nome di tasso di mancata copertura della lista. Si pu
allora esprimere la media aritmetica
Y
, riferita la popolazione
obbiettivo, come media aritmetica dei valori medi delle unit presenti
e mancanti dalla lista ponderata con le rispettive frequenze, ovvero:

( ) ( )
m m p p
Y . W + Y . W = Y


Quindi l'errore di copertura, per lintera popolazione, misurato dalla
seguente espressione:

( )
m p m p
Y - Y W = Y - Y


Si noti che l'errore funzione del tasso di mancata copertura e della
differenza esistente tra i valori medi del carattere Y nelle due
popolazioni.
Si noti inoltre che, nel caso in cui non esista effetto selezione per le
unit della popolazione obiettivo mancanti dalla lista, ovvero la loro
non presenza nella lista casuale, la media
p
Y
riferita alla
popolazione formata da unit presenti nella lista uguale alla media
m
Y
riferita alla popolazione formata da unit mancanti dalla lista. In
questo caso e solo in questo caso
Y
uguale a
p
Y
.
L'importanza di questo errore pu essere valutato solo se si conosce il
peso della popolazione obbiettivo mancante dalla lista ed i caratteri
che sono all'origine della differenza tra
m p
Y Y
. Queste informazioni
possono essere fornite: da dati esterni, da dati addizionali all'indagine
originaria desunti da reinterviste. con altre tecniche. di un sub-
campione, da indagini precedenti sulla stessa popolazione o da altre
fonti (vedi caso della lista telefonica).
Lestrazione di un campione da una lista con unit includibili
mancanti fa si che il campione fornisca informazioni solamente sulla
popolazione
p
N
(unit presenti nella lista) e quindi si stima
Y
, la
media della popolazione obbiettivo, con
p
y
, ovvero la media nel
sottocampione delle unit presenti nella lista.

18
Per correggere gli errori derivanti dalla mancanza di copertura
si possono utilizzare tra questi segnaliamo:

Il metodo dell'intervallo semiaperto (Kish, 1965) viene adottato
per integrare un lista incompleta anche durante la rilevazione sul
campo. Questo metodo pu essere utilizzato quando la lista di
abitazioni, di famiglie o di isolati nella stessa successione delle
entit sul terreno. In questo caso l'identificazione delle unit mancanti
relativamente agevole, basta che il rilevatore confronti la lista con la
realt e per differenza trover le unit elencate e non pi presenti
nonch le unit presenti sul terreno e non presenti nella lista

L'uso congiunto di una doppia base di campionamento e di una
duplice modalit di raccolta dei dati (dual fram mixed mode surveys)
(Groves e Lepkowski, 1985).
Si supponga, ad esempio, di utilizzare sia una lista anagrafica che una
lista di abbonati al telefono e di ricorrere sia alla intervista diretta che
a quella telefonica combinando la maggior copertura della prima con i
costi pi contenuti della seconda.

Il metodo della post stratificazione, operazione che consiste in
una riclassificazione dei dati allo scopo di riproporzionarli, tale
tecnica costituisce uno degli strumenti utilizzati anche per correggere
le distorsioni campionarie derivanti dalle mancate risposte e sar in
questo contesto che si analizzer tale tecnica.


Lista con nominativi inesistenti ed estranei

Le unit non includibili incluse, il caso di liste con nominativi
estranei o non esistenti, possono essere individuate al momento della
selezione depurando la popolazione campionata, dalle unit che non
corrispondono ai criteri di includibilit oppure nel corso della
rilevazione sul campo, tramite domande filtro che separino le unit
interessate dalla rilevazione da quelle non interessate.
Se la lista non pu essere corretta dai nominativi inesistenti ed
estranei prima della selezione delle unit si tratta di decidere se
accettare una dimensione campionaria minore di quella prevista o
procedere a delle sostituzioni per rispettare la numerosit prestabilita
del campione.
La tecnica di sostituire un nominativo non idoneo con il
nominativo che lo segue nella lista introduce delle distorsioni in
quanto la probabilit di selezione della lista proporzionale al numero
di unit estranee che la precedono, cos che pi sono i nominativi
19
inesistenti od estranei che precedono una unit pi probabilit ha tale
unit di essere estratta.
Se possibile individuare l'appartenenza dell'unit alla
popolazione durante la selezione. Il metodo pi semplice quello di
continuare l'estrazione delle unit finch si raggiunge la numerosit
desiderata, il campione autoponderante e di numerosit fissata.
Se si ha una informazione del tasso (t) dei nominativi inesistenti
ed estranei, si pu ottenere un campione della dimensione voluta
estraendo un numero maggiore di nominativi. Nel caso del
campionamento casuale semplice si estrae un campione di nominativi
di ampiezza n/(1-t).
Il campionamento a due fasi pu essere utile. Si estrae un
campione di prima fase, sufficientemente grande, si identificano i
nominativi estranei e si estrae un sottocampione di nominativi validi
di ampiezza prefissata.

Lista con nominativi ripetuti

Le unit duplicate possono essere individuate facendo delle
verifiche della lista. Quando si tratta di difetti della lista, se questa
informatizzata, l'individuazione delle unit duplicate una operazione
assai semplice. In altri tipi di lista, nelle quali a volte sconosciuto
anche il numero di registrazioni delle singole unit cos che non
facile conoscerlo neppure a posteriori, la presenza di nominativi
ripetuti un vero problema; il confronto fatto a posteriori sulle unit
estratte risolve solo parzialmente i problemi posti delle duplicazioni
ma tali errori possono essere corretti. Anche nel caso di duplicazioni
collegate alle caratteristiche della lista (liste elettorali o liste
telefoniche utilizzate per indagini sulle famiglie) esiste la possibilit,
di reperire le unit duplicate sia prima che esse siano estratte sia ad
estrazione avvenuta.

Nel caso di indagini totali la verifica dell'esistenza di unit non
includibili incluse o di unit duplicate pu essere fatta nel corso o al
termine della rilevazione, tali unit verrano completamente
identificate e questi errori non avranno alcun effetto sui risultati finali.

Nel caso delle indagini campionarie sarebbe bene verificare la
lista, per cogliere l'esistenza di questi errori, prima del
campionamento. Infatti se il controllo viene fatto limitatamente alla
quota di unit rilevate non si eliminano gli effetti degli errori di lista
che si rifletteranno sulla probabilit di inclusione nel campione.
Inoltre la presenza di unit non includibili o duplicate nel campione
20
comporta la riduzione della numerosit campionaria programmata con
conseguente aumento della varianza delle stime.

In una lista in cui i nominativi sono ripetuti, la probabilit che
una unit ha di essere selezionata, nell'ipotesi che i nominativi
abbiano la stessa probabilit di inclusione nel campione,
proporzionale al numero di volte che il nominativo ripetuto nella
lista.

Sia
B
i
il numero dei nominativi che nella lista corrispondono
all'unit i-esima della popolazione. Per correggere questo errore si
possono ponderare le osservazioni con il reciproco della probabilit di
inclusione [(1/p
i
)B
i
]. Se si tratta di stimare la media della popolazione
la scelta pi conveniente nel caso di un piano di campionamento
autoponderante costituita dallo stimatore per quoziente.

Un altro metodo consiste nella correzione della probabilit di
selezione conservando lunit selezionata con probabilit 1/
i
B
ed
eliminandola con probabilit uguale a (
i
B
-1)/
i
B
. Questo risultato lo si
pu ottenere anche stabilendo a priori che l'unit entra nel campione
solamente se viene selezionato un nominativo prefisso tra gli
i
B
della
lista. Questo metodo pu essere utilizzato quando la duplicazione
dipende non da un difetto di lista ma da una caratteristica della lista
stessa. Nel caso di utilizzo di una lista elettorale come base per la
formazione di un campione di famiglie si pu decidere di prendere in
considerazione la generica famiglia i quando viene estratti il
componente pi anziano (o pi giovane) della famiglia.

Lista con grappoli di unit

Quando si in presenza di piccoli e rari grappoli di unit
associati ad un singolo nominativo (diversamente conviene procedere
al campionamento a grappoli) si pu:
- includere nel campione tutte le unit comprese nel grappolo cos che
ogni unit abbia la stessa probabilit di inclusione; cos facendo se i
grappoli sono formati da unit omogenee si pu perdere di precisione.
- selezionare a caso un elemento dal grappolo ponderandolo con un
peso proporzionale alla dimensione del grappolo, in questo caso la
probabilit di inclusione di una unit del grappolo
p A
i i
, dove
p
i

la probabilit di selezione del nominativo e
A
i
la dimensione del
grappolo di unit in cui incluso il nominativo. In questo caso un
piano di campionamento autoponderante non pi tale.
21


Le mancate risposte


Un grave problema che interessa con intensit crescente le
indagini statistiche, anche svolte con il metodo dell'indagine diretta
che come si visto il tipo di indagine meno interessata dal fenomeno
dei rifiuti, l'aumento del numero di coloro che non rispondono. In
uno studio Steeh (1981) ha evidenziato, analizzando due indagini che
sono state condotte periodicamente negli Stati Uniti dall'inizio degli
anni 50, che si verificato un sostanziale aumento delle mancate
risposte totali causate soprattutto da un aumento della percentuale di
unit che rifiutano di essere intervistate (il tasso di rifiuto passato
per una delle due indagini dal 7% al 24% e per l'altra dal 6% al 15%).
Laumento del numero dei non rispondenti collegato al fenomeno
dell'urbanizzazione. E infatti noto che si per ragioni oggettive, la
maggior parte della popolazione marginale (senza casa, immigrati
illegali, ecc,.) si concentra nelle grandi citt, che per ragioni
soggettive, la diffidenza verso estranei infatti favorita dal tipo di vita
urbano, gli abitanti delle zone urbane sono i pi restii ad accettare di
collaborare alle indagini. Inoltre latteggiamento di rifiuto ad essere
intervistato favorito anche dal diffondersi della convinzione, in
verit non immotivata visto i temi trattatati da molte indagini di
opinione e di mercato, che le interviste siano una intrusione nella vita
privata degli individui e delle famiglie. Questa diffidenza viene
rafforzata anche da un utilizzo, sempre pi frequente, delle indagini di
opinioni da parte di quotidiani e settimanali, con il solo scopo di
creare la notizia.


Le mancate risposte totali

Le mancate risposte totali (unit di rilevazioni per le quali
stato impossibile raccogliere le informazioni) sono determinate dalle
seguenti situazioni, che dipendono anche dai metodi di rilevazione
utilizzati:
- non includibilit delle unit nel campione perch non facenti parte
della popolazione obbiettivo e quindi non debbono essere intervistate
se estratte
6


6
In questo caso ed anche in quello successivo sono errori di lista che causano errori
di non risposta.
22
- non contatto delle unit della popolazione campionaria. Il termine
non contatto si applica a tutte quelle situazioni per le quali stata
impossibile l'individuazione e la reperibilit sul campo delle unit da
intervistare oppure quando le unit sono state individuate e reperite
ma stato impossibile incontrarle. Il non contato per mancata
individuazione e reperibilit dell'unit dipende da mancanza di
informazioni (unit includibili mancanti) o da informazioni non
accurate o errate in possesso dell'intervistatore; il non contatto per
impossibilit di incontro causato dall'assenza dal domicilio, per
qualsiasi motivo, dell'unit da intervistare
- rifiuto di partecipare all'intervista (che pu dipendere anche
dall'incapacit dell'intervistatore a convincere l'intervistato a
collaborare o dalla modalit di presentazione dell'indagine) o rifiuto di
rispondere a particolari domande (ad es.: quelle delicate od
imbarazzzanti). Coloro che rifiutano l'intervista possono essere
suddivisi in rifiuti temporanei ovvero quelli che rispondo solo dopo
essere stati sollecitati e rifiuti permanenti
- incapacit di partecipare all'intervista per problemi di varia natura
(malattie fisiche o mentali, analfabetismo, non conoscenza della
lingua, ecc.)

Le mancate risposte per rifiuto o per incpacit dipendono anche dalla
modalit adottate per lintervista. Le domande imbarazzanti avranno
un elevato tasso di rifiuti nel caso di intervista diretta, meno nel caso
di intervista telefonica, meno ancora nel caso di indagine postale o
tramite internet. Lindagine postale invece poco adatta, perch avr
in elevato tasso di non risposte nel caso di popolazioni di basso livello
di istruzione.

Nel caso delle indagini che utilizzano l'intervista diretta o telefonica,
la causa delle mancate risposte, anche se non sempre facilmente,
individuabile; non invece possibile conoscere la causa delle mancate
risposte nel caso di indagini postali.


Le mancate risposte parziali

Oltre alle mancate risposte totali esistono le mancate risposte
parziali. Si considerano mancate risposte parziali lassenza di risposta
ad una o pi domande, ad esse sono assimilabili i valori non
ammissibili e le incongruenze logiche tra risposte a domande
differenti. Le incongruenze logiche possono essere formali ovvero
collegate alle norme di compilazione, in questo caso si hanno delle
risposte non dovute, oppure sostanziali quando si hanno informazioni
23
tra di loro incompatibili. La distinzione tra mancata risposta totale e la
mancata risposta parziale deriva da una decisione del ricercatore e non
da parametri oggettivi. Infatti la mancata risposta pu essere
considerata come un dominio i cui estremi sono costituiti dalla
mancata intervista (mancata risposta totale) e dal questionario
correttamente compilato in tutte le sue parti; la soglia di accettabilit
di un questionario viene stabilita in funzione dell'utilit delle risposte
fornite per gli obbiettivi conoscitivi dell'indagine.
________________________________________________________
Esempio

Uu questionario in cui non siano state compilate le domande ritenute
strategiche per l'indagine pu essere considerato come non risposta
totale perch le informazioni raccolte sono inutili per gli obbiettivi
stabiliti.
________________________________________________________

Le mancate risposte totali, quando interessano la popolazione
campionata, hanno sui risultati dell'indagine due effetti: riducono la
numerosit campionaria e quindi incrementano l'errore campionario
(la varianza delle stime risulta accresciuta) ed inducono distorsioni
nelle stime se la causa che le produce non casuale. Quando
interessano la popolazione obbiettivo (il caso dei censimenti)
inducono distorsioni nella misura dei caratteri se sfuggono alla
rilevazione popolazioni con caratteristiche particolari.
Gli effetti prodotti dagli errori di mancata risposta parziale, che si
riferiscono alle singole variabili, sono simili a quelli dovuti agli errori
di mancata risposta totale.


L'errore di mancata risposta totale

Le tecniche di prevenzione delle mancate risposte si pongono
come obbiettivo di intervenire sulle cause dei mancati contatti e dei
rifiuti. Questo argomento viene ampiamente trattato nel contesto
dell'analisi della costruzione del questionario e delle tecniche di
somministrazione dello stesso.

Le domande delicate

Ci si limiteremo a trattare del solo caso delle domande delicate
od imbarazzanti. Argomenti delicati tendono solitamente a suscitare
risposte normative ossia che sono coerenti con la norma anche quando
non corrispondono a verit, questo tipo di comportamento
24
conosciuto come distorsione dovuta a ci che si ritiene socialmente
accettabile.
Argomenti riguardanti il reddito od il salario vengono percepiti come
un controllo di tipo fiscale quale che siano le assicurazioni date che
non sar cos. E' per questo motivo che difficile conoscere il reddito
familiare. Anche i salariati lo sottostimano, in parte per dimenticanza
o per errore di interpretazione della domanda ma in parte per un
timore pi o meno cosciente.
Timori della stessa natura conducono ad una sottostima degli acquisti
di radio e di televisioni, di coloro che esercitano un lavoro in nero, di
coloro che subaffittano, di coloro che hanno case non affittate, ecc.
Altre domande sono delicate in quanto riguardano la vita privata
dellintervistato o sue opinioni sulla vita privata di altre persone.
In tutti questi casi semplice dire che bisogna evitare di irritare o
mettere in imbarazzo il rispondente o di cercare di rassicurarlo
sull'utilizzo delle informazioni: in alcuni casi impossibile. Si pu
solamente cercare di limitare al massimo il disagio utilizzando alcuni
metodi e tecniche nel porre le domande.
Di questi se ne propone due: lautocompilazione e le risposte
casualizzate. Ricorrere all'autocompilazione del questionario risolve il
problema dellimbarazzo provocato dalla presenza dellintervistatore
ed offre una certezza sullanonimato del questionario. Si utilizza
questa tecnica nel caso di indagini su comportamenti ritenuti devianti,
nelle indagini che trattano della vita intima dellintervistato, indagini
su argomenti politicamente o culturalmente delicati


Le risposte casualizzate

Al rispondente che vuole difendere la propria vita privata si danno
degli strumenti per farlo senza dover mentire o rifiutarsi di rispondere;
infatti tramite questa tecnica, la risposta dell'intervistato non viene
conosciuta n dall'intervistatore n dalle altre persone che
eventualmente leggessero l'intervista. Come si vedr questa tecnica
pu essere impiegata solo nel caso che le domande delicate sono
numericamente limitate.

Il primo a proporre il metodo delle risposte casualizzate fu Warner
(1965) che si proponeva di conoscere il comportamento di un
popolazione assicurando ai singoli intervistati lassoluto anonimato in
modo da indurli a rispondere il vero a domande su argomenti delicati.
Si supponga che, nel corso di una indagine, si voglia conoscere chi
consuma eroina.
25

Se si ponesse la domanda nella seguente forma:

Consuma eroina ?

Si
No


o in alternativa

Non consuma eroina ?

Si
No

lintervistato potrebbe non rispondere o rispondere il falso per
proteggere la propria immagine oppure rifiutarsi di dare una risposta.

Il metodo di Warner consiste nel porre allintervistato ambedue le
domande e la risposta alla prima o alla seconda domanda dipende da
un congegno (una moneta, un dado, unurna contenente delle palline,
ecc.) che produce casualmente un evento che solo lintervistato
conosce ma la cui probabilit nota.
Si prenda il caso che lintervistato estragga, non visto
dallintervistatore, una pallina da unurna dove sono state messe sette
palline nere e tre palline bianche. La probabilit che venga estratta una
pallina bianca 0,3. L'intervistato viene invitato a rispondere,
evidentemente in modo veritiero, alla prima domanda, se si verifica
levento pallina bianca oppure alla seconda domanda se si verifica
l'evento pallina nera. Lintervistatore non pu quindi sapere se
lintervistato sta rispondendo alla prima o alla seconda domanda cos
che lanonimato assicurato al rispondente. La frequenza totale di
risposte affermative si ottiene sommando la frequenza di risposte
affermative alla prima domanda e la frequenza di risposte affermative
alla seconda domanda. Sar poi possibile stimare la frequenza relativa
degli intervistati che ha risposto positivamente alla prima domanda.

Una modalit alternativa nella forma, ma che fornisce gli stessi
risultati, quella di porre allintervisato solamente la prima domanda :
26
Consuma eroina ?

Si
No

Lintervistato, in questo caso, invitato a rispondere in modo veritiero
od in modo falso alla domanda secondo che estragga la pallina bianca
o la pallina nera.

Il metodo, per questa seconda modalit, pu essere formalizzato
secondo la seguente procedura. Lintervistato, non visto
dallintervistatore, mette in azione un congegno che produce un
evento E con probabilit conosciuta o che deve essere = da 1/2.
Se si verifica levento E lintervistato fornisce una risposta vera alla
domanda che gli stata posta. Nel caso in cui si verifica levento
contrario
E
, con probabilit 1 - o , lintervistato fornisce una risposta
falsa alla domanda. Lintervistatore non pu sapere se la risposta data
vera o falsa e quindi lanonimato del rispondente assicurato.
Dato che si conosce la probabilit o e dallintervista si ricava la
probabilt u di ottenere una risposta affermativa, si pu allora stimare
P che lignota frequenza relativa della popolazione che appartiene
alla classe che si intende stimare (nellesempio in questione i
consumatori di eroina).
La probabilit u di ottenere una riposta affermativa data dalla
frequenza di coloro che utilizzano leroina (P) e per i quali il
congegno produce levento E con probabilit o a cui si aggiunge la
frequenza di coloro che non usano leroina e per i quali si produce
levento
E
con probabilit 1 - o.

Si ottiene quindi

u = oP + (1 - o) (1- P)

= (2o -1)P + (1 - o)


Si pu allora stimare P con lo stimatore

1 - 2
) - (1 -

= P

o
o u


27
dove

u
la frequenza relativa delle risposte affermative delle unit
che costituiscono il campione.
7

La varianza di

P
, (essendo

u
una variabile casuale binomiale) se si
assume che lestrazione delle unit senza ripetizione (o che il tasso
di sondaggio trascurabile), la seguente

( )
( )
( )
( )
( )
2 2
1 - 2 n
- 1
=
1 - 2

V
= P

V
o o
u u u


Il principale problema nellutilizzo di questo stimatore sta nel fatto
che ha una varianza piuttosto elevata a meno che o non sia molto
diverso da 0,5. In questo caso tuttavia le garanzie di segretezza
allintervista non sono ritenute molto soddisfacenti. Infatti pi o
elevato pi probabile che lintervistato sia nella condizione di dover
dare una risposta vera alla prima domanda.
Un metodo alternativo a quello di Warner fu proposto da Simmonis
(Horvitz et al. 1967) che pens di sostituire la seconda domanda con
una domanda neutra che riguarda un carattere diffuso nellintera
popolazione oggetto dinteresse e non collegato in alcun modo alla
domanda principale. La frequenza del carattere nella popolazione
intervistata o nota oppure viene stimata; il valore di questa frequenza
viene indicato con
e
P
che soddisfa la condizione
1 P 0
e
s s

Nel corso dellintervista si pongono (per esempio) le seguenti
domande:

Consuma eroina ?

Si
No


E nato nella prima decade del mese ?

Si
No

Anche in questo caso la risposta alla prima o alla seconda domanda
dipende dal realizzarsi o meno dell'evento E con probabilit nota o. Il

7
Anche ricorrendo al primo metodo illustrato ovvero quello in cui si propongono
due domande (una in forma positiva l'altra in froma negativa) si ottiene la
stessa formula per stimare P.
28
risultato di questo evento, lo ripetiamo, conosciuto solamente
dallintervistato.
Quando si verifica l'evento E, con probabilit nota
o
, l'intervistato
fornisce un risposta veritiera alla prima domanda. In caso contrario,
ovvero quando si verifica levento
E
con probabilit (1-),
lintervistato fornisce la risposta veritiera alla seconda domanda.
In questa situazione la probabilit di ottenere una risposta affermativa
diventa

( ) P - 1 + P =
e
o o u


dove
P
e
la frequenza relativa delle unit della popolazione che
rispondono affermativamente alla seconda domanda. Questo metodo
presuppone, come si gi fatto osservare, che sia conosciuto il valore
P
e
; in alternativa questo valore pu essere appositamente stimato
ricorrendo ad un secondo campione
8
.
Si pu allora calcolare lo stimatore

( )
o
o
e
P - -
= P
1

u


la cui varianza

( )
( ) ( )
2
- 1
=
V
=

o o n
P V
u u u


E stato dimostrato che il metodo di Simmonis, purch
P
e
non sia
inferiore ad 1/3, pi efficiente di quello di Warner. Anche la
varianza di questo stimatore diminuisce se o ha dei valori elevati ma,
come si gi avuto occasione di osservare, diminuiscono pure le
garanzie di segretezza che si offrono allintervistato.
Il metodo delle risposte casualizzate stato studiato e ripreso da molti
autori ed stato esteso a domande che ammettono pi riposte ed anche
a domande riguardanti caratteri quantitativi sia discreti che continui
(Horvitz et al., 1975; Fox e Tracy, 1986).




8
Nel caso della domanda utilizzata in questo esempio (E' nato nella prima
decade del mese) la frequenza della risposta conosciuta dato che si sa
chele nascite si distribuiscono in modo uniforme nelle tre decadi dei mesi.
29


Tuttavia, per quanti sforzi si facciano per eliminare le cause delle
mancate risposte totali, rimane sempre quello che Cochran (1977)
chiama il nocciolo duro dei non rispondenti, costituito da quelle unit
che, per vari motivi, non possono o non vogliono essere intervistate.
Se la percentuale delle mancate risposte totali piccola o se vi sono
motivi per ritenere che le caratteristiche o i comportamenti dei non
rispondenti non differiscano in media da quelli dei rispondenti il
problema indotto dall'errore di non risposta totale pu essere ignorato.

L'errore di mancata risposta totale misurabile con un modello
analogo a quello utilizzato per l'errore di mancata copertura. Tale
errore funzione del tasso di mancata risposta
W
nr
ovvero la
percentuale di non rispondenti, e dalla differenza, nella popolazione
obbiettivo, dei valori medi
Y e Y
r nr

Quindi l'errore di mancata risposta, per lintera popolazione,
misurato dalla seguente espressione:

( )
Y Y W Y Y
r nr r nr
=
.

Anche per questa misura valgono le stesse considerazioni proposte
quando si trattato della misura dell'errore di mancata copertura. Per
valutare il peso di questo errore bisogna evidentemente conoscere il
tasso di non risposta W
nr
ed avere informazioni sulla differenza tra
Y
r

ed
Y
nr
.
Il tasso di non risposta
W
nr
si ricava dagli indicatori relativi
all'andamento dell'indagine.
Le informazioni sulle eventuali differenze tra
Y
r
ed
Y
nr
si possono
ottenere solamente da dati esterni od aggiuntivi rispetto l'indagine.
Tali informazioni possono essere ricavate:
- da una apposita intervista su un campione di non rispondenti fatta
utilizzando un'altra tecnica,
- da informazioni derivate da precedenti indagine realizzate sulla
medesima popolazione,
- da informazioni fornite da unit che hanno le medesime
caratteristiche
dei non rispondenti e che hanno collaborato all'indagine.

L'errore di non risposta totale produce una distorsione nelle
stime dei parametri misura; nel caso in cui si stimi la media di un
carattere Y tale distorsione tanto maggiore quanto maggiore il
30
tasso di non risposta (
W
nr
) e la differenza tra la media della
popolazione rispondente (
Y
r
) e quella della popolazione non
rispondente (
Y
nr
).

La distorsione causata dall'errore di non risposta non diminuisce
allaumentare della numerosit campionaria; pu invece verificarsi
una situazione opposta cos che in campioni molto numerosi
possibile che l'errore sistematico della stima sia relativamente
maggiore di quello dello scarto quadratico medio campionario.
Nel caso di un campione casuale semplice, in presenza dell'errore di
non risposta totale, il campione risulta inoltre meno numeroso di
quanto previsto, quindi la varianza delle stime risulta accresciuta.

Per migliorare la qualit delle rilevazione, nel caso di mancate
risposte totali, sono stati proposti vari procedimenti che possono
essere classificati in due gruppi: in uno si trovano i metodi che
vengono impiegati nella fase della raccolta dei dati, nellaltro i metodi
che sono utilizzati nella fase dellanalisi dei dati.

Si presenteranno di seguito i principali approcci proposti dalla
letteratura iniziando dai metodi impiegati nella fase di raccolta dei
dati

Nel caso di indagini campionarie un metodo utilizzato durante
la rilevazione sul campo consiste nel sostituire le unit non
rispondenti con altre in precedenza selezionate dalla medesima lista.
Tale tecnica ripristina la numerosit campionaria programmata e
quindi si eliminano le influenze sull'errore di campionamento; tuttavia
possono rimanere effetti distorsivi se la popolazione dei rispondenti, a
cui appartengono le unit sostitutive, presenta caratteristiche differenti
da quella dei non rispondenti.

Hansen e Hurwitz (1946) hanno proposto un metodo che
prevede di ricontattare per l'intervista un campione delle persone che
non hanno risposto utilizzando un'altra tecnica di somministrazione
del questionario. Nei casi di interviste telefoniche o di indagini postali
si ricorre ad interviste dirette e, viceversa, nel caso di indagine diretta,
ad un sottocampione tramite intervista telefonica.
Sia n il numero di questionari spediti e
n
1
il numero di quelli che sono
stati restituiti debitamente compilati. Posto
n n n
2
=
1
la tecnica
prevede che
n k
2
/
dei non rispondenti vengano visitati dagli
intervistatori, dove k > 1 una costante prefissata.
31
La popolazione considerata come divisa in due strati: il primo, che
comprende una frazione pari a
W
1
consiste degli individui che
rispondono al questionario postale, gli altri, la cui frequenza relativa
viene denotata con
W W
2 1
1 =
, che per ipotesi sono tutti disposti a
rispondere agli intervistatori, formano un secondo strato.
Indicate con Y e Y
1 2
le medie nei due strati, la media generale della
popolazione data da:

Y WY WY = +
1 1 2 2


Dal campione si ottiene la stima corrispondente:

y w y w y = +
1 1 2 2


dove
y e y
1 2
sono le medie relative, rispettivamente, al sondaggio
postale e alle interviste, con
w n n n n
1 1 2
= = / / e w
2
. Se si verifica
l'ipotesi, non sempre del tutto realistica, che nella seconda fase tutti
rispondano, lo stimatore corretto,
( ) E y Y =
.

Un altro metodo quello della domanda cruciale; al momento
del rifiuto dell'intervista, durante i contatti preliminari e
nell'imminente interruzione degli stessi, l'intervistatore deve affrettarsi
a porre una sola domanda in sostituzione del nucleo centrale
dell'intervista; a quanti non sono reperibili presso il loro domicilio il
quesito cruciale pu essere posto telefonicamente. Se i due gruppi, dei
rispondenti e dei non rispondenti, hanno risposto alla domanda
cruciale questa informazione pu essere utilizzata per migliorare la
stima della variabile in questione, con riferimento, anche in questo
caso, alla stima del valore medio di un carattere Y essendo
y
r
il
valore medio campionario della variabile cruciale per rispondenti ( n
r
)
ed
y
nr
quello per i non rispondenti (
n
nr
) e quindi la stima pu essere
calcolata utilizzando l'espressione seguente nella quale compaiono
come pesi le proporzioni dei rispondenti e dei non rispondenti:

y
n
n
y
n
n
y
r
r
nr
nr
= +


Lo stimatore corretto solo se coloro che rispondono alla domanda
cruciale sono un campione causale, quindi non selezionato, dei non
rispondenti.

32
Altri approcci per migliorare la qualit delle rilevazioni in
presenza di mancate risposte totali consistono, come si detto,
nell'intervenire a livello dell'analisi dei dati.

Una tecnica molto diffusa quella della ponderazione che serve
a riprorzionare la composizione del campione rispetto a quella della
popolazione obbiettivo, da cui si discosta a causa della mancanza di
alcune delle unit del campione, cos da poter eliminare gran parte
della distorsione causata da tale mancanza.
Anche l'applicazione di questa tecnica si fonda sull'ipotesi che, a
parit di certe caratteristiche della popolazione correlate con la
variabile di interesse, le determinazioni assunte da questa non si
modifichino sostanzialmente passando da coloro che hanno risposto a
coloro che non hanno risposto. L'accettabilit di tale ipotesi dipende
naturalmente dal profilo dei non rispondenti e dalla variabile
considerata.
Nel caso della stima della media aritmetica di un carattere Y, si
supponga di aver suddiviso il campione in C classi, essendo n la
numerosit del campione e
n n n
C 1 2
, ,... ,
le unit campionarie di
ciascuna classe. Siano ancora
n n n
r r Cr 1 2
, ,... ,
i rispondenti nelle C
classi. Queste classi vengono scelte in funzione del carattere
analizzato in modo da poter fare lipotesi che per ciascuna di queste
classi il valore della media aritmetica del carattere Y dei rispondenti
sia uguale a quello dei non rispondenti ovvero che in ciascuna classe
leffetto selezione non esista o meglio sia minimo. Per compensare le
non risposte viene attribuito un fattore correttivo ad ogni classe, nel
senso che ad ogni valore campionario
y
ij
(con i = 1, 2,..., C e j = 1,
2,...,
n
ir
) si associa il peso
n n
i ir
/
ossia il reciproco del tasso di
risposta di ciascuna classe i. Ci equivale ad imputare a ciascun non
rispondente il valore medio delle informazioni rilevate nella classe a
cui risulta attribuito.
Lo stimatore della media aritmetica dato in questo caso
dall'espressione:

( )
( )
y
n n y
n n
p y
i ir ij
j
n
i
C
i ir
j
n
i
C i
i
C
ir
ir
ir
= =



/
/


dove:
y
ir
indica il valore medio campionario calcolato sui soli rispondenti
della classe i-esima,
33
p
i
indica il peso relativo di ciascuna classe i-esima nel campione
essendo
p n n
i i
= /
.

Si consideri questo esempio:

Per stimare il consumo annuale medio di un cosmetico si ricorre ad un
indagine campionaria. Il campione casuale utilizzato per lindagine
di 3.000 unit, conclusa lindagine risulta che i rispondenti sono 2406
e i non rispondenti sono 594, il tasso di non risposta quindi pari a
19,8%. Il valore dello stimatore
y
(numero medio di unit di
cosmetico acquistate dalla popolazione obbiettivo nellanno di
riferimento) pari a 15,05.
Le informazioni desunte da precedenti indagini assicurano che il
comportamento dacquisto dei consumatori di questo cosmetico
dipende pressoch esclusivamente dai carattere sesso ed et, secondo
le modalit giovani (15-34 anni) e adulti (35-54 anni); si rende cos
possibile la ripartizione, della popolazione obbiettivo, in quattro
gruppi: MG, MA, FG, FA.
Si suddivide quindi sia il campione iniziale che quello dei rispondenti
secondo i quattro gruppi indicati; le numerosit assolute e percentuali
ottenute sono riportati nella tabella seguente.


E evidente che i non rispondenti sono una popolazione selezionata; si
nota, infatti, una sovrarappresentazione della popolazione giovane (sia
maschile che femminile ) a cui corrsisponde una
sottorappresentazione della popolazione anziana.
Il fenomeno della selezione del campione ha come conseguenze che lo
stimatore
R
y
sia distorto e che, in questo caso, sottostimi il valore
vero (media di unit di cosmetico acquistate in un anno), dato che la
popolazione giovane, sia maschile che femminile, presenta una
propensione molto pi bassa, rispetto alla popolazione anziana,
allacquisto del cosmetico in questione, come mostrano le stime
calcolate per i quattro gruppi.

GR N
T
% N
R
%
MG 600 20 560 23,3
MA 1050 35 748 31,1
FG 450 15 421 17,5
FA 900 30 677 28,1
TOT 3000 100 2406 100,0
34

Applicando il metodo della ponderazione si pu eliminare la
distorsione e calcolare lo stimatore corretto
T
y
.

Si ricorda che lipotesi fondante il metodo della ponderazione
permette di affermare che nei quattro gruppi, in cui stata suddivisa la
popolazione, il comportamento dacquisto dei rispondeti e dei non
rispondenti il medesimo.
Il valore dello stimatore corretto (
T
y
=16,05) si ottiene calcolando la
sommatoria della media ponderata dei degli stimatori dei quattro
gruppi, utilizzando come pesi i valori percentuali dei quattro gruppi
nella popolazione obbiettivo.

La tecnica della post-stratificazione, che presenta forti analogie con
quella della ponderazione, consiste nel classificare a posteriori le
informazioni campionarie, utilizzando in tal modo informazioni
raccolte dallindagine, per ridurre la distorsione derivante dalle
mancate risposte (o dalla mancata copertura di lista).
Nel pi semplice dei casi si supponga di suddividere la popolazione in
L classi in base alle modalit di un carattere qualitativo o quantitativo
(Y) di cui sia nota la distribuzione nella popolazione. Sia
P
h
il peso
relativo della h-esima classe e siano
W
rh
e W
nrh
, rispettivamente, la
frazione dei rispondenti e quella dei non rispondenti nella stessa
classe. La media campionaria dei rispondenti si visto essere uno
stimatore distorto.
Si consideri lo stimatore
y P y
ps h rh
h
L
=
=

1


dove
y
rh
la media campionaria delle unit rispondenti nella
sottoclasse h.
Applicando, allinterno di ogni classe, il modello di errore che stato
analizzato in apertura del paragrafo ovvero

( )
Y Y W Y Y
r nr r nr
=


GR R
%
R
y
T
%
T
y
MG 23,3 4 20 4
MA 31,1 20 35 20
FG 17,5 5 15 5
FA 28,1 25 30 25
TOT 100,0 15,05 100 16,05
35
la distorsione dello stimatore

( ) ( ) B y P W Y Y
ps h nrh
h
L
rh nrh
=
=

1


dove
Y e Y
rh nrh
sono le medie dei rispondenti e dei non rispondenti
nella classe h. Il vantaggio di questo stimatore sta nel fatto che se
Y Y
rh nrh
=
, lo stimatore corretto.

Il punto cruciale dei metodi ora descritti la suddivisione in
classi in modo tale che siano, rispetto al carattere rilevato, il pi
possibile eterogenee tra di loro ed omogenee al loro interno (ovvero
che al loro interno i non rispondenti differiscano, mediamente, il meno
possibile dai rispondenti). Questo perch sia realistico fare lipotesi
che, allinterno delle classi identificate in base alle variabili correlate
al carattere dinteresse, la differenza tra
Y e Y
rh nrh
sia nulla o per lo
meno minima. Le classi definite allo scopo di ridurre la distorsione
per mancate risposte sono dette classi di aggiustamento per mancate
risposte. Se i pesi
P
h
delle classi non sono noti conviene sostituirli con
le loro stime campionarie
p n n
h h
= /
.
Si tenga infine presente che occorre evitare un numero eccessivo di
classi, dato che al diminuire del numero dei rispondenti di ciascuna
classe aumenta la variabilit delle stime e quindi aumenta la varianza
dello stimatore

Y
ps
.

Altre tecniche si richiamano al metodo degli stimatori per
regressione che si usa se per i non rispondenti si conoscono le medie
di una o pi variabili ausiliarie tendenti a collegare i valori della
variabile y con i valori delle variabili ausiliarie. Pu essere utilizzato
anche il metodo dello stimatore per quoziente che si pu ritenere come
un caso particolare dello stimatore per regressione ovvero quando un
o dei due parametri, quello dell'intercetta, nullo.









36
Le mancate risposte parziali


La problematica solamente in parte diversa quando le risposte
sono incomplete, quando cio manca l'informazione richiesta in uno o
pi punti del questionario che per nell'insieme ha trovato risposta.
Nel caso di mancate risposte parziali possono essere adottate due
strategie, per un corretto utilizzo dei dati raccolti: tenendo presente
che, quale che sia la strategia adottata, se la causa delle mancate
risposte non strettamente casuale, si avr sempre una distorsione
delle stime.

Una prima strategia consiste nel limitarsi all'utilizzo dell'insieme
dei dati completi ovvero delle unit che hanno risposto a tutti i quesiti;
in questo caso viene assicurata la comparabilit delle stime poich le
statistiche sono calcolate sulla stessa base di dati, tuttavia tale scelta fa
ricadere nel caso delle non risposte totali con tutti i problemi connessi.
In particolare si verifica una forte riduzione della numerosit
campionaria in funzione delle frequenze di mancata risposta sulle
variabili e del numero di queste.
________________________________________________________
Riduzione delle numerosit campionaria in funzione delle percentuali
di mancata risposta
________________________________________________________

Percentuali di Numero delle variabili rilevate
mancata risposta
10 20 50

1% 90% 82% 60%
5% 60% 36% 8%
________________________________________________________
(Fonte: ISTAT op.cit. vol. 6).
________________________________________________________




La seconda strategia ricorrere allutilizzo di metodi che operano
una qualche forma di correzione sfruttando le informazioni contenute
nelle parti compilate dei questionari incompleti, in questo modo si
eliminano gli inconvenienti della prima strategie.

Limputazione dei dati
37

Mentre le mancate risposte totali vengono sostituite
prevalentemente mediante procedimenti basati sulle ponderazioni, le
mancate risposte parziali vengono corrette con l'imputazione di dati
scelti opportunamente al fine di sostituire quelli mancanti. I principali
metodi di imputazione di mancate risposte parziali sono:

I) In alcuni casi possibile risalire con certezza al dato omesso,
sulla base delle informazioni contenute nelle altre risposte. Si tratta
della cos detta imputazione analitica che, laddove possibile,
rappresenta il metodo migliore in quanto fornisce il valore vero.

II) L'eventuale esistenza di legami di dipendenza fra variabili
rilevanti invece alla base dell'imputazione deterministica. Il valore
mancante viene calcolato a partire dai valori assunti da altre variabili
utilizzando le informazioni raccolte presso la stessa unit. Es.:
l'esistenza di una relazione gerarchica tra reddito disponibile e
consumo per le unit intervistate consente di stimare il reddito a
partire dalle informazioni sul consumo.

III) Limputazione da modello utilizza un'equazione di
regressione che lega la variabile oggetto di imputazione ad altre ad
essa correlate (variabili esplicative) disponibili per tutte le unit
campionarie e quindi anche per chi ha risposto parzialmente. L'ipotesi
di base che i coefficienti della relazione stimata a partire da chi ha
fornito risposte complete sono validi anche nel caso di chi ha risposto
in modo parziale. Una volta stimati i coefficienti della relazione,
possibile ricostruire il valore della variabile da imputare.

Criteri da donatore

Alcuni metodi di correzione si basano sui criteri da donatore che
partono dal presupposto che il valore mancante dell'unit del
campione sia imputato ricorrendo ad informazioni desumibili
dall'insieme di coloro che hanno risposto. Tali valori possono essere
generati utilizzando una distribuzione, semplice o congiunta, desunta
da dati puliti, oppure possono dedotti da quelli presenti in una unit
donatrice pulita (in cui non stato riscontrato alcun errore).

I) Un metodo semplice, ma non privo di inconvenienti, quello
di sostituire, ad ogni dato mancante, la corrispondente media
aritmetica ricavata dalle risposte complete. Il metodo presenta per
l'inconveniente di ridurre la variabilit del carattere nel campione con
il rischio di sottostimare la varianza degli stimatori.
38

II) Una variante meno grossolana consiste nel dividere le unit
campionate in classi, a seconda dei valori assunti da una o pi
variabili di controllo, correlate con le altre variabili oggetto d'interesse
nel questionario. Le unit che non hanno completato il questionario
sono assegnate, sulla base delle informazioni fornite, ad un particolare
strato. Per ogni dato mancante si assumono i valori uguali alle medie
aritmetiche osservate tra i rispondenti. Si supponga, ad esempio, che
le unit di cui si esaminano le risposte relative al carattere reddito
siano state classificate in base al sesso, et, grado di istruzione.
Stabilito a quale classe appartenga l'individuo, di cui manca la risposta
al quesito sul reddito, si attribuisce a tale individuo il reddito medio
della classe; in questo modo si preserva, in parte, la variabilit del
carattere nel campione.

III) Un altro metodo che non si allontana di molto da quelli ora
considerati, consiste nel sostituire al dato mancante il valore dell'unit
pi vicina all'interno dello stesso strato, ovvero quello dell'unit per
cui minima la distanza fra i valori assunti dalle variabili controllo. Si
utilizzano dunque funzioni che misurano la distanza fra chi non ha
risposto ed i singoli rispondenti. Un'altra possibilit consiste nel
sostituire al dato mancante la media aritmetica dei valori delle due
unit pi vicine.

Criteri di casualit

Un'alternativa a metodi fin qui considerati consiste
nellutilizzare dei criteri di casualit nel sostituire il dato mancante.
Nella sua forma pi elementare questo metodo consiste nel sostituire
il dato mancante con un dato scelto a caso tra le unit del campione
che hanno risposto. Un metodo pi articolato consiste invece nel
scegliere il dato, sempre casualmente, all'interno di classi di unit
formate secondo i valori di variabili di controllo; queste classi
vengono indicate come classi di imputazione.
E' da sottolineare che i metodi di imputazione si fondano su
ipotesi sottintese (per esempio sull'identit delle distribuzioni nei
rispondenti e nei non rispondenti parziali) e possono dare luogo ad
errori se tali ipotesi, che di solito non si prestano a verifiche dirette,
non corrispondono alla realt.
Inoltre va segnalato che tutti i metodi presentati influenzano le
relazioni fra caratteri. In particolare la covarianza tra due caratteri
risulta minore di quella che si avrebbe se non ci fossero risposte
mancanti; parimenti risultano attenuate le differenze tra le medie (ad
39
esempio tra maschi e femmine se non si tenuto conto del sesso nella
definizione delle classi di imputazione).


Gli errori di misura


Gli errori di misura sono stati definiti come "errori connessi ad
imperfezione negli strumenti di rilevazione o ... all'imprecisione delle
informazioni possedute dagli intervistati e ad errori di risposta"
(Cicchitelli et al. op.cit.).
Rispetto agli errori fin ora esaminati gli errori di misura risultano pi
difficili da identificare e da misurare dato che o si dovrebbero
conoscere i valori veri o si dovrebbe ripetere l'intervista. Il metodo
della ripetizione dell'intervista risulta costoso e non permette di
conoscere con precisione assoluta gli errori di misura perch anch'essa
pu essere interessata da questo tipo di errore. Tuttavia, nonostante
questi limiti, la ripetizione dellintervista, facendo ricorso a campioni,
un metodo molto utilizzato, per il controllo degli errori di misura,
tenendo, conto del fatto che, specialmente nel caso dei censimenti,
anche la sola individuazione di forti differenze pu fornire utili
elementi per la conoscenza dell'errore di misura anche in vista di
indagini future.

In ogni fase dell'indagine si verificano problemi e
comportamenti che possono causare errori di misura. Tuttavia tali
errori, proprio per le loro caratteristiche, emergono essenzialmente
nella fase di raccolta dei dati, per questo motivo sono chiamati anche
errori di risposta, e sono attribuibili al questionario, al rispondente, all
intervistatore ed ai supervisori
9
. Gli errori di misura spesso sono tra di
loro interdipendenti sia nelle cause che negli effetti, per questo motivo
non sempre risulta facile individuare separatamente la loro influenza
sui risultati delle indagini statistiche.

Gli errori dovuti al rispondente

Durante l'intervista gli errori di misura possono derivare da vari
fattori. Quelli collegati al questionario sono gi stati presentati in
precedenza ora si considerino quelli dovuti al rispondente:

9
La tecnica di somministrazione del questionario ha delle influenze
sull'errore di misura allo stesso modo che ha influenza sull'errore di lista e di
non risposta, per questo motivo non la consideriamo tra le cause specifiche
dell'errore di misura.
40
- non comprensione della domanda,
- scarsa motivazione a rispondere,
- poca attenzione e trascuratezza nella compilazione del questionario,
- insufficiente capacit ad elaborare e comunicare la risposta,
- mancanza di informazione del rispondente,
- la comunicazione della risposta condizionata dall'immagine che il
rispondente vuole dare di se,
- il condizionamento esercitato sul rispondente dalla presenza di terze
persone,
- la difficolt a ricordare.

Quando per qualsiasi dei fattori sopra menzionati l'intervistato
indotto a fornire una risposta non accurata si possono verificare due
situazioni: non risponde (errore di non risposta parziale), fornisce
informazioni non vere (errore di misura)
In particolare se la causa dell'errore collegata all'impossibilit
dell'intervistato a fornire risposte accurate perch non in possesso
della conoscenza richiesta, si tratta della cos detta non accuratezza
involontaria. Le possibili cause della non accuratezza involontaria
dipendono dal fatto che l'intervistato non ha mai conosciuto
l'informazione richiesta (ad esempio : l'intervistato non conosce la
motivazione dell'acquisto di un bene utilizzato dall'intero nucleo
familiare) oppure l'informazione stata dimenticata e non esistono
possibilit di ricostruirla. L'effetto in questi casi quello di una non
risposta parziale, tuttavia se il rispondente non vuole ammettere di non
conoscere la vera risposta fornir informazioni non vere (errore di
misura).
Nel caso di risposte che richiedono di fare ricorso alla memoria si pu
presentare un'altra situazione ovvero il rispondente sbaglia la
collocazione temporale dell'evento (errore di misura)

Gli errori dovuti all'intervistatore

I compiti degli intervistatori sono numerosi e quindi numerose
sono pure le possibilit di contribuire al verificarsi degli errori non
campionari. Anche in questo caso gli errori possono essere in gran
parte di misura; non , tuttavia, escluso che si verifichino degli errori
di non risposta.
Si considereranno, in questo contesto, solamente i fattori che entrano
in gioco dal momento in cui l'intervistato accetta di collaborare (quelli
della fase precedente sono gi stati esaminati).
Tali fattori possono essere :
- le domande sono lette diversamente da come sono state formulate
- vengono commessi errori nella trascrizioni delle risposte
41
- la reazione dell'intervistatore pu essere diversa di fronte a situazioni
impreviste o a difficolt di vario genere le risposte degli intervistati
possono quindi non risultare omogenee
- il comportamento dell'intervistatore influenza l'intervistato (si
possono avere sia errori di misura che errori di non risposta).

Gli errori dovuti al supervisore

Il compito del supervisore consiste essenzialmente nel
controllare l'operato degli intervistatori. affinch seguano
scrupolosamente le istruzioni fornite e nell'aiutarli nei casi dubbi o
difficili. Il comportamento del supervisore pu quindi provocare gravi
errori in funzione anche delle diverse modalit di raccolta dei dati.


Gli errori durante la codifica e la registrazione dei dati


Le operazioni di codifica possono generare i seguenti tipi di
errori:
- errori di trascrizione
- errori derivanti dalle insufficienti istruzioni impartite ai codificatori
- errori derivanti dall'attitudine dei codificatori a interpretare in modo
personale la classificazione.
________________________________________________________
Esempio.

Nel caso di codifica di quesiti aperti due codificatori possono dare
un'interpretazione diversa e quindi un codice diverso ad uno stesso
tipo di risposta, la classificazione non adeguata al tipo di risposte
fornite oppure la lista delle modalit per la codifica incompleta
________________________________________________________

Gli errori di codifica sono classificabili tra gli errori di misura ed
producono delle distorsioni nei risultati finali.

Errori di registrazione

I principali tipi di errore che possono essere commessi durante
il processo di registrazione riguardano il valore del dato e la sua
posizione nel record finale.
L'errore rispetto al valore si verifica quando un certo carattere viene
letto o interpretato male e quindi registrato in modo scorretto. Il
secondo tipo di errore accade quando un carattere viene letto e
42
digitato correttamente rispetto al suo valore ma in una posizione errata
sul record.
Questi errori hanno conseguenze sulle successive elaborazione dei
dati. Alcuni errori possono incidere notevolmente sulla coerenza
interna del questionario; se un errore di registrazione interessa una
variabile-guida pu risultare inficiata la sequenza di campi che da
questi dipendono.
L'effetto di un errore di registrazione, che anch'esso un errore di
misura, va quindi valutato nei termini del suo contenuto informativo
nel contesto del questionario.


Identificazione degli errori di misura


Gli errori di misura che non danno luogo ad incongruenze
logiche o a valori fuori campo, non sono determinabili sulla base dei
soli risultati dell'indagine; la loro identificazione e quantificazione
richiede quindi tecniche particolari
.
Il metodo migliore per scoprire e quantificare gli errori di
misura quello di confrontare le quantit rilevate con i valori veri,
questa tecnica praticabile solo con dati che possono essere accertati
obbiettivamente (data di nascita, stato civile, titolo di studio,...).

Unaltra tecnica quello della reintervista che consiste nel
ripetere l'indagine, o parte di essa, tenendo fisse le condizioni generali
e variando le condizioni particolari che si vogliono controllare oppure
utilizzando mezzi di misurazione che si ritengono pi precisi (ad
esempio: le notizie sulla salute possono essere verificate consultando
le cartelle cliniche).

Anche l'errore di misura pu essere composto dall'errore
sistematico (distorsione) e dall'errore variabile. Con il metodo della
reintervista possibile conoscere sia la distorsione sia la varianza
dovute all'errore di misura. La stima di ciascuna componente richiede
una adeguata tecnica di indagine.

La stima della distorsione richiede un processo di misurazione
pi preciso dell'indagine originaria, allo scopo di appurare il valore
vero. Per ottenere questo si pu utilizzare la reintervista con
riconciliazione della risposta che consiste in un ritorno presso un
campione di unit che vengono reintervistate da un intervistatore pi
esperto o dal precedente assistito dal supervisore. L'intervistatore
43
ripropone i medesimi quesiti (eventualmente utilizzando una versione
pi dettagliata del questionario con domande di controllo) avendo a
disposizione le risposte precedentemente fornite e, in caso di
discordanza accertare, con l'aiuto del rispondente, la risposta vera.
Con questa tecnica si pu tentare di attribuire al rilevatore o al
rispondente le differenze riscontrate separando cos le due possibili
cause di errore. Se, inoltre, sono previste domande sui motivi di tali
differenze e sulle modalit della conduzione dell'intervista originaria,
si possono evidenziare altre fonti di errore, quali, ad esempio, le
carenze nel questionario o nelle istruzioni fornite agli intervistatori.

La stima della varianza dell'errore di misura si basa su una
replica indipendente dell'indagine sotto le stesse condizioni generali
ovvero si effettua una reintervista senza riconciliazione. Se
l'obbiettivo la stima della variabilit dovuta, ad esempio, all'effetto
intervistatore, la reintervista viene condotta da intervistatori diversi da
quelli dell'indagine ma dello stesso grado di abilit, di esperienza e di
preparazione lasciando inalterati tutti gli altri aspetti quali il
questionario, la codifica, la registrazione, i controlli automatici di
correzione e cos via. In questo modo si sicuri dell'indipendenza
delle due indagini e dell'equivalenza delle condizioni essenziali; la
differenza tra i due valori osservati consente di valutare l'influenza
delle mutate condizioni particolari (gli intervistatori). In modo
analogo possono essere analizzati, ad esempio, gli effetti degli errori
di codifica o di registrazione, a parit delle altre condizioni.

Un altro metodo con il quale possibile stimare la variabilit
totale non campionaria quello della compenetrazione campionaria
che non implica la reintervista delle unit. Questo metodo stato
introdotto da Mahalanobis (1946) e ripreso da numerosi autori che lo
hanno adattato alle caratteristiche delle indagini oggetto di studio.
Nella sua formulazione standard tale tecnica consiste nel suddividere,
a caso, un campione casuale di n unit in k campioni di uguale
numerosit n' = n/k, ognuno dei quali costituisce quindi un campione
casuale rappresentativo della popolazione di origine.
Ciascuno di questi campioni viene affidato ad un intervistatore.
Questo implica che nel caso di indagini che interessano zone estese
(una macroregione o lintero paese) il rilevatore deve spostarsi su
tutto il territorio con un forte aumento dei costi sia per i viaggi sia per
il maggior tempo che richiedono questi spostamenti. Per contenere tali
costi si pu ricorrere ad un campionamento stratificato
territorialmente ed utilizzare il metodo della compenetrazione
allinterno di ogni strato.
44
L'elemento di casualizzazione cos introdotto, tutti i k campioni infatti
sono casuali e quindi rappresentano tutti la popolazione obbiettivo,
permette, sotto ipotesi non troppo restrittive ed applicando la tecnica
statistica dellanalisi della varianza, di stimare correttamente la
varianza totale della media campionaria che misura l'effetto
intervistatore. Tale stima si ottiene confrontando la varianza tra le
assegnazioni degli intervistatori (che misura la variabilit tra le medie
di ogni campione e la media generale) e la varianza interna alle
assegnazioni degli intervistatori (che misura la varibilit all'interno di
ogni sottocampione); dato che ogni campione casuale la variabilit
tra le medie dei campioni dovuta alla sola azione degli intervistatori.


La stima dell'effetto proxy

Le tecniche fin qui esaminate non permettono di stimare l'errore
di misura dovuto a cause particolari, come l'effetto proxy e l'effetto
ricordo, per la cui stima sono necessarie delle tecniche particolari.

Per valutare l'entit dell'errore dovuto alla risposta fornita da
altri (risposta proxy) necessario programmare un disegno
sperimentale che preveda il ritorno presso l'unit non rispondente.
Tale metodo permette, inoltre, l'analisi dei fattori che influiscono
sull'entit dell'errore (ad esempio: la natura delle domande, le
caratteristiche individuali,...).
Altre tecniche che possono essere utilizzate per determinare e
quantificare l'effetto proxy sono le seguenti:
- il confronto con i medesimi dati provenienti da altra fonte e relativi
all'unit non rispondente
- indagini condotte su due campioni provenienti dalla stessa
popolazione in uno solo dei quali sono ammesse risposte proxy
- la reintervista con riconciliazione effettuata su un campione di unit
per le quali furono ammesse le risposte proxy.

La stima dell'effetto ricordo

La stima dell'errore dovuto a dimenticanza od errata datazione
degli eventi (effetto telescopico) si pu effettuare solamente
ricorrendo a modelli matematici. Il fattore principale che influenza il
ricordo degli eventi passati la lunghezza dell'intervallo di tempo da
considerare ai fini della risposta. E' stato dimostrato empiricamente
(Sudman e Bradburn 1973) che il ricordo (la proporzione di eventi che
l'individuo ricorda) legato all'ampiezza del periodo di tempo su cui
45
viene esercitata la memoria da una funzione di decadimento di tipo
esponenziale, dove per decadimento si intende il tasso di riduzione del
ricordo. L'influenza che il tempo esercita sulla memoria attraverso
l'effetto telescopico, con lo spostamento in avanti nel tempo degli
eventi ricordati, induce invece ad una sovrastima degli eventi ; si deve
quindi, in questo caso, tenere conto dell'influenza della percezione
soggettiva della durata del tempo.

Il modello matematico proposto dai due autori tiene conto
dell'effetto degli errori di omissione e di spostamento in avanti
dell'evento che l'errore di datazione commesso pi frequentemente.
Per stimare l'errore di omissione stato proposto il seguente modello:

( ) r a exp t
0
= - b
1


dove

r
0
= la proporzione di eventi che l'individuo
ricorda,
t = la lunghezza del periodo di ricordo,
b
1
= un paramento che determina la rapidit di
decadimento del ricordo e che dipende da pi
fattori tra cui: l'importanza dell'evento, la
personalit del rispondente, le condizioni
dell'intervista,
a = un parametro che dipende da quei fattori che
inducono anascondere eventi ricordati (a
assume in questo caso valori minori di uno)
10
.

Nel modello proposto si nota che la proporzione di eventi ricordati
(
r
0
) diminuisce rapidamente al crescere della lunghezza del periodo di
ricordo (t) e del parametro (
b
1
).
Per tenere conto della percezione soggettiva del tempo e della sua
influenza sullerrore di misura stato proposto quest'altro modello:

r
t
= log (
b
2
t)/ t

dove:

10
I parametri (
b
1
) e (a) sono calcolati empiricamente.

46
r
t
= l'errore riferito alla lunghezza del periodo di
ricordo,
b
2
= il parametro che trasforma il tempo
cronologico (t) in tempo soggettivo.


Errore di registrazione


Il controllo a campione

Per il controllo della qualit della registrazione si utilizza un
campione di modelli di questionario che vengono nuovamente digitati
e confrontati con quelli provenienti dalle registrazione originale.

Definizione degli standard di qualit

Per valutare se il materiale proveniente dalla registrazione
affidabile e quindi predisporre la procedura di controllo
fondamentale la definizione del livello di qualit che si ritiene
accettabile od auspicabile, in modo da poter determinare un piano di
campionamento che, con prefissata probabilit di errore, consenta di
accertare se la percentuale di errore nel file registrato soddisfa o meno
il prefissato standard.
Si possono considerare diversi approcci per definire la quantit di
errori riferendosi a:
1) rapporto del numero totale di byte errati sul numero di byte utili
(errore totale), (ad esempio: 5 per mille),
2) rapporto del numero medio di record errati sul totale dei record
digitati, (ad esempio: 5 per cento),
3) esame complessivo dei due parametri precedenti.

Piani di campionamento singolo per attributi

Se si assimila il processo di registrazione ad un processo
produttivo, in cui il pezzo prodotto il singolo dato (record) digitato
possibile applicare alla registrazione alcuni controlli utilizzando piani
di campionamento ideati per i controlli industriali.
Nel caso della registrazione si tratta di verificare se il dato digitato
correttamente, cio se buono, o invece difettoso; opportuno allora
utilizzare per il controllo statistico un piano di campionamento
singolo per attributi, dove la caratteristica qualitativa da studiare
appunto la difettosit.
47
Il test di controllo viene effettuato mediante un piano di
campionamento singolo (con una sola estrazione) per attributi (che
discrimina tra pezzi difettosi e non). Dato un lotto di pezzi di
numerosit N, un piano di campionamento singolo definito da due
parametri: n, la dimensione del campione e c, il numero di
accettazione, cio il numero di pezzi difettosi che si disposti ad
accettare nel campione senza che questo comporti la decisione di
considerare inaccettabile la qualit complessiva della produzione e di
respingere pertanto il lotto in esame.
48




APPENDICE


La lista


Si indica con lista sia l'elenco ordinato delle etichette che
contrassegnano tutte le unit della popolazione e che contengono le
informazioni necessarie alla loro individuazione sia tutti quegli
elementi e procedimenti che possono essere usati per selezionare le
unit, nel caso d'indagine campionaria, e, in generale, per reperire le
unit sul campo.
Il termine nominativo viene usato per indicare l'etichetta come
compare nella lista pu trattarsi anche di un indirizzo, di un punto su
una carta topografica, di una cartella clinica, di un numero.
La lista pu contenere, inoltre, per ciascun nominativo, delle
informazioni che la rendano adatta ad essere utilizzata per particolari
operazioni previste dal piano di rilevazione o di campionamento (ad
es.: le variabili da utilizzare nel caso si debba procedere ad una
sostituzione delle unit campionate oppure le variabili necessarie alla
stratificazione
11
).
In molti casi la lista funge anche da archivio di informazioni utilizzato
per il conteggio delle unit (es.: la lista dell'anagrafe per valutare la
consistenza della popolazione) o per il loro raggruppamento in strati
(es.: il codice della circoscrizione amministrativa).
Rispetto alla popolazione obbiettivo la lista deve risultare:
- completa: contenere tutti i nominativi delle unit di rilevazione della
popolazione designata e nessun nominativo estraneo o ripetuto,
- aggiornata: contenere tutti i nominativi della popolazione alla data
pi vicina nel tempo all'indagine,
- informativa: ciascun nominativo deve essere distinguibile dagli altri
ed individuabile.

11
La stratificazione una tecnica che utilizzando caratteri conosciuti della
popolazione tende a migliorare lefficienza del piano di campionamento. Per
procedere ad un campionamento stratificato si suddivide la popolazione,
costituita da N unit, in L sottopopolazioni o strati, all'interno dei quali le
unit siano omogenee secondo criterio che dipendono dai caratteri
conosciuti. Da ciascuno si estrae poi, in modo indipendente, un campione
casuale semplice (Cichitelli et al. 1992).
49

Per la singola indagine si pu costruire una lista oppure
utilizzare un elenco preesistente. La predisposizione di una lista
mirata per l'indagine ed esente da errori risulterebbe dispendiosa, si
tratterebbe infatti di effettuare un censimento (es.: nel caso di una
indagine campionaria a due stadi sulla popolazione occorrerebbe
effettuare il censimento delle famiglie nei comuni campione
12
).
Risulta pi economico e pratico utilizzare liste gi esistenti, anche se
tali liste non possiedono i requisiti sopra indicati. Le liste vengono
aggiornate con cadenze diverse dalle date di riferimento dell'indagine
e spesso risultano incomplete. In questi casi necessario, prima della
rilevazione, sottoporre la lista ad un'opera accurata di revisione e di
aggiornamento.
Le unit oggetto di rilevazione sono dette includibili nella lista e
vengono designate mediante il criterio di includibilit che deriva dalla
definizione della popolazione obbiettivo. Una unit includibile nella
lista se appartiene alla popolazione obbiettivo.
Nel caso si proceda ad un'indagine campionaria bisogna verificare
l'esistenza di una lista nella quale compaiano tutti gli elementi che
costituiscono la popolazione. La lista rappresenta la base, per ci
detta anche base campionaria, da cui si scelgono gli elementi del
campione.
Tale lista deve identificare, senza ambiguit, tutti gli elementi e
fornire per ciascuno delle informazioni (indirizzo) che permettano di
reperirli sul terreno. Un modo per indicare gli elementi consiste nel
classificarli numericamente in modo che:
- tutti gli elementi abbiano un numero,
- due elementi non abbiano lo stesso numero,
- ogni numero corrisponda effettivamente ad un elemento.

Una delle liste pi note quella costituita, a livello comunale, a
partire dai risultati del censimento della popolazione (che in alcuni
paesi, tra cui l'Italia, sono utilizzate anche per aggiornare gli elenchi -
liste- anagrafici
13
), se questi dati contengono degli errori di misura (es.

12
Quando si in presenza di una popolazione le cui unit elementari sono riuniti in
grappoli (nell'esempio i grappoli sono rappresentati dai comuni) possibile
effettuare un campionamento a due stadi che consiste nell'estrarre, senza ripetizione,
un campione causale di grappoli e nell'estrarre, senza ripetizione, da ogni grappolo
estratto un certo numero di unit elementari (Cicchitelli et al. op.cit.).
13
In Italia i comuni devono provvedere in occasione di ogni censimento al
confronto censimento-anagrafe. Questa revisione consiste nel confronto tra le
persone censite residenti ed i residenti iscritti in anagrafe; tale confronto permette di
assicurare la rispondenza dell'anagrafe alla situazione della popolazione risultante ai
50
lerrore di copertura) essi si ripercuotono sulla lista, inoltre essa
rimane invariata per un periodo di molti anni - ovvero per tutto il
periodo intercensuario che solitamente decennale - e non rispecchia
in tal modo l'evoluzione della popolazione. Bench gli elenchi
anagrafici dei comuni siano continuamente aggiornati presentano
rilevanti incompletezze per quel che riguarda i trasferimenti della
residenza delle famiglie. In Italia le liste anagrafiche sono accessibili
solo agli enti pubblici e agli organismi privati con finalit pubbliche.
Si possono invece utilizzare le liste elettorali
14
che sono liste di
cittadini superiori a 18 anni, sono, per legge, aggiornate ogni sei mesi
e sono suddivise per aree territoriali (le sezioni elettorali) di circa 500
elettori. Le liste elettorali sono una buona base campionaria quando la
popolazione obbiettivo quella maggiorenne e possono, inoltre,
essere impiegate per un campionamento a stadi. Se tali liste elettorali
vengono, invece, utilizzate come base campionaria per indagini
familiari bisogna tenere conto che in esse sono presenti tutte le
persone che hanno compiuto 18 anni; quindi pi elevato il numero
dei componenti maggiorenni di una famiglia pi elevata sar la
probabilit che ha la famiglia di essere estratta.
E' inoltre sempre pi frequente l'utilizzo di liste derivate dagli elenchi
degli abbonati al telefono anche in relazione al ricorso, ormai molto
diffuso, alle indagini telefoniche. Tuttavia anche queste liste sono
interessate in questi ultimi anni da problemi di completezza, in
rapporto alla popolazione obbiettivo, causati da due fenomeni
sviluppatisi in questi ultima anni: la diffusione della telefonia mobile e
dei numeri riservati.
Si tenga presente, infine, che una lista anche l'elenco degli iscritti
alla Facolt di Economia dell'Universit degli Studi di Milano-
Bicocca o l'elenco degli associati alla Federtessili della provincia di
Como. Il tipo di lista da utilizzare dipende evidentemente dalla
popolazione obbiettivo dell'indagine.

A questo punto si deve introdurre la distinzione tra popolazione
obbiettivo e popolazione osservata. La prima, si visto, la
popolazione oggetto dinteresse della ricerca, la seconda quella da
cui vengono estratte le unit nel caso di indagini campionarie o la
popolazione totale di riferimento nel caso di indagini totali. Le due
popolazioni possono non coincidere: con un'indagine si vuole, ad es.,
analizzare i consumi delle famiglie presenti nella provincia di Milano
(popolazione obbiettivo) mentre le famiglie osservate ed utilizzate

censimenti e al tempo stesso di apportare le eventuali correzioni ai risultati del
censimento.
14
La consultazione di queste liste consentita a chiunque ne faccia richiesta.
51
come base campionaria sono quelle presenti nell'elenco degli abbonati
al telefono (popolazione osservata).

Nei casi in cui non si disponga di una lista di individui ma di
una lista di gruppi di individui (lista di famiglie, lista di comuni)
questa lista pu essere utilizzata per campionamenti a pi stadi. Si
ricorda che molto interessanti risultano essere le liste che contengono,
oltre alle informazioni necessarie ad identificare l'individuo, anche
altre caratteristiche che possono essere utilizzate per suddividere la
popolazione in strati (campionamento stratificato) al fine di
aumentare la precisione degli stimatori senza aumentare la dimensione
del campione e quindi il costo dell'indagine


Il campionamento

In funzione del tipo di tecniche utilizzate per selezionare il campione,
le indagini campionarie si suddividono in indagini che utilizzano
campioni probabilistici ed in indagini che utilizzano campioni non
probabilistici.

I campioni probabilistici

I campioni probabilistici sono quei campioni in cui ogni unit
della popolazione ha probabilit nota e non nulla di entrare a fare
parte del campione. La selezione probabilistica quindi strettamente
legata a procedure casuali di estrazione del campione. Si pu dire che
quando si seleziona un campione probabilistico si affida al caso il
fatto che esso rappresenti bene le caratteristiche della popolazione
obbiettivo. Il vantaggio dei campioni probabilistici che gli stimatori
hanno propriet conosciute cos che si pu calcolare il loro grado di
precisione.
Linsieme delle informazioni utili allestrazione di un campione
probabilistico la lista o base campionaria che uno strumento di
identificazione e di individuazione degli elementi della popolazione.
Prima di procedere allestrazione di un campione il ricercatore deve
decidere quale disegno campionario (o piano di campionamento)
intende utilizzare a tal fine. Il disegno campionario la procedura
(insieme di tecniche e decisioni) con cui viene formato il campione.
A caratterizzare il disegno campionario concorrono la dimensione del
campione e gli schemi probabilistici che si adottano per lestrazione
delle unit; tale questione strettamente legata al grado di precisione
che si fissa per il risultato dellindagine.
52
La scelta del disegno campionario viene fatta: tenendo conto del tipo
di fenomeno da studiare ed avendo come obbiettivo primario quello di
migliorare la propriet degli stimatori utilizzando al meglio le risorse
disponibili.
Si passeranno ora in rassegna i vari disegni di campionamento.

Il campionamento casuale semplice senza ripetizione

Questo tipo di campionamento il disegno di campionamento
fondamentale. Infatti, pur avendo limitate applicazioni dirette, ha una
straordinaria importanza per due motivi:
- costituisce una tecnica di base elementare che interviene nellambito
di altri disegni;
- costituisce il termine di paragone per altri disegni di cui si voglia
misurare lefficienza relativa (effetto disegno);

Misura dellefficienza:



^ ^
Dati due stimatori 1 e 2 di , entrambi non distorti, si dice che:
^ ^ ^ ^
1 pi efficiente di 2 se: VAR ( 1 ) < VAR ( 2 ).

La misura dellefficienza di due stimatori corretti data da:
^ ^
EFF. = VAR ( 1 ) / VAR ( 2 )

Si noti che, se:
^ ^
- EFF. < 1 1 pi efficiente di 2;

- EFF. = 1 uguale efficienza;
^ ^
- EFF. > 1 1 meno efficiente di 2;

Il campionamento casuale semplice senza riposizione caratterizzato
dal fatto che le unit vengono estratte ad una ad una, rimuovendo dalla
popolazione la singola unit estratta. In questo modo data una
popolazione di N unit, ciascuno dei campioni possibili di n unit ha
la stessa probabilit di essere estratto; inoltre, la probabilit di
inclusione nel campione uguale per tutte le unit della popolazione e
coincide con il tasso di sondaggio f = n / N.

53
Il campionamento stratificato

La stratificazione va annoverata tra le tecniche con cui,
muovendo da talune conoscenze a priori sulla popolazione, si tende
a migliorare lefficienza del piano di campionamento. Si tratta di
una sorta di restrizione cui viene sottoposto il processo aleatorio di
estrazione delle unit campionarie.

Per effettuare un campionamento casuale stratificato si
suddivide la popolazione iniziale, costituita da N unit, in L
sottopopolazioni o strati, allinterno dei quali le unit siano omogenee
per qualche criterio.
Da ciascuno strato si estrae poi, in modo indipendente, un campione
casuale semplice. Bisogna precisare che le caratteristiche per la
stratificazione devono essere note prima della selezione per ogni unit
statistica, che le variabili in base alle quali si suddivide in strati
possono essere di natura qualitativa o quantitativa, che tali variabili
devono essere connesse con la variabile oggetto di studi e che ogni
unit statistica appartiene ad un solo strato.

Tenendo conto delle sue caratteristiche, la tecnica della
stratificazione permette di perseguire i seguenti obbiettivi.

- Individuare sottopopolazioni al massimo omogenee rispetto alla
variabile o alle variabili da rilevare.
Lomogeneit degli strati va intesa in modo diverso a seconda delle
finalit che con la stratificazione si vogliono perseguire.

Un singolo strato potrebbe delimitare uno specifico dominio di studio,
cio una sottopopolazione di cui si vogliono stimare i parametri. Una
stratificazione delle citt, in una indagine a carattere socio-economico,
in grandi, medie e piccole dimensioni, pu, tra laltro essere
giustificata dallopportunit di ottenere risultati (stime) distinti per i
tre tipi di comune, che configurano cos differenti domini di studio.
Una delle motivazioni prevalenti, che sta alla base della
stratificazione, che essa consente un miglioramento delle stime. In
questo contesto lomogeneit va intesa in senso tecnico, cio come
ridotta variabilit del carattere studiato nello strato, che pu essere
misurata ad esempio dalla deviazione standard (scarto quadratico
medio). Si intuisce infatti che la pi forte somiglianza tra le unit di
ciascuno strato fa si che, a livello di strato, il campione rappresenti
meglio le caratteristiche della sottopopolazione di riferimento. Ne
consegue che dal campione stratificato si attendono stime pi
54
efficienti rispetto ad un campione non stratificato della stessa
dimensione.

- Individuare unit che si vogliono osservare con tecniche
particolari.
In unindagine attraverso famiglie si pu decidere di raggiungere
quelle che hanno il telefono tramite questo mezzo e quelle che non lo
possiedono tramite posta o intervista diretta. Oppure, in una indagine
relativa ad aziende industriali, quelle di elevate dimensioni che sono
in numero limitato ma che hanno un peso determinante per la maggior
parte delle variabili di interesse potrebbero essere sistemate in
appositi strati cos da sfruttare lesistenza di liste affidabili per un
campionamento casuale semplice, sistematico o di altro tipo. Per
quanto riguarda invece aziende di piccole dimensioni, a causa del loro
numero elevato e della loro elevata natalit/mortalit, molto difficile
disporre di una lista affidabile; si pu allora ricorrere ad un
campionamento stratificato a due stadi. Nel primo stadio si potrebbero
selezionare i comuni o opportune aree (questo si chiama
campionamento areale) dentro le quali censire le piccole aziende per
poi estrarre un campione.

- Introdurre sulla selezione il massimo controllo, pur mantenendola
casuale.
Nel campionamento da una lista di comuni conveniente mettere in
strati a parte i grandi comuni, per non rischiare di selezionare un
campione casuale semplice che non ne comprenda alcuno.

- Far fronte ad esigenze di tipo operativo.
La stratificazione geografica pu rispondere ad esigenze di tipo
organizzativo, nel senso che i singoli strati possono essere affidati per
rilevazione e controllo a soggetti distinti. Se la raccolta dati
organizzata a livello territoriale (regione, provincia) la stratificazione
geografica permetter di assegnare ad uffici organizzati
territorialmente le unit campionarie presenti su un determinato
territorio.
Se la lista esiste in forma di sottoliste (es. residenti nei comuni, liste
elettorali) conveniente sia dal punto di vista operativo che
economico estrarre il campione dalle sottoliste che identificano cos
degli strati (es. i comuni).
Una stratificazione forzata quella che risulta quando due
sottopopolazioni si trovano su due liste distinte e si preferisce che
restino separate anche ai fini dellindagine. Per esempio, se si estrae
un campione sistematico da liste elettorali, nelle quali le schedine
55
delle femmine seguono quelle dei maschi ed hanno un diverso colore,
si ottiene una stratificazione per sesso della popolazione.

Campionamento a grappoli

Presupposto di questo schema di campionamento la
circostanza che la popolazione sia suddivisa in modo naturale (o
artificiale) in segmenti, in sottoinsiemi di unit elementari legate da
vincoli di continuit spaziali o di altra natura. Si pensi alle famiglie in
unindagine sulle persone, alle classi in unindagine sugli alunni di
una certa scuola, i punti di vendita in unindagine sui clienti di una
catena di supermercati. Questi gruppi di unit (famiglie, classi, punti
di vendita) vengono chiamati grappoli.
Spesso i grappoli si presentano gi precostituiti (come negli esempi
sopra riportati). A volte possibile operare sulla formazione dei
grappoli. Ad esempio, dovendo campionare i comuni italiani, si
possono raggruppare per provincia o per classi di ampiezza
demografica.

In termini generali, con il campionamento a grappoli, le unit
campionarie non vengono scelte in modo diretto, attingendo alla lista
delle unit elementari che compongono la popolazione oggetto di
studio, ma viene estratto un certo numero di grappoli e tutte le unit
ad essi appartenenti entrano a far parte del campione.
Va osservato che tale piano campionario genera campioni di ampiezza
variabile nel caso in cui i grappoli contengano un numero variabile di
unit. Inoltre, rispetto al campionamento casuale semplice,
generalmente meno efficiente dato che le unit campionarie che
provengono dallo stesso grappolo presentano facilmente un certo
grado di somiglianza od omogeneit.

Il procedimento pu essere motivato da ragioni diverse; le
principali sono: la non disponibilit di liste complete relative alle unit
elementari e le necessit o opportunit di tipo organizzativo.

Si consideri di dover svolgere unindagine sulle abitazioni di una
grande citt. Unalternativa ragionevole al campionamento casuale
semplice consiste nel suddividere la citt in aree opportunamente
definite su una mappa, che includano una o pi vie, e che siano di
ampiezza comparabile per quanto riguarda il numero delle abitazioni,
e nel formare poi un campione casuale semplice di aree. Le aree
costituiscono grappoli di unit elementari, cio di abitazioni. In questo
modo si hanno dei notevoli vantaggi di tipo organizzativo ed
56
economico dato che la raccolta dei dati richiede meno tempo (meno
spostamenti) e quindi meno costosa.

Campionamento a stadi

- Campionamento a due stadi
Le ragioni che sottendono la scelta di questo schema sono in
parte comuni al campionamento a grappoli: infatti, vengono scelti
casualmente alcuni grappoli di unit elementari, conseguendo gli
stessi vantaggi dal punto di vista organizzativo ed economico.
Tuttavia, nel caso in esame, solo una parte delle unit elementari
contenute nei grappoli estratti entrano a far parte del campione e
questo ne aumenta lefficienza rispetto ad esso.

Si chiama campionamento a due stadi il piano consistente
nellestrarre un campione casuale di grappoli, e nel selezionare, da
ogni grappolo estratto, un certo numero di unit elementari.
I grappoli, ossia le unit di primo stadio, vengono anche chiamati
unit primarie, mentre sono chiamate unit secondarie gli elementi
estratti al secondo stadio, cio le unit elementari.
Come esempio di un campionamento a due stadi si pu pensare ad una
indagine sulle famiglie in cui il grappolo di unit elementari siano i
comuni e poi da ciascun comune si estrae un dato numero di famiglie.
difficile pensare al campionamento casuale semplice per una simile
indagine: occorrerebbe preparare una lista completa di tutte le
famiglie del paese. pi conveniente selezionare prima un insieme di
comuni (grappoli di unit elementari) e poi estrarre da ogni comune
selezionato un dato numero di famiglie.
In questo modo si supera la difficolt connessa con la formazione
della lista delle unit elementari e si ottiene un vantaggio per la
rilevazione dei dati.

- Campionamento a pi stadi
La definizione del campionamento a pi stadi pu essere
facilmente generalizzata al caso di tre o pi stadi. Ad esempio, se le
unit elementari sono aggregate in modo da configurare dei grappoli
che a loro volta sono strutturati in grappoli di ordine superiore, il
campionamento pu essere a tre stadi: al primo verranno estratti i
grappoli del secondo ordine, che possono chiamarsi unit primarie, al
secondo stadio verranno estratti, dalle unit primarie selezionate, i
grappoli di unit elementari, cio le unit secondarie e, infine, al terzo
stadio verranno estratte le unit elementari.
Come esempio di campionamento a tre stadi si pu pensare ad
unindagine sulla popolazione, in cui le unit primarie sono i comuni,
57
le unit secondarie le famiglie e lunit elementare il singolo
componente della famiglia.

Diverse possono essere le ragioni che inducono allutilizzo del
piano di campionamento a pi stadi.
chiaro che per selezionare un campione ad un certo livello
necessaria la lista delle unit. Quindi per ogni stadio devono essere
disponibili delle liste. Ma, ad ogni stadio, sono necessarie solo le liste
delle sottopopolazioni contenute nelle unit selezionate al livello
superiore. Cos per unindagine sulle forze lavoro si consulta
lanagrafe solo dei comuni selezionati (mettiamo il 20%) e non
bisogna estrarre un campione avendo come base lanagrafe di tutti i
comuni italiani.
Un altro sicuro vantaggio del campionamento a pi stadi, soprattutto
per indagini su vasta scala, che le unit si trovano concentrate sui
punti selezionati al primo stadio, nei nostri esempi gli individui o le
famiglie si trovano solo in alcuni comuni. Questo consente una
migliore organizzazione del lavoro in loco (formazione delle liste,
reclutamento del personale, lavoro di supervisione) e una migliore
rilevazione con costi minori (minori spostamenti, tempi pi brevi,
maggior conoscenza del contesto in cui si svolge lindagine). Tutto
questo vale evidentemente per le indagini che utilizzano le interviste
dirette.
Lestrazione del campione si pu effettuare con criteri differenti a
ogni stadio. Pu avvenire con probabilit costanti o variabili, da liste
variamente stratificate. Non solo, stabilita la numerosit finale del
campione, si pu decidere di estrarre pi unit agli stadi superiori e
proporzionalmente meno allultimo, oppure viceversa. La selezione su
pi stadi si caratterizza dunque per la flessibilit e per la conseguente
adattabilit alle svariate situazioni che si presentano in concreto nelle
indagini statistiche.
Le contropartite dei vantaggi menzionati sono: la maggior complessit
della metodologia di stima ed il rischio di una perdita di efficienza
delle stime rispetto al casuale semplice.

- Stratificazione delle unit primarie
La stratificazione un elemento che si coniuga in modo naturale
con il campionamento a grappoli e con il campionamento a pi stadi.
Anche in questo contesto le finalit della stratificazione sono
essenzialmente quelle che si sono viste per il campionamento di unit
elementari, ossia il miglioramento della precisione degli stimatori e
lopportunit di configurare mediante strati i cos detti domini di
studio; si pensi ad esempio alle regioni o altre aree territoriali quando
58
con lindagine si desideri ottenere informazioni riferibili allambito
territoriale prescelto.
Inoltre, generalmente meno costoso stratificare gruppi di unit
elementari che le unit elementari stesse, anche i considerazione delle
maggiori informazioni a priori generalmente disponibili. Si pensi ai
comuni italiani come unit di primo stadio ed al corredo di
informazioni che li accompagna. Se le unit di primo stadio non sono
di grandi dimensioni raro che si ricorra alla stratificazione delle
unit di campionamento al loro interno.


Campionamento in pi fasi o doppio

Si consideri una popolazione dalla quale selezionato un
campione. Da questo campione si seleziona un campione per altre
analisi. Eventualmente, da questo secondo campione se ne estrae un
terzo, e cos di seguito. Si dice campione in pi fasi quello che deriva
da una successione di selezione del tipo delineato.
Ci limiteremo a considerare il caso in cui le selezioni siano due e si
parler quindi di campionamento in due fasi o doppio. Si ricorre a
questo tipo di campionamento quando:

- il ricercatore interessato allottenimento di stime molto precise su
alcune caratteristiche strutturali (anagrafiche, catastali, fiscali, ecc.)
della popolazione o ad approfondire aspetti particolari della
popolazione individuati nellanalisi pi generale (per esempio: in una
prima fase si analizzano i dati registrati su cartelle cliniche e poi si
svolgono analisi cliniche su un campione di persone individuate a
partire dalle cartelle esaminate).

- le unit danalisi sono rare nella popolazione e si sfrutta la prima
selezione, pi ampia, per individuarne il pi possibile e sottoporle a
campionamento se il numero eccessivo.
- in unindagine su vasta scala territoriale, le informazioni raccolte
nella prima fase permettono di aggregare le unit vicine in grappoli
che, sottoposti a campionamento nella fase successiva, permettono di
ridurre i costi di viaggio e lo sforzo organizzativo nellesecuzione
della rilevazione sul campo.
- non sempre si dispone di tutti gli elementi di informazione
richiesti per la realizzazione di una strategia campionaria prescelta
(per esempio: fissato un criterio di stratificazione pu darsi che non
siano noti i pesi corrispondenti ai singoli strati), oppure pu essere
ignoto il totale della variabile ausiliaria che richiesto per calcolare
gli stimatori per quoziente o per regressione. In questa situazione, non
59
molto rara, talvolta conveniente ricorrere al campionamento doppio;
si estrae un campione di grande dimensione, con cui vengono stimati i
dati necessari, da questo campione viene poi estratto un
sottocampione di numerosit minore che sar utilizzato per lindagine.

Non bisogna confondere questo piano di campionamento con
quello a due stadi, nel quale la popolazione divisa in un certo
numero di unit primarie da cui vengono poi selezionate le unit
elementari.
Si noti che per un campionamento in due fasi occorre disporre di una
lista completa di tutte le unit elementari, mentre per il
campionamento a due stadi sufficiente avere le liste delle unit
primarie che fanno parte del campione.
Rispetto al campionamento casuale semplice il campionamento
doppio, a causa dei costi della prima fase, di dimensioni inferiori (a
uguale costo). Si tratta perci di stabilire se il guadagno di efficienza
conseguibile mediante la stratificazione, o mediante la stima per
quoziente o per regressione tale da bilanciare questo svantaggio.


I campioni non probabilistici

Le indagini campionarie probabilistiche risultano in alcuni casi di
non facile realizzazione e costose. E necessario infatti, per poter
effettuare unindagine campionaria, avere una buona lista della
popolazione ed adatta al tipo di indagine che si voglia eseguire, bisogna
predisporre ed effettuare un piano di campionamento ed intervistare
tutte le unit estratte anche quando non sono facilmente raggiungibili
(si pensi ad un individuo o ad una famiglia che abitino in una casa
isolata o in alta montagna) il che fa aumentare di molto il costo
dellindagine. Per questi ed altri motivi che si analizzeranno pi
dettagliatamente in seguito in alcune situazioni si preferisce ricorrere ad
indagini campionarie che utilizzano campioni non probabilistici.

Un campione si dice non probabilistico quando le unit che lo
compongono sono selezionate utilizzando metodi non casuali cos che
non possibile assegnare ad esse un probabilit nota.
Nei campioni non probabilistici il problema pi rilevante costituito
dal fatto che non si conosce la probabilit che lerrore degli stimatori
sia contenuto entro certi limiti.
Malgrado questi limiti in molti casi si fa ricorso a campioni non
probabilistici : ad esempio quando non si dispone di una lista della
popolazione ed impossibile per il ricercatore costruirne una adatta
60
alle sua esigenze oppure in quei casi in cui. Si passeranno ora in
rassegna alcuni campionamenti non probabilistici.

Campionamenti per accessibilit

In questo tipo di campionamento quelle parte della popolazione
che realmente accessibile, indaga cio su quelle unit che si possono
prelevare o intervistare pi facilmente. Noto lesempio della ricerca
sul peso dei pezzi di carbone presenti in un vagone ferroviario, il
ricercatore in questo caso prelever i pezzi di carbone dal vagone
aperto limitandosi alla parte superiore del carico data la grande
difficolt a prelevare quelli che si trovano sul fondo. Questo
campionamento viene detto anche campionamento accidentale
(haphazard)

Campionamento di volontari

Una variante del campionamento per accessibilit quello che
utilizza dei volontari, questo il solo possibile in certe indagine
mediche. Un esempio classico il rapporto Kinsey sul comportamento
sessuale femminile, in questa ricerca una gran parte delle intervistate
furono donne carcerate dato che furono tra le poche donne disponibili
a sottoporsi a questo tipo di interviste.

Campionamento a scelta ragionata

I campioni a scelta ragionata si basano sul giudizio del
ricercatore che ricorre ad informazioni preliminari e a lui note sulla
popolazione indagata. Il ricercatore effettua una scelta delle unit in
modo da scegliere un campione che ritiene che ben rappresenti la
popolazione oggetto dellindagine.

Campionamento a valanga

Questo tipo di campionamento molto utile per le ricerche volte
a studi di comunit soprattutto a carattere sociologico. E un
campionamento che parte dal presupposto che la popolazione indagata
sia un sistema organico le cui singole unit sono legate fra loro da
relazioni sociali, di parentela o di conoscenza. Questo metodo si basa
infatti sulle relazioni che legano un individuo ad un altro. E un
campionamento particolarmente utile quando si vuole studiare una
variabile rara nella popolazione oppure impossibile ad identificare con
i metodi classici.
61
Il campionamento a valanga viene condotto in diverse fasi. La prima
fase consiste nel selezionare alcune unit che possiedono le
caratteristiche richieste per entrare a far parte del campione. Queste
unit vengono prima intervistate e successivamente si cerca di
ottenere altri nominativi di persone che possiedono la caratteristica di
interesse. Nella fase successiva si intervisteranno le persone indicate
nella prima fase e queste a loro volta daranno nominativi di altre
persone da intervistare e cos via.
Si chiama campionamento a valanga perch ricorda una valanga che
nasce piccola e man mano che scende a valle si ingrossa, nello stesso
modo si parte da un piccolo campione e si arriva ad un campione con
numerosit maggiore formato da unit legate fra loro da alcune
relazioni.
Tenhuten ed altri (1971) hanno elaborato una strategia per ottenere un
campionamento a valanga probabilistico in modo da consentire stime
dellerrore di campionamento e lutilizzazione di misure di
significativit statistica.

Campionamento per quote

Nel campionamento per quote si identificano, in base a dei
caratteri di controllo, quali strati debbano essere rilevati per lindagine
che si deve condurre. In seguito si determina, per ogni strato, la
numerosit del campione (quota) in base alle distribuzioni conosciute
dei caratteri controllo nella popolazione obbiettivo. Si fa in modo
dunque che la struttura del campione sia esattamente uguale alla
struttura dellintera popolazione obbiettivo per quel che concerne i
caratteri di controllo individuati.
Ad esempio se la popolazione obbiettivo costituita da 45% di uomini
e 55% di donne, nel campione si dovr avere una uguale percentuale
di uomini e di donne. In questo tipo di campionamento il principio
dellinferenza probabilistica viene sostituito dallipotesi che il
campione costituisce un modello, in scala, della popolazione e che i
valori raccolti per il campione possono essere estesi a tutta la
popolazione.
Questo metodo si basa sul presupposto che si possano considerare, per
identificare le quote, tutte le principali variabili esplicative del
carattere o del comportamento che si intende rilevare tramite il
campione. Per esempio, si realizza unindagine su un determinato tipo
di consumi e si sa, da precedenti studi o da altre informazioni, che le
caratteristiche di questi consumi sono determinati in grandissima parte
dalle variabili sesso ed et. Si pu quindi basare le quote del campione
sullincrocio sesso-et lasciando liberi gli intervistatori di intervistare
chi desidera per ciascun incrocio sesso-et.. Se, per, i consumi
62
analizzati dipendono anche dal livello del reddito e questa variabile
non inclusa nelle quote lintervistatore pu selezionare degli
individui che hanno redditi elevati. Si introduce cos una distorsione
nel calcolo dei parametri che si vogliono conoscere. Questa si chiama
distorsione di selezione e non misurabile in nessun modo. Si pu
diminuire questa distorsione raccomandando allintervistatore di
evitare di selezionare unit che hanno le medesime caratteristiche ad
esempio distribuendo in tutte le ore della giornata le interviste,
lescludere le ore serali introdurrebbe nel campione una grande
percentuale di non attivi, eec.
Si pu utilizzare, in funzione delle ipotesi fatte e delle informazioni in
possesso, un campione per quote incrociate o per quote marginali. Se,
ad esempio, si conosce, di una popolazione, la struttura per sesso, per
et e per professione ma non si conoscono gli incroci di questi tre
caratteri si obbligati a utilizzare un campionamento per quote
marginali. Evidentemente un campione per quote marginali sar un
modello meno rappresentativo della popolazione obbiettivo che un
campione per quote incrociate.


















__________________________________________________________
Esempio

Scheda di un intervistatore in un indagine per quote marginali.

Interviste da realizzare : 50

SESSO Uomini
Donne
26
24
63

ETA 18-34
35-49
50-64
65 e +
24
16
6
4

CONDIZ.
PROFES.
Artigiani
Commercianti
Liberi
professionisti
Dirigenti
Quadri
Operai
Non occupati
2
1

4
1
19
19
4
TOTALE 50

________________________________________________________

Lintervistatore deve intervistare, tra le persone contattate, quelle che
hanno le caratteristiche richieste fino quando, per ogni quota, sia
raggiunta la numerosit prefissata.

E un tipo di campionamento che combina il campionamento a
scelta ragionata e quello per accessibilit. E inoltre vicino al
campionamento stratificato proporzionale, la differenza consiste nel
fatto che nel campionamento stratificato le unit sono scelte
casualmente mentre in quello per quote la scelte lasciata alla
decisione dellintervistatore. In questo modo tuttavia si mettono dei
limiti allarbitrariet delle scelte dellintervistatore.

Il campionamento per quote permette di superare il problema
costituito dalla mancanza della lista ed evita quello dei non
rispondenti dato che lunit non che risponde viene sostituita da un
altra che possiede le stesse caratteristiche. Questo tipo di
campionamento si basa sul principio che se nel campione vengono
rispettate le quote e queste sono costruite rispettando la distribuzione
dei caratteri di controllo nella popolazione obbiettivo si pu ritenere
che il campione sia rappresentativo anche per il carattere oggetto di
indagine.
Il campionamento per quote viene molto utilizzato per le indagini
demoscopiche e di opinione, per le ricerche di mercato e sui consumi
perch, come si visto, non necessita di una base campionaria e
permette di condurre indagini pi rapide e meno costose di quelle che
ricorrono a campioni probabilistici
64

La precisione dei parametri del campionamento per quote non si
pu calcolare dato che essendo un campione non casuale non si
conosce nessuna probabilit.
Daltra parte il rispetto delle proporzioni, imposto dalle quote, limita il
margine di errore lasciato al caso. Si pu infatti ritenere che la
varianza di un parametro di campionamento per quota sia piuttosto
piccola se la caratteristica dinteresse ben spiegata dai criteri sui
quali sono basate le quote.
Dunque nel caso di piccoli campioni il campionamento probabilistico
pu avere una distorsione nulla e una varianza molto grande (si ricordi
che la varianza inversamente proporzionale alla numerosit
campionaria). Nelle medesime condizioni il campionamento per quote
pu essere leggermente distorto ma in forza delle limitazioni
introdotte dalle quote avere una varianza piccola. Se invece la
numerosit del campione aumenta la varianza nel campionamento
casuale diminuisce (e la distorsione resta nulla) mentre nel
campionamento per quote la distorsione di selezione rimane la stessa e
allora il campionamento probabilistico diventa senza alcun dubbio
preferibile al campionamento per quote.
In conclusione si pu affermare : preferibile il campionamento per
quota per i piccoli campioni e quello probabilistico per i grandi
campioni. Fornire una soglia per la numerosit del campione al di
sotto della quale ricorrere ai campionamenti per quote impossibile,
tuttavia nella pratica per i campioni al di sotto delle 1000 unit si
ricorre facilmente alle quote.


Le indagini ripetute nel tempo


Le indagini statistiche si possono suddividere tra indagini non
ripetute nel tempo (ricerche di monoperiodo) ed indagini ripetute nel
tempo (ricerche continuative)
Le indagini non ripetute nel tempo si effettuano in un determinato
momento del tempo e si ritengono compiute quando con lindagine
predisposta si sono raccolte le informazioni necessarie.

Le indagini ripetute nel tempo sono utilizzate quando si
interessati a studiare l'evoluzione temporale delle caratteristiche della
popolazione o del cmportamento della popolazione stessa. Tali
indagini limitano, infatti, l'errore di misura che, come si visto in
precedenza, si incontra sempre quando si fa ricorso alla memoria
65
dell'individuo per conoscere il verificarsi di un evento o le
caratteristiche di questo evento.

Secondo le caratteristiche del campione si distinguono tre tipi di
indagini ripetute nel tempo :
- le indagini che utilizzano i panel ovvero campioni permanenti nel
tempo di individui. Quando lobiettivo essenziale dellindagine
seguire gli individui nel corso del tempo (es. : il percorso
professionale dei laureati di una facolt, oppure controllare lo stato di
salute di una popolazione) si parla anche di indagini longitudinali
- le indagini ripetute nel tempo con campioni indipendenti, chiamate
anche indagini periodiche o trasversali
- le indagini che utilizzano i panel ruotati ovvero campioni permanenti
nel tempo rinnovati parzialmente ad ogni indagine.


Le indagini che utilizzano i panel


Uno studio di panel unindagine che si svolge ricorrendo ad un
campione permanente di individui che vengono intervistati
regolarmente sulle loro opinioni, sul loro comportamento o sulle loro
caratteristiche.
Lutilizzo del panel si impone nel caso in cui si utilizzano degli
strumenti per raccogliere i dati (es.: lindagine Auditel che rileva le
audiences televisive ricorrendo al meter uno strumento telematico
concepito per questi tipi di raccolta di informazioni)
Lindagine panel permette di seguire nel tempo gli eventuali
cambiamenti che possono essere intervenuti a livello individuale. Si
possono cos stimare i flussi ovvero il numero di unit che nel tempo
passano da una condizione (o comportamento o opinione) ad unaltra.












66



________________________________________________________________
Forze di lavoro occupate e in cerca di occupazione in Italia nelle rilevazioni
di aprile del 1984 e 1985 (dati in migliaia)
____________________________________________________________
_
Aprile 1985
____________________________________________________________
_
Occupati In cerca Non forze Totale
occupaz. lavoro
____________________________________________________________
Occupati 18640 355 1234 20299

Aprile in cerca 668 1225 429 2322
1984 occupaz.

Non forze 1270 748 31138 33156
lavoro

Totale 20578 2328 32801 55707
____________________________________________________________
_
Fonte : ISTAT, 1985
______________________________________________________

Conoscendo i cambiamenti individuali di stato, secondo le tre
categorie utilizzate nellindagine Istat sulle forze di lavoro, delle
persone intervistate si pu misurare la consistenza dei flussi da uno
stato allaltro. Cos che si pu vedere che il 52.7% delle persone in
cerca di lavoro nellaprile del 1984 un anno dopo non ha ancora
trovato lavoro, che il 28,8% ha trovato lavoro e che il 18,5% passato
tra le non forze di lavoro

I panel di consumatori permettono cos realizzare degli studi di fedelt
o di cambiamenti tra marche di prodotti oppure di individuare i casi di
primo acquisto o di riacquisto nel caso di prodotti nuovi. Questa
tecnica di indagine si utilizza in alternativa a quella che ricorre ad una
successione di indagini ripetute nel tempo ma con campioni
indipendenti (indagini periodiche) e che fornisce una misura dei
mutamenti dei caratteri analizzati solo a livello aggregato.

Lutilizzo di un panel permette di ottenere una maggior
precisione nelle misure dellevoluzione di un fenomeno. Se per
stimare la differenza
Y Y
2 1

due medie di una variabile rilevata in


due periodi successivi 1 e 2 si decide di estrarre un campione alla data
67
1 e di stimare
Y
1
, poi di estrarre un altro campione alla data 2 e
stimare
Y
2
sar difficile conoscere quanta parte della differenza degli
stimatori di
Y
1
e
Y
2
dovuta alla reale evoluzione delle due medie alle
due date e quanta parte di questa differenza dovuta allestrazione del
secondo campione che modificando le unit del campione modifica
anche i loro valori individuali
Y
i
rilevati. Nel caso, ad esempio, della
stima dei tassi di disoccupazione, se si trova che si verificato un
aumento dello 0,1 %, il tasso veramente aumentato oppure questo
aumento dovuto al fatto che lestrazione del secondo campione ha
selezionato pi disoccupati che la selezione del primo ? E evidente
che se si seguono nel tempo i cambiamenti individuali si pu avere
una maggior precisione delle informazioni raccolte sullevoluzione dei
fenomeni studiati.

Il guadagno di precisione determinato dallutilizzo dei panel
evidente quando si calcola la varianza degli stimatori nel caso in cui
soddisfatta la condizione che la correlazione lineare tra i valori del
parametro esaminato misurato in due periodi qualsiasi sia positiva,
(Desabie, 1966 ; Deroo, Dussaix, 1980 ; Ardilly, 1994 ; Dussaix,
Grosbras, 1996). La condizione di correlazione lineare soddisfatta
se esiste una correlazione positiva nel comportamento degli individui
della popolazione esaminata. Questo spesso il caso nel
comportamento dei consumatori o degli spettatori televisivi. Si faccia,
tuttavia, attenzione che il valore della correlazione legato anche alla
lunghezza dellintervallo di tempo che separa le indagini. La
correlazione tra gli acquisti di detersivo da un mese allaltro, in una
famiglia, sicuramente positiva ma non tra una settimana e laltra e
tanto meno tra un giorno e quello successivo.
Si supponga di fare un'indagine con un campione casuale semplice
alla data t = 1 e che viene interrogato nuovamente alla data t = 2. Si
stima
Y
t
con la media
y
t
del campione estratto, si sa che
y
t
uno
stimatore non distorto di
Y
t
; si ottengono cos i due stimatori medie
semplici non distorti
y
1
e y
2
per lo stesso campione a due date
successive. Per le propriet del valore atteso
y y
2 1

uno stimatore
non distorto della vera evoluzione sconosciuta
Y Y
2 1

.
Per le propriet della varianza, dato che i due campioni non sono
indipendenti, si ottiene:

( ) ( ) ( ) ( ) Var y y Var y Var y Cov y y
2 1 1 2 1 2
2 = + ,

ed anche:

68
( ) ( ) ( ) ( ) ( ) = + Var y Var y r y y y y
1 2 1 2 1 2
2 , o o


dove
( ) ( ) Var y
1
e Var y
2
rappresentano la varianza rispettivamente di
y
1
e y
2
e
( ) r y y
1 2
,
il loro coefficiente di correlazione lineare.

Nel caso di campioni indipendenti
( ) r y y
1 2
,
uguale a 0 e quindi si
ottiene:

( ) ( ) ( ) Var y y Var y Var y
2 1 1 2
= +
.

Quando il coefficiente di correlazione lineare
( ) r y , y
1 2
positivo
l'indagine panel fornisce stimatori la cui varianza inferiore a quella
che si avrebbe con le indagini periodiche con campioni indipendenti.
Quando, invece, il coefficiente negativo lutilizzo di campioni
indipendenti permette di misurare levoluzione carattere della
popolazione con maggior precisione.

Dato che il panel scelto all'inizio dell'indagine il costo per la
formazione del campione limitato al primo campionamento e alla
sostituzione dei non rispondenti. In questo modo si possono utilizzare
campioni di grande taglia. All'inizio di una indagine panel si possono
anche ottenere, una volta per tutte, molte informazioni dettagliate su
differenti caratteristiche della popolazione che possono essere
utilizzate sia come fattori esplicativi sia per permettere un miglior
trattamento dei dati nel caso di non risposte.
Il campione permanente permette anche la verifica della qualit del
lavoro dell'intervistatore e l'esattezza delle risposte delle persone
interrogate.


I problemi specifici di un'indagine panel

Problemi legati alla rappresentativit del panel

I principali problemi che possono avere uninfluenza sulla
rappresentativit statistica di un panel sono dovuti a tre cause.

1) La distorsione di reclutamento

I rifiuti a partecipare all'indagine non sono un problema
specifico delle indagini panel ma di tutte le indagini. Tuttavia, nelle
69
indagini panel, dato l'impegno che richiedono, il tasso di rifiuto
molto alto (in alcuni casi anche del 60/70 %). Quindi anche se il panel
risulta rappresentativo per quel riguarda le caratteristiche socio-
demografiche ed economiche classiche della popolazione ci si pone la
domanda se il comportamento degli individui che accettano di
partecipare allindagine sia, rispetto alloggetto d'interesse, differente
da quello di chi non vuole partecipare a tale indagine. Il campione
risulta allora distorto ovvero non rappresentativo della popolazione
oggetto dell'indagine. Le non molte informazioni che si hanno
(Marbach, 1992) mettono in luce che i rifiuti riguardano gruppi
selezionati, quindi con caratteristiche particolari, diversi da paese a
paese. In alcune indagini stato difficile reclutare, nel caso di panel di
consumatori, le famiglie nelle quali la donna giovane ; in altre
indagini le difficolt maggiori si incontrano nelle classi o molto
elevate o molto basse, per i vecchi o per i giovani che vivono soli.
Uno studio fatto in Francia mostra che gli individui che rifiutano di
entrare a fare parte di un panel di ascolto radiofonico (con in libretto
da compilare) hanno un livello dascolto minore (Aglietta, Martinet,
1977) di coloro che accettano di entrare nel panel
Lutilizzo che si sta diffondendo, anche nel caso dei panel,
dellutilizzo di tecnologie telematiche ed informatiche per la raccolta
dei dati pu rendere pi importante la differenza di comportamento di
coloro che accettano di partecipare al panel rispetto a coloro che
rifiutano di partecipare.
70
2) L'uscita dal panel degli intervistati.

L'uscita dal panel degli intervistati in una delle fasi successive
dell' indagine, che causa quindi delle non risposte totali, fa sorgere
anch'essa il problema della rappresentativit del panel, oltre che quello
dovuto alla diminuzione della precisione.
Le maggiori percentuali di abbandoni si hanno nella fase di prima
costituzione del panel e quindi nel corso della prime rilevazione
(normalmente nel corso del primo anno) leleminazione spontanea dei
partecipanti molto elevata (gli istituti di ricercano propongono
percentuali che vanno dal 15% al 50% dipende anche dalla quantit di
tempo richiesta per partecipare al panel e dal tipo di periodicit della
rilevazione). Tali abbandoni sono detti cadute iniziali e sono dovuti
soprattutto al fatto che molti individui non sono disposti sottoporsi ad
un impegno continuo e non indifferente in termini di tempo richiesto.
Le cadute iniziali riguardano gruppi particolari, diversi secondo paesi
e tipo di panel. Vi sono per alcuni gruppi che in generale sono pi
interessati di altri da questo fenomeno : le persone pi giovani (sotto i
25/30) o pi anziane (oltre i 50/55), individui appartenenti a classi
sociali molto basse o molto alte, famiglie composte da una o due
persone o famiglie molto numerose, lavoratori dipendenti di bassa
qualifica e lavoratori indipendenti.
In seguito il tasso di abbandono si riduce drasticamente ; in questo
caso gli abbandoni sono indicati come mortalit spontanea o mobilit
fisiologica allinterno del campione permanente, i tassi annui di
abbandono vanno da un minimo del 2% ad un massimo del 15%
annuo.
Le informazioni che si hanno indicano che anche per la mobilit
fisologica gli abbandoni interessano particolari categorie di intervistati
che non si discostano molto da quelle individuate nel caso della
mobilit iniziale.
Le cause degli abbandoni sono dovuti a stanchezza, diminuito
interesse o perch si ritiene di non aver pi nulla da dire.
In ambedue le situazioni esaminate un raddrizzamento del campione,
che pur tenga conto delle caratteristiche di chi rifiuta o di chi
abbandona, non sufficiente ad eliminare la distorsione che tali
fenomeni provocano nei parametri che si vogliono stimare perch
come si gi detto si riscontato un diverso comportamento (ad
esempio : nel tipo di acquisti nel caso di panel di consumatori) tra
individui che continuano a partecipare al panel e quelli che lo lasciano
pur se hanno le medesime caratterisiche socio-economiche.
Luscita degli intervistati da un panel pu avvenire anche per altre
cause : morte naturale, cambiamento di categoria (soprattutto nel caso
di imprese), cambiamenti di domicilio.
71
L'uscita degli individui dalla popolazione per morte o per
cambiamento di categoria socioeconomica non modifica, secondo
alcuni autori
15
, la rappresentativit del panel ma diminuisce solamente
la precisione delle stime.
Si concorda invece sul fatto che luscita per cambio di residenza
introduce delle distorsioni nei dati del panel. Si ritenere infatti che
queste categorie di individui abbiano, per motivi diversi, un
comportamento differente da coloro che rimangono, anche quando si
sia in presenza di individui con le medesime caratteristiche sociali ed
economiche.

3) Leffetto panel

L'effetto panel o effetto condizionamento degli intervistati causato
dalla loro permanenza nel campione per un lungo periodo e provoca
dei cambiamenti nel loro comportamento. Gli intervistati, infatti,
diventano "esperti" dell'indagine ed hanno tendenza a razionalizzare il
loro comportamento. Nel caso di indagini sul consumo l'effetto panel
pu fare variare la composizione qualitativa-quantitativa dei prodotti
(i partecipanti al panel potrebbero essere pi attenti ai prezzi o pi
fedeli ad una marca) o rendere l'intervistato maggiormente sensibile
ad alcune strategie di marketing delle aziende modificando
latteggiamento spontaneo nei confronti delle marche e delle
pubblicit di queste.
L'effetto panel pu avere una diversa influenza secondo il tema
dell'indagine e pu sovrapporsi ad un'evoluzione nel modo di
compilare il libretto degli acquisti, nel caso si ricorra a questa tecnica
per l'indagine. Gli intervistati possono, infatti, compilare in maniera
pi corretta il libretto oppure la compilazione del libretto si degrada a
causa dell'effetto stanchezza.

4) Linvecchiamento del panel

In situazioni in cui le caratteristiche della popolazione mutano
rapidamente, il panel "invecchia" altrettanto rapidamente cos che non
rappresenta pi in modo adeguato la popolazione obiettivo.


15
E' questa l'opinione di Ardilly (1994); Miller (1991) ritiene invece che la
mortalit non sia causale perch colpisce in modo differente le persone
secondo le categorie di appartenenza, si noti tuttavia che in questo caso
l'uscita dal panel non dovuta ad un fattore legato alla variabile che si vuole
studiare quindi il problema pu essere risolto con una riponderazione del
campione)
72

Le indagini con campione ruotato o panel ruotato

Questa tecnica di indagine utilizza un campione casuale la cui
popolazione viene parzialmente rinnovata ad ogni nuova tappa
dell'indagine.
La rotazione del panel si pu dividere in due componenti :
- la rotazione naturale o spontanea dovuta al fatto, come si visto, che
alcuni individui abbandonano, per diversi motivi, il panel (questo tipo
di rotazione introduce possibili sorgenti di errore nei dati raccolti)
- la rotazione programmata o pilotata, della quale si tratter in questo
paragrafo, tesa a migliorare la qualit delle informazioni fornite dal
panel.

Le indagini con campione ruotato programmato sono utilizzate
per diminuire i problemi legati agli abbandoni degli intervistati e
all'effetto condizionamento; inoltre permettono di mantenere la
rappresentativit del campione in una situazione in cui la popolazione
sia in rapida evoluzione limitando in questo modo le conseguenze
legate allinvecchiamento del panel
16

Le unit che escono dal campione possono uscire definitivamente o
possono rientrare dopo un certo periodo di tempo in funzione dello
schema di rotazione utilizzato dal ricercatore.
Nella scelta del tasso di rotazione del panel si deve tenere conto di due
esigenze contrapposte : il mantenimento di un campione il pi
possibile fisso in modo da migliorare le stime delle variazioni tra
periodi e poter condurre analisi longitudinali su una base campionaria
pi ampia ; la riduzione dei problemi legati alluso di un campione
fisso nel tempo
17
.


Indagini ripetute nel tempo con campioni indipendenti (indagini
periodiche)

Le indagini ripetute nel tempo, con campioni indipendenti, sono
utilizzate quando si interessati a seguire l'evoluzione dei parametri
della popolazione ma non il mutamento dei comportamenti individuali
e quando si vogliono ottenere le stime dei parametri della popolazione
per un lungo periodo il che elimina gli effetti della stagionalit che si


16
Per un approfondimento delle tecniche di rotazione dei panel si veda
Fabbris (1989)
17
Il lettore che volesse conoscere lespressione dello stimatore ottimale nel
caso di panel ruotato potr trovarla in Grosbras (1987).
73
possono incontrare nelle indagini che coprono lunghi periodi (es. : le
vendite annuali di un prodotto stagionale ottenute aggregando i dati
mensili). Queste indagini evitano inoltre i problemi specifici delle
indagini panel.

Lutilizzo di campioni indipendenti, inoltre, fa s che queste
indagini determinano con maggior precisione, che le indagini panel, i
parametri della popolazione calcolati sull'insieme del periodo coperto
dall'indagine. In questo caso, infatti, la media di tali parametri, in
presenza di una correlazione positiva tra i valori, ha una varianza
minore.
Si supponga di fare un'indagine con campioni indipendenti data t=1 e
alla data t=2. Si sa che le medie
y
1
e y
2
dei due campioni indipendenti
sono degli stimatori non distorti rispettivamente di
Y
1
e di Y
2
.
Per le propriet del valore atteso

y y
2
1 2
+


uno stimatore non distorto della vera media sconosciuta

Y Y
2 1
2
+


Per le propriet della varianza, dato che i due campioni sono
indipendenti, si ottiene:

( ) ( ) { }
Var
y y
2
1
4
Var y Var y
1 2
1 2
+
|
\

|
.
| = +


Nel caso di indagini panel dato lutilizzo di un campione permanente
si ottiene:

( ) ( ) ( ) ( ) ( ) { }
Var
y y
2
1
4
Var y Var y 2r y , y y y
1 2
1 2 1 2 1 2
+ |
\

|
.
| = + + o o


il che porta a conclusioni opposte a quelle viste per la stima
dell'evoluzione di un carattere della popolazione. Quando il
coefficiente di correlazione
( ) r y , y
1 2
positivo l'utilizzo di
un'indagine con campioni indipendenti per stimare il valore di un
74
parametro in un lungo periodo di tempo fornisce dei dati pi precisi
dato che la varianza risulta minore che nel caso di panel.


Il CATI

Il CATI (computer assisted telephone interviewing) consiste in
un sistema che assiste lintervistatore tramite la conduzione
automatica di una indagine statistica realizzata tramite interviste
telefoniche e che si basa su uno specifico programma elettronico per
computer.
Il CATI pu gestire tutte le fasi dell'indagine: la estrazione casuale dei
numeri da chiamare, la conduzione automatica delle telefonata e degli
appuntamenti concordati con l'intervistato, il controllo automatico
della somministrazione del questionario. Si ha un caricamento
immediato dei dati, un simultaneo ed automatico controllo degli stessi
e all'intervistatore vengono segnalati eventuali errori od
incompatibilit presenti. Il programma esegue anche la correzione dei
dati ed elabora i dati raccolti.

Il questionario e la gestione dell'intervista

Grazie allo sviluppo di sistemi informatici sempre pi avanzati
si possono predisporre questionari CATI completamente assistiti e con
strutture molto complesse.
Gestione dei contatti: numeri telefonici generati casualmente e
controllati; gestione dellagenda delle interviste: contatti,
appuntamenti, ricorso ai nominativi di riserva tenendo conto delle
loro caratteristiche (3/4 contatti telefonici prima di ottenere una
intervista completa).
Esiste la possibilit di controllare in tempo reale le quote di
campionamento (per tutto il sistema di rilevazione) e verificare la
percentuale di interviste compiute per ciascuna quota.
Il percorso dell'intervista controllato automaticamente cos che
vengono fortemente ridotte le possibilit di errori dell'intervistatore.
Le domande e le relative istruzioni per l'intervistatore sono
visualizzate sullo schermo, la funzione di aiuto pu essere richiamata
senza abbandonare lo schermo dell'intervista cos che possibile
avere istruzioni dettagliate al momento stesso in cui l'intervistatore ne
avesse bisogno. Il CATI permette anche di accedere in tempo reale a
qualsiasi tipo di informazione utile per lo svolgimento dell'intervista:
in un indagine ripetuta nel tempo o nel caso di reinterviste possono
75
essere richiamate le risposte date in precedenza per svolgere controlli
di coerenza od altri tipi di confronto.
Le domande possono essere personalizzare conservando la memoria
delle risposte precedenti (sostituire i nomi propri degli intervistati
nelle domande, riformularle in funzione del sesso, dello stato civile,
ecc.).
La scelta delle domande, quando esistano percorsi differenziali,
effettua automaticamente, in funzione delle risposte date alle domande
precedenti. Il programma CATI pu fornire, automaticamente o su
richiesta dell'intervistatore, formulazioni alternative della domanda;
pu alternare l'ordine delle domande o ruotarle in modo da evitare gli
effetti causati dalla sequenza delle domande e delle modalit di
risposta; consente di richiamare, in ogni momento, uno qualunque
degli schermi precedenti per controllare le informazioni raccolte.
Effettua la verifica di completezza e coerenza delle risposte fornite
dall'intervistato e alla fine dell'intervista prevede l'indicazione delle
domande in cui si sono riscontrati degli errori.
L'attivit del supervisore assume un ruolo ed una importanza
fondamentale nelle indagini CATI, egli pu intervenire od essere
interpellato dall'intervistatore in ogni momento dell'intervista
attraverso lo scambio di messaggi via terminale.
Il CATI registra, oltre le risposte alle domande, anche tutti gli
avvenimenti che accadono nel corso dell'intervista (numero di
contatti effettuati : libero e risponde, occupato non risponde,
segreteria telefonica, fax, ecc.; contatti a buon fine che non hanno
prodotto interviste: rifiuto, impossibilit a rispondere, abbandoni,
interviste sospese, motivi) ed i tempi di riferimenti temporali dei vari
contatti e dell'intervista; queste informazioni registrate
automaticamente possono essere utili e per la valutazione
dell'andamento dell'intervista e per la valutazione e il controllo degli
intervistatori.
Il programma di interviste CATI, per il suo alto grado di
standardizzazione e per le forme di controllo che consente,
contribuisce a ridurre la distorsione dovuta al comportamento
dell'intervistatore. Tale risultato dipende anche da quanto il ricercatore
riesce a prevedere e ad anticipare di ogni situazione che si pu
verificare e a dotare l'intervistatore degli strumenti per far fronte a tali
circostanza.

Il sistema di codifica

Il CATI ha portato ad una riduzione dei problemi di codifica;
alcuni sistemi consentono un ulteriore esame della correttezza della
registrazione operata dall'intervistatore in fase di codifica che avviene
76
simultaneamente se si opera con una rete di calcolatori o
separatamente se non si in rete. In caso di dubbi o di problemi la
contemporaneit tra rilevazione e codifica facilita il controllo e la
ricostruzione della risposta, esiste inoltre la possibilit di una
immediata elaborazione e tabulazione dei dati quando al sistema
CATI abbinato un programma per lelaborazione dei dati e la loro
presentazione si sotto forma di tabelle che di grafici

Vantaggi e svantaggi del metodo CATI

Lutilizzo del metodo CATI nella gestione del questionario
comporta un miglioramento nella qualit dei dati ottenuti, rispetto ad
una indagine telefonica tradizionale. In un esperimento compiuto da
Catlin ed Ingram (1988) emerso che la percentuale delle risposte
prive di senso, dei non so e dei rifiuti rappresentava poco meno del
40% del valore ottenuto con analoga intervista telefonica condotta
senza l'utilizzo del calcolatore. Altri ricercatori (Groves e Mathiowetz,
1988; Tortora, 1985) hanno notato una forte riduzione degli errori
dovuti a salti logici nel caso di interviste fatte con CATI.
In alcune situazioni il CATI pu risultare meno conveniente che
l'intervista telefonica non automatizzata: per indagini che vogliono
essere fatte tempestivamente e per le quali deve essere preparato il
programma; per ricerche di piccole dimensioni, nel qual caso il CATI
risulta pi costoso.
Non pochi sono gli studi in cui sono stati effettuati confronti tra
i costi di indagini svolte con il metodo CATI ed i costi di indagini
effettuate con il questionario cartaceo (Catlin ed Ingram, op.cit.;
Groves e Nicholls, 1986; Weeks, 1992.). I maggiori costi di
un'indagine CATI derivano in gran parte dagli investimenti per le
macchine e per i programmi; inoltre l'addestramento degli
intervistatori richiede tempi pi lunghi ed anche la durata media di
un'intervista CATI risultata essere pi lunga.
Una riduzione dei costi del sistema CATI data invece dalla maggior
rapidit di realizzazione della ricerca che deriva dalla gestione
automatica delle chiamate e degli appuntamenti, dalla verifica
automatica del questionario, dai sistemi centralizzati di controllo della
qualit dei dati, dall'automazione della codifica dell'elaborazione e
della tabulazione.

Altri sistemi di intervista assistita da calcolatore

Il CATI stato il primo metodo di intervista assistita da
calcolatore (CAI) ad essere utilizzato per indagini statistiche, inizi a
77
diffondersi prima negli Stati Uniti e poi in altri paesi a partire dagli
anni settanta del secolo scorso.
In anni pi recenti si sono sviluppati altri metodi che utilizzano il
calcolatore per la raccolta di dati.
Il CAPI (computer assisted personal interviewing)
18
un programma
per indagini statistiche applicato alle interviste dirette ed in questo
caso lintervistatore utilizza un calcolatore portatile. I primi tentativi
di usare il CAPI furono fatti nel 1980 (Saris, 1994), tuttavia a quella
epoca i calcolatori erano trasportabili pi che portatili, quindi poco
adatti, per peso e dimensioni, alla diffusione di questa modalit di
intervista che si svilupp sempre pi man mano che si proposero
calcolatori portatili sempre pi piccoli.
In questi ultimi anni c stato quindi un ritorno alle interviste dirette
(CAPI) svolte utilizzando un notebook che gestisce un questionario
Confrontando il sistema CATI con il sistema CAPI si vede
chiaramente come questi hanno in comune il fatto che i dati raccolti
vengono immagazzinati direttamente in un computer. Il CAPI, a
differenza del CATI, non consente di scaricare immediatamente i dati
nel sistema centrale; questa operazione pu essere effettuata solo
collegandosi ad un modem.
Oggi il sistema CATI maturo, ormai ha poche possibilit di grossi
evoluzioni future. La stessa considerazione vale per lintervista
diretta, al pi possono cambiare i supporti .

Ci si aspetta invece un forte sviluppo delle indagini condotte con
metodi che ricorrono allintervista autogestita dallintervistato (CASI,
computer assisted self-administered interviewing).
Lo specifico di questi metodi si basa sullautocompilazione di un
questionario utilizzando internet. I questionari compilati via internet
sono molto avanzati infatti esistono e continuano a diffondersi
programmi di autocompilazione di alta qualit.

Il metodo classico dellautocompliazione prevede linvio del
questionario per posta o la sua consegna tramite un incaricato che
passa in seguito a ritirarlo.
Con le nuove tecnologie telematiche linvio del questionario e gli
eventuali successivi solleciti possono avvenire tramite e-mail con il
quale si invita a compilare un questionario presente nella mail o messo
on line in un sito web al quale si accede tramite un link presente
nelle-mail.

18
I metodi CAPI sono individuati anche con il nome di metodi CADAC
(computer assisted data collection)
78
Unaltra possibilit di contattare i rispondenti direttamente quando
accedono ad alcuni siti web tramite banner, bottom o pop-up che li
invitano a compilare un questionario
Dal punto di vista dei costi questo tipo di indagine meno
dispendioso sia dellintervista diretta che di quella telefonica.

In questo tipo di indagini si presenta un rilevante problema che
riguarda le modalit di scelta della popolazione da indagare.

Nel caso dellinvio di e-mail il ricercatore deve conoscere tutti gli
indirizzi di posta elettronica dei soggetti che formano la popolazione
obbiettivo o il campione estratto dalla popolazione obbiettivo. Questa
condizione si realizza quando il target ben definito, conosciuto,
omogeneo e dotato di posta elettronica (ad esempio tutti i docenti
dellUniversit di Milano-Bicocca).
Quando si vuole fare unindagine su una popolazione vasta e
disomogenea impossibile avere una lista utile di tutti i componenti
della popolazione obbiettivo dato che non tutta la popolazione di un
paese o di una regione possiede il computer ed fornita di indirizzo e-
mail.
In questa situazione si usa il secondo metodo di contatto (quello
diretto via web) con la conseguenza che chiunque pu compilare il
questionario ed inoltre non facile controllare lidentit del
rispondente. E evidente che la popolazione dei rispondenti non per
nulla assimilabile a quella di un campione probabilistico e nemmeno
a quella di un campionamento per quote.
Inoltre anche in questo caso impossibile raggiungere popolazioni
che non accedono ad internet e che hanno particolari caratteristiche
socio-economiche (ad esempio: le casalinghe ed le persone anziane)

Una parte di problemi che riguardano la compilazione di un
questionario on line si discostano di poco da quelli delle indagini
postali. Innanzitutto non sempre i soggetti contattati rispondono o
perch utilizzano poco la posta elettronica (quindi ad esempio si
dimenticano di compilare il questionario) o perch proprio non
vogliono rispondere. Anche in questo caso si pu pensare ad un piano
di solleciti, inviando dei messaggi per non pi di due volte.
Un altro problema quello relativo alla segretezza, esiste il problema
delle repliche. Si deve fare in modo che una persona non possa
compilare pi volte un questionario e, per evitare questo, si dovrebbe
associare un codice agli intervistati, ma in questo modo diminuisce la
riservatezza e si creano problemi di privacy.

79
Per quanto riguarda la compilazione, il questionario deve essere
semplice, facile da compilare e deve sempre indicare un numero verde
o un indirizzo e-mail da poter contattare per avere chiarimenti. Anche
in questo caso i dati vengono codificati e registrati in automatico con
linvio del questionario.

Un problema prevalentemente tecnico quello che riguarda la
trasmissione del questionario: come far scorrere le pagine e i quesiti,
se inviare pagina per pagina o lintero questionario, ecc

Unaltra possibilit di utilizzo dellautocompilazione sul web riguarda
la costituzione di panel. Si scelgono persone non casualmente, ma
esperti; si creano campioni ragionati che vengono contattati per
rispondere a certi tipi di questionari. Si possono fare anche panel
casuali e indagini panel autocompilate tramite internet. Con i
questionari non si domandano sempre le stesse cose, ma si affrontano
argomenti diversi intervistando per sempre le stesse persone. In
questi tipi di intervista si possono prevedere dei gruppi di domande
che non variano mai e che per questo consentono di vedere e seguire
levoluzione di un fenomeno.

Ci possono essere buone prospettive future per gli strumenti di
indagine telematica solo se si hanno target specifici, omogenei,
raggiungibili ed identificabili. Lo strumento non ancora ben diffuso
e anche se lo fosse non sarebbe facile identificare le persone che
partecipano allindagine, vale a dire chi c dietro allindirizzo e-mail.
Tale metodo molto utile per fare indagini mirate, per le quali si
conosce la popolazione obiettivo. Attualmente si svolgono molte
indagini per conoscere le caratteristiche di chi utilizza internet.