Sei sulla pagina 1di 40

Teoria e tecnica dell’indagine statistica e

del campionamento (matr.dispari)

GIOVANNA BOCCUZZO | LEZIONI 5&6- 14&18/03/2019


A.A. 2018/19
L’editing dei dati: come controllare
la qualità
Contesto di riferimento
3

Mario Rossi M 34 3 4 0 1 0 0
Peppe Giallo M 45 4 2 1 0 0 1
Base di dati “grezzi”, registrati
Rosa Rosae F 20 2 4 0 0 0 1
successivamente alla fase di ....................................
rilevazione (es. PAPI – Paper ....................................
....................................
Assisted Personal Interview) ....................................
......
Situazioni da verificare

 Valori fuori dominio: il valore di una variabile non appartiene ad un insieme


predefinito di valori ammissibili. I valori fuori dominio danno origine ad errori

 Valori anomali: una unità è anomala (outlier) quando presenta


caratteristiche significativamente diverse da quelle della maggior parte delle
unità. I valori anomali danno origine ad accertamenti

 Incompatibilità fra risposte: i valori di una o più variabili contraddicono


predefinite regole di natura logica e/o relazioni di tipo matematico. Le
incompatibilità portano a situazioni di errore o ad accertamenti, ma spesso
non si sa su quale/i variabile intervenire

4
Tipologie di controlli

 controlli di validità o di range: verificano che i valori assunti da una data


variabile siano interni all'intervallo di definizione della variabile stessa.

 controlli statistici: utilizzati per isolare quelle unità statistiche che presentano,
per alcune delle variabili in esse contenute, valori che si discostano in modo
significativo dai valori che le stesse variabili assumono nel resto delle unità.
Questi valori sono con alta probabilità errati, ma sono necessarie ulteriori
verifiche.

 controlli di consistenza: verificano che prefissate combinazioni di valori


assunti da variabili rilevate in una stessa unità soddisfino certi requisiti (regole di
incompatibilità).
5
Piano di incompatibilità

I sopracitati controlli vengono utilizzati per la costruzione dei piani di


incompatibilità. Per "piano di incompatibilità" si intende un insieme di
vincoli non ridondanti e non contraddittori che devono essere
contemporaneamente soddisfatti da ogni unità statistica affinché
l'informazione corrispondente possa essere considerata corretta. Le
regole che compongono un piano di incompatibilità possono essere distinti in:
 regole formali, che derivano dalla struttura del modello, cioè direttamente dalle
norme di compilazione e dai "percorsi interni" del modello;
 regole sostanziali, che derivano da considerazioni di tipo statistico - matematico,
o da conoscenze specifiche a priori del fenomeno oggetto di rilevazione.

6
I controlli statistici

 Una volta individuati i record i cui valori violano uno o più vincoli
del piano di incompatibilità, il problema diventa la localizzazione
delle variabili responsabili di tale violazione: sono solo queste,
infatti, le variabili i cui valori devono essere considerati errati
(cioè mancanti) e possibilmente corretti.
 L'insieme dei controlli statistici costituisce la base per le procedure
di localizzazione dei valori anomali e dei valori sospetti.
 La presenza per una variabile di parecchi valori anomali dovuti a
risposte errate è spesso un efficace indicatore di presenza di errore
sistematico per quella variabile.

7
Correzione degli errori

1. Abbiamo trovato i record contenenti valori errati


2. Sappiamo quali sono le variabili responsabili di tale non correttezza
3. Che modifiche apportiamo per riportare il record nella condizione di
accettabilità rispetto ai criteri (piano di incompatibilità o piano di
localizzazione dei valori anomali) utilizzati?
a) Ritorno alla fonte
b) Imputazione deterministica (assegnare un valore al posto del dato errato o
mancante, sulla base di regole logiche) o probabilistica (assegnare un valore
estratto da un insieme di unità simili a quella su cui bisogna intervenire)
c) Trattamento del dato come item non response, si lascia il dato mancante

8
Ritorno alla fonte

 Se possibile, richiedere il dato direttamente al rispondente o a chi ha


compilato il questionario
 (telefono, invio del questionario, lettera)
 È dispendioso in termini di tempo e lavoro, ma garantisce di avere il
dato più corretto

9
Imputazione deterministica

 Significa assegnare un valore alla variabile al posto del valore errato, sulla base di
altre informazioni.
 Tipicamente le informazioni devono essere disponibili all’interno dell’insieme di
dati e della stessa unità
 Generalmente, per procedere con sicurezza all’imputazione, è necessario che le
informazioni provengano da più di una variabile, altrimenti non sapremmo
decidere, fra due variabili con valori incompatibili, qual è quello giusto

N.B.: non affrontiamo in questo corso tutta la tematica dell’imputazione di dati


mancanti, che richiederebbe diverse ore di lezione.

10
Trattamento del dato come item non response

 Se non ci sono strumenti per recuperare o imputare il dato corretto,


rimane solo da cancellare il dato errato e trattare quel campo come
un dato mancante

11
Monitoraggio complessivo

Il monitoraggio degli interventi effettuati consente di capire la


qualità dell’archivio.

3 tipi di monitoraggio:

1. Gli errori più frequenti


2. Le variabili più problematiche
3. Le unità più problematiche

12
Monitoraggio sugli errori più frequenti

Valutazione complessiva della qualità dei dati e delle tipologie


prevalenti d’errore
Creazione di variabili (inizializzate a 0), tante quante sono le
tipologie di controllo. La variabile Check36 si incrementa di
un’unità ogni volta che il check 36 verifica l’errore
In questo modo si ottiene il numero di volte in cui ogni specifico
errore si è presentato, ovvero le situazioni maggiormente soggette
a errore

13
Monitoraggio sulle variabili più problematiche

 Attraverso un confronto fra archivio dei dati grezzi e puliti, si


conta il numero di volte in cui la variabile X assume valori diversi
all’interno dei due archivi.

 Le variabili alle quali sono associati i valori più alti sono quelle più
problematiche, per le quali bisogna fare delle riflessioni per
migliorarne la qualità.

14
Monitoraggio sulle unità più problematiche

 Confronto dello stesso record nei due archivi (dati grezzi vs dati
puliti)
 Conteggio del numero di variabili che assumono valori diversi con
riferimento allo stesso record nei due archivi
 Le unità con un numero maggiore di variabili diverse sono quelle
più problematiche

15
Risolvere il problema alla fonte

 Cosa fare: Spostare il controllo dei dati il più possibile vicino alla fase di
raccolta delle informazioni presso le unità, in modo da rendere più facile il
reperimento di informazioni corrette.
 Come fare: Tecnologie per l'integrazione del controllo e correzione dei dati con
le fasi di intervista o di registrazione, in modo da eliminare, o in ogni caso
minimizzare, gli errori attribuibile ad errori di compilazione o registrazione dei
modelli
 Vantaggio: Alcune tipologie di errori vengono corrette contemporaneamente
alla fase di intervista o di registrazione, producendo una migliore qualità finale
dei dati ed un risparmio nei tempi e nei costi connessi alle fasi successive di
controllo dei dati.

16
Editing contemporaneo alla rilevazione: esempi

 Rilevazione CAPI (Computer Assisted Personal Interview)

 Rilevazione CATI

 Rilevazione web

 Registri amministrativi informatizzati

17
Informatizzazione complessiva del processo

Maschera inserimento dati


(es. ACCESS, JAVA) Query
on-line
Account x diritti
accesso

Database

Controlli Reportistica
in tempo reale on-line
Produzione
Visualizzazione
statistiche
dati registrati
on-line

18
Quali controlli?

 Campi obbligatori: alcune variabili (non tutte!) sono irrinunciabili, e


la loro compilazione è obbligatoria. Il codice identificativo (es. codice
fiscale) è un tipico campo obbligatorio.

19
Controlli di range

Errore

Accertamento: if (vivi > 10)


ATTENZIONE: Il numero di nati vivi è superiore a 10. Confermi?

20
Incompatibilità

 Errore:
//nati malformati
If (malformati is not null AND malformati > vivi)
ERRORE: Numero di nati malformati maggiore del numero dei nati vivi.

 Accertamento:
//totale nati
If (nativivi +natimorti)>= (3*parti)
ATTENZIONE: Il numero dei nati supera il numero di 3 figli per parto. Confermi?

21
La produzione di reportistica
Fornire informazione statistica significa:

1.Predisporre un sistema di presentazione e consultazione dei


dati adeguato al destinatario e ineccepibile dal punto di vista
metodologico, sia esso su internet o su supporto cartaceo
2.Definire e strutturare l’informazione statistica mediante un
opportuno sistema di indicatori
3.Predisporre in maniera corretta e leggibile i dati statistici
(tabelle e grafici)

23
Le tabelle dei dati

Una tabella di dati descrive numericamente una variabile, o la relazione tra due
o più variabili. Si compone di:
 titolo

 corpo
La tabella deve contenere tutte le informazioni per la comprensione dei dati,
indipendente dal testo in cui è inserita. A sua volta, la tabella è di supporto al
testo il quale deve essere chiaro anche senza la tabella.
I dati di una tabella possono essere resi più eloquenti da un grafico. Il grafico
può sostituire la tabella solo se contiene le stesse informazioni.

24
Il titolo della tabella

 Deve essere perfettamente esplicativo:


 di cosa stiamo parlando (popolazione, persone, utenti, …); definire
chiaramente l’unità rappresentata nella tabella
 specificare che tipo di dato è presente in tabella: n° assoluti, percentuali,
tassi…
 specificare le variabili in fiancata e in testata

 specificare luogo, periodo di riferimento e, laddove necessario, fonte

25
Tabella di numeri
26

TITOLO: cosa, descritto con quale tipo di dato,


secondo quali variabili. Luogo, anno.
Variabile testata
fiancata
Variabile

colonna
Totali di
Corpo tabella

Totali di riga Totale


Tabelle di rapporti

 Una tabella può contenere, anziché numeri assoluti, quozienti (o


rapporti).
 Piccola digressione sulle tipologie di rapporti statistici:
 Rapporti di composizione
 Rapporti di coesistenza

 Rapporti di derivazione

 Rapporti medi

27
Rapporti di composizione

 Sono i rapporti «parte al tutto». Si ottengono rapportando la


parte di un fenomeno al fenomeno nel suo complesso
(moltiplicando per 100 il rapporto si ottengono le percentuali)
 Esempi:
 Proporzione di spesa per affitto = spesa della famiglia per affitto / spesa
totale della famiglia
 Proporzione di maschi = maschi / (maschi + femmine)

 Il calcolo percentuale nelle tabelle è un esempio di questo tipo di rapporti.

28
Rapporti di coesistenza

Rapporto fra due parti


Esempi:
 Rapporto (o quoziente) di mascolinità = maschi / femmine
 Rapporto di matrimoniabilità per sesso = coniugati/non coniugati (celibi-nubili, vedovi,
divorziati)
 Occupati nell'industria manifatturiera / occupati in agricoltura
In questi casi una parte è rapportata al suo complemento al totale.

Questi rapporti si usano anche quando le due parti confrontate insieme non
rappresentano il totale come in questo esempio:
 Indice di vecchiaia = popolazione sopra i 65 anni / popolazione sotto i 15 anni

29
Rapporti di derivazione (o tassi)

Rapporto di derivazione, o TASSO: numero di casi rapportati alla


popolazione “a rischio” di generarli.
Esempi:
 Tasso di laurea regolare (triennale)= ??/??
 Tasso di fecondità= ??/??
 Tasso di mortalità = ??/??
 Tasso di occupazione = ??/??
 Tasso di disoccupazione = ??/??
Spesso un tasso è un rapporto di composizione

30
Scelta del denominatore nei tassi

Occorre prestare attenzione a cosa si confronta.


 L’aereo è tra i mezzi di trasporto più pericolosi se si calcolano gli
incidenti sul totale dei viaggi e il meno pericoloso se si rapportano
gli incidenti ai chilometri percorsi.

31
Rapporti medi

Il fenomeno posto al numeratore si può associare mediamente ad ogni unità


posta al denominatore.
Per esempio:
 rendimento medio per ettaro = tonnellate di grano prodotto / ettari
coltivati
 densità della popolazione = n. abitanti / superficie del territorio
(interpretabile come numero medio di abitanti per kmq)
 indice di affollamento = n. componenti la famiglia / n. stanze
dell'abitazione (interpretabile come n. medio di persone per stanza)
 n. posti letto in ospedali / popolazione
 n. ore di sciopero / n. occupati
32
Variazione assoluta e relativa

variazione assoluta: b – a
variazione relativa: ((b-a)/a)x100
La variazione relativa risente fortemente della base di partenza

E le zione 1 Elez ione 2 Variaz. assoluta Varia z. relativa


Partito A 500 1000 500 100%
Partito B 50. 000 55.000 5000 10%

33
Tabella di percentuali

La tabella può contenere:


•Percentuali di riga, o
•Percentuali di colonna, o
•Percentuali di cella
Variabile testata Variabile testata
fiancata
Variabile

fiancata
Variabile
xx xx xx xx xx 100 xx xx xx xx xx
xx xx xx xx xx 100 xx xx xx xx xx
xx xx xx xx xx 100 xx xx xx xx xx

xx xx xx xx xx 100 100 100 100 100 100

Attenzione: l’ultima riga non è una somma, ma una Attenzione: l’ultima colonna non è una somma, ma
percentuale calcolata indipendentemente dalla una percentuale calcolata indipendentemente dalla
variabile di fiancata. variabile di testata.

34
Il contenuto della tabella

 Valutare con attenzione se fornire numeri assoluti o quozienti (o entrambi).


 Scegliere accuratamente se mettere % di riga o di colonna (non entrambe), o
tassi, o altro.

 Attenzione ai fenomeni che dipendono dalla struttura della popolazione; in


questo caso fare attenzione alle distribuzioni percentuali e fare ricorso il più
possibile ai quozienti

35
Esempio
Fino Media Media Laurea o Totale
elementari inferiore superiore titoli Fumatori di 18 anni e
superiori
più secondo il titolo
Fumatori 13 95 31 6 145
di studio
Non 4 40 47 14 105
Fumatori
Totale 17 135 78 20 250

Distribuzione 8,9 65,5 21,3 4,1 100,0


fumatori per %: 13/145x100
titolo di studio

Fino Media Media Laurea o Totale ?


elementari inferiore superiore titoli
superiori %: 13/17x100
% 76,5 70,37 39,74 30,0 58,0
Fumatori
36
I totali

 Le tabelle con numeri assoluti devono SEMPRE avere i totali di riga e di colonna.
 Le tabelle con distribuzioni percentuali devono avere l’indicazione del 100. Se la
distribuzione è per riga, deve esserci anche la distribuzione marginale
percentuale, che NON è la somma delle percentuali.
Persone con disabilità che vivono sole per stato civile e sesso. Distribuzione
percentuale secondo lo stato civile. (Italia, 2004)
Stato civile Maschi Femmine Maschi e
Femmine
Nubile\celibe 25,7 12,2 14,4
Vedovo\a 65,0 85,6 82,3
Altro 9,3 2,2 3,3
Totale 100,0 100,0 100,0

37
Casi particolari

Multiresponse (quesiti che consentono più di una risposta). Attenzione alla


presentazione delle percentuali: se riferite alle persone, la loro somma supera
100, per cui bisogna inserire una nota esplicativa e NON mettere la somma
delle %. Oppure riferirsi alle risposte.
La somma delle % fornisce 130, ovvero
% di persone che utilizzano il seguente mezzo alcune persone prendono più mezzi per
Auto 47% recarsi al lavoro, o a volte ne usano uno e a
Autobus 34% volte un altro.
Va inserita una nota esplicativa.
Moto, scooter 12%
Treno 13% Se si vogliono evitare le multiresponse, nel
Bicicletta 5% questionario il quesito va modificato, ad
esempio chiedendo il mezzo principale
Piedi 15%
utilizzato per recarsi
Altro (es.vaporetto) 4% al lavoro
38
Come gestire i dati mancanti

 Tabella di numeri assoluti: il dato mancante è una modalità e va inserita in ultima riga e
ultima colonna, prima dei totali. Escludere i dati mancanti dalla tabella di numeri assoluti significa
presentare tabelle con totali diversi!
 Tabella con percentuali. Vi sono 3 possibilità:

1. Inserire la percentuale di dati mancanti all’interno della tabella, trattandoli come una modalità.
Mezzo principale utilizzato per recarsi al lavoro

Potrebbe avere poco senso inserire Auto 37%


in tabella la % di dati mancanti, Autobus 34%
perché in questo modo non Moto, scooter 9%
conosciamo la vera distribuzione del
Treno 7%
fenomeno. Ad es. non è detto che
davvero il 37% usi l’auto: Altro 8%
quanti usano l’auto in quel 5% di Non indicato 5%
dati mancanti? Totale 100%
39
Tabelle di %: come gestire i dati mancanti

2. Calcolare le distribuzioni % dopo aver 3. Redistribuire i dati mancanti all’interno


escluso i dati mancanti, che vanno della tabella, rispettando la distribuzione della
indicati in calce alla tabella: casistica (genera la stessa distribuzione di 2.).

Mezzo principale utilizzato per recarsi al lavoro

Auto 40%
Autobus 33%
Moto, scooter 10% Questo metodi sono accettabili se i dati mancanti
Treno 7% sono equidistribuiti
Altro 10%
Totale 100%

Dati mancanti: 353 casi, pari al 6,4% del campione

40