Sei sulla pagina 1di 23

Trattamenti preliminari dei dati

(capitolo III)

Pulizia dei dati (data cleaning) :


processo capace di garantire, con una certa soglia di affidabilità,
la correttezza di un insieme di dati (dataset) e la sua «idoneità»
alle elaborazioni statistiche
Qualità del Dato

Definita con riguardo alle seguenti caratteristiche:


 Rilevanza  capacità di soddisfare le reali esigenze conoscitive
degli utilizzatori
 Accuratezza  corrispondenza tra le stime ottenute ed i valori
veri (ma ignoti) nella popolazione di riferimento
 Tempestività  capacità di fornire i risultati in tempi
ravvicinati rispetto all’esecuzione dell’indagine
 Accessibilità  possibilità per l’utente di reperire facilmente e
comprendere l’informazione richiesta
 Confrontabilità  fa riferimento alla validità dei raffronti dei
dati nel tempo o nello spazio

 Il data cleaning agisce sull’ACCURATEZZA


Problemi affrontati nel DATA CLEANING

 Unità statistiche non rilevate (casi mancanti)


 Valori mancanti di singole variabili (missing values)
 Errori
 Valori anomali e osservazioni influenti
Casi mancanti

Se le unità statistiche campionarie effettivamente rilevate sono in


numero m invece delle n originariamente previste si può
procedere in due modi:

 Si considera la matrice dei dati formata dalle m unità disponibili


 Si rilevano (n-m) unità ulteriori, sostituendo ciascuna unità
mancante con un’altra.
 DISTORSIONI, AUTOSELEZIONE del CAMPIONE
Missing values (valori mancanti)

Matrice dei dati formata da n righe, ma con vuoti in alcune caselle.


Tipologie di valori mancanti:
 Carattere non pertinente per la singola unità (domanda filtro
precedente).
 Ad esempio: vuoto nella domanda «quante ore guidi alla settimana» dopo
aver risposto «no» alla domanda precedente sul possesso o meno di una
patente di guida
 Risposta “non so” in una domanda riguardante un’opinione
 Queste due tipologie sono cosiddetti blank (celle vuote di sistema) ma
non sono veri e propri missing values

 Rifiuto di singole risposte


 Mancata rilevazione dovuta a cause esterne

 Queste due tipologie sono veri e propri missing values


Possibili strategie

 Se il data set è grande, si possono eliminare i casi con dati


mancanti
 Si possono anche eliminare le variabili con molti valori mancanti
 Se il data set è piccolo, si possono utilizzare metodi di
imputazione del dato mancante
 In entrambi i casi, è comunque necessario comprendere il
processo generatore dei dati mancanti, per sapere l’effetto che
eliminazione del caso e/o imputazione del dato avranno sulle
analisi statistiche successive
Processi generatori dei missing values
Consideriamo due variabili X ed Y. X con tutti i dati, Y con dati mancanti
Missing Completely at Random: la probabilità di riscontrare un valore
mancante è indipendente dai valori di X e di Y per cui i dati omessi sono
completamente casuali. E’ raro che i dati siano effettivamente MCaR
Missing at Random: i valori mancanti dipendono da X ma non da Y. Se
s’individuano opportune classi o categorie di X la probabilità d’un dato
mancante di Y non è uguale per tutte le classi (o categorie) ma nell’ambito di
ciascuna di esse i valori mancanti sono casuali.
Esempio: In un sondaggio è maggiormente probabile che siano i liberi
professionisti a non dichiarare il reddito, rispetto ai dipendenti. I dati sono MaR
se il dato mancante non dipende comunque dal livello di reddito
Missing not at Random: la probabilità di riscontrare un dato mancante
dipende dai valori che assume Y ed eventualmente anche da quelli di X.
Esempio: I dati mancanti dipendono dal fatto di essere libri professionisti ed anche
dal livello di reddito percepito.
Strategie

 Analisi solo dei casi completi (esclusione listwise)


 Analisi dei casi disponibili per ciascun fenomeno (criterio
columnwise) per analisi univariate o per ciascuna coppia di
variabili (criterio pairwise) per analisi bivariate
 Imputazione dei dati mancanti
Tutte queste strategie presuppongono che i dati mancanti siano MCaR
(ovvero che il dato mancante non dipenda dal valore in altre variabili e
non dipenda dal valore del dato stesso).
Ad esempio, si supponga di voler studiare la relazione fra il voto alla
maturità e il voto alla laurea magistrale. Si raccolgono i dati a partire dalle
domande di ammissione alla magistrale. E’ possibile che chi ha avuto un
voto basso non dichiari questo voto (comunque non richiesto) nel suo cv.
Se il ricercatore utilizza l’esclusione listwise, le analisi risulteranno distorte
perchè non verranno considerati i voti alla magistrale di coloro che hanno
avuto un voto basso alla maturità.
Per controllare che i dati siano MCaR
Si può analizzare la distribuzione di frequenza dei missing values in una
variabile, rispetto alle modalità o ai valori di un’altra variabile di controllo.

Esempio: analizzo la distribuzione di frequenza dei missing values nel reddito


rispetto alle modalità della domanda «come ritieni il tuo stato di benessere»

Stato di benessere
Pessimo Negativo Modesto Buono Ottimo Totale
percepito
Reddito Presenti N 23 33 114 117 53 342
% 88.5 76.7 74.5 63.9 65.4 68.4
Mancanti % 11.5 23.3 25.5 36.1 34.6 31.6

In questo caso i missing values nel reddito non sono MCaR perché la
percentuale di valori mancanti è molto superiore in coloro che
percepiscono un più elevato livello di benessere.
Interpretazione degli output Statistiche
di Spss univariate

a
Mancante N. di estremi
Dev iazio Conte Percen
N Media ne std. ggio tuale Min Max
Prezzo 100 349,81 190,904 0 ,0 0 5
Peso 99 214,88 76,291 1 1,0 0 5
DimensioniDisplay 99 3,828 ,8563 1 1,0 2 8
DurataBatteria 98 4,238 1,3115 2 2,0 0 2
a. Numero di casi non compresi nell'interv allo (Q1 - 1.5*IQR, Q3 + 1.5*IQR).

Tabella d ei mod elli Riepilogo delle medie attese

DimensioniDisplay

DurataBatteria
Prezzo
b

Peso
Completo se ...

Modelli di v alori
a
mancanti
DimensioniDisplay

DurataBatteria
Prezzo

Peso

Listwise 337,33 214,00 3,741 4,191


Tutti i v alori 349,81 214,88 3,828 4,238
Numero di casi
96 96
2 X 98
I modelli con meno del 1% di casi (1 o meno) non sono
Altri output di Spss
Mancante N. di estremi(a)
N Media Deviazione std. Conteggio Percent Min Max
VisitsxPerson 69 2.3751 1.22814 1 1.4 0 7
PagesxPerson 67 16.60 12.958 3 4.3 0 2
TimexPerson 66 454.18 332.081 4 5.7 0 3
Modell i dei val ori mancanti (casi con val

Medie Li stwi se
Modelli di
v alori
Numero di casi

PagesxPerson
VisitsxPerson

TimexPerson

mancanti ed

% Mancanti
# Mancanti
a
estremi

PagesxPerson
VisitsxPerson

TimexPerson
64 2.1756 15.22 423.33
Caso
59 1 33.3 + S

N.B. Le medie columnwise sono calcolate 61


65
1 33.3 + S +
2 66.7 S S
su un numero di unità statistiche diverso 66 1 33.3 + + S
da variabile a variabile. Le medie listwise 67 1 33.3 + + S
69 2 66.7 S S +
sono calcolate sullo stesso numero di - indica un v alore estremo min, mentre +
unità statistiche indica un v alore estremo max. L'interv allo
utilizzat o è (Q1 - 1,5*IQR, Q3 + 1,5*IQR).
Suggerimenti per la scelta della STRATEGIA

 Poche unità con dati mancanti (meno del 5%): LISTWISE


 Variabile con molti dati mancanti: SI ELIMINA
 Unità con molti valori mancanti: SI ELIMINA

Esempio domanda di esame:


 Si illustri il problema dei valori mancanti nella matrice dei dati
utilizzata nelle analisi multidimensionali
 Si elenchino le “strategie” che può adottare il ricercatore in
presenza di dati mancanti.
 In presenza di dati mancanti non MCAR, i valori ottenuti
saranno: a) stime distorte b) stime corrette c) sottostime
Errore di misura
(parte dell’errore non campionario)

Differenza tra il valore vero (ma ignoto) del fenomeno in un certa unità
statistica ed il valore rilevato dall’indagine. Può presentarsi come:
 Valore inammissibile o dato fuori dominio

 Valore anomalo (outliers)

 Errore non facilmente individuabile in quanto non corrispondente a


valore inammissibile o anomalo

VALORE ANOMALO : osservazione che, essendo atipica o erronea,


si scosta decisamente dal comportamento degli altri dati con
riferimento al tipo di analisi considerata.
Può essere errore di misura oppure dato reale
Individuzione di Outliers univariati

Valori eccezionalmente grandi o piccoli. Vi sono due strategie:


- Non parametrica (qualsiasi distribuzione)
- Parametrica (per variabili con distribuzione normale: indice di kurtosi
compreso tra -1 e +1)

Strategia non parametrica:


Diagramma a scatola (boxplot)
 la scatola è delimitata dal primo e dal terzo quartile
 il “baffo” inferiore è uguale al minimo oppure a x25%-1.5(x75%-x25%)
 Il “baffo” superiore è uguale al massimo oppure a x75%+1.5(x75%-x25%)
 Gli outliers sono indicati da punti () esterni ai baffi.
 Gli outliers estremi sono indicati da (*) esterni ai baffi e sono quei
valori inferiori a x25%-3(x75%-x25%) oppure superiori a x75%+3(x75%-x25%)
Esempi
Strategia parametrica:
Quando la variabile ha distribuzione normale, sono outliers i valori
standardizzati:
• z-scores > +2
• z-scores < -2
Sono outliers estremi i valori standardizzati:
• z-scores > +3
• z-scores < -3

N.B. Quando il data set è grande si considerano outliers solo gli


outliers estremi.
In questo grafico il boxplot è posizionato orizzontalmente sotto l’istogramma. Vi
sono punti esterni al boxplot: sono outlier ma non outliers estremi. La
distribuzione è asimmetrica positiva (skewness=1.19).
In questa distribuzione vi è un solo outliers estremo
In questa distribuzione sono presenti outliers e outliers estremi.
Dal grafico non possiamo definire esattamente il loro numero
Questa è una distribuzione senza outliers, vicina alla simmetria
e normale
Osservazioni Influenti

 Un’unità statistica è una osservazione influente se incide in misura


molto rilevante sul valore numerico di un certo indice statistico
oppure sui parametri o sull’adattamento d’uno specifico modello.
 Omission approach: calcolo delle variazioni dell’indice o dei
parametri del modello eliminando la singola unità.
Learning outcomes

After having studied this section, you should be able to:


Choose the best strategy to handle missing values
Define outliers
Detect outliers: graphically (boxplots) and numerically
Decide what to do: (according to objective and subjective decisions)
 Delete outliers

 Correct outliers (similarly to missing values)


Learning Check
Listwise or casewise deletion of missing data implies:
 That observations (cases) with missing data are omitted from the analysis

 That observations (cases) enter the analysis only with their non-missing values

 That variables with missing data are omitted from the analysis

In statistical analysis with pairwise deletion of missing data:


 Observations (cases) with one or more missing data are omitted from the analysis

 In each estimation step all valid cases are exploited

 If a variable is omitted in an estimation step because of missing data, then it does not
enter estimation any more

Missing response should be treated as non-random when:


 They are more than 5% of total responses

 The mean of relevant variables is very different between respondents and non-respondents

 The mean of relevant variables for non-respondents is equal to the one for respondents

Which of the following is not a good strategy for imputing missing data?
 Substituting missing values with the sample mean for that variable

 Substituting missing values with the standard deviation for that variable

 Imputing missing values with the sample median for that variable

Potrebbero piacerti anche