Sei sulla pagina 1di 29

DEFINIZIONI INTRODUTTIVE

SOMMARIO
• Statistica: definizione
• Unità statistica, variabile, modalità: definizioni
• Fasi di un’indagine statistica e metodi di raccolta dati
• Indagini campionarie e censuarie
• Statistica descrittiva e inferenziale: differenza
• Il censimento Istat
• La matrice dei dati unità per variabili e i vettori riga e colonna
• La scala di misura delle variabili
• La codifica delle modalità nella matrice dei dati
Che cosa è la Statistica
La Statistica può essere definita come un insieme di tecniche
che hanno come scopo la conoscenza quantitativa dei
fenomeni collettivi

Operazioni tipiche delle analisi


statistiche sono:
il conteggio
la classificazione
la misurazione
la sintesi tramite modelli esplicativi
dei fenomeni reali
STATISTICA: una fra le possibili
DEFINIZIONI

Per la raccolta, la classificazione e l’elaborazione


METODO dei dati di fatto, utilizzati nelle scienze empiriche
Per la generalizzazione dei risultati, in termini
probabilistici, ai casi non osservati

UNITA’ STATISTICHE VARIABILI


elementi che interessano ai fini aspetti rilevati in
dell’indagine (individui, oggetti, corrispondenza di ciascuna
aziende, ... ) unità statistica

MODALITA’: categoria (valore) della variabile nell’unità statistica


INDAGINI COMPLETE E CAMPIONARIE

Insieme di cui si vogliono conoscere le


POPOLAZIONE caratteristiche. Formato da N unità
(UNIVERSO) statistiche (quando insieme finito di
unità).

CAMPIONE Parte della popolazione su cui viene fatta


la rilevazione. Formato da n unità
campionarie.
Indagini complete:
le unità considerate sono quelle dell’universo
Indagini campionarie:
le unità considerate sono quelle del campione
Indagini campionarie:
q La rilevazione completa è impossibile (popolazioni infinite).
q La determinazione delle modalità comporta la distruzione delle unità
statistiche (controllo di qualità).
q Motivi economici / di risorse umane / tempestività dei risultati.
q Riduzione degli errori non-campionari (di rilevazione, trascrizione, …) e
quindi migliore qualità del dato.

Indagini complete (cadenza decennale):


Censimento della Popolazione e delle Abitazioni
Censimento dell’Agricoltura
Censimento dell’Industria e dei Servizi
Ultima rilevazione al 31 ottobre 2011 !
Dal 2011: censimenti permanenti
• L’Istat ha avviato la nuova stagione dei censimenti permanenti della popolazione e delle
unità economiche che vede la realizzazione di rilevazioni continue a cadenza annuale,
biennale e triennale. Con la tornata censuaria del 2010-2011 si è chiusa infatti una lunga
fase della storia della statistica pubblica caratterizzata da censimenti generali con cadenza
decennale.
• La strategia dei censimenti permanenti, coerentemente con le politiche di sviluppo europee
e con il programma di modernizzazione dell’Istat, è estesa a tutte le aree tematiche:
popolazione e abitazioni, imprese, istituzioni non profit e istituzioni pubbliche. A partire dal
2021 anche il censimento dell’agricoltura diventerà permanente.
• A differenza dei censimenti del passato, i censimenti permanenti non coinvolgono tutti i
cittadini, le imprese e le istituzioni, ma di volta in volta una parte di essi, ovvero dei
campioni rappresentativi. Tuttavia, la restituzione al Paese dei dati ottenuti è di tipo
censuario, quindi riferibile all’intero campo d’osservazione.
• Questo è possibile grazie all’integrazione di fonti amministrative con rilevazioni
campionarie, che fa sì che i nuovi censimenti garantiscano l’esaustività, l’aumento della
quantità e qualità dell’offerta informativa, il contenimento del fastidio statistico su cittadini e
operatori economici e la riduzione dei costi complessivi.
• Un cambiamento profondo che rende disponibili a cittadini, decisori pubblici ed esperti di
settore, un’informazione puntuale sui fenomeni che caratterizzano l’evoluzione della società
italiana.
STATISTICA DESCRITTIVA E
INFERENZIALE
STATISTICA DESCRITTIVA
Analisi dei dati e sintesi delle informazioni
• in presenza di indagini complete
• in presenza di indagini campionarie, ma senza la pretesa di volere
estendere i risultati a tutta la popolazione di riferimento

STATISTICA INFERENZALE
in presenza di indagini campionarie (con campione probabilistico)
per estendere i risultati a tutta la popolazione æ

unità selezionate in modo casuale e non a scelta ragionata


FONTI STATISTICHE e METODI DI
RACCOLTA

• SISTAN fornisce dati statistici ufficiali


FONTI • BANCHE DATI ufficiali (Cerved, ...)
STATISTICHE • ...

• Strumenti di misura
• Uso di registri amministrativi (anagrafe)
METODI DI • Tramite questionario:
RACCOLTA o Intervista diretta
o Intervista telefonica
o Questionario inviato per posta
QUALITA’ DEL DATO:
Attendibilità / Adeguatezza / Errori campionari e non campionari
Rilevazioni:
Sperimentali/osservazionali
Sperimentali Osservazionali
(Medicina, Fisica, Chimica) (Indagini di mercato, sondaggi)
1. Ipotesi di lavoro Non si ha la possibilità di
2. Possibilità di controllo controllo

Controllo Indagine
Ø Diretto dei Fattori
Sperimentali e dei Fattori di Statistica
Stratificazione
Fasi di un’indagine statistica
definizione degli obiettivi
definizione delle unità, delle variabili da rilevare e scelta
del periodo di riferimento
individuazione della popolazione e della lista delle
unità statistiche
definizione del piano di campionamento
raccolta dei dati
scelta della tecnica di rilevazione
formulazione del questionario e pretest
rilevazione sul campo
registrazione dei dati
registrazione su supporto magnetico, controllo e
correzione
elaborazione e analisi dei dati
La raccolta delle informazioni può
essere completa oppure parziale
È completa quando si esaminano tutte È parziale quando ci si limita a
le unità statistiche che compongono la studiare un sottoinsieme, detto
popolazione oggetto di studio. “campione” dell’insieme di
riferimento.
Pregi:
• Accuratezza delle stime anche Pregi:
a livelli territoriali molto spinti • Continuità della rilevazione
• Ricchezza delle informazioni/ • Economicità
Esaustività • Indagini più mirate e
approfondite
Difetti:
• Costo elevato Difetti:
• Tempi di elaborazione dei dati • Riferimento territoriale non
molto lunghi spinto
• Qualità dei dati non elevata • Variabilità campionaria
Statistica descrittiva e inferenza
La statistica Mediante l’inferenza
descrittiva fornisce gli statistica è possibile
strumenti per misurare e controllare
sintetizzare ed l’attendibilità delle
esplicitare in forma informazioni provenienti
da un campione
corretta il modo in cui il
fenomeno si è
manifestato nel
collettivo osservato
Estrazione del campione

Campionamento casuale: insieme di tutte quelle tecniche di


formazione del campione in cui la selezione delle unità è affidata a
regole probabilistiche.

Campionamento casuale semplice: i campioni della stessa


dimensione estraibili da una popolazione hanno uguale probabilità di
essere estratti.

Campionamento casuale stratificato: la popolazione viene suddivisa


in un certo numero di strati. Da ogni strato in maniera indipendente
viene poi estratto un campione casuale semplice.
Vantaggi: Miglioramento della stima, se gli strati sono stati ben scelti.
Possibilità di ottenere anche la stima per le singole sottopopolazioni o strati.
Campionamenti a scelta ragionata
Convenience Sampling: campiono le unità in maniera
“conveniente” (ad esempio, intervisto sulla customer satisfaction i
clienti che si trovano in un punto vendita)

Snowball sampling: chiedo ad un intervistato di segnalarmi altre


persone da intervistare (per popolazioni cosiddette rare (e.g.
pazienti affetti da malattie rare) o nascoste (e.g. consumatori di
droghe).

Judgemental Sampling: campiono le unità che reputo adatte.

Questi campionamenti sono spesso utilizzati. Tuttavia i risultati NON


posso essere estesi a tutta la popolazione di riferimento ma devono
essere riferiti esclusivamente al campione estratto. Non si possono
applicare le tecniche inferenziali
Progettazione del questionario

Concettualizzazione:
Individuazioni aree e sotto-aree (composizione familiare,
reddito, abitazione, …)
Contenuti, formulazione e successione logica delle
domande
Tipi di domande: Tipi di intervista:
A risposta semplice / Diretta: faccia a faccia
multipla Indiretta: telefono, posta,
Aperte o chiuse exit poll, …
Domande Filtro
Un esempio

Si vogliono studiare le Dati estratti dal questionario


caratteristiche della terza intervista
demografiche e sociali
Codice ident. Intervista 3
della popolazione nella Sesso M
regione Lazio al Età in anni compiuti 38
1°gennaio 2020 Stato civile Coniugato
(collettivo) Provincia di residenza LT
Titolo di studio Laurea
Un semplice questionario
Professione Impiegato
potrebbe raccogliere le Numero componenti
seguenti informazioni della famiglia 4
Reddito lordo annuo
(in migliaia di euro) 40
Matrice dei dati (n=7)
La prima colonna contiene un codice che identifica le singole interviste. Le colonne
successive si riferiscono alle diverse informazioni rilevate col questionario (variabili
quantitative e qualitative – caratteri - )
Cod. Sesso Età in Stato Provincia Titolo Professione n. Reddito
Int. anni civile di resid. di comp. lordo annuo
compiu studio Fam. (migl. Euro)
ti
1 F 29 Nubile RM Laurea Impiegato 1 35000
2 F 40 Nubile FR Diplom Disoccupato 3 10000
a
3 M 38 Coniug LT Laurea Impiegato 4 40000
ato
4 F 42 Coniug FR Laurea Libero 3 90000
ata professionis
ta
5 M 48 Celibe RI Laurea Libero 1 90000
professionis
ta
6 M 59 Coniug RM Diplom Casalinga 4 15000
ata a
7 M 70 Celibe RM Lic. Pensionato 5 30000
Media
8 F 25 Nubile FR Laurea Disoccupato 3 20000
9 F 35 Coniug FR Laurea Libero 3 50000
Qualche osservazione

La stessa modalità può presentarsi ripetuta – anche molte volte –


nella stessa colonna.

Ogni colonna corrisponde a quella che più avanti definiremo


come distribuzione unitaria di un carattere.

Scelto un carattere tra quelli di interesse, dalla tabella è possibile


individuare subito la modalità assunta da ogni unità statistica del
collettivo.

Viceversa, scelta un’unità, è possibile leggere le modalità che


questa unità presenta in corrispondenza di ogni carattere
considerato.
LA MATRICE DEI DATI
righe: n unità statistiche colonne: p variabili rilevate

⎡ x11 ! x1s ! x1 p ⎤⎥
⎢ numero che codifica
⎢ ! " ! " ! ⎥
⎢ ⎥ ⎡ ⎤ nella i -esima unità
X =⎢ xi1 ! xis ! xip ⎥ = ⎣ xis ⎦ statistica
(n× p)
⎢ ⎥
⎢ ! " ! " ! ⎥ la modalità della
xn1 ! xns ! xnp ⎥ variabile s -esima

⎣ ⎦
VETTORI RIGA E COLONNA
s-esimo vettore colonna é xis ù
n-dimensionale: contiene le modalità ê ! ú
(valori o codici) ê ú
della s-esima variabile nelle n unità x s = ê xis ú ( s = 1, ..., p )
statistiche ê ú
ê ! ú
i-esimo vettore riga êë xns úû
p-dimensionale:
presenta le osservazioni della i-esima
unità, cioè i valori o i codici delle
modalità assunte dalle p variabili.

[
xi' = xi1 ! xis ! xip ]
(i = 1, ..., n)
PROFILO
SCALE DI MISURA DELLE
VARIABILI

ð Nominale: valgono solo le relazioni di uguale o diverso


ð Ordinale: si può stabilire un ordinamento delle modalità
ð Scala di intervalli: si parla non solo di maggiore e minore,
ma è anche legittimo riferirsi alla distanza tra le variabili,
esprimibile tramite la differenza (intervallo) tra le
corrispondenti misure.
ð Scala di rapporti: è univoca e del tutto naturale la fissazione
dell’origine, che corrisponde all’assenza del fenomeno.

Le prime due scale sono per variabili qualitative, le altre due


per variabili quantitative
OSSERVAZIONI SULLE SCALE DI
MISURA

E’ sempre possibile passare da una scala a quella precedente ma non il


viceversa

VARIABILI QUANTITATIVE
DISCRETE:
possono assumere un numero finito oppure un infinità numerabile di
modalità
CONTINUE:
possono assumere tutti i valori reali, almeno in un certo intervallo
TRASFERIBILI:
L’ammontare può essere logicamente trasferito da una unità all’altra
CODIFICAZIONE DELLE VARIABILI

Variabili su scala nominale:


nella matrice appare la codifica delle modalità Þ numero (etichetta)
che sostituisce la parola, il simbolo o la sigla.
Variabili nominali dicotomiche:
si utilizzano le codifiche 0 e 1
Variabili su scala ordinale:
il numero assegnato nella codificazione deve rispettare l’ordinamento
delle modalità.
Variabili quantitative (su scala di rapporti o di intervalli):
nella matrice appare il corrispondente valore numerico.

N.B. la scala di misura condiziona le metodologie statistiche applicabili


Un esempio di matrice
unità per variabili
Nome Età Sesso Titolo di Posizione Peso Punteggio
studio lavorativa (kg) esercizi
Rossi M. 32 M laurea occupato 72 65

Bianchi G. 39 F laurea occupato 55 55


Nicoletti C. 46 M diploma disoccupato 79 53

Marcelli F. 28 M diploma studente 63 78

Petrone A. 51 F diploma casalinga 64 21

Esercizio: per ogni variabile si definiscano la scala di misura e le caratteristiche

Potrebbero piacerti anche