Sei sulla pagina 1di 618

DISPENSE STATISTICA DESCRITTIVA E

DEMOGRAFIA
L’ANALISI DEI DATI:
Tabelle, frequenze

Prof.ssa Maria Carella


La ricerca applicata allo studio dei
fenomeni sociali =rilevazione statistica

Si articola in 4 fasi:

FASE 1 PROGRAMMAZIONE
1. predisposizione del piano di rilevazione/indagine

FASE 2 RILEVAZIONE
2. raccolta dei dati

FASE 3 ELABORAZIONE
3. classificazione e spoglio dei dati

FASE 4 INTERPRETAZIONE DEI DATI


4. rappresentazione tabellare o grafica e analisi dei dati
CONCETTI E DEFINIZIONI
• Collettivo statistico
è l’insieme di elementi singoli chiamati "unità
statistiche" omogenee rispetto ad uno o
più aspetti

(esempi 1. la popolazione presente su un dato


territorio: le varie unità, ovvero gli individui,
hanno la proprietà comune di essere presenti sullo
stesso territorio nello stesso tempo, 2.dipendenti
di un’impresa: hanno la proprietà comune di
condividere lo stesso “luogo di lavoro”)
CONCETTI E DEFINIZIONI

• Unità statistiche sono le componenti elementari


del collettivo (o popolazione) su cui materialmente
si effettua lo studio

semplici (es. individui, animali, oggetti)

composte (formate da più unità statistiche


semplici: es. famiglie, aziende di un determinato
settore economico)
CONCETTI E DEFINIZIONI (4)

• Chiamiamo caratteri di una unità statistica le


caratteristiche che sono presenti in essa.

ESEMPIO
Per ogni studente di un gruppo di universitari
determiniamo l’età, il luogo di nascita, la statura, la
nazionalità, il peso , il colore degli occhi..

Si dice che l’età, il luogo di nascita, la statura, la


nazionalità, il peso sono tutti caratteri di
ciascuna unità (studente)
CONCETTI E DEFINIZIONI (4)

• Il carattere può essere:


quantitativo è indicato mediante espressioni
numeriche (es. età, reddito, produzione)

qualitativo può essere indicato solo con


espressioni verbali (es. sesso, professione,
titolo di studio)

• I valori (caratteri quantitativi) o gli attributi


(caratteri qualitativi) delle unità statistiche si
presentano con modalità generalmente diverse da
unità a unità
CONCETTI E DEFINIZIONI(5)

• Modalità → descrive il modo in cui si


presenta una certa unità statistica

• Frequenza → indica il numero di volte


con cui si presenta una data modalità
del carattere
Se uno studente è di nazionalità italiana ed uno di
nazionalità greca, diciamo che nel primo il
carattere nazionalità presenta la modalità
“italiana” , mentre nell’altro la modalità “greca”.

Se due studenti sono entrambi maschi, per


entrambi il carattere sesso si presenta con la
modalità «maschio».

Il carattere età può presentarsi con la modalità


19 anni con la modalità 20 anni
CONCETTI E DEFINIZIONI(6)

Carattere quantitativo di una unità statistica



variabile statistica (X):
• discreta: quando può assumere come modalità solo
numeri interi
(es. numero dei componenti di una famiglia, il numero di
addetti in un’azienda, numero di figli);

• continua quando si presenta con modalità soggette


ad assumere tutti i possibili valori di un intervallo
(es. la temperatura, la statura, il peso, l’età ecc.).
CONCETTI E DEFINIZIONI(7)
Carattere qualitativo di una unità statistica

mutabile statistica :
• rettilinea (quando le modalità ammettono un ordine
naturale di successione: es. titolo di studio)
• ciclica (quando le modalità ammettono un ordine
naturale di successione, cioè una graduatoria,
secondo convenzione: es. giorni della settimana,
mesi)
• sconnessa (quando le modalità non ammettono un
ordine naturale di successione: professione,
religione, nazionalità )
Altra terminologia
Caratteri qualitativi sconnessi= variabili nominali
sono quelle che si presentano con modalità:
- non numeriche (espressioni verbali)
- non ordinabili
Caratteri qualitativi ciclici o rettilinei= variabili ordinali
sono quelle che si presentano con modalità:
- non numeriche (espressioni verbali)
- ordinabili.
Caratteri quantitativi= variabili cardinali
sono quelle che si presentano con modalità :
- numeriche
- ordinabili
- discrete o continue
Le procedure statistiche
per l’analisi dei dati
La distribuzione statistica :
È una sintetica descrizione della popolazione
studiata rispetto ad una o più variabili
1. esempio: studio di 100 individui rispetto alla
variabile professione (distribuzione semplice)
2. esempio: studio di 100 individui in relazione all’età,
al sesso, al titolo di studio, all’altezza (distribuzione
multipla)
La serie è una distribuzione in cui le modalità del
carattere presentano frequenze sempre unitarie
La distribuzione di frequenze
La distribuzione di frequenze
è l’insieme delle coppie modalità-frequenza
In altre parole ad ogni modalità della variabile (carattere) viene
associata la frequenza con cui essa si presenta

La tabella statistica
è un prospetto utilizzato per meglio rappresentare la
distribuzione di frequenza
Esempio: Distribuzione di frequenza della variabile (carattere) sesso

Sesso Frequenza

Maschio 325
Femmina 254
Totale 579
La tabella di frequenza (2)
La tabella di frequenza (caso di variabile statistica discreta)
è costituita da una serie di colonne che procedendo da sinistra
verso destra contengono :
1) la descrizione della modalità del carattere(xi) ;
2) le frequenze con cui le modalità del carattere si ripetono

Modalità del carattere X Frequenza assolute


xi ni
x1 n1
x2 n2
x3 n3
xs ns
Totale N

ove ni sono le frequenze assolute e Σni=N


La tabella di frequenza (3)

Colore capelli N° persone


carattere (carattere) (frequenza assoluta)

Neri 10
Castani Frequenze
6 assolute
modalità Rossi 1
biondi 5
totale 22

La FREQUENZA ASSOLUTA indica quante volte la MODALITÀ


di un CARATTERE si ripete
Variabile statistica continua
Per costruire la tabella di frequenza, in questo caso è
conveniente determinare delle classi di modalità
contigue a cui assegnare le unità statistiche.

Le frequenze quindi si riferiscono alle classi e non


alle singole modalità.

Le classi devono:
a) essere in numero abbastanza limitato per fornire una
adeguata sintesi della distribuzione;
b) comprendere tutte le possibili modalità della variabile;
c) avere, se possibile, tutte la stessa ampiezza;
d) devono essere mutualmente esclusive .
Variabile statistica divisa in classi
La rappresentazione di una DISTRIBUZIONE DI DATI
PER CLASSI, si presenta VANTAGGIOSA quando i dati
sono molto NUMEROSI
Rappresentazione per classi di peso
PESO (Kg) N° STUDENTI
(termini) (frequenze) CLASSI DI PESO N° STUDENTI
(termini) (frequenze)
52 1
50 – 60 Kg 4
E 54 1
60 – 70 Kg 7
S 55 2
70 – 80 Kg 3
E 61 1
totale 14
M 63 1
P 68 2
I 69 3
O 71 1 L’ informazione, diviene meno precisa nel
caso di una distribuzione per classi, tuttavia
73 1
la visione della distribuzione diventa più
75 1 semplice e rapida
TOTALE 14
La tabella di frequenza (2)
La tabella di frequenza (caso di mutabile statistica) è
costituita da una serie di colonne che procedendo da sinistra
verso destra contengono :
1) la descrizione della modalità del carattere(ai) ;
2) le frequenze con cui le modalità del carattere si ripetono
Modalità del carattere Frequenza assolute
ai ni
a1 n1

a2 n2
a3 n3
as ns

Totale N

ove ni sono le frequenze assolute e Σni=N


Esempi tabella di frequenza
mutabile statistica
(carattere qualitativo)
Studenti per giudizio
Studenti per titolo di diploma
scolastico

Titolo diploma studenti Giudizio studenti


Istituto tecnico 1 pessimo 10
Liceo classico 3 mediocre 15
Liceo scientifico 4 sufficiente 30
Liceo linguistico 2 buono 20
Totale 10 ottimo 25
Totale 100
SERIE STORICHE E
SERIE TERRITORIALI
• Quando le tabelle presentano modalità che sono
aree territoriali, parliamo di serie territoriali.
– Esse si ottengono raggruppando insieme le
osservazioni di un fenomeno che riguardano un’unità
territoriale.

• Le serie storiche sono tabelle in cui le modalità


si riferiscono a periodi o istanti di tempo
Frequenze

2 tipi diversi di frequenze

Frequenza assoluta indica il numero di unità


statistiche che presentano la stessa modalità.

Frequenza relativa indica la proporzione di unità


statistiche che presentano la stessa modalità; si
ottiene dividendo la frequenza assoluta per il numero
di unità statistiche
Frequenze relative
Le frequenze relative si suddividono in quattro tipi:
proporzioni, frequenze percentuali, cumulate, retro-
cumulate. Per tutte le variabili (nominali, ordinali e
cardinali) è possibile calcolare:
• proporzione: frequenza assoluta
yi = ni / N → ∑yi = 1 numero totale dei casi

• frequenza percentuale: frequenza assoluta


X 100
pi = ni / N ∗ 100 → ∑pi = 100 numero totale dei casi
Frequenze assolute e relative

Frequenze Frequenze relative


Titolo di studio
assolute Proporzioni Percentuali

Senza titolo 30 0,025 2,5

Lic. elementare 509 0,424 42,4

Licenza media 342 0,285 28,5

Diploma 264 0,220 22,0

Laurea 55 0,046 4,6

Totale 1.200 1 100,0


Frequenze cumulate
La frequenza cumulata relativa a una modalità indica
il numero (o percentuale) di casi con modalità
inferiore o uguale alla medesima

quindi

La frequenza cumulata relativa a una modalità indica


quale numero (o percentuale) di casi non arriva alla
categoria successiva o oltre
Frequenze cumulate
Cumulate → Ni
- Si ottengono sommando volta per volta tutte le singole frequenze
assolute.
- La singola frequenza cumulata N2 indicherà quante volte le
modalità del carattere x1 e x2 compariranno nel complesso senza
distinguere tra la prima e la seconda

Modalità Frequenza
Ni
carattere assolute
cumulate
xi ni
x1 n1 N1=n1
x2 n2 N2=n1+n2
x3 n3 N3=n1+n2+n3
Totale N
Frequenze relative cumulate
Frequenze
Frequenze
Modalità Retro-
assolute Percentuali Cumulate
cumulate
Senza titolo 30 2,5 30 1200
Lic. elementare 509 42,4 539 1170
Licenza media 342 28,5 881 661
Diploma 264 22,0 1145 319
Laurea 55 4,6 1200 55
Totale 1.200 100,0

Interpretazione delle frequenze cumulate :


• “gli individui che al massimo hanno la licenza media sono 881
(n. casi che non arriva alla categoria successiva )
Frequenze relative retro-cumulate

La frequenza retro-cumulata relativa a una modalità


indica quale numero (o percentuale) di casi arriva a
quella modalità o alle successive (cioè più alte
nell’ordine) (Marradi, 2002).
Frequenze retro-cumulate
Retrocumulate → N-Ni

Modalità Frequenza N-Ni


Ni
carattere assolute Retro-
cumulate
xi ni cumulate
x1 n1 N1=n1 N
x2 n2 N2=n1+n2 N-N1
x3 n3 N3=n1+n2+n3 N-N2
Totale N
Frequenze relative retrocumulate
Frequenze
Frequenze
Modalità Retro-
assolute Percentuali Cumulate
cumulate
Senza titolo 30 2,5 30 1200
Lic. elementare 509 42,4 539 1170
Licenza media 342 28,5 881 661
Diploma 264 22,0 1145 319
Laurea 55 4,6 1200 55
Totale 1.200 100,0

Interpretazione delle frequenze cumulate e retro-cumulate:


• “gli individui che hanno almeno il diploma sono 319
(n. casi che arriva a quella categoria o oltre)
Riepilogo FREQUENZE
La frequenza può essere:
• Assoluta → ni e N (∑ni)
• Relativa → yi = ni / N → ∑yi = 1
• Percentuale → pi = ni / N ∗ 100 → ∑pi = 100
• Cumulata → Ni
– Si ottengono sommando volta per volta tutte le
singole frequenze assolute.
• Retrocumulata → N-Ni
La presentazione dei dati in tabelle (1)
Criterio della Parsimonia: inserire solo le
informazioni indispensabili (indicare solo un tipo di
frequenza: assoluta, relativa)
Numerosità dei casi: nel caso si utilizzino le
frequenze percentuali (più usate) è necessario
indicare il numero complessivo dei casi in valore
assoluto (N):
o Finalità di comunicare al lettore qual è la rilevanza numerica
dei dati
o Riportare la base N delle percentuali consente di risalire
alle frequenze assolute

Utilità delle percentuali: non usare le frequenze


percentuali se N è minore di 50 casi
La presentazione dei dati in tabelle (3)
Cifre decimali: evitare la tendenza a riportare
percentuali con un numero eccessivo di decimali, ma
riportare solo quelli significativi. Una possibile regola è
la seguente:
• se N ≥ 1.000 casi 1 cifra decimale
• se N ≥ 10.000 casi 2 cifre decimali
3 regole
o Se la base è costituita da meno di 100 casi, un punto decimale
rappresenta meno di un caso, per cui il decimale non ha significato
o Se stiamo indagando su dati desunti da inchiesta campionaria si
presenta solo un decimale
o Il decimale zero va riportato sempre
La presentazione dei dati in tabelle (4)
Arrotondamenti corretti:
da 0 a 4 arrotondamento per difetto (16,73 16,7)
da 5 a 9 arrotondamento per eccesso (34,27 34,3)
se 5 controllare il decimale successivo
se 16,75 è arr. di 16,752 16,8
se 16, 75 è arr. di 16,748 16,7
Quadratura
A causa degli arrotondamenti può succedere che la somma
delle percentuali faccia 99,9 oppure 101: in questo caso la
regola comunemente accettata è quella di intervenire su
queste percentuali in modo da avere 100
La presentazione dei dati in tabelle (6)
Tabella 1 – intestazione Ricordarsi sempre:
(es. titolo di studio)
Modalità %
1. di intestare la tabella
Senza titolo 2,5
2. di inserire la fonte o,
Lic. elementare 42,4 se i dati sono stati
Licenza media 28,5
raccolti
autonomamente, la
Diploma 22,0 domanda
Laurea 4,6 corrispondente
Totale 100,0

(N=1.200)

Fonte o, se survey,
domanda del questionario
L’ANALISI DEI DATI:
Rappresentazioni grafiche
e Rapporti statistici

Prof.ssa Maria Carella


maria.carella1@uniba.it
Rappresentazioni grafiche: 1

Le distribuzioni di frequenza possono


essere presentate
in forma tabellare e in forma grafica

Le rappresentazioni grafiche non forniscono


informazioni aggiuntive rispetto alle tabelle ma
sono di forte impatto comunicativo
Rappresentazioni grafiche: 2
I vantaggi specifici della rappresentazione grafica
rispetto alla forma tabellare (numerica):

1. consente una visualizzazione immediata


dell’andamento del fenomeno;

2. consente, con notevole sintesi e in poco spazio, il


confronto tra più distribuzioni (curve, spezzate)

3. ha potenzialità investigative: mette in rilievo casi


“anomali” (es. particolari “picchi” grafici) che possono
essere dovuti a errori nei dati o a effettivi casi
“anomali” che invitano a ulteriori approfondimenti.
Rappresentazioni grafiche: 3
Prima di procedere alla creazione di un grafico, è
necessario conoscere il tipo di variabile
(carattere) che si vuole rappresentare: nominale,
ordinale o cardinale.

Ogni tipo di variabile può essere


rappresentata solo con alcuni grafici

Le rappresentazioni grafiche sono molteplici ma


si dividono sostanzialmente in due tipologie:
lineari e circolari.
Rappresentazioni grafiche: variabili nominali (a)
Le rappresentazioni grafiche di distribuzioni di frequenza di
VARIABILI NOMINALI (caratteri qualitativi sconnessi):
Diagramma a barre o ortogramma:
o Si riporta la distribuzione di frequenza su un piano
cartesiano disponendo su un asse le modalità della
variabile (carattere) e sull’altro asse le corrispondenti
frequenze

o Per visualizzare le frequenze si costruiscono, in


corrispondenza delle modalità della variabile, dei
rettangoli (barre) aventi altezza proporzionale alla
frequenza (assoluta o relativa) della modalità
corrispondente

o Tante barre quante sono le modalità del carattere

o Barre separate ed equidistanti


Rappresentazioni grafiche: variabili nominali
Rappresentazioni grafiche lineari – diagrammi a barre

Grafici a barre verticali: Grafici a barre orizzontali:


l’altezza delle colonne è la lunghezza dei nastri è
proporzionale alla frequenza proporzionale alla frequenza
assoluta o relativa o assoluta o relativa o
percentuale percentuale.

Base barre: uguale ed arbitraria


Rappresentazioni grafiche: variabili nominali
Rappresentazioni grafiche lineari – diagrammi a barre

Vantaggi:
sono semplici da disegnare
Consentono un’ agevole comparazione
tra le frequenze delle varie modalità

(meno utilizzati con variabili ordinali


perché le barre distanti non danno l’idea
Variabili nominali che ci sia una continuità tra le modalità,
come accade invece con le variabili
ordinali – meglio l’istogramma).
Rappresentazioni grafiche: variabili nominali (b)
Le rappresentazioni grafiche di distribuzioni di
frequenza di VARIABILI NOMINALI (caratteri
qualitativi sconnessi)

Diagrammi circolari (diagramma a torta)

Si costruisce utilizzando un cerchio a settori circolari


che rappresentano le modalità del carattere e sono
costruite in modo che la loro dimensione sia
proporzionale alla corrispondente frequenza.
Rappresentazioni grafiche: variabili nominali
Rappresentazioni grafiche circolari
Diagramma a torta Vantaggi:

permette di cogliere l’incidenza di


una modalità sulla distribuzione
totale

facilita l’aggregazione ad “occhio” di


due modalità adiacenti

Svantaggi:

non si possono usare per


variabili con molte modalità
Rappresentazioni grafiche:
variabili cardinali discrete - 1
Per variabili cardinali (caratteri quantitativi) discrete, non divise
in classi (es. il numero dei componenti per famiglia, il numero delle
stanze delle abitazioni) si impiegano:
i diagrammi in coordinate cartesiane ortogonali

Si ricorre agli usuali diagrammi cartesiani aventi due assi


perpendicolari: l’asse delle ascisse, x, e l’asse delle ordinate, y,
con origine in comune 0.

Ogni coppia ordinata di valori (xi, yi) determinerà un punto nel


piano
l’insieme di tutte le coppie {xi ( = modalità quantitativa i-ma), yi (
= frequenza della modalità i-ma)} determinerà l’insieme dei punti
nel piano che costituiscono la rappresentazione grafica della
distribuzione considerata.
Su una classe di 100 studenti iscritti al primo anno
della Facoltà di Economia è stato rilevato il numero di
esami sostenuti. I dati sono i seguenti
Esami ni 40
sostenuti
35 4; 35
1 8 30 3; 30
2 16 25

3 30

ni
20

4 35 15 2; 16
10 5; 11
5 11 1; 8
5
Totale 100
0
0 1 2 3 4 5 6

esami sostenuti
Rappresentazioni grafiche:
variabili cardinali discrete -2
Per rendere maggiormente visibili tali punti:
a) si tracciano dei segmenti verticali congiungenti
l’ascissa (xi) con il punto del piano corrispondente
all’ordinata (yi) da cui:
DIAGRAMMA A SEGMENTI O A PETTINE

b) È da notare che in questo caso è scorretto


congiungere tra loro i punti poiché il carattere
considerato (discreto) per sua natura non possiede i
valori intermedi a quelli indicati dalle modalità
quantitative, pertanto una spezzata di frequenza che
unisse tra loro le modalità attribuirebbe invece anche
valori intermedi alle modalità stesse.
Il grafico viene costruito disegnando, in corrispondenza di ogni
modalità, un segmento la cui altezza sia pari alla frequenza (assoluta
o relativa) di quella modalità nel collettivo.
40
4; 35
30 3; 30
ni

20
2; 16
10 5; 11
1; 8
0
0 1 2 3 4 5 6

esami sostenuti

40
35
30
25
20
ni

15
10
5
0
0 1 2 3 4 5 6
esami sostenuti
Istogrammi
Quando si costruisce un istogramma si devono tenere
distinti 2 casi:

1. Variabile ordinale (Carattere qualitativo ordinato)

2. Variabile cardinale (Carattere quantitativo in classi)


a) classi di stessa ampiezza.
b) classi di ampiezza diversa
Rappresentazioni grafiche:
variabili ordinali
Rappresentazioni grafiche lineari – istogramma

Vantaggi: Svantaggi:
• è semplice da disegnare •difficile definire il rapporto
• facilita la comparazione tra tra una modalità e l’intera
frequenze di categorie distribuzione
contigue
Istogrammi: variabile cardinale (2)
VARIABILE CARDINALE DIVISA IN CLASSI

A) Per distribuzioni di caratteri quantitativi con


modalità raggruppate in classi di uguale ampiezza:

la costruzione dell’istogramma è uguale a quella vista


per i caratteri qualitativi ordinati, quindi l’altezza
dei rettangoli sarà essere pari alla frequenza
(assoluta, relativa o percentuale).
Esempio: Aziende classificate per classe di reddito
(miliardi)
Classi di reddito ni
0-5 10
5-10 5
10-15 20 30

15-20 25 25
totale 60 20

aziende (ni)
15

10

0
0;5 5;10 10;15 15;20
classi di reddito
Istogrammi: variabile cardinale (2)

B) Per distribuzioni di caratteri quantitativi con


modalità raggruppate in classi di ampiezza diversa:

Per visualizzare le frequenze si innalzano, in corrispondenza delle


modalità della variabile, dei rettangoli di area (non altezza)
proporzionale alle frequenze.

Ogni frequenza è rappresentata dall'area di un


rettangolo, la cui base è uguale all'ampiezza (Δi)
della classe e l'altezza è pari alla densità di
frequenza (hi), cioè al rapporto tra la frequenza della
classe e l'ampiezza della classe stessa.
Istogrammi: variabile cardinale
in classi di diversa ampiezza
Sia X la variabile “Numero di schede telefoniche” registrata
su 60 collezionisti:
0 | - 12 12|- 36 36 | - 90 90 |- 186

X=
12 8 16 24
Si rappresenti graficamente la variabile statistica X.
Tabella calcoli intermedi

xi, xi+1 ni Δi yi= ni/N hi=yi/Δi

0 - 12 12 12 0,200 0,017
12 - 36 8 24 0,133 0,006
36 - 90 16 54 0,267 0,005
90 - 186 24 96 0,400 0,004
60 1
Soluzione: variabile cardinale
in classi di diversa ampiezza
Dato il tipo di variabile (continua per classi) la rappresentazione
grafica corretta è l'istogramma dove sull’asse orizzontale abbiamo
la base dei rettangoli cioè l’ampiezza delle classi Δi e sull'asse
verticale si rappresenta la densità di frequenza hi=yi/Δi.

0,02 hi
0,017

0,015

0,01
0,006
0,005 0,004
0,005

0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180
xi|--xi+1
Istogrammi: variabile cardinale
in classi di diversa ampiezza
È nota la distribuzione del carattere X.

0|-11 11|-15 15|-18 18|-22 22|-25 xi|-xi+1


X=
13 14 15 21 17 ni

Si rappresenti graficamente la variabile statistica X.


Tabella calcoli intermedi

xi xi+1 ni yi= ni/N Δi hi=yi/Δi


0 11 13 0,162 11 0,015
11 15 14 0,175 4 0,044
15 18 15 0,188 3 0,063
18 22 21 0,263 4 0,066
22 25 17 0,213 3 0,071
80 1,000
Soluzione: variabile cardinale
in classi di diversa ampiezza
Dato il tipo di variabile (continua per classi) la rappresentazione
grafica corretta è l'istogramma, dove sull’asse orizzontale abbiamo
la base dei rettangoli cioè l’ampiezza delle classi e sull'asse
verticale si rappresenta la densità di frequenza hi=yi/Δi.

0,1 hi

0,071
0,063 0,066

0,044
0,05

0,015 0,015
0 0 0 0
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
xi|--xi+1
Rappresentazioni grafiche –accorgimenti
In un grafico devono figurare:
a) il titolo, che deve indicare con chiarezza l’oggetto, il
luogo, l’epoca cui i dati si riferiscono;
b) il carattere con le rispettive modalità in funzione
delle quali sono classificate le unità statistiche. Nel
grafico dovrà figurare una legenda con la descrizione in
chiaro dei simboli impiegati e, nel caso di più grafici
insieme, il significato dei diversi tratteggi o colori
impiegati;
c) la chiara indicazione dell’unità di misura impiegata per
graduare l’asse (o gli assi);
d) la fonte di provenienza dei dati.
Riepilogo: Rappresentazioni grafiche per
distribuzioni semplici
Tipo di grafico Livello di misurazione dei caratteri

Grafici a barre o ortogrammi: Variabili nominali: caratteri qualitativi


– a colonne (verticale) sconnessi (meno per mutabili rettilinee)
– a nastri (orizzontale)
Diagrammi circolari Variabili nominali: caratteri qualitativi
sconnessi (meno per mutabili rettilinee)
Diagrammi in coordinate Variabili cardinali discrete
cartesiane ortogonali a segmenti (caratteri quantitativi)
Serie storiche riferite a fenomeni
discreti
Diagrammi in coordinate Variabili cardinali continue
cartesiane ortogonali (poligoni di (caratteri quantitativi)
frequenza e curve di frequenza) Serie storiche riferite a fenomeni
continui
Istogrammi Variabili cardinali continue divise in
classi di valori (caratteri quantitativi)
I RAPPORTI STATISTICI
Il confronto tra dati
L’ analisi dei fenomeni sociali consiste anche
nel CONFRONTO tra i dati.
Il confronto tra dati può essere riferito:
alle caratteristiche di uno stesso collettivo
ad uno stesso fenomeno osservato su collettività
diverse
a fenomeni diversi tra i quali sussista un nesso logico
(es. di “causa ed effetto”)

Il confronto può essere effettuato:


o per differenza
o per rapporto
I rapporti statistici: definizione
Il rapporto esprime quante unità del dato posto al
numeratore corrispondono ad una unità del dato posto
al denominatore

Il rapporto statistico è un quoziente tra due termini


(due grandezze) di cui uno almeno è di natura statistica
(ossia riferito a un fenomeno collettivo) e tale che tra i
due termini esista un legame logico ben definito.

Almeno uno dei due termini si


2 condizioni
riferisce ad un collettivo.

Nesso logico tra due termini


1. Confrontando i valori assoluti dei nati e dei morti della
Lombardia e della Sardegna risulta che sia il numero dei nati
che quello dei morti è nettamente superiore in Lombardia
rispetto alla Sardegna. Se poi questi vengono confrontati con
l’Italia, i valori di quest’ultima risultano di gran lunga superiori
alle due Regioni a causa del diverso ammontare delle popolazioni
nelle aree geografiche poste a confronto e quindi non
comparabili.
Nati Morti

Lombardia 76.265 84.437

Sardegna 15.486 13.789

Italia 552.587 555.043

Fonte : Istat, Le Regioni in cifre , 1995.


2. Per poter effettuare allora un confronto territoriale occorre
considerare, anziché i valori assoluti dei caratteri, i rapporti
statistici, ad esempio in questo caso i quozienti demografici di
natalità e di mortalità
Dai quozienti suddetti risulta che ogni 1.000 ab. la natalità in
Lombardia è inferiore a quella della Sardegna di -0,7‰ (8,6–9,3) e
dell’Italia di -0,9‰. La mortalità in Lombardia è invece superiore a
quella della Sardegna ( + 1,2‰) ma inferiore alla media italiana (–
0,2‰).
Nati Morti Q.Natalità Q.Mortalità
per 1000 per 1000
Lombardia 76.265 84.437 8,6 9,5

Sardegna 15.486 13.789 9,3 8,3

Italia 552.587 555.043 9,7 9,7

Fonte : Istat, Le Regioni in cifre , 1995.


Principali tipologie di rapporti
statistici
Rapporto di composizione
Rapporto di derivazione
Rapporto di coesistenza
Rapporti medi (densità)
Rapporti di composizione (1)
Sono anche detti rapporti di “parte al tutto” e
si ottengono rapportando una frequenza parziale
alla frequenza totale.

Essi quindi non sono altro che le frequenze


relative (proporzioni). Assumono valori compresi
tra 0 e 1
-Se il risultato viene moltiplicato per 100 si ottengono le
frequenze percentuali.

In una distribuzione di frequenze consentono di


confrontare l’incidenza (il contributo) di ciascuna
modalità sulla numerosità totale.
Rapporti di composizione (2)-esempi
Popolazione laureata / Popolazione

Reddito da lav. Dipendente / Reddito nazionale

Calorie da grassi / Calorie totali

Spesa per la cultura / Spesa totale

Proporzioni dei maschi= M/(M+F)

Spesa della famiglia per l’affitto/spesa totale della


famiglia
Dati i seguenti valori relativi alla spesa media mensile
familiare in Lombardia e in Italia, calcolare il rapporto di
composizione: quota del bilancio familiare speso per i beni
alimentari
Capitoli di spesa Lombardia Italia

Alimentari 485,72 456,12

Non alimentari 2386,71 1941,42

Totale 2872,43 2397,54

quota del bilancio familiare 485,72/2872,43*100= 456,12/2397,54*100


per i beni alimentari. 16,9% 19%

Nel calcolo del RC bisogna riportare la parte del fenomeno


che stiamo analizzando al tutto del carattere studiato
Rapporto di coesistenza
Rapporto di coesistenza è il rapporto tra due parti
del fenomeno, cioè tra la frequenza di una modalità e
la frequenza di un’altra.
Esempi
Rapporto di mascolinità: maschi/femmine
Indice di vecchiaia
Indice di dipendenza
Importazioni / esportazioni
Entrate / uscite ( copertura di bilancio)
Consumo / risparmio ( destinazione del reddito)

L’idea di questi rapporti è quella di evidenziare


uno squilibrio o uno sbilanciamento in uno
dei fenomeni coesistenti
Rapporti di coesistenza
Con riferimento ad una data popolazione i rapporti di
coesistenza permettono di misurare:

La struttura per sesso della popolazione.


Se Pm = Numero di maschi Pf = Numero di femmine

Pm/Pf = Rapporto di mascolinità della popolazione


Pf/Pm = Rapporto di femminilità della popolazione

La struttura per età della popolazione


Se Pa = Popolazione anziana (da 65 anni in poi) Pg = popolazione
infantile e giovanile (0-14)

Iv = (Pa/Pg)*100 = Indice di vecchiaia


Rapporto di derivazione
Rapporto di derivazione è il rapporto tra la misura
del fenomeno e quella di un altro che può essere
considerato un suo presupposto necessario.

E’ un rapporto di causa – effetto, nel senso che “b”


rappresenta il presupposto di “a”

Esempi
• quoziente di natalità : (nati/popolazione)*100
• quoziente di mortalità : (morti/popolazione)*100
• quoziente di nuzialità : (matrimoni/popolazione)*100
• Operai cassaintegrati/totale operai
• laureati/ numero di iscritti all’università
Rapporti di densità o rapporti medi

Rapporti di densità o medi rapportano


l’intensità o la frequenza di un fenomeno alle
frequenze o intensità di un altro fenomeno.

Sono diffusissimi e si hanno ogni volta che il fenomeno posto


al numeratore si può associare mediamente ad ogni unità
posta al denominatore.
Rapporti di densità o rapporti medi

popolazione / superficie territoriale


(densità di popolazione=numero medio di abitanti per Kmq)

n° occupanti le abitazioni / numero di stanze


(indice di affollamento=numero medio di persone per stanza)

reddito totale / popolazione residente


(reddito medio pro capite)

spesa totale per consumi / n° famiglie


(spesa media fam. per consumi)
Lo studio della variazione
Per confrontare le intensità di due fenomeni
collettivi diversi tra i quali esista un nesso logico o
di uno stesso fenomeno in tempi o luoghi diversi,
anziché ricorrere ai rapporti statistici si può
ricorrere anche alle differenze tra le intensità o
frequenze.

Esse possono essere di due tipi:


differenze assolute e differenze relative.
Differenze relative
Se invece vogliamo calcolare la variazione relativa
tra due grandezze, dobbiamo fare la differenza tra
le due e successivamente dividere per quella che si
assume per riferimento.
Naturalmente la variazione relativa risente fortemente della
base di partenza.

Si possono calcolare tra le intensità di due fenomeni


collettivi due tipi di differenze relative:
D ' =I1 – I2 D '' =I1 – I2
I2 I1
Fra il 1993 ed il 1998, gli stranieri residenti in Italia sono
aumentati di più nel Nord, nel Centro o nel Mezzogiorno,
relativamente alla popolazione straniera iniziale?

Numero di stranieri residenti


1993 (a) 1998 (b)
Nord 286.707 522.399
Centro 179.363 296.830
Mezzogiorno 107.188 172.449
Totale Italia 573.258 991.678
Occorre calcolare la variazione relativa = (b – a) / a *100

Variazione relativa
Nord +82,2%
Gli stranieri residenti in
Centro +65,5%
Italia sono aumentati di più
Mezzogiorno +60,9%
nel Nord
Totale Italia +73,0%
I numeri indice
Il numero indice è UN RAPPORTO che serve a
mettere in luce le variazioni di una serie
temporale rispetto ad un tempo assunto come base
di riferimento.

Il termine con il quale vengono messi a rapporto


tutti gli altri termini (denominatore della
frazione) si dice base degli indici.

L’intensità del fenomeno nella situazione base è


posta abitualmente uguale a 100 o ad 1 o ad altre
potenze di 10.
Esercizio numeri indici
Si calcolino i numeri indici a base fissa di queste due serie
storiche prendendo come base il 1989.
Si risponda alla seguente domanda: tra il 1989 e il 1996 la
disoccupazione presenta un andamento diverso secondo il genere?

Numero di disoccupati (in migliaia)


Anno Maschi Femmine

1989 1220 1646


1990 1102 1520
1991 1142 1510
1992 1226 1572
1993 1117 1243
1994 1249 1312
1995 1311 1412
1996 1335 1428
Esercizio numeri indici: soluzione
Se si pone l’anno 1989 = 100, allora per i M 1990 si imposta la
seguente proporzione:
1220 : 100 = 1102 : x, da cui x = 1102*100/1220 = 90

Numero di disoccupati per genere (numeri indice 1989 = 100)


Anno Maschi Femmine Maschi Femmine
1989 1220 1646 100 100
1990 1102 1520 90 92
1991 1142 1510 94 92
1992 1226 1572 100 96
1993 1117 1243 92 76
1994 1249 1312 102 80
1995 1311 1412 107 86
1996 1335 1428 109 87
Risposta 1: Il numero dei disoccupati uomini è aumentato
fra il 1989 e il 1996 (+9%), mentre all’opposto per le
donne si evidenzia una flessione (- 13%).
L’ANALISI
MONOVARIATA:
Indici di posizione
Prof.ssa Maria Carella
L’analisi statistica dei dati
L’analisi statistica dei dati raccolti durante
l’indagine (o la rilevazione) rappresenta la
fase finale della ricerca applicata allo
studio dei fenomeni sociali.

Questa fase si articola in 2 momenti:


Descrizione
Sintesi
Dalla descrizione alla sintesi
Lo strumento statistico non solo consente la
descrizione del fenomeno per mezzo di tabelle
statistiche e/o rappresentazioni grafiche, ma
ricorre anche a MISURE che consentono di
sintetizzare quanto osservabile tramite i dati
raccolti.

MISURE SINTETICHE
Dalla descrizione alla sintesi
La sintesi numerica di una distribuzione statistica è
basata sulla costruzione di particolari indici che
evidenziano alcuni aspetti essenziali della
distribuzione.
Le misure sintetiche cercano di individuare un’unica
modalità che rappresenti al massimo tutte le altre
presenti nella distribuzione

TRE TIPOLOGIE
indici di tendenza centrale o di posizione
indici di variabilità o dispersione
indici di forma
MISURE
DI TENDENZA CENTRALE
(INDICI DI POSIZIONE)
INDICI DI POSIZIONE (1)
Gli indici di posizione o misure di tendenza
centrale (“valori medi”) sintetizzano
l’osservazione effettuata con un solo valore
rappresentativo della globalità del fenomeno.

Due tipologie
– MEDIE DI CALCOLO:(media aritmetica,
quadratica, armonica e geometrica)
– MEDIE LASCHE (mediana, quartili, moda)
INDICI DI POSIZIONE (2)
Gli indici di posizione si ricavano:

da tutti i termini della distribuzione


Medie di calcolo (medie analitiche)

in base alla scelta di uno dei termini della


distribuzione che si differenzia dagli altri
per alcune caratteristiche particolari
Medie lasche
INDICI DI POSIZIONE (2)
Medie di calcolo (o analitiche) si calcolano con
operazioni algebriche sui valori del carattere

(VARIABILI CARDINALI/caratteri quantitativi)

Medie lasche vengono calcolate in base alla frequenza o


alla posizione occupata nella graduatoria delle
osservazioni.
Per variabili nominali/caratteri qualitativi sconnessi: moda
Per variabili ordinali/caratteri qualitativi: tutte
Per variabili cardinali/caratteri quantitativi: tutte
MEDIE DI CALCOLO
Media è un indice sintetico di una distruzione
statistica che alle diverse modalità del
carattere ne sostituisce una sola ritenuta
rappresentativa o tipica.

Tale indice deve essere compreso tra il valore


minimo e massimo della distribuzione
condizione di internalità (di Cauchy):
MEDIA ARITMETICA
• La media aritmetica è la somma dei valori
osservati divisa per la numerosità del
collettivo N

∑x i
µ= i =1
N = ∑ ni
S

N i ≅1

Gli indici posti sopra e sotto il simbolo di sommatoria indicano che essa assume
tutti i valori da 1 a n e quindi si deve intendere la sommatoria di tutti i termini
della serie
MEDIA ARITMETICA semplice
Consideriamo una distribuzione di DATI DIVERSI UNO
DALL’ALTRO (ogni modalità si presenta con frequenza unitaria):

x x x ............. xn
1 2 3
La MEDIA ARITMETICA SEMPLICE è uguale alla somma
dei dati divisa per N, cioè:
x + x + x +......+ x
µ= 1 2 3 n
N
esempio
CALCOLO MEDIA ARITMETICA
ES: VOTI RIPORTATI DA UNO STUDENTE
18 – 21 – 24 – 19 – 30 – 20
(voti esami 1° anno Università)

18 + 21 + 24 + 19 + 30 + 20 132
µ= = = 22
6 6
MEDIA ARITMETICA PONDERATA
Se i dati si presentano con una certa FREQUENZA
allora il calcolo della media deve essere effettuato sommando
ogni termine tante volte quante indica la sua frequenza

Supponiamo che:
Il termine x1 si presenta con frequenza n1
Il termine x2 si presenta con frequenza n2
…………………………………………………………………………
Il termine xn si presenta con frequenza ns
Il calcolo della MEDIA PONDERATA si effettua così

x ⋅n + x ⋅n + x ⋅n +......+ xs ⋅ns
µ= 1 1 2 2 3 3
n + n + n +.......+ ns
1 2 3
MEDIA ARITMETICA PONDERATA
S
∑ x i ⋅ ni
i =1
µ=
N
VARIABILE STATISTICA DIVISA IN INTERVALLI
N

∑ v.c.χ i
⋅ ni
v.c. =
χ i + χ i +1
µ= i =1
2
N
CALCOLO MEDIA ARITMETICA
PONDERATA
VOTI ESAMI INTERO CORSO UNIVERSITARIO

VOTI 18 19 20 21 24 26 30 TOTALE
ESAMI 4 4 5 3 2 2 1 21

18 ⋅ 4 + 19 ⋅ 4 + 20 ⋅ 5 + ...... + 30 ⋅1
µ= =
21
N

∑x ⋅n i i
441
= i =1
= = 21
N 21
CALCOLO MEDIA ARITMETICA
PONDERATA
MODULO PER SEMPLIFICARE IL CALCOLO STATISTICO

Modalità del Frequenze


carattere X assolute xini
xi ni

x1 n1 x1n1
x2 n2 x2n2
x3 n3 x3n3
xs ns xsns
Totale N Σxini

Alle colonne già note si aggiunge la colonna delle


intensità specifiche xini
Esempio di calcolo (1)
MEDIA ARITMETICA PONDERATA

VOTI ESAMI PRODOTTI


xi ni xini

18 4 72
19 4 76
20 5 100
21 3 63
24 2 48
26 2 52
30 1 30
Totale N=21 Σxini=441
Esempio di calcolo (2)
MEDIA ARITMETICA PONDERATA
20 Studenti di una classe hanno ottenuto in matematica i voti
riportati in tabella. Calcolare la MEDIA PONDERATA dei voti.

x ⋅ n + x ⋅ n + x ⋅ n + ...... + x s ⋅ ns
Voto in Numero xi*ni µ= 1 1 2 2 3 3
Matematica Studenti n + n + n + ....... + n s
1 2 3
xi ni

µ = 4⋅2+5⋅3+6⋅8+7⋅5+8⋅2 =122=6,1
4 2 8
5 3 15
2+3+8+5+2 20
6 8 48
7 5 35 Dove:
8 2 16 122 = somma dei voti
20 = numero di studenti
totale 20 122
6,1 = MEDIA PONDERATA dei voti
MEDIA VARIABILE STATISTICA
DIVISA IN CLASSI
In questo caso ad ogni classe, viene sostituito il VALORE CENTRALE (V.C.),
calcolato mediante la semisomma dei termini estremi della classe (Xi-Xi+1)
I termini centrali cosi ottenuti costituiscono i termini x1; x2; x3; ecc. della
distribuzione

SEMISOMME valore frequenze


classe frequenza centrale Xi
x +x
X1-X2 n1 vcx1 = 1 2
x1 n1
X2-X3 n2
2
x2 n2
X3-X4 n3 x +x
v.c.x2 = 2 3 x3 n3
ecc. ecc. 2 ecc. ecc.

la media x ⋅ n + x ⋅ n + x ⋅ n + ...... + x s ⋅ ns
µ= 1 1 2 2 3 3
ponderata si n + n + n + ....... + n s
1 2 3
calcola
ESEMPIO MEDIA VARIABILE STATISTICA
DIVISA IN CLASSI

Classi di n° persone
CALCOLO valori n° persone
età (anni) valori centrali
(Frequenze) centrali (Frequenze)
0 + 20 20
0 - 20 35 vcx1 = = =10 x1 = 10 n1 = 35
2 2
20 - 40 4 x2 = 30 n2 = 4
20 + 40 60
40 - 60 1 vcx2 = = = 30 x3 = 50 n3 = 1
2 2 totale 40
totale 40

Calcolo della media ponderata


x ⋅n + x ⋅n + x ⋅n 10⋅35+30⋅4+50⋅1 520
µ= 1 1 2 2 3 3 = = =13
n +n +n 40 40
1 2 3
Età media = 13 anni
Le proprietà della media
La media aritmetica è quel valore che
sostituito a ciascuno dei valori individuali dà
come somma la stessa somma che si
otterrebbe sommando i valori individuali.
x1⋅n1 + x2 ⋅n2 + x3 ⋅n3 +......+ xs ⋅ns µ⋅n1 +µ⋅n2 +µ⋅n3 +......+µ ⋅ns
=
Ia proprietà della media
la somma degli SCARTI (delle differenze) di
ciascun valore della distribuzione dalla sua
media è uguale a zero

per cui definito scarto (xi - μ )

n s
∑ (χ i − µ ) = 0 ∑ (χ i − µ ) ⋅ n i = 0
i =1 i =1
Esempio caso media semplice

Voto xi xi-μ

26 26-27=-1
27 27-27=0
28 28-27=1
totale 0

26+ 27+ 28 81
µ= = = 27
3 3
Esempio caso media ponderata
46 azionisti e loro azioni
xi ni xi ni (xi-μ) (xi-μ)n i
40
10 35 350
-11,739 -410,87 30
50 9 450 20
28,261 +254,35
100 2 200 10
78,261 +156,52 0
46 1000
1000 0

20

40

60

80

0
10
m=21,739
μ = Σxi ni/N=1000/46=21,74

Nota:
La media aritmetica è l’unica media che possiede questa proprietà.
Dimostrazione
1a PROPRIETA’ DELLA MEDIA
ARITMETICA
s
∑ (χi − µ ) ⋅ ni = 0
DIMOSTRAZIONE i =1
sostituendo a µ il suo valore
(χ1 − µ)n1 = χ1 ⋅ n1 − µ ⋅ n1 s
∑ χ i ni
(χ2 − µ)n2 = χ2 ⋅ n2 − µ ⋅ n2 s
i =1
s
∑ x i ⋅ ni − ∑ ni =0
(χi − µ)ni = χi ⋅ ni − µ ⋅ ni i =1
s
∑ ni i =1

(χs − µ)ns = χs ⋅ ns − µ ⋅ ns i =1
s

s s s ∑χ n i i s

∑x i ⋅ ni − µ ⋅ ∑ ni = ∑x ⋅n i i − i =1
s ∑n i =0
i =1 i =1 i =1
∑n
i =1
i
i =1
IIa proprietà della media
la somma dei quadrati degli scarti (xi - μ )
è uguale a un minimo
s 2

∑ (χ
i =1
i − µ ) ⋅ n i = min imo

La somma dei quadrati degli scarti dei valori dalla media


è sempre minore della somma dei quadrati degli scarti
dei valori da un qualsiasi altro valore diverso dalla media
(per esempio k)

∑ ( xi −µ ) 2
< ∑ ( xi −k ) 2
Esempio caso media semplice

Voto xi (xi-μ)2 (xi-k)2 (xi-s)2

26 (26-27)2=1 (26-25)2=1 (26-23)2=9


27 (27-27)2 =0 (27-25)2=4 (27-23)2=16
28 (28-27)2 =1 (28-25)2=9 (28-23)2=25
totale 2 14 50

26+ 27+ 28 81
µ= = = 27
3 3
2° PROPRIETA’ MEDIA
ARITMETICA …
s 2

∑ (χ
i =1
i − µ ) ⋅ n i = min imo
DIMOSTRAZIONE: Indichiamo con k un valore qualunque diverso da µ

k≠µ d = µ −k k = µ −d
s

Prendiamo gli scarti da k ∑ (χ


i =1
i − k ) ⋅ ni
2

∑ (χ − µ + d ) ⋅ ni
2
i
andando a sostituire k i =1
2° PROPRIETA’ MEDIA
ARITMETICA …
s

∑ (χ − µ + d ) ⋅ ni
2 risolvendolo l’espressione come un binomio
i (a+b)2 = a2 + b2 + 2ab
i =1

Dove
Il primo termine a = (x-μ)

Il secondo termine b = d
2° PROPRIETA’ MEDIA
ARITMETICA
s s s s
[(
∑ i χ − µ) + d ] ⋅
2
ni = (
∑ iχ − µ) ⋅ ni
2
+ d 2
∑ni + 2d∑(χi − µ)⋅ ni
i=1 i=1 i=1 i=1

s
Il terzo addendo è zero
per la I proprietà della
2 d ∑ (χ i − µ ) ⋅ n i
i =1
media

s s

∑ (χ i − k )
i =1
2
⋅ ni = (
∑ iχ
i =1
− µ )2
⋅ n i + d 2
N
2° PROPRIETA’ MEDIA
ARITMETICA

s s

∑ (χ i − k )
i =1
2
⋅ ni = (
∑ iχ
i =1
− µ )2
⋅ n i + d 2
N

Essendo il secondo termine al secondo membro una


quantità positiva, la somma dei quadrati degli scarti tra i
singoli termini e una quantità k= μ supera di d2N la somma
dei quadrati degli scarti dalla media

s 2
cvd
∑ (χ
i =1
i − µ ) ni < ∑ ( xi −k ) ni 2
PROPRIETA’ ASSOCIATIVA
La media aritmetica è associativa, in quanto,
suddividendo in due o più gruppi i valori della variabile x,
la media aritmetica della variabile è uguale alla media
aritmetica delle medie dei singoli gruppi ponderate con
le rispettive numerosità.

MEDIA GENERALE
20+21+22+23+24+25+26+27+28= 216/9=24
MEDIA PARZIALE Primo gruppo
20+21+22+23= 86/4=21,5
MEDIA PARZIALE Secondo Gruppo
24+25+26+27+28=130/5=26
Verifica Proprietà associativa
21,5X4+26x5=86+130=216/9=24
ALTRE PROPRIETA’
PROPRIETA’ TRASLATIVA o uniforme significa che se
si aggiunge una quantità h a ciascuno dei valori anche la
media risulterà ’aumentata di h

PROPRIETÀ OMOGENEA se si moltiplica ciascuno dei


valori per una quantità k anche la media risulterà
moltiplicata per k.
MEDIA GEOMETRICA
• Media geometrica è quel valore che sostituito ai
singoli termini ne lascia inalterato il prodotto:
• si ottiene estraendo la radice ennesima del
prodotto dei termini.

N
Mg = N χ1 ⋅ χ 2 ⋅ ..... ⋅ χ i ⋅ .....χ n = N π χ i
i =1

s
Mg = χ1 ⋅ χ 2 ⋅ ..... ⋅ χ i ⋅ .....χ s = π χi
N n1 n2 ni ns N ni
i =1
MEDIA GEOMETRICA

Sfruttando le proprietà dei logaritmi


l'espressione della media geometrica
può essere resa trasformando:
i prodotti in somme
le potenze in prodotti
MEDIA GEOMETRICA
caso semplice
N
Mg = N χ1 ⋅ χ 2 ⋅ ..... ⋅ χ i ⋅ .....χ n = N π χ i
i =1

Log χ1 + Log χ 2 + Log χ i + .... + Log χ s


LogMg =
N
caso ponderato
s
Mg = χ1 ⋅ χ 2 ⋅ ..... ⋅ χ i ⋅ .....χ s = π χi
N n1 n2 ni ns N ni
i =1

n1Logχ1 + n2 Logχ2 + ni Logχi + .... + ns Logχs


LogMg =
N
MEDIA ARMONICA
Media armonica caso semplice
è data dal reciproco della
media aritmetica dei N
reciproci dei termini.
Mar = N
1
∑χ
i =1
È usata quando non si è i
interessati alla sintesi di un
fenomeno, ma a quella di un caso ponderato
altro fenomeno che N
costituisce il reciproco del Mar = s
ni
∑χ
primo (es. studio della
velocità media che è data dal
rapporto tra spazio e tempo). i =1 i
MEDIA QUADRATICA
Media quadratica caso semplice
è data dalla radice N
quadrata della media
aritmetica dei quadrati dei
∑χ i
2

termini x. MQ = i =1

N
– È detta media di
precisione: è adoperata caso ponderato
se, in presenza di valori s
positivi e negativi, si
vogliono eliminare i ∑ i ⋅ ni
χ 2

segni MQ = i =1

N
Relazione tra medie
Il valore della media cresce al crescere dell’indice

Relazione d’ordine tra le medie analitiche


PREGI E DIFETTI DELLA MEDIA
Pregi della media
E’ un buon indicatore della tendenza centrale
E’ semplice da calcolare
Limiti della media
Risente in misura rilevante di ciò che accade sulle code
della distribuzione (è poco robusta)
Può essere molto sensibile alla presenza di
osservazioni anomale.
Non è infrequente che insiemi di dati contengano osservazioni
(al limite una sola) “anomale” nel senso che assumono valori
lontani (ad es. molto più grandi) da quelli assunti dalla maggior
parte delle osservazioni.
In simili circostanze la media aritmetica assumerà un valore
che non è più equamente rappresentativo di tutte le
osservazioni. 40
MEDIE LASCHE
Medie lasche o medie di posizione si ricavano in base alla
scelta di uno dei termini della distribuzione che si
differenzia dagli altri per alcune caratteristiche
particolari

Moda, Mediana, Quartili

Medie lasche vengono calcolate in base alla frequenza


o alla posizione occupata nella graduatoria delle
osservazioni.
Per variabili nominali/caratteri qualitativi sconnessi: moda
Per variabili ordinali/caratteri qualitativi: tutte
Per variabili cardinali/caratteri quantitativi: tutte
MODA
Si definisce MODA e si indica con Mo la modalità del
fenomeno che si presenta con la massima frequenza

Variabile nominale Variabile cardinale

Moda

xi ni
50
1 18
40
2 16
30
3 11
20
4 30 M
Moda
10
5 15
0
Mus ul ma no Ca ttol i co Prote s ta nte Buddi s ta
6 6
Variabili qualitative: la moda
60 1
54
48 0,8
42
36 0,6
30
24 0,4
18
12 0,2
6
0 0
sx csx cx cdx dx insuff 6m insuff 3m sufficiente

xi ni yi
Per variabili xi ni yi
Sinistra 20 0,113
qualitative la Sufficiente 33679 0,667
Centrosin. 45 0,254
Moda è la Insuff. 3 mesi 6291 0,124
Centro 39 0,220 modalità con la Insuff. 6 mesi 10574 0,209
Centrodes. 59 0,290 massima
X=acqua corr. 50544 1,000
Destra 20 0,113 frequenza.
X=deputati 177 1,000
Quando e come usare la MODA

Può essere utilizzata per qualunque tipo di variabile


(nominale, ordinale e cardinale) non risente dei valori
anomali, ma è poco informativa

Se si individua una sola moda, la distribuzione si


definisce unimodale; se i valori più frequenti sono due la
distribuzione si definisce “bimodale”
Variabile bimodale
60
54
48
42
36
30
24
18
12
6
0
sx csx cx cdx dx
MEDIANA

LA MEDIANA è la modalità che occupa il posto centrale


nella distribuzione ordinata dei dati.

• Essa bipartisce la distribuzione in due gruppi di


uguale numerosità.

– Al primo gruppo appartengono le osservazioni inferiori o


uguali alla mediana

– Al secondo gruppo appartengono le osservazioni superiori o


uguali alla mediana
CALCOLO MEDIANA
Per calcolare la mediana bisogna:
1. ordinare i valori osservati in ordine crescente
2. prendere il valore centrale nella graduatoria ordinata
verificando la numerosità del collettivo studiato

– Se N è dispari : MEDIANA=valore che occupa il posto


centrale nella graduatoria ordinata dei termini
• Posizione centrale
 N +1 
 
 2 

– Se N è pari : MEDIANA=valore individuato dalla semisomma


dei due termini che occupano i due posti centrali
• 2 posizioni centrali
 N   N +1 
   
 2   2 
MEDIANA: distribuzione unitaria
Se N è dispari
Me = χ N+1
 
 2 

VOTI 18 21 24 19 30

VOTI ORDINATI 18 19 21 24 30

M e = χ  5 +1  = χ (3)
 
 2 
MEDIANA = 21 poiché occupa il 3° posto
MEDIANA: distribuzione unitaria
Se N è pari

χ N  + χ N 
   +1 
Me =  2  2 

VOTI 18 21 24 19 30 20
VOTI ORDINATI 18 19 20 21 24 30

χ (3 ) + χ ( 4 ) 20 + 21
Me = = = 20,5
2 2
MEDIANA = 20,5 poiché compresa tra il 3° ed il 4° posto
ESEMPIO CALCOLO MEDIANA:
distribuzione di frequenza: dati discreti
VOTI ESAMI Ni
xi ni Per il calcolo della
mediana,
18 2 2 (N1) costruiamo la
colonna delle
19 9 11 (N2)
frequenze
20 5 16 (N3) cumulate Ni e
21 4 20 (N4) individuiamo la
modalità che
24 2 22 (N5)
occupa il posto
26 1 23 (N6) centrale
30 1 24 (N7 =N)
Totale N=24

χ + χ 20 + 20
 N 
 
 N


+1  χ (12 ) + χ (13 ) == = 20
M =  2   2 
=
e
2 2 2
CALCOLO MEDIANA:
distribuzione di frequenza: dati discreti
Caso N dispari
Per il calcolo della mediana, costruiamo le colonne delle frequenze
cumulate e individuiamo la modalità che occupa il posto centrale

Xi ni Ni % % cum

14 3 3 10,3 10,3
15 7 10 24,1 34,4
16 10 20 34,5 68,9
17 5 25 17,2 86,2
18 3 28 10,3 96,5
21 1 29 3,4 100,0
N=29

Me = χ N+1 M e = χ 29+1  = χ (15) MEDIANA =16


   
 2   2 
CALCOLO MEDIANA:
distribuzione di frequenza: dati discreti
Caso N pari
Per il calcolo della mediana, costruiamo le colonne delle frequenze
cumulate e individuiamo la modalità che occupano i posti centrali

Xi ni Ni % % cum

1 10 10 10,3 10,3
2 20 30 24,1 34,4
3 50 80 34,5 68,9
4 10 90 17,2 86,2
5 10 100 10,3 96,5
N 100

χ N  + χ N  χ (50 ) + χ (51 ) 3+3


   +1  Me = = =3
Me =  2  2 
2 2
2
CALCOLO MEDIANA

Per calcolare la MEDIANA con N grande (quindi in caso


di distribuzione di frequenza), possiamo anche utilizzare
le frequenze percentuali cumulate (o relative
cumulate)

La mediana corrisponde alla modalità la cui cumulata


percentuale è la prima a raggiungere e superare il
50% (o nel caso di frequenza cumulata relativa deve
essere raggiunta e superata la soglia 0,5)
CALCOLO MEDIANA
v.s. divise in classi (1)
Occorre:
• trovare la classe mediana cioè la classe che contiene
la mediana con il procedimento usuale (o anche la
classe a cui corrisponde una frequenza cumulata
superiore a N/2);

1) Calcolare il valore mediano con la formula:

χi +1−χi
Me = xi+ (N/ 2−Ni −1)
ni
CALCOLO MEDIANA:
v.s. divise in classi (2)
χi +1−χi
Me = xi+ (N/ 2−Ni −1)
ni
Xi= estremo inferiore della classe che contiene il valore mediano

Xi+1=estremo superiore della classe che contiene il valore mediano

ni = frequenza assoluta della classe che contiene il valore mediano

N = frequenze complessive

Ni-1=frequenza cumulata in corrispondenza della classe che precede


quella la classe mediana
ESEMPIO CALCOLO MEDIANA:
v.s. divise in classi (3)
Xi-X i+1 ni Ni

100-200 10 10
200-300 20 30
300-400 30 60
400-500 10 70
Totale N=70

1) Si individua la classe mediana che contiene il valore mediano: è


quella a cui corrisponde una frequenza cumulata superiore a N/2

1) Si individua il valore mediano

400 − 300
M e = 300 + (35 − 30) = 316,5
30
Quando usare la mediana
Si può utilizzare per variabili cardinali e per
variabili ordinali (caratteri qualitativi rettilinei)

La mediana è “robusta”, non è influenzata dalle


osservazioni estreme di un insieme di dati: nel caso di
valori anomali (lontani dall’andamento della
distribuzione) è opportuno sintetizzare il fenomeno
con la mediana piuttosto che con la media.

Limiti della mediana


E’ difficile da trattare analiticamente perché non tiene
conto di tutti i termini della distribuzione

56
Confronto media e mediana
La media può essere trattata con il calcolo algebrico,
mentre la mediana non può esserlo.

La media può essere ponderata per confrontare


collettivi/campioni con numerosità diversa, mentre la
mediana non può.

La mediana è meno sensibile (robusta) rispetto ai


valori estremi, mentre la media non lo è.
La scelta del valore medio:
media o mediana?
La scelta del valore medio da utilizzare dipende
da due dimensioni:
la capacità informativa
la robustezza
• Una misura ha una capacità informativa tanto
maggiore quanto più riesce a tener conto di tutti i
valori presenti nella distribuzione.
• Una misura ha una robustezza maggiore o minore
secondo il grado con cui resta influenzata dai valori
anomali eventualmente presenti nella distribuzione.
Esempi: media o mediana?
1) Distribuzione unitaria 4, 6, 8, 9, 11, 12, 12

Me=9 μ=8.8

2) Distribuzione unitaria 4, 6, 8, 9, 11, 12, 56

Me=9 μ =15.1

3) Distribuzione unitaria 4, 6, 8, 9, 91, 92, 96

Me=9 μ=44.3
Esempio: media o mediana? (1)
• Distribuzioni di tre diversi gruppi secondo l’età
Osserviamo i primi due gruppi: cosa succede?
Età Primo gruppo Secondo gruppo Terzo gruppo
18 37 37 37
22 29 30 30
23 21 20 20
24 23 23 23
25 23 23 18
64 0 0 5
Totale 133 133 133
Media 21,91 21,90 23,37
Mediana 23 22 22

La media dei due gruppi è identica, la mediana è diversa


La media possiede una più elevata capacità informativa
media o mediana? (2)
Distribuzioni di tre diversi gruppi secondo l’età
Osserviamo il secondo e il terzo gruppo : cosa succede?
Età Primo gruppo Secondo gruppo Terzo gruppo
18 37 37 37
22 29 30 30
23 21 20 20
24 23 23 23
25 23 23 18
64 0 0 5
Totale 133 133 133
Media 21,91 21,90 23,37
Mediana 23 22 22

La mediana dei due gruppi è identica, la media presenta valori


notevolmente diversi
La media è poco robusta, molto influenzata da valori anomali
QUALE MISURA? ESERCIZIO 3
Ripartizione geografica %
Italia Nord-occidentale 22,9 Che tipo di variabili
Italia Nord-orientale 22,5 sono e che valori
Italia Centrale 18,7 caratteristici di
Italia Meridionale 26,6 tendenza centrale
Italia Insulare 9,3 posso calcolare?
Totale 100,0
(N=60.000)

Tipo di comune %

Comuni fino a 2.000 ab. 12,4


Comuni con 2.001 – 10.000 ab. 34,7
Comuni con 10.001 – 50.000 ab 30,9
Comuni con oltre 50.000 ab. 22,0
Totale 100,0
(N=48.664)

Risposta: Trattandosi di variabili ordinali, si possono


calcolare la mediana e la moda.
QUALE MISURA? ESERCIZIO 3 soluzione
Ripartizione % %cum
geografica La mediana
Italia Nord-occidentale 22,9 22,9 corrisponde alla
Italia Nord-orientale 22,5 45,4 modalità Italia
Italia Centrale 18,7 64,1 centrale
Italia Meridionale 26,6 90,7 La moda alla
Italia Insulare 9,3 100,0 modalità Italia
Totale 100,0 meridionale
(N=60.000)

Tipo di comune % %cum

Comuni fino a 2.000 ab. 12,4 12,4


Comuni con 2.001 – 10.000 ab. 34,7 47,1 moda
Comuni con 10.001 – 50.000 ab 30,9 78,0 mediana
Comuni con oltre 50.000 ab. 22,0 100,0
Totale 100,0
(N=48.664)
QUALE MISURA? ESERCIZIO 4
N. di furti %
subìti
Che tipo di variabili
1 50,0
sono e che valori
2 25,0
caratteristici di
3 25,0
tendenza centrale
Totale 100,0
(N=200) posso calcolare?

Risposta: Trattandosi di una variabile cardinale, si possono


calcolare media, mediana e moda.
Settore economico intervistato % % cum.
Agricoltura 8,7 8,7
Attività manifatturiere 27,3 36,0
Servizi – terziario 38,7 74,7
Pubblica amministrazione e 25,3 100,0
istruzione
Totale 100,0
(N=46.349)

Risposta: Trattandosi di una variabile nominale, si può solo la moda.


QUARTILI (1)
I quartili dividono la distribuzione in 4 gruppi di
uguale numerosità
I quartili sono tre:
1°quartile Q1 (o inferiore) :valore al di sopra del
quale ricade il 25% dei casi

2°quartile Q2 (o mediano): valore al di sopra e al


sotto del quale ricade il 50% dei casi (coincide con la
mediana)

3°quartile Q3 (o superiore): valore al di sopra del


quale ricade il 75% dei casi
QUARTILI (2)
• Primo quartile Q1 = è il valore al di sopra del quale
stanno 1/4 dei valori della X e al di sotto del quale
stanno i 3/4 dei valori della X
1 N
Q1 = ⋅ N =
4 4
• Secondo quartile Q2 = coincide con la Mediana

2 1
Q2 = ⋅ N = ⋅ N = M e
4 2
• Terzo Quartile Q3 = è il valore al di sopra del quale
stanno 3/4 dei valori della X e al di sotto del quale
stanno 1/4 dei valori della X
3 3N
Q3 = ⋅ N =
4 4
CALCOLO QUARTILI
Come si calcolano:
• 1. Si ordinano in senso crescente le
modalità o i valori della variabile
• 2. Si calcolano le frequenze cumulate
• 3. Si calcola la posizione del quartile con
le apposite formule verificando la
numerosità della distribuzione
• 4. Si cerca nella distribuzione il valore
corrispondente alla posizione trovata
CALCOLO QUARTILI
Per calcolare la posizione del quartile occorre
verificare la numerosità del collettivo studiato

– Se N è dispari : Q1 = x N +1  Q3 = x 3N+1
   
 4   4 

– Se N è pari : χ N  + χ N  χ  3N  + χ  3N 
   +1    +1 
Q1 = 4 4 
Q3 =  4   4 

2 2
ESEMPIO CALCOLO QUARTILI
15 individui hanno espresso il loro giudizio su un libro di
recente pubblicazione (punteggio da 1 a 7).
I risultati sono:1 5 4 6 7 2 5 6 3 1 2 4 4 7 7
Trovare il 1° 2°e 3°quartile Caso N dispari
xi
1
ni
2
Ni
2  
()
Q1 = x N +1  = x 164 = x( 4 ) = 2
 4 

()
2 2 4
3 1 5 Q2 / Me= x N+1 = x 162 = x( 8) = 4
4 3 8  
 2 
5 2 10
6
7
2
3
12
15  
( )
Q3 = x 3N+1 = x 3*416 = x(12) = 6
 4 
Caso N pari
voti ni Ni
1
18 1
posizione 1 χ N  +χ N
6  

 +1 χ(5) +χ(6) 19+19
19 5 posizioni Q1 =  4 4 
= = =19
(2,3,4,5,6) 2 2 2
9
20 3 posizioni
(7,8,9) χ N +χ N
11  

 +1 χ(10) +χ(11) 21+21
21 2 posizioni Q2 =  2 2 
= = =21
(10,11) 2 2 2
14
22 3 posizioni
(12,13,14)
15 χ 3N  +χ 3N
23 1
posizione 15
 

 +1 χ(15) + χ(16) 23+24
18
Q3 =  4  4 
= = = 23,50
2 2 2
24 3 posizioni
(16,17,18)
20
25 2 posizioni
(19,20)
20
ESEMPIO CALCOLO QUARTILI
Caso N pari
QUARTILI CHE CONCIDONO
χ N  + χ N
 

 +1 χ(3) + χ(4) 2+2
xi ni Ni Q1 =  4 4 
= = =2
1 1 1
2 2 2
2 10 11 χ  N  + χ N
 

 +1 χ (6 ) + χ (7 ) 2+2
3 1 12 Q2 = 2 2 
= = =2
2 2 2
TOT 12

χ 3N  + χ 3N
 

 +1 χ(9) + χ(10) 2+2
Q3 =  4   4 
= = =2
2 2 2
ESEMPIO CALCOLO QUARTILI
Caso N pari
xi ni Ni χ N  +χ N
1 48 48
 

 +1 χ(16) +χ(17) 1+1
Q1 =  4 4 
= = =1
2 5 53 2 2 2
3 4 57
χ N  + χ N
4 5 62  

 +1 χ(32) + χ(33) 1+1
Q2 =  2 2 
= = =1
5 2 64 2 2 2
tot 64
χ3N +χ3N
 

 +1 χ(48) +χ(49) 1+2
Q3 = 4 4 
= = =1,5
2 2 2
CALCOLO QUARTILI
Per calcolare con N grande e quindi in caso di
distribuzione di frequenza, possiamo anche utilizzare le
frequenze percentuali cumulate (o relative cumulate)

Il primo quartile Q1 corrisponde alla modalità la cui


cumulata percentuale è la prima a raggiungere e
superare il 25% (o nel caso di frequenza cumulata
relativa deve essere raggiunta e superata la soglia 0,25)

Il terzo quartile Q3 corrisponde alla modalità la cui


cumulata percentuale è la prima a raggiungere e
superare il 75% (o nel caso di frequenza cumulata
relativa deve essere raggiunta e superata la soglia 0,75)
CALCOLO Quartile
v.s. divise in classi
χh +1−χh
Q1 = xh + (N/ 4−Nh −1)
nh
Xh= estremo inferiore della classe che contiene il quartile

Xh+1=estremo superiore della classe che contiene il quartile

nh = frequenza assoluta della classe che contiene il quartile

N = frequenze complessive

Nh-1=frequenza cumulata in corrispondenza della classe che


precede quella del quartile
CALCOLO Quartile
v.s. divise in classi
χh +1−χh
Q3 = xh + (3N/ 4−Nh −1)
nh
Xh= estremo inferiore della classe che contiene il quartile

Xh+1=estremo superiore della classe che contiene il quartile

nh = frequenza assoluta della classe che contiene il quartile

N = frequenze complessive

Nh-1=frequenza cumulata in corrispondenza della classe che


precede quella del quartile
L’ANALISI
MONOVARIATA:

Variabilità e mutabilità
Prof. Maria Carella
Variabilità
Le misure di tendenza centrale non sono
sufficienti alla comprensione dei fenomeni.
Una sintesi appropriata deve tener conto
del modo in cui si distribuiscono le diverse
modalità della variabile

VARIABILITA’

è l’attitudine del carattere a presentarsi


con diverse modalità
Dalle misure di tipicità
alle misure di variabilità
Xi Yi Se osserviamo, ad esempio le due distribuzioni
della variabile “età”, possiamo notare che
18 3 esse hanno la stessa media, pari a 21, ma
20 6 notiamo anche che le modalità sono
estremamente differenti.
20 9
20 16 Questa differenza viene colta attraverso gli
indici di variabilità.
21 20
Come per le misure di tendenza centrale,
23 30
indici di variabilità si differenziano a
25 63 seconda del tipo di variabile sottoposta ad
147/7 147/7 analisi.
Xi = 21 Yi = 21
Variabilità
• Nella terminologia statistica la variabilità
fa riferimento a caratteri quantitativi,
mentre per i caratteri qualitativi assume il
nome di mutabilità

• La misura della variabilità del carattere


deve sottostare a due importanti
condizioni:
1. la variabilità deve risultare sempre nulla se
tutti i termini osservati sono uguali;
2. la misura della variabilità deve crescere al
crescere della differenza tra le modalità
La mutabilità: variabilità per le
VARIABILI NOMINALI
• Per una variabile nominale possiamo ipotizzare due situazioni:
1. Se tutti i casi si addensano in una sola modalità (che sarà la moda di
quella variabile), avremo una situazione di massima omogeneità (o
squilibrio, o concentrazione)
2. Se tutti i casi sono, invece, equidistribuiti fra le modalità, ossia
quando ogni modalità raccoglie lo stesso numero di casi, si ha una
situazione di massima eterogeneità (o equilibrio, o dispersione)

Modalità Omogeneità Eterogeneità


E’ quindi necessario
individuare un indice
Ateo 0 25 che possa sintetizzare
Cattolico 100 25 la variabilità della
distribuzione di una
Protestante 0 25
variabile nominale.
Buddista 0 25
Totale 100 100
La mutabilità: variabilità per le
VARIABILI NOMINALI (1)
La misura di variabilità per le nominali è
l’indice di omogeneità k

O = y21 + y22 + … + y2k = Σi =1 y2i


L’indice di omogeneità è dato dalla somma dei quadrati delle
frequenze relative(o proporzioni)
• L’indice assume valore massimo=1 quando una sola
proporzione assume valore 1 (ossia tutti i casi si
concentrano in quella modalità) e tutte le altre hanno valore
0 (ossia nessun caso si concentra nelle restanti modalità).
• L’indice assume valore minimo quando tutte le frequenze
sono uguali tra loro e quindi uguali a 1/k (dove k è il numero
di modalità della variabile)
Il valore minimo 1/k dell’indice dipende, quindi, dal numero
di modalità
CALCOLO MUTABILITA’

Modalità (1) ni Modalità (2) ni


Ateo 25 Ateo 25
Cattolico 25 Cattolico 25
Protestante 25 Protestante 25
Buddista 25 Buddista
TOTALE 100 TOTALE 75

Confrontiamo le distribuzioni in colonna 1 e 2 si noterà che


sono identiche ma nel primo caso abbiamo 4 modalità, nel
secondo 3 modalità.
La mutabilità: variabilità per le
VARIABILI NOMINALI (1)
Modalità Prop. 1 (yi=ni/N) Prop. 2(yi=ni/N) Prop. 3(yi=ni/N)

Ateo 0,25 0 0,33


Cattolico 0,25 1 0,33
Protestante 0,25 0 0,33
Buddista 0,25 0 1
Totale 1 1
Ind. 0,252 + 0,252 + 0,252 02 + 12 + 02 + 02 = 1 0,332 + 0,332 + 0,332
omogeneità + 0,252 = 0,25 = 0,33

Se si confrontano le distribuzioni in colonna 1 e 3 si noterà che


entrambe sono identiche (ad ogni modalità è assegnato lo stesso
numero di casi), ma il risultato dell’indice di omogeneità sarà diverso:
nel primo caso è uguale a 0,25 (1/4 modalità), nel secondo è pari
a 0,33 (1/3 modalità).
Questo risultato perché il valore minimo assunto dall’indice dipende
dal numero di modalità della variabile.
La mutabilità: variabilità per le
VARIABILI NOMINALI (2)
La misura di variabilità per le variabili nominali è
l’indice di eterogeneità di Gini
E = 1- Σ y2i
L’indice di eterogeneità è il complemento ad uno dell’indice di
omogeneità
•L’indice assume valore= zero nel caso di completa
omogeneità del collettivo ovvero quando una sola
proporzione assume valore 1 (ossia tutti i casi si
concentrano in quella modalità)
•L’indice assume valori via via crescenti al crescere della
eterogeneità delle modalità
•fino ad assumere Emax=k-1/K
La mutabilità: variabilità per le
VARIABILI NOMINALI (1)
Modalità Prop. 1 Prop. 2 Prop. 3
Ateo 0,25 0 0,33
Cattolico 0,25 1 0,33
Protestante 0,25 0 0,33
Buddista 0,25 0 1
Totale 1 1
Ind. 0,252 + 0,252 + 0,252 + 02 + 12 + 02 + 02 = 0,332 + 0,332 + 0,332
Eterogeneità 0,252 = 1-0,25=0,75 1- 1=0 = 1-0,33=0,67

Se si confrontano le distribuzioni in colonna 1 e 3 si noterà che


entrambe sono identiche (ad ogni modalità è assegnato lo stesso
numero di casi), ma il risultato dell’indice di eterogeneità sarà
diverso: nel primo caso è uguale a 0,75 (4-1/4 modalità), nel
secondo è pari a 0,67 (3-1/3 modalità).
Questo risultato perché il valore massimo assunto dall’indice dipende
dal numero di modalità della variabile.
La mutabilità: variabilità per le
VARIABILI NOMINALI (2)
Per neutralizzare l’influenza del numero delle modalità diventa
utile in questo caso ricorrere all’indice relativo (indice
normalizzato) in modo che il suo campo di variazione sia uguale
per tutte le variabili
E E
Indice di eterogeneità relativa Erel
EMAX K-1/K
Campo di variazione: 0 ÷ 1
Modalità Prop. 1 Prop. 2 Prop. 3
Ateo 0,25 0 0,33
Cattolico 0,25 1 0,33
Protestante 0,25 0 0,33
Buddista 0,25 0 1
Totale 1 1
Indice Eterog. 0,75 =1 = 0 0,33= 1
relativa 4-1/4 3-1/3
La mutabilità: ricapitolando

Indice di eterogeneità di Gini


E = 1- Σ y2i

Assume valori compresi tra 0 e (k-1)/k (massimo)

Per normalizzarlo in modo che vari tra 0 e 1 bisogna


dividerlo per il suo massimo: Emax=k-1/K

E(relativo)=E/ Emax
La variabile W indica il livello di soddisfazione espresso da 12
intervistate (M= molto; A=abbastanza; P= poco; PN= per nulla).

W={M, A, P, A, P, M, M, A, PN, P, PN, P}

Si misuri l'eterogeneità di W.
wi ni yi yi2
M 3 0,250 0,063
A 3 0,250 0,063
P 4 0,333 0,111
PN 2 0,167 0,028
Totale 12 1 ∑=0,265

E(W)=1-∑y2i= 1-0,265=0,735

E(W)max=(K-1)/K= 3/4=0,75

E(relativo)=E(W)/ E(W)max=0,98
Misure della variabilità
Per misurare la variabilità la metodologia statistica
ricorre alle seguenti categorie di indici:
• Intervalli di variazione

• Indici di dispersione attraverso i quali si misura


quanto le modalità di una distribuzione differiscono da
un valore caratteristico della distribuzione stessa;

• Indici di disuguaglianza attraverso i quali si misura la


distanza fra tutte le modalità della distribuzione
stessa.
Variabilità
Gli indici possono essere distinti in

INDICI ASSOLUTI DI VARIABILITA’


sono espressi nella stessa unità di misura del
fenomeno

INDICI DI VARIABILITA’ RELATIVI


prescindono dall’unità di misura dei termini della
distribuzione per cui sono più adeguati per eseguire
il confronto tra fenomeni diversi
Misure della variabilità
A) INTERVALLI DI VARIAZIONE
Indici basati sulla differenza tra due valori posizionati
significativamente

CAMPO DI VARIAZIONE
osservazione più grande –osservazione più piccola
W = xS – x1

DIFFERENZA INTERQUARTILICA
quartile superiore – quartile inferiore
Dq = Q3 – Q1
Misure della variabilità:
B) INDICI DI DISPERSIONE
Indici basati sugli scarti dei singoli valori da una
loro media o dalla mediana

SCARTO SEMPLICE MEDIO

SCARTO SEMPLICE MEDIO DALLA MEDIANA

SCARTO QUADRATICO MEDIO

VARIANZA

DEVIANZA
Misure della variabilità
Lo SCARTO SEMPLICE MEDIO è la media aritmetica dei
valori assoluti degli scarti dalla media.
n

x1 − µ n1 + x2 − µ n2 + ... + xn − µ nn ∑ x −µni i
SM = = i =1
N N

LO SCOSTAMENTO SEMPLICE MEDIO DALLA


MEDIANA è la media aritmetica dei valori assoluti degli
scarti dalla mediana.
n
x1 − Me n1 + x2 − Me n2 + ... + xn − Me nn ∑ xi − Me ni
S Me = = i =1
N N
Misure della variabilità
SCARTO SEMPLICE MEDIO
N

∑ χi − µ (nel caso di una serie)


δ = i =1
N

∑ χ i − µ ni (nel caso di una distribuzione)

δ = i =1
N
Misure della variabilità
SCARTO DALLA MEDIANA
N

∑χ i − Me
(nel caso di una serie)
Sme = i =1
N
S

∑χ i − Me ⋅ ni
Sme = i =1
N
(nel caso di una distribuzione)
Misure della variabilità
Lo scarto quadratico medio è la media aritmetica
dei quadrati degli scarti dalla media sotto radice
E’ anche uguale alla media quadratica degli scarti.
È uguale alla radice quadrata della varianza

Scarto quadr. medio = σ =


(x − x ) + (x
1
2
2 )2
(
− x + ..... + xn − x )
2

N
La varianza è la media aritmetica dei quadrati
degli scarti dalla media

Varianza = σ 2
=
(x − x ) + (x
1
2
2 ) 2
(
− x + ..... + xn − x )
2

N
Misure della variabilità
SCARTO QUADRATICO MEDIO
(nel caso di una serie)
N
(
∑ iχ − µ )2

σ= i =1
N
(nel caso di una distribuzione)
S
(
∑ iχ − µ )2
ni
σ= i =1
N
Misure della variabilità
VARIANZA
N
(
∑ iχ − µ )2
(nel caso di una serie)
σ =
2 i =1

N
S
( χ −
∑ i ni µ)2

σ 2 = i=1
N (nel caso di una distribuzione)
Esempio: calcolo variabilità (1)
Si calcoli la varianza e lo scarto quadratico medio per la
variabile X che rappresenta il numero di posti letto
presenti in 6 reparti ospedalieri.

X (xi-μ) (xi-μ)2
Media=81/6= 13.5
14 0.5 0.25
n

∑ ( xi - µ ) 3 -10.5 110.25
2

1297.5
σ2 = i =1
= = 216.25 2 -11.5 132.25
N 6
45 31.5 992.25
n 11 -2.5 6.25
∑ (xi - x )
2

6 -7.5 56.25
σ= i =1
= 216.25 =14.71
N 81 0 1297.5

24
Esempio: calcolo variabilità (2)
Si calcoli la varianza e lo scarto quadratico medio per la variabile X
nella distribuzione di voti per un collettivo di 20studenti
Xi ni Xini (x-μ)^2*ni
10,89
μ=426/20=21,30
18 1 18 =(18-21,30)2*1
26,45
k
=(19-21,30)2*5
19 5 95
5,07 (x −µ
∑ i ⋅ni
)2
96,20
20 3 60 =(20-21,30)2*3 σ2 = i=1 = = 4,81
0,18 N 20
21 2 42 =(21-21,30)2*2
1,47
22 3 66 =(22-21,30)2*3
2,89
=(23-21,30)2*1
σ = 4,81 = 2,19
23 1 23
21,87
24 3 72 =(24-21,30)2*3
27,38
25 2 50 =(25-21,30)2*2
TOT 20 Σ=426 Σ=96,20
Misure della variabilità
DEVIANZA (numeratore della varianza)
N
Dev(Χ ) = ∑ (χ i − µ )
2
(nel caso di una serie)
i =1

S
Dev(Χ) = ∑(χi − µ ) ni
2
(nel caso di una distribuzione)
i =1

Dev(Χ )
σ = 2
= Var(Χ )
N
Esempio: calcolo devianza
Calcolare la devianza dell’età, espressa in anni, di 6
bambini iscritti ad una scuola di pianoforte:
5; 6; 7; 7; 8; 10.

1) si deve calcolare prima la media:


5 + 6 + 7 + 7 + 8 +10 43
µ= = = 7.16
6 6
2) in seguito la Somma dei Quadrati degli scarti di ogni valore dalla
media:

= (5 - 7.16)2+(6-7.16)2+(7-7.16)2+(7-7.16)2+(8-7.16)2+(10-7.16)2=
=4.665 + 1.346 + 0.026 + 0.026 + 0.706 + 8.066 = 14.835
La varianza: formula alternativa (1)
La varianza si può calcolare anche come differenza fra la
media quadratica al quadrato e il quadrato della media
aritmetica.
σ2
= M2
q −µ
2

1) Partiamo dalla 2 proprietà della media aritmetica

ovvero
La varianza: formula alternativa (2)
2) Dividendo tutto per N e semplificando si ricava:
s s

∑ (χ − µ ) ⋅ ni ∑ (χ − k ) ⋅ ni
s
( )
2 2
i i 2
d N ∑ iχ − k
2
⋅ ni
i =1
= i =1
− σ2 = i =1
− d2
N N N N

3) Sapendo che d=μ – k si ricava

4) Ponendo K= 0
La varianza: formula alternativa (3)

ovvero

spostando Mq2 a primo membro, possiamo anche


scrivere che Mq2=μ2+ σ2
La scelta delle misure di
variabilità/dispersione
Le misure di variabilità/indici di dispersione
(caratteri quantitativi) di uso più frequente
nello studio dei fenomeni sociali sono:

Il campo di variazione
La differenza interquartile
Lo scarto quadratico medio e la varianza

Come scegliere tra le diverse misure


della dispersione?
Come scegliere tra le diverse
misure della dispersione?
• Il Campo di Variazione non è una buona
misura della variabilità sebbene sia di facile
comprensione.

• Ha una bassa capacità informativa perché


dipende soltanto dai valori estremi della
distribuzione, non tiene conto dei valori
intermedi che sono in generale i più
numerosi.

• Poco robusta perché risente dei valori


anomali della distribuzione.
Campo di variazione(1)
Distribuzioni di tre diversi gruppi secondo l’età

Età Primo gruppo Secondo Terzo gruppo


gruppo

18 37 37 37
22 29 30 30
23 21 20 20
24 23 23 23
25 23 23 18
64 0 0 5
Totale 133 133 133
Campo di variazione 25-18=7 25-18=7 64-18=46

CAMPO DI VARIAZIONE: misura con scarsa capacità


informativa e non robusta
Come scegliere tra le diverse
misure della dispersione?
• La differenza interquartilica:

• Misura che ha una bassa capacità


informativa perché non tiene conto di tutti
i valori della distribuzione e molto robusta
perché non risente dei valori anomali della
distribuzione.

• È più adattabile come misura della


dispersione rispetto allo s.q.m. quando ci
sono outlier o dati asimmetrici.
Differenza interquartile(2)
Distribuzioni di tre diversi gruppi secondo l’età
Età Primo Ni Secondo Ni Terzo Ni
gruppo (ni) gruppo (ni) gruppo (ni)
18 37 37 37 37 37 37
22 29 66 30 67 30 67
23 21 87 20 87 20 87
24 23 110 23 110 23 110
25 23 133 23 133 18 128
64 0 - 0 - 5 133
Totale 133 133 133
Q1 Caso 34 X=18 Caso 34 X=18 Caso 34 X=18
Q3 Caso 100 X=24 Caso 100 X=24 Caso 100 X=24

DIFFERENZA INTERQUARTILE: misura robusta (non risente


dei valori anomali presenti nella terza distribuzione) con scarsa
capacità informativa (non tiene conto delle differenze presenti
nelle distribuzioni)
Come scegliere tra le diverse
misure della dispersione?
• Lo scarto quadratico medio (σ) si usa quando
i dati non sono troppo asimmetrici o quando,
come valore medio, si è usata la media
aritmetica
Misura che ha un’elevata capacità
informativa perché tiene conto di tutti i
valori della distribuzione
Ha un basso grado di robustezza perché è
influenzata dai valori anomali
Risente della grandezza della media della
variabile
Scarto quadratico medio(3)
Distribuzioni di tre diversi gruppi secondo l’età

Età Primo Secondo Terzo


gruppo gruppo gruppo

18 37 37 37
22 29 30 30
23 21 20 20
24 23 23 23
25 23 23 18
64 0 0 5
Totale 133 133 133
Scarto quadratico medio 2,617 2,615 8,424
Media 21,91 21,90 23,37
Scarto quadratico medio: misura con elevata capacità
informativa e non robusta
Ricapitolando:
le misure di variabilità (dispersione)
e mutabilità
variabili nominali e ordinali (caratteri qualitativi)
indice di eterogeneità

variabili cardinali (caratteri quantitativi)


Campo di variazione, differenza interquartile,
scarti dalla media e dalla mediana
Misure della variabilità
C) Indici basati sulle differenze tra i termini
(MISURE DI DISEGUAGLIANZA)

LA DIFFERENZA MEDIA
è la media delle differenze tra ciascuna quantità
e tutte le altre
misura la diseguaglianza media tra i termini della
distribuzione
Differenza media
La differenza media è calcolata utilizzando le differenze
tra i termini della distribuzione in valore assoluto :
d ih = xi − xh

Tali differenze possono essere:


• con ripetizione, quando si considerano tutte le
differenze possibili, quindi anche quelle ripetute (le
differenze tra ciascuno termine e se stesso );

• senza ripetizione, quando si considerano solo le


differenze diverse.
Differenza media

DIFFERENZA SEMPLICE MEDIA (senza ripetizione)

N N S S

∑∑ χ i − χh ∑∑ χ i − χ h ⋅ ni nh
∆= i =1 h =1
∆= i =1 h =1
N ( N − 1) N ( N − 1)

al denominatore si considera il numero di tutte le differenze


ad eccezione di quelle nulle (ovvero si escludono le differenze
con termini uguali)
Differenza media
DIFFERENZA MEDIA (con ripetizione)

N N S S

∑∑ χ i − χh ∑∑ χ i − χ h ⋅ ni nh
∆R = i =1 h =1
2
∆R = i =1 h =1
2
N N

al denominatore si considera il numero di tutte le differenze


incluse quelle con termini uguali (si calcolano anche le
differenze ripetute)
Esempio calcolo: Differenze medie
Calcolare il valore della differenza media con e senza
ripetizione sui seguenti dati: xi= 1; 2; 4; 7
N N

∑∑ χ i − χh
∆= i =1 h =1
N ( N − 1)
1−2 + 1−4 + 1−7 + 2 −1 + 2 −4 + 2 −7 + 4 −1 + ......
∆=
4(4 −1)

La somma dei valori assoluti di tutte le differenze sarà


quindi:1+3+6+1+2+5+3+2+3+6+5+3=40
La differenza media è 40/12=3,3 con ripetizione 40/16=2,5
Metodo di calcolo differenze medie
LA MATRICE QUADRATA
Dati i valori x1, x2, …, xn –ordinati in modo crescente – si calcolano le
all’interno della matrice le differenze fra ciascun termine e tutti
gli altri, compreso se stesso. Si ottiene il quadro delle
differenze, i cui termini posti sulla diagonale principale sono
nulli.
x1 x2 … xi xn

x1 x1-x1 x2-x1 … xi-x1 xn-x


x2 x1-x2 x2-x2 … xi-x2 xn-x2
: : : … : :
xi x1-xi x2-xi … xi-xi xn-xi
xn x1-xn x2-xn … xi-xn xn-xn

Il numero delle differenze è N2, di cui N nulle


e quindi N2 - N = N (N - 1) sono diverse da zero.
Esempio calcolo: Differenze medie
Calcolare il valore della differenza media con e senza
ripetizione sui seguenti dati:
xi= 1; 2; 4; 7
1 2 4 7 Tot righe
1 1-1=0 2-1=1 4-1=3 7-1=6 10
2 1-2=1 2-2=0 4-2=2 7-2=5 8
4 1-4=3 2-4=2 4-4=0 7-4=3 8
7 1-7=6 2-7=5 4-7=3 7-7=0 14
Tot.col 10 8 8 14 40

La differenza media senza ripetizione è :


2*(1+3+6+2+5+3)/12=40/12=3,3

La differenza media con ripetizione è 40/16=2,5


Esempio calcolo: Differenze medie
Caso distribuzione: calcolare il valore della differenza
media sui seguenti dati:

Xh ni Xi,h 1 2 3 4 TOT
Xi RIGA
1 4 1 --- 24 16 60 100
2 6 2 24 --- 12 60 96
3 2 3 16 12 --- 10 38
4 5 4 60 60 10 --- 130
17 TOT COL 100 96 38 130 364

1 − 1 4 ⋅ 4 + 1 − 2 4 ⋅ 6 + 1 − 3 4 ⋅ 2... 0 + 24 + 16 + ...
=
17(17 − 1) 17 ⋅16
L’ANALISI
MONOVARIATA:

Variabilità relativa
Prof. Maria Carella
Gli indici di variabilità assoluti
sono sufficienti?
Gli indici di variabilità assoluti non sono sempre
adeguati quando si confrontano le variabilità di
distribuzioni differenti in particolare perché:
1. i caratteri delle distribuzioni possono essere in
unità di misura diverse
2. le intensità medie delle distribuzioni possono
essere differenti

Indici di variabilità relativi

alla media al massimo


INDICI
RELATIVI DI VARIABILITA’
Per i confronti si ricorre ad indicatori adimensionali
ottenuti in due modi:

1. dividendo gli indici per la media;


COEFFICIENTE DI VARIAZIONE

2. dividendo gli indici per il valore massimo che l’indice


può assumere (INDICI NORMALIZZATI).
Coefficiente di variazione
• Il coefficiente di variazione è dato dal rapporto
percentuale tra lo scarto quadratico medio e la
media aritmetica
CV = σ/μ X100
misura la dispersione dei dati dalla media, ma è un
numero puro (adimensionale)

E’ particolarmente utile quando si devono


confrontare le distribuzioni di due gruppi con
medie molto diverse o le distribuzioni di dati
espressi in scale differenti
Es. peso in kg e statura in cm
Concentrazione (1)
Per misurare la variabilità particolare importanza assume
la misura della concentrazione

Si utilizza per studiare la distribuzione di un carattere


tra le N unità statistiche osservate

La concentrazione riguarda esclusivamente i caratteri


trasferibili (caratteri che possono essere spostati da
un’unità statistica ad un’altra: es. reddito, denaro,
oggetti, azioni)
Concentrazione (2)
Si possono avere due situazioni estreme:

• la concentrazione è nulla (pari a 0) se tutte le


unità detengono lo stesso ammontare del carattere

• la concentrazione è massima (pari a 1) se l'intero


ammontare del carattere è detenuto da una sola
unità

LA CONCENTRAZIONE indica come è distribuito un


carattere rispetto alle ipotesi di equidistribuzione
o di massima concentrazione.
Concentrazione (4)
Equidistribuzione
Concentrazione intermedia REDDITO PERSONE
250 A
xi ni
250 B
REDDITO PERSONE
250 C
100 A 250 D
200 B 1000 N=4
300 C
Max concentrazione
400 D
REDDITO PERSONE
1000 N=4
0 A
0 B
0 C
1000 D
1000 N=4
Misura e calcolo
della concentrazione
Per quantificare la concentrazione:
1. Ordiniamo le modalità del carattere in
senso crescente;

2. costruiamo la serie cumulata sia del


carattere che dei possessori della
relativa frazione di carattere;

3. sarà in definitiva una sequenza di frazioni


che esprimeranno una i-esima porzione di
osservati rispetto ad una i-esima porzione
di carattere posseduta dai medesimi.
Calcolo della concentrazione (1)
Si consideri un carattere trasferibile X, osservato su
un collettivo di n unità ordinate in senso crescente
Calcoliamo:
1) Frazioni cumulate delle unità osservate
(frazione dei possessori cumulati del
carattere=frazione redditieri)

i Ni
pi = oppure pi =
N N
2) Frazioni cumulate del carattere posseduto dalle
rispettive frazioni di possessori (frazione rispettivi
redditi)
Ai Ai=cumulate di xi nel
qi = caso di una serie
AN Ai=cumulate di
ai=xi*ni nel caso di
una distribuzione
Calcolo della concentrazione (2)
Le differenze tra pi e qi sono misure dirette della
concentrazione.

Le differenze pi-qi saranno:


• tutte uguali a 0 (nulle) nel caso di equidistribuzione,
• tutte uguali a pi nel caso di massima concentrazione
• tutte non negative nei casi intermedi.

• È possibile sintetizzare tali differenze attraverso


l’indice
N −1

∑(p i − qi )
i =1
Calcolo della concentrazione (3)
N −1

∑(p i − qi )
i =1

La sommatoria arriva fino al termine (N -1) poiché


l’ultima differenza è sempre uguale a 0 essendo pi=qi = 1
Questo indice assume valore minimo in caso di
equidistribuzione e il suo valore massimo nel caso di
massima concentrazione.
Per trasformare questo indice in un indice di
concentrazione relativo, variabile tra 0 e 1, basta
dividerlo per il suo valore massimo cioè
N −1

∑p
i =1
i
Calcolo della concentrazione (3)
Rapporto di concentrazione di Gini
N −1

∑(p i − qi ) 0 ≤ R ≤1
i =1
R= N −1

∑p
i =1
i

0
R = − 1
R=0 pi=qi
N

∑i = 1
p i

N −1

R=1 qi=0 ∑ p i
R = i=1
N −1


i=1
p i
CONCENTRAZIONE
INTERMEDIA
Frazioni Frazioni
xi ni cumulate cumulate
redditieri reddito
pi= i/N qi=Ai/AN
Reddito Redditieri i Ai=cumxi pi - qi

100 (x1) A (n1) 1 100 1/4= 0,25 100/1000= 0,10 0,15

200 (x2) B (n2) 2 300 2/4= 0,50 300/1000= 0,30 0,20

300 (x3) C (n3) 3 600 3/4= 0,75 600/1000= 0,60 0,15

400 (x4) D (n4) 4 (AN)1000 (4/4= 1) (1000/1000= 1) 0


N −1
(1000) N=4 ∑
i =1 pi
=1,5 ∑ =0,5

N −1

∑ ( p i − qi)
0 ,5
R = i=1
N −1
= = 0 , 33
1,5
∑ i=1
p i
CONCENTRAZIONE NULLA
(EQUIDISTRIBUZIONE)
Frazioni Frazioni
xi ni cumulate cumulate
redditieri reddito
pi= i/N qi=Ai/AN
Reddito Redditieri i Ai=cum xi pi - qi

250 (x1) A (n1) 1 250 1/4= 0,25 250/1000= 0,25 0

250 (x2) B (n2) 2 500 2/4= 0,50 500/1000= 0,50 0

250 (x3) C (n3) 3 750 3/4= 0,75 750/1000= 0,75 0

250 (x4) D (n4) 4 (AN)1000 (4/4= 1) (1000/1000= 1) 0


N −1
(1000) N=4 =1,5 ∑ =0

i =1 pi
N −1

∑ ( p i − qi)
0
R = i=1
N −1
= = 0
1,5

i=1
p i
CONCENTRAZIONE MASSIMA
Frazioni Frazioni cumulate
xi ni cumulate reddito
redditieri
pi= i/N qi=Ai/AN
Reddito Redditieri Ai pi - qi

0 (x1) A (n1) 0 1/4= 0,25 0/1000= 0 0,25

0 (x2) B (n2) 0 2/4= 0,50 0/1000= 0 0,50

0 (x3) C (n3) 0 3/4= 0,75 0/1000= 0 0,75

1000 (x4) D (n4) (AN)1000 (4/4= 1) (1000/1000= 1) 0


N −1
(1000) N=4 =1,5 ∑ =1,5

i =1 pi

N −1

∑ ( p i − qi)
1,5
R = i=1
N −1
= = 1
1,5

i=1
p i
LA CURVA DI CONCENTRAZIONE (1)
Rappresentando graficamente le coppie di valori di pi (in ascisse)
e qi (in ordinate) e congiungendo i punti risultanti si ottiene una
spezzata che prende il nome di curva di concentrazione o curva di
Lorenz.
1

qi

0,8

0,6

0,4

0,2

0
0 0,2 0,4 pi 0,6 0,8 1
LA CURVA DI CONCENTRAZIONE (2)
La curva di Lorenz è sempre convessa verso l’asse delle
ascisse, perché a successivi incrementi uguali fra loro delle pi
corrispondono incrementi crescenti delle qi, avendo ordinato le
xi in senso crescente.
1

qi

0,8

0,6

0,4

0,2

0
0 0,2 0,4 0,6 0,8 1
pi
LA CURVA DI CONCENTRAZIONE (3)
Nel grafico si riporta anche la retta di equidistribuzione che è
il segmento che congiunge il punto (0, 0) al punto (1, 1).
Qualsiasi punto situato su tale segmento ha coordinate uguali

0,8

0,6

0,4

0,2

0
0 0,2 0,4 0,6 0,8 1
LA CURVA DI CONCENTRAZIONE (4)
La curva di concentrazione cambia la sua forma:

più è vicina alla retta di equidistribuzione e più l’ammontare


totale del carattere è equidistribuito fra le unità;

più è vicina all’asse delle ascisse e maggiore è la concentrazione


del carattere

E’ naturale quindi costruire indici di concentrazione basati


sullo “scostamento” della curva di concentrazione dalla retta
di equidistribuzione (bisettrice).

Si usano :
1. Le distanze verticali tra la curva di concentrazione e la bisettrice
2. L’area compresa tra la curva di concentrazione e la bisettrice.
In ambedue i casi: Rapporto di concentrazione di Gini.
CURVA e RAPPORTO DI CONCENTRAZIONE
Le distanze verticali tra la curva di concentrazione e la retta di
equidistribuzione sono date dalle differenze pi – qi.
Si noti come pi-qi ≥ 0 per ogni i
Sommando le differenze e dividendo per il valore massimo che tali
differenze possono assumere otteniamo il Rapporto di concentrazione di
Gini
1

0,8

N −1

∑ (p i − qi )
R= 1 0,6
N −1

∑p
i =1
i
0,4

P3-q3

0,2 P2-q2

0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
AREA DI CONCENTRAZIONE
In alternativa misuriamo l’area tra la curva di concentrazione e
la retta di equidistribuzione che prende il nome di
area di concentrazione.

0,8

0,6

0,4

0,2

0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
AREA DI CONCENTRAZIONE
Una misura esatta dell’area di concentrazione può essere ottenuta
sottraendo all’area del triangolo OAB la somma delle aree degli
n trapezi rettangoli sotto la curva delimitati dai punti (Pi,Qi) per
i =0,1,…,n.
Area di concentrazione
AREA DEL TRIANGOLO OAB =

OB ⋅ BA 1 ⋅1 1
= =
2 2 2
cioè prodotto dei cateti che misurano
ciascuno 1
Area di concentrazione

AREA DI UN GENERICO TRAPEZIO

• BASE MAGGIORE = qi
• BASE MINORE = qi-1
• ALTEZZA = pi-pi-1
Area di concentrazione
• BASE MAGGIORE = qi
• BASE MINORE = qi-1
• ALTEZZA = pi-pi-1
Area del trapezio:
½ x Somma delle basi x
1 altezza
0,9
0,8
qi
0,7
0,6
A qi
0,5 qi −1
0,4
0,3
0,2 pi −1 pi
0,1 pi
1
0
0 0,2 0,4 0,6 0,8 1
Ai = ( pi − pi −1 )(qi + qi −1 )
2
altezza Somma basi
AREA e RAPPORTO DI CONCENTRAZIONE

Avendo detto che AREA DI CONCENTRAZIONE =


Area del triangolo OAB – somma delle aree dei trapezi
e dividendo tutto per il valore assunto da tale area nel caso di
concentrazione massima cioè dividendo per OAB si ottiene

R= area triangolo OAB-somma aree dei trapezi


area del triangolo OAB

− ∑ ( p i − p i −1 )(q i + q i −1 )
1 1
R = 2 2 =
1
2
AREA e RAPPORTO DI CONCENTRAZIONE

con qualche passaggio algebrico si ottiene


AREA e RAPPORTO DI CONCENTRAZIONE

• Rapporto di concentrazione

R =1− ∑( pi − pi−1 )(qi + qi−1 )


0 ≤ R ≤1
ASIMMETRIA E
CURVA NORMALE

PROF. Maria Carella

Elementi di statistica sociale


e demografia
Dalla descrizione alla sintesi
Le misure sintetiche cercano di individuare un’unica
modalità che rappresenti al massimo tutte le altre
presenti nella distribuzione

TRE TIPOLOGIE
indici di tendenza centrale o di posizione
indici di variabilità
indici di forma
Gli indici di forma
Sono indici sintetici utilizzati per
evidenziare particolarità nella forma della
distribuzione a partire dallo studio della
curva di frequenza

Due tipologie di indici


• indici di asimmetria
• indici di curtosi
LE CURVE DI FREQUENZA
Curva di frequenza

Linea che congiunge i punti della rappresentazione


grafica di un fenomeno
(sia esso un diagramma cartesiano o un istogramma)

Dallo studio dei fenomeni concreti si evince un


sostanziale addensamento delle osservazioni verso
valori caratteristici della distribuzione stessa
Simmetria (a)
1. Una distribuzione statistica è simmetrica quando la
sua curva di frequenza presenta un’ asse di simmetria
2. L’asse di simmetria è determinato dal valore
mediano che bipartisce la distribuzione in parti
contenenti lo stesso numero di osservazioni
Confronto di distrib. norm ali
1° distrib. normale

0,25
•media = mediana =
0,2 moda
frequenza

0,15

0,1

0,05

0
0 2 4 6 8 10 12 14 16
valori della variabile
Simmetria (b)
3. Individuato un asse di simmetria, il ramo a destra
della mediana si può sovrapporre al ramo a sinistra
tramite un ribaltamento intorno all’ordinata
condotta per il punto mediano
4. In una distribuzione simmetrica (unimodale)
media, mediana e moda coincidono
Confronto di distrib. norm ali
1° distrib. normale

0,25
•media = mediana =
0,2 moda
frequenza

0,15

0,1

0,05

0
0 2 4 6 8 10 12 14 16
valori della variabile
Simmetria e Asimmetria
Una distribuzione è simmetrica se nella sua
rappresentazione grafica presenta due rami
sovrapponibili ribaltandoli intorno all’asse di simmetria
(μ = Me = Mo)

Se ciò non si verifica allora la rappresentazione grafica


della distribuzione di frequenza presenterà un
andamento asimmetrico

La distribuzione è asimmetrica quando non presenta


nessun asse di simmetria

In una distribuzione asimmetrica media, mediana e moda


non sono più coincidenti
Asimmetria positiva (a destra)
Si ha un’asimmetria positiva o a destra quando:
il ramo destro della curva è più lungo di quello sinistro
si osserva una tendenza della curva di frequenza a
presentare maggiore addensamento negli scarti positivi a
destra rispetto al punto mediano
Asimmetria positiva o destra

12

•In questo caso 10

8
•moda < mediana < media frequenza
6

0
0 20 40 60 80 100 120 140 160
valori •media=63,6
•moda = 48
•mediana=58 8
Asimmetria negativa (a sinistra)
Si ha un’asimmetria negativa o a sinistra quando
il ramo sinistro della curva è più lungo di quello destro
si osserva una tendenza della curva di frequenza a
presentare maggiore addensamento negli scarti a sinistra
rispetto al valore mediano
Asimmetria negativa o as. sinistra

14
12
•In questo caso si ha: 10

frequenza
8

•media < mediana < moda 6


4
2
0
0 20 40 60 80 100 120 140

•media = 85,24 valori

•mediana = 90 •moda =100


9
INDICI DI ASIMMETRIA
Per verificare la simmetria ed eventualmente misurare
l’asimmetria di una distribuzione si utilizzano alcuni
indici.

Avendo visto che nel caso di curve simmetriche


(unimodali) μ = Me = Mo,
un indice assoluto di asimmetria può essere la
differenza μ - Me oppure μ – Mo

Poiché però le differenze assolute non sono comparabili


per distribuzioni espresse in unità di misura diverse si
utilizzano altri indici.
INDICI DI ASIMMETRIA
INDICE DI ASIMMETRIA (Sk = SKEWNESS)

media aritmetica − moda µ − moda


asimmetria = =
scarto quadratico medio σ
Sk = 0 CURVA SIMMETRICA

Sk > 0 (valori positivi) ASIMMETRIA POSITIVA (μ >Mo)

Sk < 0 (valori negativi) ASIMMETRIA NEGATIVA (μ<Mo)


INDICI DI ASIMMETRIA
INDICE DI ASIMMETRIA (Sk = SKEWNESS)
ha vari difetti:

Non è adatto a misurare l’asimmetria delle


distribuzioni plurimodali

Non varia tra limiti determinati

Contiene la moda che è difficile da calcolare per


v.s. con un numero limitato di casi o con forti
perturbazioni
INDICI DI ASIMMETRIA
per distribuzioni non molto asimmetriche vale la relazione:

INDICE DI ASIMMETRIA

3(media aritmetica − mediana ) 3( µ − M e)


asimmetria = =
scarto quadratico medio σ
INDICI DI ASIMMETRIA
COEFFICIENTE DI ASIMMETRIA (PEARSON)
N

∑ (χ i − µ )3 caso semplice
γ = i=1

1 3

∑ (χ i − µ )3 n i caso ponderato
γ = i=1

1 3

γ1 = 0 CURVA SIMMETRICA
γ1 > 0 (valori positivi) ASIMMETRIA POSITIVA
γ1 < 0 (valori negativi) ASIMMETRIA NEGATIVA
La presenza di σ3 è dovuto alla necessità di conservare il segno
che determina il tipo di asimmetria della distribuzione
CURVA NORMALE O GAUSSIANA
LA CURVA NORMALE è la curva continua
rappresentativa delle distribuzioni che più
frequentemente si incontrano in statistica
CURVA NORMALE O GAUSSIANA
La distribuzione empirica che si incontra più
frequentemente è quella in cui i valori estremi
sono i più rari, quelli centrali sono i più numerosi.

Statura cm ni
120 2 12
121 2
10
122 3
123 7 8

124 8 6
125 11
4
126 7
127 5 2

128 2 0
129 2 120 121 122 123 124 125 126 127 128 129 130

130 1
Totale 50
CURVA NORMALE O GAUSSIANA
La curva normale o curva degli errori accidentali
fu proposta da Gauss (1809) nell’ambito della
teoria degli errori.

Gauss dimostrò che, per alcuni fenomeni, le misure


differenti, ottenute misurando più volte una stessa
grandezza e che sono dovute a perturbazioni
assimilabili ad errori accidentali, si distribuiscono
secondo una curva definita

Il nome normale deriva dalla convinzione che


soprattutto in fisica e in biologia molti fenomeni si
distribuiscono seguendo l’andamento della curva
degli errori accidentali con frequenze più elevate
nei valori centrali e frequenze progressivamente
minori verso gli estremi della variabile
Espressione della curva normale
L’espressione algebrica della CURVA DI GAUSS è:


( χ − µ )2
N
y= e 2σ 2
dove
σ 2π
e = 2,71828 costante matematica (base dei logaritmi)
π = costante matematica approssimata 3,14
σ = scarto quadratico medio
(X-μ)2 = scarto dalla media della distribuzione al quadrato
Espressione della curva normale

L’espressione algebrica della Curva Normale


(Y) dipende solo da N, μ e σ

Identificano i 3 parametri :

N = area sotto la curva


μ = ascissa del punto di massimo
σ = distanza in valori assoluti di ciascun punto
di flesso dal punto di massimo
CURVA NORMALE O GAUSSIANA

N = area sotto la
curva

σ σ

La curva presenta due punti di flesso


in corrispondenza
delle ascisse μ-σ e μ+σ
Caratteristiche della curva normale
1. La curva presenta una forma simmetrica e campanulare

1. La curva è perfettamente simmetrica all’ordinata massima e


quindi rispetto al valore medio

2. Il valore di xi = µ coincide anche con la mediana e la


moda della distribuzione

3. La curva è asintotica all’asse delle ascisse da entrambi i lati

4. La curva è crescente per valori della X che vanno da -∞ a µ


è decrescente per valori che vanno da µ a +∞

5. Presenta due punti di flesso in corrispondenza di µ+σ e


µ-σ
La forma della curva normale
• La forma e la posizione della curva normale
cambiano al variare dei parametri:
– Se varia N: si hanno diverse curve normali
sovrapposte le une alle altre che differiscono
tra di loro per l’area compresa sotto la curva

– Se varia μ: varia la posizione dell’asse di


simmetria sull’asse delle ascisse (la curva
subisce delle traslazioni)

– Se varia σ: varia la distanza tra asse di


simmetria e punti di flesso della curva normale
La forma della curva normale (1)

Il parametro µ (valore medio) individua la posizione


occupata dalla curva nel piano. Infatti, tenendo
costante σ e facendo variare µ, la curva trasla
semplicemente lungo l’asse delle ascisse

µ1 µ2 µ3 x

µ1 < µ2 < µ3
La forma della curva normale (3)
Dal grafico si
nota che se è σ
piccolo, la curva
è stretta ed
allungata. Ciò
significa che i
dati si addensano
attorno al valore
medio
distribuzione.

Se è σ grande, la curva si abbassa e si allarga. Ciò


significa che i dati si addensano di meno rispetto al valore
medio. Ovvero i dati si disperdono di più e si allontanano dal
valore medio.
Utilità della
CURVA NORMALE
L’area sotto la curva normale rappresenta il numero
totale di osservazioni (N) della distribuzione empirica

Il calcolo dell’integrale della curva normale permette di


individuare porzioni di aree sottese alla curva:
permette cioè di misurare le frequenze delle unità di
un carattere X comprese tra due valori qualunque
della distribuzione
 X − µ 
2
X − 
N  2σ
F (X ) = ∫
− ∞ σ 2π
e 
CURVA NORMALE
STANDARDIZZATA (1)
Il calcolo dell’integrale della curva normale è complicato

E’ noto che al variare dei parametri μ e σ le curve


normali assumono infinite configurazioni.

Con un numero infinito di combinazioni dei parametri μ


e σ, per poter rispondere a quesiti relativi a una qualsiasi
distribuzione normale avremmo bisogno di in numero
infinito di tavole.
per facilitare il procedimento si ricorre ad un’unica curva
CURVA NORMALE STANDARDIZZATA
CURVA NORMALE
STANDARDIZZATA (2)

COME SI OTTIENE
UNA CURVA NORMALE STANDARDIZZATA?

Si introduce una formula di trasformazione delle


osservazioni, chiamata standardizzazione, che consente
appunto di trasformare una generica variabile normale X
in una variabile normale standardizzata Z
CURVA NORMALE
STANDARDIZZATA (3)
La distribuzione normale dipende dai parametri μ e σ e questi
a loro volta dipendono dall’unità di misura della variabile Xi

Volendo una distribuzione normale standardizzata ossia che


non dipenda dall’unità di misura della variabile si ricorre a una
misura standard cioè agli scarti standardizzati:

Trasformare i valori xi in valori zi significa esprimere i valori


come distanza dalla media in termini di scarto quadratico
medio
Esempio Distribuzione standardizzata
Come si costruisce la distribuzione standardizzata
Sia data la distribuzione dei pesi in kg:
3; 3,5; 4; 4; 5,5
La distribuzione ha media 4Kg e
scarto quadratico medio =0,84 kg

La distribuzione standardizzata è
(3-4)/0,84=-1,19; (3,5-4)/0,84=-0,60 (4-4)/0,84=0
(4-4)/0,84= 0 (5,5-4)/0,84=1,79

La distribuzione ha media 0 e scarto uguale ad 1


Equazione CURVA NORMALE
STANDARDIZZATA
• La distribuzione standardizzata Z ha valore
medio nullo (μ=0) e scarto quadratico medio pari a
uno (σ=1).

• L’equazione della Curva Normale Standardizzata


diviene pertanto:
La Curva Normale standardizzata
La distribuzione normale
STANDARDIZZATA
presenta le stesse
caratteristiche della
distribuzione normale
NON standardizzata.

Ciò che distingue le due


distribuzioni è che la
distribuzione normale
standardizzata ha
μ=0 e σ =1, per cui è
rappresentata da UNA
SOLA CURVA, mentre la
distribuzione normale
generale è costituita da
infinite curve a seconda
dei valori di µ e σ.
Curva normale standardizzata
e relative tavole
L’importanza della curva normale standardizzata sta
nel fatto che le aree sottese possono essere
calcolate.
Il loro valore è riportato in apposite tavole

Due sono gli usi delle tavole


Definito un intervallo di valori per la v.s. X, si vuole
calcolare la probabilità che un valore x cada al suo
interno.

Definita una probabilità, si vuole calcolare


l’intervallo dei valori X che corrisponde a tale
probabilità.
Tavole della curva normale
1. Osservando la tavola si troveranno i punti z nella
colonna di sinistra con una cifra decimale; la seconda
cifra decimale è posta nella prima riga in alto della
stessa tavola.

2. Il valore corrispondente a P(Z) individua le porzione


di area della curva. Tale valore si può moltiplicare
per 100 per conoscere la percentuale di osservazioni
comprese nell’intervallo di due valori qualunque di una
distribuzione

3. A causa della simmetria della distribuzione queste


tavole riportano soltanto i valori delle probabilità
comprese fra lo zero e l’ascissa z verso +, essendo
quelle dell’altra metà della curva del tutto uguali
verifichiamo…
Supponiamo di voler conoscere l’area
compresa tra le ordinate corrispondenti a
z=0 e z=1,96.
In termini pratici…
• Osservando la colonna dei punti z, si deve scendere
fino a trovare z=1,9 e rimanendo sulla stessa riga
bisogna scorrere fino alla colonna indicata con 6.

• Il valore in quel punto indica la porzione di area


compresa tra le due ordinate Z=0 e Z=1,96:
area 0,4750.

moltiplicando per 100 otteniamo una


probabilità del 47% che le osservazioni cadano in
questo intervallo
In termini pratici…

INOLTRE
• Poiché l’area totale sotto la curva è uguale ad 1, la
metà sarà 0,50 cioè tutta l’area alla destra
dell’ordinata corrispondente a z=0,00.

quindi l’area alla destra dell’ordinata di z =1,96 sarà :


0,5000-0,4750=0,0250.
verifichiamo…
• Supponiamo di voler conoscere la porzione
di area sotto la curva tra le ordinate
corrispondenti a z=-1,00 e z=+1,00.
In termini pratici…
Osservando la colonna dei punti z, si deve scendere
fino a trovare z=1,00

Il valore in quel punto indica la porzione di area


compresa tra le due ordinate z=0,00 e z=1,00 che è
0,3413.

Dal lato opposto della curva si troverà per la porzione


di area ovviamente lo stesso valore, quindi la porzione
di area sotto la curva compresa tra z=-1,00 e z=+1,00
si otterrà sommando i due valori:
0.3413+0,3413=0,6826.

moltiplicando per 100 otteniamo una probabilità del


68% che le osservazioni cadano in questo intervallo
In termini pratici…
Supponiamo ora di voler trovare l’area sotto
la curva compresa tra z=0,50 e z=2,50.

42
In termini pratici…
• Poiché le tavole danno solo le aree a partire dal
punto z=0,00, il calcolo richiede il seguente
passaggio:
– l’area tra le ordinate corrispondenti a z=0,00 e
z=0,50 è 0,1915; mentre l’area tra z=0,00 e
z=2,50 è 0,4938.

– A questo punto è necessario sottrarre le due


aree 0,4938-0,1915=0,3023. Il risultato
ottenuto è la porzione dell’area ricercata.

• moltiplicando per 100 otteniamo una probabilità


del 30% che le osservazioni cadano in questo
intervallo
DISNORMALITA’

• In caso di non coincidenza possono aversi due altre


tipologie o forme
curva iponormale: la distribuzione è più bassa della
curva normale al centro e nelle code ed è più
spessa nei fianchi (curva più schiacciata)

curva ipernormale: la distribuzione è più alta della


curva normale al centro e nelle code ed è più bassa
nei fianchi (curva più appuntita)
Disnormalità o Curtosi
Confronto delle Curtosi

0,45

0,4
•leptocurtosi
0,35
• K = 8,57
0,3

•curva normale
frequenza

0,25
•K=3
0,2

0,15
•platicurtosi
0,1
• K = 2,8
0,05

0
0 2 4 6 8 10 12 14 16
-0,05
valori della variabile
COEFFICIENTE DI CURTOSI

caso semplice

∑ (χ − µ ) ni
4
i
caso ponderato
γ2 = i =1
−3
Nσ 4

γ2 = 0 CURVA NORMALE
γ2 > 0 (valori positivi) DISTRIBUZ.IPERNORMALE
γ2 < 0 (valori negativi) DISTRIBUZ. IPONORMALE
L’ANALISI BIVARIATA:
LA TABELLA DI CONTINGENZA

Elementi di Statistica sociale e


Demografia
Prof. Maria Carella
L’ANALISI BIVARIATA

Una VARIABILE STATISTICA DOPPIA si ha


quando in un collettivo (individui, famiglie) si rilevano
due variabili (caratteri).
Tali caratteri si indicano con le lettere X e Y mentre
con le lettere minuscole xi e yi si indicano le modalità
o i valori che essi possono assumere.

Condurre un’analisi bivariata significa tener


conto contemporaneamente di due variabili per
ciascuna unità studiata.
L’ANALISI BIVARIATA

Quale strumento ci consente tecnicamente di


esaminare congiuntamente due o più variabili?

La tavola di contingenza
Si tratta di tabella a doppia entrata in cui risultano una
variabile di riga e una variabile di colonna, mentre nelle celle definite
dall’incrocio fra le righe e le colonne troviamo il numero di casi che
presentano le corrispondenti modalità delle due variabili
(FREQUENZE CONGIUNTE).
LA TABELLA A DOPPIA ENTRATA
Origine sociale
Conoscenza inglese Alta Media Bassa Totale
Alta 61 79 34 174
Media 18 189 55 262
Bassa 8 81 347 436
Totale 87 349 436 872
Ultima riga: TOTALI DELLE FREQUENZE DELLE COLONNE
Ultima colonna: TOTALI DELLE FREQUENZE DELLE RIGHE
All’interno della tabella: LE FREQUENZE DELLE COPPIE DI MODALITA’
LA TABELLA A DOPPIA ENTRATA
Origine sociale
Conoscenza inglese Alta Media Bassa Totale
Alta 61 79 34 174
Media 18 189 55 262
Distribuzione
parziale di
Bassa 8 81 347 436
frequenze Totale 87 349 436 872
In altri termini, una tabella a doppia entrata è costituita da Distribuzioni
molteplici distribuzioni semplici, dette distribuzioni parziali marginali di
di frequenza, perché si riferiscono a sottocampioni. frequenza
(o frequenze
La colonna e la riga 'Totale' si chiamano marginali della marginali)
tabella. Sono le distribuzioni semplici di frequenze
rispettivamente dell’ origine sociale e dell’inglese e si
riferiscono a tutto il campione.
Schema tabella di contingenza
Y
X y1 y2 y3 … yh Totale
nih
x1 n11 n12 n13 … n1h n10 il primo indice i
si riferisce alla
x2 n21 n22 n23 … n2h n20 modalità di X, il
secondo h alla
x3 n31 n32 n33 … n3h n30 modalità di y
..
xi ni1 ni2 ni3 … nih ni0
Totale n01 n02 n03 … n0h N

All’interno della tabella: LE FREQUENZE DELLE COPPIE DI MODALITA’


La frequenza congiunta si indica con nih che rappresenta il numero di volte con
cui una particolare coppia di valori (xi,yh) si presenta
Distribuzione marginale di X (xi,ni0)
Totali per riga
Y
X y1 y2 y3 … yh Totale
x1 n11 n12 n13 … n1h n10
x2 n21 n22 n23 … n2h n20
x3 n31 n32 n33 … n3h n30
..
xi ni1 ni2 ni3 … nih ni0
Totale n01 n02 n03 … n0h N
distribuzione marginale di X si ottiene considerando solamente la prima e
l’ultima colonna della tabella a doppia entrata
ni0 è la frequenza marginale di xi rappresenta il numero di unità del collettivo
che presentano la modalità xi di X a prescindere da Y
Distribuzione marginale di Y (yh,noh)
Totali per colonna
Y
X y1 y2 y3 … yh Totale
x1 n11 n12 n13 … n1h n10
x2 n21 n22 n23 … n2h n20
x3 n31 n32 n33 … n3h n30
..
xi ni1 ni2 ni3 … nih ni0
Totale n01 n02 n03 … n0h N
distribuzione marginale di Y si ottiene considerando solamente la prima e l’ultima
riga
nohè la frequenza marginale di yh rappresenta il numero di unità del collettivo
che presentano la modalità yh di Y a prescindere da X
Riassumendo
nih= Frequenze congiunte

ni0 = Frequenze marginali di riga

n0h = Frequenze marginali di colonna

in cui i indica una generica riga


h una generica colonna.

N=numero dei casi


Frequenza
marginale di
Y X
Basso Medio Alto n20=4+2+3=9
X TOTALE
Y1 Y2 Y3
Femmina 4 3 4 11
x1 (n11) (n12) (n13) n10
Maschio 4 2 3 9
x2 (n21) (n22) (n23) n20
8 5 7 20
TOTALE
n01 n02 n03 N

Frequenza congiunta
Frequenza marginale di Y n11=4 è il numero di donne con
n02=3+2=5 basso reddito
Distribuzione condizionata di X dato Y
(X|Y=yh)
Y
X y1 y2 y3 … yh Totale
x1 n11 n12 n13 … n1h n10
x2 n21 n22 n23 … n2h n20
x3 n31 n32 n33 … n3h n30
..
xi ni1 ni2 ni3 … nih ni0
Totale n01 n02 n03 … n0h N

Distribuzione condizionata di X alla modalità y3 di Y si ottiene associando alle


modalità di X la colonna delle frequenze di y3
Distribuzione condizionata di Y dato X
(y|x=xi)
Y
X y1 y2 y3 … yh Totale
x1 n11 n12 n13 … n1h n10
x2 n21 n22 n23 … n2h n20
x3 n31 n32 n33 … n3h n30
..
xi ni1 ni2 ni3 … nih ni0
Totale n01 n02 n03 … n0h N

Distribuzione condizionata di Y alla modalità x2 di X si ottiene associando alle


modalità di y la riga delle frequenze di x2
Distribuzione
di Y
X Y Maschi Femmine Totale condizionata a
X1
Economia 75 45 120

Statistica 35 65 100

Ingegneria 60 20 80

Totale 170 130 300

Distribuzione
di X
condizionata a
y1
LE PERCENTUALI NELLA
Le
TABELLA
Per studiare la relazione tra due variabili e per i confronti con
altre distribuzioni doppie si ricorre alle PERCENTUALI
Lo scopo della percentuale è quello di “pareggiare” basi diverse.
1) Le percentuali sul totale si ottengono percentualizzando
tutte le frequenze di cella sul totale generale.
2) Le percentuali di colonna si ottengono registrando i valori
percentuali della variabile di colonna
3) Le percentuali di riga si ottengono registrando i valori
percentuali della variabile di riga
Indipendenza, Dipendenza e interdipendenza
In una VARIABILIE STATISTICA DOPPIA si
possono avere tre tipi di relazione tra X e
Y: INDIPENDENZA, DIPENDENZA E
INTERDIPENDENZA
In matematica si dice che la variabile Y non
dipende dalla variabile X quando essa rimane
costante al variare dei valori assunti da X.
Nel caso contrario si dice che la y dipende ed è
funzione di x.

Partendo da questa definizione, è immediato


stabilire se c’è INDIPENDENZA tra due V.S.
espresse da una serie di coppie di valori:

3
Nella tabella a doppia entrata:

Y è indipendente in distribuzione da X

Se non variano le distribuzioni relative di colonna


Cioè dovrà verificarsi:
ni1/ n01=ni2/ n02 =……=nih/ noh =ni0/N
.. Y1 Y2 Y3 .. Yh Totale
xi ni1 ni2 ni3 … nih ni0
Totale n01 n02 n03 … n0h N

Quindi per ogni i e h valgono le uguaglianze


nih/ n0h =ni0/N
Variabile X
Variabile Y
A B C Totale
A 64 119 192 375
B 78 147 237 462
C 101 189 303 593

Totale 243 455 732 1430


Tab.1 Tabella a doppia entrata (valori assoluti)
Variabile X
Variabile Y
A B C Totale
A 26 26 26 26
B 32 32 32 32
C 42 42 42 42

Totale 100 100 100 100


N 243 455 732 1430
Tab. 2 Distribuzioni percentuali per colonna
Nella tabella a doppia entrata:

X è indipendente in distribuzione da Y

Se non variano le distribuzioni relative di riga


Cioè dovrà verificarsi:
n1h/ n10 =n2h/ n20 =……=nih/ ni0 =n0h/N
Y
X yh Totale
Quindi per ogni i e h valgono x1 n1h n10
le uguaglianze x2 n2h n20
nih/ ni0 =n0h/N x3 n3h n30
xi nih ni0
Totale n0h N
Variabile X
Variabile Y
A B C Totale
A 64 119 192 375
B 78 147 237 462
C 101 189 303 593

Totale 243 455 732 1430


Tab.1 Tabella a doppia entrata (valori assoluti)
Variabile X
Variabile Y
A B C Totale N
A 17 32 51 100 375
B 17 32 51 100 462
C 17 32 51 100 593

Totale 17 32 51 100 1430


Tab. 3 Distribuzioni percentuali per riga
Se per ogni i e h valgono le uguaglianze
nih/ n0h =ni0/N

Y è indipendente in distribuzione da X

Se per ogni i e h valgono le uguaglianze


nih/ ni0 =n0h/N

X è indipendente in distribuzione da Y

La prima uguaglianza implica la seconda e


viceversa: l’indipendenza è simmetrica
L’indipendenza si deduce dalla tabella seguente in cui sono
calcolate le distribuzioni relative condizionate di X rispetto a Y
(di colonna):
Y
X
1 2 3 4 Totale
1 2 6 4 10 22
2 1 3 2 5 11
3 5 15 10 25 55
Totale 8 24 16 40 88

Y
X
1 2 3 4 totale
1 2/8=1/4 6/24=1/4 4/16=1/4 10/40=1/4 22/88=1/4
2 1/8 3/24=1/8 2/16=1/8 5/40=1/8 11/88=1/8
3 5/8 15/24=5/8 10/16=5/8 25/40=5/8 55/88=5/8

Dalla tabella si vede che le distribuzioni relative di X dato Y=1


sono uguali a quelle relative di X dato Y=2,dato Y=3 e dato Y=4.
Esse sono inoltre uguali alle distribuzioni relative marginali di X.
Y
X
1 2 3 4 Totale
1 2 6 4 10 22
2 1 3 2 5 11
3 5 15 10 25 55
Totale 8 24 16 40 88
Analogamente l’indipendenza si deduce dalla tabella in cui sono
calcolate le distribuzioni relative condizionate di Y rispetto a X (di
riga)
Y
X
1 2 3 4
1 2/22=1/11 6/22=3/11 4/22=2/11 10/22=5/11
2 1/11 3/11 2/11 5/11
3 5/55=1/11 15/55=3/11 10/55=2/11 3/55=5/11
Totale 1/11 3/11 2/11 5/11

Dalla tabella si vede che le distribuzioni relative di Y dato X=1


sono uguali a quelle relative di Y dato X=2,X=3 .
Esse sono inoltre uguali alle distribuzioni relative marginali di Y.
Il proprietario di un negozio di computer vuole sapere quanto
velocemente vengono saldate le fatture relative ai PC per tre diverse
tipologie di clienti (A=Enti Pubblici, B=Aziende, C=Privati).
A questo fine, riporta, per le fatture saldate negli ultimi mesi, la
tipologia del cliente e i giorni intercorsi tra la consegna dei PC e il saldo
della fattura:

Giorni Tipologia del cliente


trascorsi
consegna-
consegna- A B C
saldo

0 ⊣ 10 26 52 40

10 ⊣ 20 42 60 46

20 ⊣ 30 12 18 14
Qual è la percentuale di Enti Pubblici tra i clienti
che hanno saldato la fattura più di 10 giorni dopo la consegna del PC?
42+12=54 frequenza assoluta congiunta (enti pubblici ) La frequenza assoluta
marginale 148+44=192.
148+44=192. Pertanto, la frequenza relativa richiesta è 54/192=0,28,
54/192=0,28,
ossia 28%.
Giorni Tipologia del cliente
trascorsi
consegna-
consegna- A B C Totale
saldo

0 ⊣ 10 26 52 40 118

10 ⊣ 20 42 60 46 148

20 ⊣ 30 12 18 14 44

Totale 80 130 100 310

Qual è la percentuale di fatture emesse da Enti


Pubblici che sono state saldate più di 10 giorni dopo la consegna del PC?
42+12=54 frequenza assoluta congiunta (enti pubblici ) La frequenza assoluta
marginale 80 ( totale fatture enti pubblici). Pertanto, la frequenza richiesta è
54/80=0,675 cioè 67,5%
DIPENDENZA e INTERDIPENDENZA

si hanno

Quando la Quando i caratteri


relazione è si influenzano
unidirezionale e reciprocamente e
uno dei due non si può
caratteri può stabilire quale sia
essere considerato antecedente e
antecedente e quale
l’altro come conseguente
conseguente
L’interdipendenza (statistica) tra due
variabili implica sempre sia la
dipendenza (statistica) della variabile di
riga dalla variabile della colonna, sia la
dipendenza (statistica) della variabile di
colonna dalla variabile di riga.
Per lo studio della dipendenza utilizziamo la
regressione che misura di quanto varia il
carattere dipendente al variare del carattere
indipendente.

Lo studio della regressione consiste nella


determinazione di una funzione matematica che
esprima nella maniera migliore
il legame tra X ed Y.

Quasi sempre la funzione scelta è quella della


retta per cui si utilizza
y = a + bx.
bx.
y = a + bx

Se calcoliamo i valori di a e b, questa


equazione può essere usata per prevedere il
valore della variabile dipendente Y a partire da
qualsiasi valore della variabile indipendente X.
PROBLEMA
qual è la retta che si adatta meglio ai dati ?

RETTA DI REGRESSIONE
Dal punto di vista grafico si sceglie la
retta che rende minima la distanza tra la
retta stessa e i punti dello scatter .
Per scatter intendiamo una nuvola di N punti,
ciascun punto è rappresentativo di una
coppia di valori Xi, Yi

Lo scatter mette in luce grazie alla sua forma


l’esistenza di una relazione y=f (X).

La retta più adatta è


RETTA DI REGRESSIONE y* = a + bx
Sia Y la variabile dipendente e X la variabile indipendente.
indipendente
Se esiste una relazione lineare, i punti si distribuiscono
vicino a una retta,
retta, come nei primi due schemi del
diagramma a dispersione, quindi occorre trovare tra tutte le
possibili rette quella che interpola meglio la nuvola

se invece i punti sono molto dispersi,


dispersi, come nel terzo
schema, non esiste alcuna relazione.
100
Altezza peso
x y 80
180; 85
172; 60
180 85 60 160; 50

peso y
160 50
40 165; 53
172 60 155; 40
155 40 20

165 53 0
150 155 160 165 170 175 180 185
altezza X

Cerchiamo una funzione che spieghi la Y in funzione della X


100
altezza peso
80

180 85 60

Peso y
160 50
40
172 60
155 40 20

165 53 0
150 155 160 165 170 175 180 185
Altezza x

Scegliamo come funzione per spiegare la relazione tra X e Y, la


funzione lineare di equazione, la retta Y=a+bX
Y=a+bX
Scegliamo nello specifico la retta Y*=a+bX
Y*=a+bX,
a+bX, che rende minima la
distanza tra la retta stessa e i punti dello scatter .

100
altezza peso
80

180 85 60 Y*
e

Peso y
yi
160 50
40
172 60
155 40 20

165 53 0
xi
150 155 160 165 170 175 180 185
Altezza x

Scegliendo la retta Y*=a+bX


Y*=a+bX,
a+bX, occorre stimare i parametri a e b.
Occorre trovare i parametri a e b tali che i valori e (distanze y* e yi)
yi) siano
i più piccoli possibili
y* = a + bx
Il calcolo dei parametri avviene attraverso il
metodo dei minimi quadrati dunque, si
sceglie la retta per la quale la somma degli
scarti al quadrato tra i valori teorici e quelli
osservati sia minima:
Mediante il metodo dei MINIMI QUADRATI, si
perviene a determinare i due parametri:

a è il valore di y quando χ = 0 (graficamente è il punto in cui


la retta di regressione attraversa l’asse delle y): intercetta
b (coefficiente angolare che misura l’inclinazione della retta)
Nel caso di Y dipendente da X , b esprime di
quanto varia in media il carattere y al variare
di una unità del carattere χ :

(varia tra - ∞ + ∞)
b è la variazione della Y per una variazione unitaria della X

Se, per esempio, b valesse 10, al crescere di una unità di X,


la Y crescerebbe di 10 unità.
Se b valesse 0,5, al crescere di una unità di X, la Y
crescerebbe di mezza unità.
Il coefficiente di regressione b indica di quanto varia la Y al
variare di una unità di X e se Y è crescente o decrescente.
decrescente.

b > 0 (positivo) y cresce all’aumentare di χ

b < 0 (negativo) y diminuisce all’aumentare di χ

b = 0 (nullo) la retta è orizzontale ed il carattere y è


indipendente in media dal carattere χ
b si può anche scrivere come:

Sappiamo, infatti, che la somma dei prodotti degli scarti


di due caratteri si denomina CODEVIANZA ed esprime il
tipo di relazione esistente tra due variabili:
Sappiamo, inoltre, che la
DEVIANZA è la somma
del quadrato degli scarti
ed è sempre positiva:
Abbiamo visto come varia y al variare della χ.
Invertiamo la dipendenza e studiamo come
varia il carattere χ al variare del carattere y .
In questo caso l’espressione della retta sarà:
χ* = a1 + b1y
b e b1
divergono solo per il denominatore e poiché
questo è sempre positivo il segno di b e b1
dipende solo dal numeratore ed è lo stesso per
entrambe.

Quindi le rette di regressione


sono entrambe crescenti o decrescenti
La seguente tabella riporta l’età (x) e la pressione
sanguigna (y) per un campione di 11 donne:

Donne 1 2 3 4 5 6 7 8 9 10 11

x 36 38 42 47 49 55 56 60 63 68 72

y 118 115 140 128 145 150 147 155 149 152 160

Determinare la retta di regressione di y in funzione di x


Calcoliamo i parametri della retta di regressione

(Xi – Xm)*
Xm)*
Età (X) Pressione (Y) Xi - Xm Yi - Ym (Xi – Xm
Xm))2
(Yi – Ym)
Ym)
36 118 -17,27 -23,73 409,83 298,35
38 115 -15,27 -26,73 408,20 233,26
42 140 -11,27 -1,73 19,47 127,07
47 128 -6,27 -13,73 86,11 39,35
49 145 -4,27 3,27 -13,98 18,26
55 150 1,73 8,27 14,29 2,98
56 147 2,73 5,27 14,38 7,44
60 155 6,73 13,27 89,29 45,26
63 149 9,73 7,27 70,74 94,62
68 152 14,73 10,27 151,29 216,89
72 160 18,73 18,27 342,20 350,71
Media 53,27 Media 141,73 0,00 0,00 ∑=1591,82 ∑=1434,18

b=1,11
a=Ym
a=Ym-
Ym-bXm 82,599
Calcoliamo dei valori di Y*

(Xi – Xm)*
età pressione Xi - Xm Yi - Ym Y*=a+bX
*=a+bX
(Yi – Ym) (Xi – Xm)2
36 118 -17,27 -23,73 409,83 298,35 122,56
38 115 -15,27 -26,73 408,20 233,26 124,78
42 140 -11,27 -1,73 19,47 127,07 129,22
47 128 -6,27 -13,73 86,11 39,35 134,77
49 145 -4,27 3,27 -13,98 18,26 136,98
55 150 1,73 8,27 14,29 2,98 143,64
56 147 2,73 5,27 14,38 7,44 144,75
60 155 6,73 13,27 89,29 45,26 149,19
63 149 9,73 7,27 70,74 94,62 152,52
68 152 14,73 10,27 151,29 216,89 158,07
72 160 18,73 18,27 342,20 350,71 162,51
53,27 141,73 0,00 0,00 1591,82 1434,18

b= 1,11
a=Ym-
a=Ym-bXm 82,599
Retta di regressione e parametri
180

160 y = 1,1099x + 82,599

140

120
pressione (Y)

100

80

60

40

20

0
0 10 20 30 40 50 60 70 80

età (X)
La tabella mostra le stature per un gruppo di padri e figli.
Presupponendo una relazione lineare tra le
stature dei padri e le stature dei figli, si dica che statura ci si
aspetta per un figlio di un padre alto 170.5 cm.
stature dei
padri 165 170 180 172 179 174 176 168 181 173 170 178 176
statura dei
figli 167 169 181 171 180 176 180 171 179 174 173 176 178

(Xi – Xm)*
padri (X) figli (Y) Xi - Xm Yi - Ym (Xi – Xm)2 Y*
(Yi – Ym)
165 167 -9 -8 72 81 167
170 169 -4 -6 24 16 172
180 181 6 6 36 36 180
172 171 -2 -4 8 4 173
179 180 5 5 25 25 179
174 176 0 1 0 0 175
176 180 2 5 10 4 177
168 171 -6 -4 24 36 170
181 179 7 4 28 49 181
173 174 -1 -1 1 1 174
170 173 -4 -2 8 16 172
178 176 4 1 4 16 178
176 178 2 3 6 4 177
Media 174 Media 175 0 0 Σ =246 Σ =288

b= 0,8542
a= 26,375
Y*
167
padri (X) figli (Y) 172
182 180
180
y = 0,8542x + 26,375 173
179
178
Statura figli

175
176
177
174
170
172 181
170 174
168 172
166
178
164 166 168 170 172 174 176 178 180 182 177
Statura padri

Y=26,3750+ 0,8542*170,5 =172


Il grafico presenta una nuvola di punti dalla configurazione
confusa,
confusa non è possibile ipotizzare una relazione tra le due variabili
Se ipotizziamo un legame lineare i punti non sono molto vicini alla
retta: in altre parole la retta di regressione non si adatta bene ai dati
ti
COME SI MISURA LA BONTA’ DI ADATTAMENTO DELLA RETTA DI
REGRESSIONE?
La varianza di regressione consente di studiare la
dispersione dei valori osservati
intorno alla retta di regressione

Una dispersione elevata dei punti intorno alla retta =


comporta una limitata rappresentatività del fenomeno
mediante la retta di regressione (previsioni non attendibili)
Una dispersione bassa = buona rappresentatività del
fenomeno mediante la retta di regressione
Yi Y i* Y Yi*=7,09-0,007χ
y1 y 1* 1,35
y2 y 2* 1,8
2,1 2,12
…. ….
5,4 6,25
yi y i*
…. …. 2,1 3,24
yN yN* ….. ….
Per misurare la BONTA’ DI ADATTAMENTO
della retta di regressione

SCOMPOSIZIONE DELLA DEVIANZA

La DEVIANZA può essere scomposta in una parte che il


modello di regressione riesce a spiegare e in una parte
che invece il modello non riesce a cogliere, cioè la
devianza dei residui di regressione (devianza
dell’errore)
Indicando con y*
y* = a + bx il valore della retta di regressione avremo

Dev (Y) DEVIANZA TOTALE

Dev (R) DEVIANZA DI REGRESSIONE

∑ (y − y )
Dev (E) DEVIANZA DELL’ERRORE O RESIDUA * 2
i i
Rapportando la devianza di regressione Dev (R) alla
devianza totale Dev (Y) individueremo quanta parte
della devianza totale è determinata o spiegata dalla
retta di regressione supposta rappresentativa del
fenomeno

Tale rapporto viene definito come:


INDICE DI DETERMINAZIONE
INDICE DI DETERMINAZIONE
misura quanta parte della devianza totale di Y il
modello di regressione riesce a spiegare

Se R2 vale 0 significa che la Se R2 vale 1 significa che la


devianza di regressione è devianza dei residui è 0. La
nulla. devianza spiegata dal modello
La devianza dei residui di regressione coincide con la
coincide con la devianza di Y devianza di Y. Tutti i punti
NESSUN ADATTAMENTO giacciono sulla retta
ADATTAMENTO PERFETTO
La tabella mostra le stature per un gruppo di padri e figli.
Presupponendo una relazione lineare tra le stature dei padri e le
stature dei figli, verificare la bontà di adattamento della retta di
regressione da costruire con Y variabile dipendente
stature dei
padri 165 170 180 172 179 174 176 168 181 173 170 178 176
statura dei
figli 167 169 181 171 180 176 180 171 179 174 173 176 178

padri (X) figli (Y) Y* (Y*-Ym)^2 (Yi - Ym)^2


165 167 167 59 64
170 169 172 12 36
180 181 180 26 36
172 171 173 3 16
179 180 179 18 25
174 176 175 0 1
176 180 177 3 25
168 171 170 26 16
181 179 181 36 16
173 174 174 1 1
170 173 172 12 4
178 176 178 12 1
176 178 177 3 9
Media 174 Media 175 dev R =210 dev Y= 250

b= 0,8542
a= 26,375 R2= 0,8405
Misura l’associazione tra due variabili, in cui è
difficile stabilire qual è il carattere
antecedente e quale quello conseguente.

Le due variabili X e Y sono dipendenti una


dall’altra.

Si caratterizza per 2 aspetti:


Concordanza
Discordanza
In termini di scarti dalla media, una misura
assoluta dell’INTERDIPENDENZA:

Nel caso di concordanza a scarti positivi di X


corrisponderanno scarti positivi di Y e a scarti
negativi di X scarti negativi di Y: quindi
prodotti positivi
Nel caso di discordanza : situazione contraria
Essendo la CODEVIANZA espressa nell’unità
di misura dei due caratteri è influenzata dalla
variabilità degli stessi per cui si preferisce
ricorrere ad un indice relativo di
concordanza:
COEFFICIENTE DI CORRELAZIONE LINEARE
r = +1 : massima concordanza correlazione
positiva perfetta (tutti i punti si trovano su una retta)
r tra 0 e 1 : correlazione positiva imperfetta
r = 0 : non c’è alcuna associazione di tipo lineare
tra le due variabili (quindi vi è indifferenza)
r tra 0 e -1 : correlazione negativa imperfetta
r = -1 : massima discordanza correlazione
negativa perfetta (tutti i punti si trovano su una
retta)
Il coefficiente di correlazione è anche la media geometrica
dei coefficienti (angolari) di regressione
La tabella fornisce il numero medio di figli per donna e la
percentuale di donne che usano contraccettivi in 10 paesi.
Misurare l’associazione tra le due variabili
%donne
donne che Numero
medio di (Xi – Xm)* (Yi (Yi-Ym)2
usano Yi - Ym Xi-Xm (Xi – Xm)2
figli per – Ym)
contraccettivi
donna
82 1,8 -2,03 35,5 -72,07 4,12 1260,25
71 2,1 -1,73 24,5 -42,39 2,99 600,25
12 5,4 1,57 -34,5 -54,17 2,46 1190,25
55 2,8 -1,03 8,5 -8,76 1,06 72,25
53 3 -0,83 6,5 -5,40 0,69 42,25
66 2,3 -1,53 19,5 -29,84 2,34 380,25
15 7,1 3,27 -31,5 -103,01 10,69 992,25
74 1,8 -2,03 27,5 -55,83 4,12 756,25
4 7,3 3,47 -42,5 -147,48 12,04 1806,25
33 4,7 0,87 -13,5 -11,75 0,76 182,25
Media Media
46,5 3,83 -530,65 41,28 7282,5

num denom risult

r= -530,65 548,30 -0,97


Dalla figura si vede che nei paesi dove c’è alta percentuale di
donne che usano contraccettivi il TFT è più basso e viceversa,
quindi si può suppore che il livello delle nascite dipenda dal
livello d’uso dei contraccettivi.
8
7
6
5
TFT

4
3
2
1
0
0 20 40 60 80 100
% donne contraccettvi
Per misurare la dipendenza del livello di fecondità dal livello
d’uso di contraccettivi ricorriamo alla regressione

%donne
%donne
donne
donne che Numero
Numero 2
usano
che usano medio medio
di di (Xi – Xm)*
(Xi –(Yi-Ym)
Xm)* (Yi (Yi-Ym)22
Yi - Ym
Yi - Ym
Xi-Xm Xi-Xm (Xi – Xm) (Xi – Xm)2
Y*=a+bX
contraccettivi
contraccet figli per
figli per (Yi – Ym) – Ym)
(xi)
tivi donna
donna (yi
(yi)
yi)
82 82 1,8 1,8-2,03 -2,03 35,5 35,5
-72,07 -72,07
4,12 1260,25
4,12 1260,25
1,2
71 71 2,1 2,1-1,73 -1,73 24,5 24,5
-42,39 -42,39
2,99 600,25
2,99 2,0
600,25
12 12 5,4 5,4 1,57 1,57-34,5 -34,5
-54,17 -54,17
2,46 1190,25
2,46 1190,25
6,3
55 55 2,8 2,8-1,03 -1,03 8,5 8,5
-8,76 -8,76
1,06 72,25
1,06 3,2
72,25
53 53 3 3-0,83 -0,83 6,5 6,5
-5,40 -5,40
0,69 42,25
0,69 3,4
42,25
66 66 2,3 2,3-1,53 -1,53 19,5 19,5
-29,84 -29,84
2,34 380,25
2,34 2,4
380,25
15 15 7,1 7,1 3,27 3,27-31,5 -103,01
-31,5 -103,01
10,69 992,25
10,69 6,1
992,25
74 74 1,8 1,8-2,03 -2,03 27,5 27,5
-55,83 -55,83
4,12 756,25
4,12 1,8
756,25
4 4 7,3 7,3 3,47 3,47-42,5 -147,48
-42,5 -147,48
12,04 1806,25
12,04 1806,25
6,9
33 33 4,7 4,7 0,87 0,87-13,5 -13,5
-11,75 -11,75
0,76 0,76
182,25 182,25
4,8
Media MediaMedia
Media
46,5
46,5 3,83 3,83 -530,65 -530,65
41,28 7282,5
41,28 7282,5

num denomin
b= -530,65 7282,5 -0,07
%donne
donne
che usano Numero (Xi – Xm)* (Yi-Ym)2
Yi - Ym Xi-Xm (Xi – Xm)2 Y*=a+bX
contraccet medio di (Yi – Ym)
tivi figli per
donna
82 1,8 -2,03 35,5 -72,07 4,12 1260,25 1,2
71 2,1 -1,73 24,5 -42,39 2,99 600,25 2,0
12 5,4 1,57 -34,5 -54,17 2,46 1190,25 6,3
55 2,8 -1,03 8,5 -8,76 1,06 72,25 3,2
53 3 -0,83 6,5 -5,40 0,69 42,25 3,4
66 2,3 -1,53 19,5 -29,84 2,34 380,25 2,4
15 7,1 3,27 -31,5 -103,01 10,69 992,25 6,1
74 1,8 -2,03 27,5 -55,83 4,12 756,25 1,8
4 7,3 3,47 -42,5 -147,48 12,04 1806,25 6,9
33 4,7 0,87 -13,5 -11,75 0,76 182,25 4,8
Media Media
46,5 3,83 -530,65 41,28 7282,5

num denomin
a=Ym
a=Ym-
Ym-bXm 3,83-
3,83-(-0,07*46,5) 7,22
b= -530,65 7282,5 -0,07

b è la variazione della Y per una variazione unitaria della X


per ogni aumento unitario di X la Y cioè TFT diminuisce di 0,07
num denomin
a=Ym
a=Ym-
Ym-bXm 3,83-
3,83-(-0,07*46,5) 7,22
b= -530,65 7282,5 -0,07

Se intendiamo fare previsioni sulla variabile dipendente a partire dalla variabile


indipendente utilizziamo l’equazione della retta di regressione . Avremo alcuni
valori del TFT stimati a partire dalla percentuale di donne che usano
contraccettivi

8,00
%donne che
Numero medio 7,00
usano
di figli
contraccettivi 6,00
Y*=a+bX
Y*=a+bX
5,00
0 7,22
4,00
1 7,15
2 7,07 3,00

25 5,40 2,00

40 4,30 1,00

80 1,39 0,00
0 20 40 60 80 100

b è la variazione della Y per una variazione unitaria della X


per ogni aumento unitario di X la Y cioè TFT diminuisce di 0,07
INTRODUZIONE ALLA
DEMOGRAFIA

Prof.ssa Maria Carella


Definizioni di “Demografia”
• “lo studio delle popolazioni umane”

• “lo studio scientifico delle popolazioni umane, con


particolare riferimento alla loro dimensione, struttura,
e al loro sviluppo” United Nations, 1958

• “lo studio dei processi che determinano il formarsi,


il conservarsi e l’estinguersi delle popolazioni umane.
Tali processi sono essenzialmente:
Riproduttività
Mortalità
Mobilità M. Livi Bacci, 1991
Definizione di “Popolazione”

“un insieme di individui,


stabilmente costituito,
legato da vincoli di riproduzione e
identificato da caratteristiche comuni
territoriali, politiche, giuridiche,
etniche e religiose”
Dimensioni e struttura
di una popolazione
In ogni istante la popolazione è costituita da un insieme di
individui sottoposto a processi di:

• Rinnovo:
• Nascite
• Immigrazioni
• Estinzione:
• Morti
• Emigrazioni
“Fenomeni” ed “eventi” demografici
Fenomeni demografici sono quelli che
determinano o concorrono a determinare i flussi
di rinnovo e di estinzione in una popolazione:
– Fecondità (e nuzialità)
– Mortalità
– Migratorietà o mobilità territoriale
Eventi :
– Nascite (matrimoni-divorzi)
– Decessi
– Migrazioni
Ritornando alla definizione

Demo-grafia formale:
è l’insieme di tecniche e metodi riconosciuti come
utili e adeguati per misurare la struttura per
sesso ed età di una popolazione, la
riproduttività, la mortalità, la mobilità e le
unioni.
L’analisi demografica fornisce gli
strumenti per:
Misurare i comportamenti/fenomeni
demografici
– Ogni comportamento si esplica in eventi
Nascite, matrimoni, divorzi, decessi, migrazioni

Comprendere le cause
– Gli studi di demografia possono andare oltre
l’ambito descrittivo e spingersi verso avventure
conoscitive (quelle della “spiegazione” e
“comprensione”) più ricche e stimolanti.
DEMOGRAFIA

Descrizione della Ricerca delle Cause


popolazione e dei
fenomeni demografici Populations Studies

Formal Demography
Legami con altre discipline
• Epidemiologia
(studio di cause, distribuzione e controllo delle malattie
nelle popolazioni)
• Ecologia umana
(studio delle relazioni tra i gruppi umani ed il loro
ambiente fisico)
• Economia
(studio di produzione, distribuzione, consumo di beni e
servizi)
• Storia
(La dimensione del tempo)
• Biologia
(Es. la genetica delle popolazioni)
Demografia e sociologia
• Ampia area di interessi scientifici comuni

• sia per i contenuti (studi sulle famiglie, il


lavoro, il genere, i fenomeni migratori)
• sia per i metodi e gli approcci (studi
“micro” e indagini ad hoc)

• Rif. Bib.: G.B. Sgritta, “Demografia e sociologia” in Demografia (a


cura di M. Livi Bacci et al.), Edizioni Fondazione G. Agnelli, Torino,
1994.
Equazione della popolazione
e Bilancio demografico
Definizione di popolazione
Le unità elementari costitutive della popolazione vengono
prodotte in modo endogeno, ovvero la popolazione si
rinnova da sola

In altre parole sono gli individui stessi della popolazione


che prima di estinguersi generano altri individui,
i quali a loro volta prima di estinguersi ne genereranno
altri ancora.

E’ tale proprietà che distingue una popolazione in “senso


demografico” da una popolazione in “senso statistico”.
Lo studio del movimento della
popolazione
La popolazione è quindi in grado di rinnovarsi continuamente.

Nel corso di un generico anno t, il rinnovo si ottiene:

- con l’uscita di alcuni individui per morte (tD)


- e l’entrata di altri individui per nascita (tN)

Nascite e decessi costituiscono il movimento “naturale”


della popolazione.

Possiamo allora, ad esempio, scrivere:

1.1.2001P = 1.1.2000P + 2000N - 2000D

Relazione che vale per la popolazione mondiale o per una


popolazione “chiusa” (assenza di movimenti migratori).
13
Lo studio del movimento della
popolazione
E’ però in generale possibile un interscambio con altre
popolazioni.

Equazione del bilancio della popolazione:

1.1.2001P = 1.1.2000P + 2000N - 2000D + 2000I - 2000E

dove I sono gli immigrati (“acquisti” di individui dall’esterno)


ed E sono gli emigrati (“cessioni” di individui all’esterno).

Saldo naturale: 2000SN= 2000N - 2000D ;

Saldo migratorio: 2000SM = 2000I - 2000E

14
Lo studio del movimento della
popolazione
• La popolazione è definita come un gruppo di individui
aventi un insieme di caratteristiche comuni che si
rinnovano per effetto dei meccanismi di entrata (nascite e
immigrazioni) e di uscita (decessi ed emigrazioni)

• La variazione numerica di una popolazione in un dato


intervallo di tempo t dipende da quattro componenti
costitutive: N, M, I, E

EQUAZIONE DELLA POPOLAZIONE


L’equazione della popolazione

Pt = P0 + N – M + I - E

Pt = P0 + Nati vivi - Morti + Immigrati - Emigrati


Saldo naturale e migratorio

Nati vivi - Morti = Saldo Naturale

Se

Immigrati - Emigrati = Saldo Migratorio

Pt = P0 + SN + SM
Anche se nella realtà:

Nelle popolazioni con sistemi statistici evoluti:


• Nascite e morti sono calcolate con precisione
• L’ammontare della popolazione è data dai
censimenti (con sottovalutazione in genere)

• I dati sui movimenti migratori sono manchevoli

SM = Pt - P0 - SN
Un esempio per l’Italia nel 2001

Nati vivi Morti Saldo Iscritti Cancellati Saldo


2001** 2001** Naturale 2001** 2001** Migratorio

ITALIA 544.550 544.094 456 1.582.707 1.417.184 165.523

P31.12.2001 = P1.1.2001 + SN2001 + SM2001

P31.12.2001 = 57.884.017 + 456 + 165.523


P31.12.2001 = 58.009.996
Il bilancio demografico

Poste di Bilancio

Componente Attive Passive Saldo

Naturale Nati Morti SNaturale

Migratoria Immigrati Emigrati SMigratorio

Totale N+I M+E STotale


Es. Il bilancio demografico – Italia 2001

Poste di Bilancio

Componente Attive Passive Saldo

Naturale 544.550 544.094 456

Migratoria 1.582.707 1.417.184 165.523

Totale 2.127.256 1.961.277 165.979


Stato e movimento nell’equazione della
popolazione
Nell’equazione della popolazione compaiono alcune grandezze
di “stato” (o di “stock”) ed altre di “movimento” (o di “flusso”).

Dati di Stato della popolazione: ammontare della popolazione


in un dato istante temporale

Dati di Movimento della popolazione: corrispondono alle uscite


e alle entrate nella popolazione in un dato periodo di tempo.

Le “grandezze di movimento” sono una somma di eventi


accaduti alla popolazione di interesse
in un prefissato intervallo temporale.
Le misure dell’accrescimento
demografico
L’incremento demografico
Per misurare la variazione che una popolazione ha subito
in termini di incremento o decremento in un intervallo di
tempo;

Per confrontare la variazione nella consistenza numerica


di una popolazione rispetto a quella di un’altra:

1. Indice di incremento (o decremento) assoluto

2. Indice di incremento (o decremento) medio per unità di


tempo

3. Tassi di incremento
L’incremento della popolazione

Pt - P0 = SN + SM

∆P
I tassi di incremento
A che cosa servono?
Consentono di rispondere alle domande:
• Di quanto è aumentata (o diminuita) la
popolazione?

• A quale velocità?
Esempio
La popolazione di Adelfia nel corso del 2011 è passata da 16.495 a 16.526
abitanti. Quindi in termini assoluti si rileva una variazione di 31 unità.

Supponiamo che nello stesso periodo la popolazione del comune di


Poggiorsini sia passato da 513 a 544 abitanti. Anche qui la variazione
assoluta di 31 unità.

Possiamo allora dire che l’entità dell’incremento nei due comuni è la stessa?

In termini assoluti sì, infatti:


se ci chiediamo semplicemente “di quante unità si è accresciuta una
determinata popolazione" è sufficiente determinare l’incremento (o
decremento assoluto) Ia = Pt – Po

...ma un aumento di 31 abitanti in un Comune di oltre 16 mila abitanti


non può essere paragonato ad un aumento di 31 unità in un Comune
che ne conta poco più di 500.
Esempio
Rapportando la variazione assoluta alla popolazione iniziale otteniamo
il tasso di incremento:

Tasso di incremento ad Adelfia nel 2011 = 31 /16.495 = 1,9 per mille


Tasso di incremento a Poggiorsini 2011= 31 /513 = 60,4 per mille

Ovvero ad Adelfia ogni 1000 abitanti se ne sono aggiunti nel corso del 2011
1,9 mentre a Poggiorsini ogni 1000 abitanti se ne sono aggiunti 60,4.

Quindi: se si vuole effettuare il confronto fra la variazione di una


popolazione e quella di altre, spesso assai diverse sotto il profilo della
consistenza numerica, occorre avvalersi di un indicatore che sia sensibile
all’intensità della variazione e indipendente dall’ammontare delle
popolazioni che si considerano.
Che cosa ci dice
il tasso di incremento?

Il tasso di incremento esprime il


numero di unità che si aggiungono ad
una popolazione in un determinato
intervallo di tempo (ad es. l’anno), per
ogni sua unità costitutiva (o per 100,
1000 individui).
Elementi per calcolarlo

1. La numerosità della popolazione al


tempo 0 P0

2. La numerosità della popolazione al


tempo t Pt

3. L’ammontare dell’incremento totale ∆P

4. Il tempo durante il quale avviene tale


incremento t
Tipi di tassi di incremento

• Aritmetico

• Geometrico (o composto)

• Continuo (o esponenziale)
Tasso di incremento aritmetico

Esprime il numero medio annuo di


individui che si sono aggiunti
nell’intervallo di tempo considerato
per ogni mille individui della
popolazione iniziale.
Tasso di incremento aritmetico

ar = (Pt - P0) / (P0*t )

Esempio: la popolazione italiana è passata da 22,176 milioni


di abitanti al 31 dicembre 1861 a 27,3 milioni al 31 dicembre
1871.

Quale incremento medio annuo in tale periodo?

ar = (27,3 - 22,176) / (22,176 * 10) = 0,0231 (2,31%)


Tasso di incremento aritmetico
L’ipotesi sottostante è quella che, qualunque sia l’intervallo
t, solo la popolazione iniziale, presente all’istante 0,
contribuisce alla crescita successiva.

Ne consegue una crescita costante anno per anno di una


quantità pari a (ra P0).

In altri termini, ci si basa su un modello di crescita della


popolazione che è lineare (proporzionale) rispetto al tempo

Pt = P0 (1 + art)
Tasso di incremento aritmetico

Pt = P0 (1 + art) da cui

Pt = P0 + P0 ar t
Pt -P0= P0 ar t risolvendo

ar = (Pt - P0) / P0 t
La popolazione di riferimento: popolazione iniziale
Esempio di calcolo del tasso di incremento aritmetico

• Incremento della popolazione italiana dal 1971 al 1981

• 1971P = 54.136.547
• 1981P = 56.556.911
• t = 10,0027 (cioè 10 anni e 1 giorno)

ar = (56.556.911 – 54.136.547) / 54.136.547 * 10,0027


= 0,00447
ar = 4,47 per mille
• Nei 10 anni considerati, per ogni 1000 abitanti presenti
nel 1971, si sono aggiunti annualmente 4,47 individui.
Tasso di incremento geometrico

Ci dice di quante unità si è accresciuta in


media la popolazione all’inizio dei vari anni
che compongono l’intervallo di tempo
considerato

Misura il contributo medio annuo


all’incremento demografico attribuibile a
ciascun individuo che ogni anno si
aggiunge alla popolazione iniziale
nell’intervallo di tempo considerato.
Tasso di incremento geometrico
Da Pt = P0 (1+ rg)t

Si ricava

rg= (Pt /P0 )1/t -1= Log Pt


Pt P0
T −1 = −1
P0 T

Si assume in questo caso che a rimanere costante in ciascun


anno del periodo da 0 a t sia il tasso di incremento (rg)
applicato ad una pop aggiornata anno per anno.
Tale ipotesi porta ad una crescita della popolazione
secondo una progressione geometrica.
Esempio di calcolo del tasso di incremento geometrico
(N.B.: quando abbiamo una elevazione a potenza ricorriamo ai logaritmi)

• Incremento della popolazione italiana dal 1971 al 1981

• 1971P = 54.136.547
• 1981P = 56.556.911
• t = 10,0027 (cioè 10 anni e 1 giorno)

[Log (56.556.911 / 54.136.547)]/10,0027 =


0,0189951 / 10,0027 = 0,00189899
Si calcola l’antilogaritmo che è 100,00189899=1,00438
gr = 1,00438 – 1 = 0,00438
gr = 4,38 per mille
Tasso continuo (esponenziale)
Il modello esponenziale è l’equivalente del modello geometrico
se si considera il tempo come una variabile continua.

Si assume in questo caso che a rimanere costante in


ciascun anno del periodo da 0 a t sia il tasso di
incremento (r) applicato ad una pop aggiornata in
ciascun infinitesimo del periodo tra 0 e t.
1 P 
r = log e  t 
t  P0 

In tal caso il modello di sviluppo diventa quello che formalizza


una crescita esponenziale:
Pt = P0 e rt
Esempio: Misure dell’incremento demografico

Consideriamo la crescita tra l’anno 1800 ed il 1850 osservata realmente


negli Stati Uniti e la crescita teoricamente prevista dai tre modelli.

Calcoliamo i tre tassi di incremento tra 1800 e1850.


Anno Popolaz.
1800 5.308 Tasso aritmetico:
1810 7.240 ra = (23.192 – 5.308) / (5.308 * 50) = 0.0674
1820 9.638
1830 12.866 Tasso geometrico:
1840 17.069 rg = (23.192 / 5.308)1/50 - 1 = 0.0299
1850 23.192
Dati in migliaia. Tasso istantaneo:
r = ln(23.192 / 5.308) / 50 = 0.0295

Tasso istantaneo e geometrico sono praticamente uguali, e


molto inferiori rispetto al tasso aritmetico.
Esempi di utilizzo
dei tassi di incremento
• Stima della popolazione intermedia

• Estrapolazione della popolazione ad


una data futura

• Tempo di raddoppio (o dimezzamento)


Tempo di raddoppio
“tempo di raddoppio”: “numero di anni necessari affinché
una popolazione che si sviluppa ad un dato tasso r, seguendo
un dato modello di crescita, raddoppi la propria consistenza
numerica.

Ripartendo dal modello di crescita lineare avremo che:


n = 1/r

In corrispondenza dei diversi valori di r varranno diversi


valori di tempi di raddoppio:
con r = 0,05 allora n = 20
con r = 0,02 allora n = 50
N.B. Se r fosse negativo, parleremmo di
tempi di dimezzamento!
Esempio: pop. mondiale
Esempio: pop. mondiale
I tempi di raddoppio sono stati quindi all’incirca i seguenti:

• 1500 anni (dall’anno 0 al 1500): da 250 a 500 milioni


• 300 anni circa (dal 1500 al 1800): da 500 milioni a 1 miliardo
• 125 anni circa (dal 1800 al 1925): da 1 a 2 miliardi
• 50 anni circa (dal 1925 al 1975): da 2 a 4 miliardi
I limiti della crescita
Il modello esponenziale è adeguato per rappresentare la crescita di una
popolazione che si sviluppa senza limiti, ovvero senza freni (in
termini di risorse alimentari, di spazio disponibile, ecc.).
Nessuna popolazione può crescere indefinitamente in modo
esponenziale: i limiti delle risorse e dell’ambiente possono frenare la
crescita

Ad esempio, nel 1960 la popolazione mondiale contava all’incirca 3


miliardi di persone.
Con un tasso di crescita dell’1,8% si ottiene una popolazione di oltre 6
miliardi nel 2000. Cosa che si è più o meno realizzata.
Ma continuando con tale ritmo si
arriverebbe a oltre 37 miliardi nel
2100, e a 225 miliardi fra 200 anni.
Cifre del tutto inverosimili!

Popolazione mondiale in milioni (r= 1,8)


RILEVAZIONI CAMPIONARIE
E
TECNICHE DI
CAMPIONAMENTO

Prof.ssa Maria Carella


maria.carella1@uniba.it
LE RILEVAZIONI
Rilevazione Totale:
la rilevazione delle informazioni è eseguita su tutte le
unità che compongono la popolazione oggetto di studio

Rilevazioni Campionarie:
la rilevazione delle informazioni è eseguita solo su una
parte delle unità che compongono la popolazione
LE RILEVAZIONI CAMPIONARIE
Rilevazioni campionarie raccolgono dati provenienti solo
dalle unità della popolazione che vengono selezionate.
-Vantaggi rispetto alla rilevazioni totali:
riduzione costi,
riduzione dei tempi,
riduzione del carico organizzativo,
vantaggi di approfondimento e di accuratezza

-Svantaggi:
la base di campionamento non è sempre disponibile o
facile da conoscere
LE RILEVAZIONI CAMPIONARIE
• La rilevazione campionaria può essere
compiuta per scelta obbligata
– Casi in cui la popolazione di riferimento è
parzialmente sconosciuta in termini di
composizione o numerosità

• La rilevazione campionaria non sempre può


sostituire l’indagine completa
– Es. le rilevazioni riguardanti il movimento di
stato civile (nascite, decessi) forniscono
informazioni importanti: in questo caso occorre
conoscere tutti i casi individuali
I termini tecnici
Intendiamo per:
Popolazione (universo) l’insieme N di unità
statistiche che costituiscono l’oggetto di studio
Insieme N= ampiezza della popolazione
Campione l’insieme delle n unità campionarie (casi)
selezionate tra le N unità che compongono la
popolazione
Insieme n= ampiezza del campione

Campionamento il procedimento attraverso il quale si


si estraggono le n unità campionarie (ovvero un
numero ridotto di casi) dal complesso delle N unità
della popolazione
Valore esatto e stima
Operando su un insieme ridotto n (casi) invece che
sull’intera popolazione:

La rilevazione campionaria fornisce solo la stima di


un valore caratteristico che si vuole conoscere

La rilevazione totale ne fornisce, invece, il valore


esatto
Metodi di campionamento
• Campionamenti Probabilistici: per i
quali la probabilità che ogni unità della
popolazione ha di essere estratta è
nota .
• Campionamenti Non Probabilistici:
per i quali la probabilità che ogni unità
della popolazione ha di essere
estratta non è nota
Esempio campione
Se costruiamo un campione di studenti universitari
estraendo a sorte un certo numero di studenti fra
quelli presenti un qualsiasi giorno in università, non
otteniamo un campione probabilistico per 3 motivi:
a) i non frequentanti hanno probabilità nulla di entrare;
b) le matricole, che frequentano di più, hanno maggiore
probabilità di essere estratte rispetto agli studenti
degli anni superiori;
c) questi ultimi hanno maggiore probabilità di essere
estratti rispetto agli studenti fuori corso
Formazione dei campioni
1. SCELTA CASUALE (campionamento probabilistico)
le unità della popolazione avranno tutti la stessa
probabilità di essere inclusi nel campione con
processo di selezione casuale;

N.B. scelta del campione avviene con metodo rigoroso


perché si assicura l’imparzialità dell’inclusione di ogni
unità del collettivo nel campione
Formazione dei campioni
2. SCELTA RAGIONATA (c. non probabilistico)
le unità campionarie vengono individuate con
procedimento razionale ma non del tutto casuale

– I campioni di questo tipo sono formati da elementi


tipici che si ritiene possano rappresentare bene le
caratteristiche della popolazione
Campioni probabilistici
Campione casuale semplice
Campione sistematico
Campione stratificato
Campione a due o più stadi
Campione a grappoli
Campione per aree (o areale)
Campionamento casuale
Ciascuna unità della popolazione ha la stessa
probabilità, nota e costante, di far parte del
campione.

CAMPIONE CASUALE SEMPLICE


(BERNOULLIANO) CON RIPETIZIONE

CAMPIONE CASUALE SENZA RIPETIZIONE


a) Campionamento casuale
semplice con ripetizione
• Per formare il campione basta numerare tutti
gli N elementi dell’universo ed estrarre da un’urna
n elementi con l’accortezza di rimettere di volta in
volta il numero estratto nell’urna

Nel CAMPIONE CASUALE SEMPLICE


(BERNOULLIANO) CON RIPETIZIONE

• La popolazione d’origine resta invariata in quanto la


scelta presuppone che ogni elemento estratto
venga rimesso nell’urna in modo da mantenere
costante e uguale a 1/N la probabilità di estrazione
del n successivo
b) Campionamento casuale senza
ripetizione
L’unità che entra a far parte del campione viene
esclusa dalle successive estrazioni
quindi la probabilità di estrazione dei numeri
successivi cambia perché cambia la composizione
dell’urna

Nel CAMPIONE SENZA RIPETIZIONE

La popolazione d’origine si riduce di un’unità per cui


la probabilità di scelta del 1° elemento, 2°
elemento ecc. saranno: 1/N; 1/N-1; 1/N-2
Campionamento casuale in
blocco
• Gli n elementi si estraggono in blocco
dall’urna, cioè in un’unica volta
– In questo caso non esiste l’ordine di
estrazione
Vantaggi e limiti Campionamento casuale
PREGI DIFETTI
Il campione è • è necessaria una lista
statisticamente completa delle unità
rappresentativo della popolazione
nessuna unità o gruppo • la selezione è
di unità è favorito completamente
presenta una notevole affidata al caso
semplicità nel metodo
ha un basso costo
operativo
La correttezza di un Campione casuale
È necessario conoscere la base (frame), cioè la
documentazione (schedari, elenchi) delle unità
statistiche che compongono la popolazione totale
da utilizzare per la scelta delle unità che devono
far parte del campione.

Le basi devono essere precise, complete, riferite


a dati recenti e senza duplicazioni
(es. nel caso di indagini sulle famiglie la base può essere
fornita dall’elenco delle famiglie iscritte nel registro della
popolazione dei comuni)

La correttezza del campionamento dipende dalla


correttezza della lista di campionamento
Campionamento sistematico
Questa tipologia di campionamento è equivalente a quella del
campionamento casuale semplice da cui differisce solo per la
tecnica di estrazione
Le unità campionarie non vengono più estratte con sorteggio
ma selezionate sistematicamente una ogni intervallo
CAMPIONAMENTO SISTEMATICO

Ciascuna unità della popolazione è numerata da 1 a N:


si sceglie un’unità ogni k = N/n cominciando con un
numero estratto a caso tra 1 e K
la prima unità è scelta casualmente, le altre
secondo il criterio prefissato che è definito passo
di campionamento
Esempio Campionamento sistematico

• Da una popolazione di N=8235 unità si desidera


estrarre un campione di n=500, si sceglierà una
unità ogni 16 (K=8235/500=16,7) cominciando con
un numero estratto a caso tra 1 e 16. Se questo è
12, allora i soggetti scelti saranno il 12°, il 28°, il
44°, 60°, 76 ecc.
Vantaggi e limiti
Campionamento sistematico
PREGI DIFETTI
Semplifica l’operazione di • Risente molto di più
estrazione rispetto al
Permette di ottenere campionamento
campioni casuali anche nella casuale del grado di
situazione in cui manchi una accuratezza della
lista della popolazione lista di
campionamento
Campionamento stratificato
Quando la numerosità della popolazione
è molto elevata, per cui è difficile
numerare tutti gli elementi e si corre
il rischio di non inserire nel campione
elementi d’interesse, si ricorre

Campione stratificato
Campionamento stratificato
Il metodo si articola in 3 fasi :

1. si procede alla suddivisione delle unità della


popolazione di riferimento in gruppi (denominati
STRATI);
• il raggruppamento deve essere fatto in modo che
ciascun elemento compaia in un solo strato;

• gli elementi appartenenti allo stesso strato devono


essere simili tra loro (strati/classi omogenee);

• per raggruppare la popolazione in strati omogenei si


utilizza come criterio di stratificazione una variabile
correlata al fenomeno studiato
Campionamento stratificato
2. Si estrae un campione da ogni strato con la procedura
del campionamento casuale semplice

3. Si uniscono i campioni provenienti dai singoli strati per


ottenere il campione complessivo

Due tipologie di campioni stratificati

proporzionale Non proporzionale


o uniforme
Esempio Campionamento stratificato

Se si intende stimare il reddito di una popolazione


tramite un campione di individui, i soggetti della
popolazione di riferimento possono essere
suddivisi in strati sulla base della variabile
occupazione.

Se gli strati sono 4: operai, impiegati, ceti medi


autonomi, liberi professionisti,
-da ognuno di questi strati estraiamo un campione
-quindi uniamo i 4 campioni parziali in un campione
complessivo
Campioni stratificati
a) Campione stratificato proporzionale riproduce la
stessa composizione degli strati della popolazione

-Supposto che N1, N2,…. Ns siano il numero delle unità


contenute in ciascuno degli s strati

-supposto che f=n/N sia la frazione di campionamento


(cioè la frazione di popolazione che deve far parte del
campione)

-le unità da campionare sono date da


n1=f N1, n2=f N2……., ns=f Ns,
Esempi Campioni stratificati

Campione stratificato proporzionale


Se gli operai, gli impiegati, gli autonomi, i liberi
professionisti sono rispettivamente il 40%, il
40%, il 15% e il 5% della popolazione dobbiamo
riprodurre nel campione la stesse proporzioni.
Quindi se costruiamo un campione di 1000 casi
formato da 400 operai, 400 impiegati, 150
lavoratori autonomi e 50 liberi professionisti
avremo un campione proporzionale
Campioni stratificati
b) Campione stratificato uniforme: tutti gli strati
sono ugualmente rappresentati

-Con questo procedimento, se s è il numero degli strati,


ogni strato avrà ampiezza pari a s/n

-Questo metodo si usa ogni qualvolta la popolazione di


uno strato è molto piccola rispetto alla popolazione degli
altri strati (non si vuole togliere significatività agli
strati esigui)

non proporzionale non riproduce la stessa composizione degli


strati della popolazione
Esempi Campioni stratificati
Vogliamo sapere se in una città di 400 mila abitanti (N) le
funzioni religiose sono frequentate più dai cattolici o dai
protestanti.
Dati: N1,=396.000 cattolici ; N2=4000 protestanti
n=100

-se usassimo il campionamento proporzionale dovremmo


intervistare
n1=f N1 =100/400000*396000=99 cattolici
n2=f N2 =100/400000*4000=1 protestante

-se usiamo il campionamento uniforme


n/s= 100/2= 50 cattolici e 50 protestanti

Dove f=n/N è la frazione di campionamento


Vantaggi e limiti
Campionamento stratificato
PREGI DIFETTI
• raggruppando la • necessita di una lista
popolazione in strati completa delle unità
omogenei si migliora la della popolazione
precisione con cui si • richiede un
stima la grandezza che considerevole lavoro
si vuol rilevare affinché gli strati
siano al loro interno il
più possibile omogenei
Campionamento a stadi
Nel caso in cui la popolazione dovesse risultare molto
elevata, per semplificare la procedura di estrazione e
per ridurre i costi di rilevazione, si usano i
campioni a più stadi.

La popolazione viene suddivisa su più livelli


gerarchicamente ordinati

Si ricorre ad uno schema che comporta


l’individuazione di unità primarie, secondarie e di
ordine superiore di rilevazione
Esempio Campione a stadi
Esempio 1: dovendo costruire un campione nazionale di maestri
elementari, il campionamento si può effettuare in 2 stadi:
- Al 1° stadio si estrae un campione di unità primarie
rappresentate dai circoli didattici
- Al 2° stadio si estrae un campione di unità secondarie, ovvero
i maestri, da ognuna delle unità primarie selezionate alla
prima estrazione

Esempio 2: Se volessimo indagare su un campione di famiglie


italiane sarebbe conveniente estrarre:
-prima un campione di province (1° stadio- unità primarie),
-poi nell’ambito di ciascuna provincia selezionata campioneremo
un numero di comuni (2° stadio- unità secondarie)
-infine nell’ambito di ciascun comune selezionato sceglieremo un
numero di famiglie (3° stadio- unità finali)
Vantaggi e limiti
Campionamento a stadi
PREGI DIFETTI
• risparmio di tempo e • non assicura la stessa
di costo operativo rappresentatività del
• è necessaria la sola campionamento
lista delle unità stratificato
appartenenti ai • richiede un
stadi di interesse considerevole lavoro
affinché si individuino le
unità primarie e le unità
di stadio successivo
Campionamento a grappoli
• Caso particolare/variante di campionamento a stadi:
• Tipo di campionamento che si realizza quando si
estraggono contemporaneamente non gli elementi di una
popolazione ma l’insieme di unità spazialmente contigue
(insieme è detto grappolo: classi scolastiche, reparti di
lavoro, famiglie)

• Esempio: supponiamo di dividere la città in 100


quartieri, se, invece, di scegliere a caso le unità
statistiche da ogni quartiere, scegliamo un gruppo di 10
quartieri per poi campionare tutti gli abitanti di questi
quartieri, si ha un campionamento a grappolo.

Il campione a grappolo è costituito da tutte le unità


appartenenti ai grappoli estratti
Vantaggi e limiti
Campione a grappoli
PREGI DIFETTI
• risparmio di tempo e • Le caratteristiche
di costo operativo rilevate con questo tipo
• è necessaria la sola di campionamento sono
lista delle unità tanto meno precise
appartenenti ai quanto più omogenei
grappoli sono gli elementi
appartenenti allo stesso
grappolo e quanto più
grandi sono le
differenze tra i vari
grappoli
Campionamento per aree
Caso particolare/variante di campione a stadi:
• Il campione di area è l’insieme delle unità
territoriali scelto in maniera casuale

• Si tratta di una soluzione da applicare quanto la


lista degli elementi della popolazione è assente o
incompleta (es. a livello sub-territoriale)

• Si usa per rilevare le unità statistiche in grandi


città: utilizzando mappe molto precise, si divide la
città in quartieri, in isolati e nell’ambito di questi si
scelgono a caso le famiglie/persone da intervistare
Costruzione campione
Abbiamo la distribuzione degli alberghi di una certa area per categoria e presenza o
meno di ristorante nell’albergo. Si vuole estrarre un campione di alberghi per
condurre un’indagine sul turismo alberghiero nell’area considerata.

RISTORANTE
CATEGORIA
SI NO
5 STELLE 80 65
4 STELLE 100 70
3 STELLE 120 55
2 STELLE 80 10
1 STELLA 40 5
Costruzione campione
A. Indicare la numerosità campionaria nel caso in cui si proceda
all’estrazione di un campione casuale semplice con frazione di
campionamento pari al 10%.
Calcoliamo il totale:

RISTORANTE
CATEGORIA
SI NO TOT
5 STELLE 80 65 145
4 STELLE 100 70 170
3 STELLE 120 55 175
2 STELLE 80 10 90
1 STELLA 40 5 45
TOTALE 420 205 625

Poiché il totale degli alberghi è 625 un CCS (Campione Casuale Semplice) con
frazione di campionamento del 10% avrebbe dimensione 625 × 0,10 ≈ 63

f=n/N è la frazione di campionamento (cioè la frazione di


popolazione che deve far parte del campione) quindi n=f*N
Costruzione campione
A. Supponendo di voler estrarre un campione stratificato in base alla categoria ed
alla presenza o meno del ristorante:

a) Indicare la numerosità campionaria di ciascuno strato e quella


complessiva nel caso di allocazione proporzionale agli strati con
frazione di campionamento pari al 10%.

Gli strati sono 5 × 2 = 10

Il numero di unità da estrarre per ciascuno strato è pari a: nj = 0,10 × Nj

RISTORANTE
CATEGORIA
SI NO TOT Nr. Alberghi per strato
5 STELLE 8 6 14
4 STELLE 10 7 17
3 STELLE 12 6 18
2 STELLE 8 1 9
1 STELLA 4 1 5
63 Nr. Campionaria n = ∑ nj =
TOTALE 42 21
63
Costruzione campione
a) Indicare la frazione di campionamento adottata in ciascuno strato nel
caso in cui si proceda all’estrazione di 20 alberghi in ciascuno strato

La frazione di campionamento di ciascuno strato è pari a

fs = nj / Nj = 20 / Nj

salvo per i due strati in cui il numero di unità statistiche è inferiore alla
numerosità richiesta. Per questi strati tutte le unità statistiche devono essere
inserite nel campione e quindi la frazione di campionamento risulta essere
pari a 1

Frazione di campionamento per strato nj = 20

RISTORANTE
CATEGORIA
SI NO TOT
5 STELLE 20/80=0,25 0,31 0,28
4 STELLE 0,20 0,29 0,24
3 STELLE 0,17 0,36 0,23
2 STELLE 0,25 1,00 0,33
1 STELLA 0,50 1,00 0,56
0,28 (20 × 8) + 15 / 625=
TOTALE 0,24 0,37
0,28

[(20 × 3) + 10 + 5] / 205 = 0,37


(20 5) / 420 = 0,24
Costruzione campione
a) Indicare la numerosità campionaria complessiva nel
caso in cui si proceda all’estrazione di 20 alberghi in
ciascuno strato e commentare brevemente il risultato
ottenuto.

Numerosità per strato costante


RISTORANTE
CATEGORIA
SI NO TOT
5 STELLE 20 20 40
4 STELLE 20 20 40
3 STELLE 20 20 40
2 STELLE 20 10 30
1 STELLA 20 5 25
TOTALE 100 75 175

Di solito la numerosità campionaria è uguale al numero


degli strati per 20.
Quindi se tutti gli strati avessero almeno 20 unità
statistiche il campione avrebbe dimensione n = 20 × 10 =
200

In questo caso n = (20 × 8) + 10 + 5 = 175 pari ad una


frazione di campionamento complessiva del 28 % (175 è il
28% di 625).

Tale frazione è molto variabile tra gli strati perché si passa


da un massimo del 100% ad un minimo del 17%.
Campioni non probabilistici
Campione a scelta ragionata
Campione accidentale
Campione per quote
Campione a valanga
1. Campionamento a scelta ragionata
Le unità campionarie si ottengono non in base a
criteri di casualità, ma su una selezione
soggettivamente impostata.

La scelta del campione viene effettuata


- sulla base di considerazioni razionali
- si fonda sul giudizio del ricercatore il quale
conosce il fenomeno e con criteri, più o meno
personali, cerca di estrarre un campione della
popolazione
2.Campionamento accidentale
Il ricercatore sceglie le prime persone che
capitano come soggetti su cui indagare.
In questo caso è sufficiente l’adesione volontaria
dei rispondenti
• Es. campioni formati dai lettori di un giornale che
rispondono spontaneamente a determinate
indagini

Vantaggi: risparmio di tempo e denaro


Limiti: si perde l’accuratezza del campionamento
3. Campionamento per quote
Procedimento:
1) si suddivide la popolazione oggetto di studio in
raggruppamenti (strati) secondo alcune variabili
(sesso, età ,titolo di studio..);
2) ciascuno strato deve essere rappresentato nel
campione da una quota proporzionata alla sua
consistenza all’interno della popolazione complessiva
(si calcola il peso percentuale di ciascuno strato
sull’intera popolazione);
3) stabilite le quote (cioè il numero di interviste da
effettuare), il rilevatore è libero di scegliere a sua
discrezione i soggetti da intervistare purché si
attenga alle quote
Aspetti Campionamento per quote
Il Campionamento per quote è un campionamento
stratificato: l’elemento di diversità sta nel fatto che
la scelta delle unità da intervistare è rimessa al
rilevatore, fermo restando il vincolo delle quote

Disegno di campionamento molto diffuso specie nelle


ricerche di mercato e nei sondaggi di opinione

Vantaggi: risparmio di tempo e denaro


Limiti: la selezione è distorta a favore degli individui
di più facile reperimento per gli intervistatori
4. Campionamento a valanga
La procedura consiste nell’individuare i soggetti da
inserire nel campione a partire dagli stessi soggetti
intervistati
• Fase 1: si identificano e si intervistano le persone in possesso
di determinate caratteristiche. Tali soggetti sono utilizzati
come informatori per identificare altri individui con peculiarità
simili da inserire nel campione.

• Fase 2: consiste nell’intervistare i soggetti su cui indagare e


far in modo che questi ultimi suggeriscano a loro volta altri
nominativi da inserire nel campione

• Metodo utilizzato nello studio di popolazioni clandestine (gruppi


sociali che tendono ad occultare la loro identità)
DIMENSIONE DEL CAMPIONE
E
PROBLEMI DI
CAMPIONAMENTO:
GLI ERRORI

Prof.ssa Maria Carella


maria.carella1@uniba.it
Quanto deve essere grande un
campione?
La scelta della dimensione del campione dipende ed è
direttamente proporzionale :

1. ALLA VARIABILITA’ TRA GLI ELEMENTI DELLA


POPOLAZIONE (natura della popolazione)

2. AL LIVELLO DI PRECISIONE RICHIESTO PER UNA


STIMA (finalità dell’indagine)
Quanto deve essere grande un
campione?
ATTENZIONE:
La dimensione del campione non necessariamente deve
essere proporzionale alla dimensione della
popolazione.

– Se la grandezza della popolazione aumenta, quella del campione


richiesto per una stima accurata non deve necessariamente
diventare più grande

– Un campione di 1000 casi potrebbe produrre stime affette da


errori molti simili sia che sia stato estratto da una popolazione
di 10 mila che di 100 mila soggetti
La scelta della dimensione del
campione
1. VARIABILITA’ TRA GLI ELEMENTI DELLA
POPOLAZIONE
• L’ampiezza del campione necessaria, perché si rispecchi
il valore che una variabile assume nella popolazione,
dipende dal grado di eterogeneità della variabile
all’interno della popolazione
Le popolazioni con una variabilità (o eterogeneità) maggiore (un
σ più grande) necessitano di un campione più grande
Se la popolazione è omogenea rispetto ad una variabile sarà
sufficiente un campione piccolo per ottenere una stima accurata
(la grandezza del campione è ininfluente)
La scelta della dimensione del
campione
2. LIVELLO DI PRECISIONE RICHIESTO
PER UNA STIMA
– Più è grande la precisione richiesta, maggiore dovrà
essere la dimensione del campione in esame

– L’ampiezza de campione si costruisce a partire dal livello


di fiducia, ovvero dall’intervallo di confidenza, stabilito
per la stima e dal grado di errore che siamo disposti ad
accettare
Ampiezza del campione
• In sintesi: l’ampiezza corretta del
campione dipende dalla natura della
popolazione e dalla finalità dell’indagine.

Riepilogando, l’ampiezza del campione è:


- direttamente proporzionale alla VARIABILITA’ del
fenomeno studiato;
- direttamente proporzionale ALLA PRECISIONE
DESIDERATA
Ampiezza del campione
Altro aspetto importante:
Il ricercatore deve tener conto del tipo di analisi
che intende effettuare e quindi del frazionamento al
quale sottoporrà il campione (analisi multivariata).

ESEMPIO: in una ricerca sul comportamento elettorale se si


vogliono studiare le caratteristiche degli elettorati di piccoli
partiti, un campione di 50 casi può:
-essere sufficiente per una stima sul numero dei voti che vanno ad
un partito piccolo;
-non può essere utilizzato per mettere in relazione il voto alle
caratteristiche (genere, età, titolo di studio) degli elettori
Ampiezza del campione e
numero dei casi effettivi
• In relazione all’ampiezza teorica del
campione il numero effettivo di casi da
cui verranno ricavati i dati può essere
notevolmente inferiore per diverse cause:
rifiuti a farsi intervistare, irreperibilità
dei rispondenti, restituzione di questionari
illeggibili.
Bontà di un campione
Per bontà di un campione intendiamo:
-la sua validità scientifica
-la sua rappresentatività

Un campione è rappresentativo quando


fornisce un’immagine in piccolo ma senza
distorsioni della popolazione
Bontà di un campione
La bontà di un campione corrisponde
all’inverso dell’errore di selezione

Se le stime del campione sono affette da un piccolo


errore allora il campione è rappresentativo

Che cosa intendiamo per errore?


Errore
In generale intendiamo per ERRORE il risultato di
una valutazione difforme dall’oggetto della nostra
conoscenza

In statistica l’errore non si genera soltanto quando


le cifre fornite da una rilevazione sono sbagliate

Alcune cifre determinate con esattezza si dicono


affette da errore quando si riferiscono a fenomeni
perturbati da varie cause
Errori di rilevazione
Nella fase empirica o di operativizzazione di un’indagine
statistica esistono tre fasi:
1. selezione delle unità studiate
2. rilevazione o osservazione dei dati
3. trattamento dei dati

In ognuna delle 3 fasi si possono compiere


degli ERRORI.
Errore di selezione
L’errore di selezione è quello che si compie
nella fase di selezione dei casi da rilevare

Si compone sostanzialmente di 3 parti:


-errore di campionamento Errore
campionario
-errore di copertura
Errore non
-errore di non risposta campionario
Errori di campionamento
L’Errore di campionamento individua il fattore di
imprecisione di una stima ottenuta da un campione

ASSUNTO:
L’indagine campionaria fornisce una stima, cioè solo
un valore approssimato, del parametro che si vuole
conoscere di una popolazione.
-Ciò significa che il valore in questione non è certo, ma solo
probabile, e inoltre questa probabilità può variare entro un
certo intervallo (detto intervallo di confidenza).
CONSEGUENZA
La stima del campione è quindi sempre affetta
da errore
Errori di campionamento
Intendendo per:
Parametro: qualsiasi statistica (valore) calcolata relativamente ad
una o più caratteristiche di tutte le unità d’analisi appartenenti alla
popolazione (universo).

Stima: qualsiasi statistica calcolata relativamente ad una o più


caratteristiche di tutte le unità d’analisi appartenenti al campione
estratto.

Errore di campionamento: sarà e = V - v


dove e è l’errore di campionamento,
V un dato parametro di una popolazione
v la stima di esso effettuata per mezzo di un campione
Errori di campionamento
Errore campionario può essere tanto più grande:

-quanto più elevata è la variabilità delle


osservazioni
se c’è una grande variabilità, la possibilità di variazioni tra le
medie campionarie aumenta e quindi l’errore campionario
potrebbe essere grande
(esempio: se vogliamo stimare il reddito medio degli abitanti di
una città, l’errore di campionamento sarà più elevato in un
quartiere misto, in termini di fasce di reddito, rispetto al caso di
un quartiere più omogeneo)

-quanto minore è l’ampiezza del campione


Errore campionario

1. Non si può evitare

2. Si può misurare
La dimensione dell’errore può essere calcolata solo in un
campione probabilistico
Espresso dall’errore standard SE=dev.std/√n
Funzione di:
– Numerosità campionaria
–Variabilità nel misurare il fattore di interesse
Esempio di errore nei campioni

Errore per variabilità dovuta al campionamento


Supponiamo di voler stimare l’altezza media degli alunni di una
classe. Potremmo scegliere una fila a caso e prendere il
valore medio degli alunni di quella fila come stima dell’altezza
degli alunni dell’intera classe

In realtà la nostra stima varierà a seconda della fila


considerata: potrebbe capitare il caso di un valore medio
molto diverso dagli altri perché in una fila si trovano
giocatori di pallacanestro.
Esempi di errori nei campioni

– Errore per distorsioni nel metodo di campionamento

Scegliere un campione tra le persone che risultano


sull’elenco telefonico vuol dire escludere quelli che non
hanno il telefono o che non appaiono per altre ragioni
Esempi di errori nei campioni

– Errore per ampiezza del campione

In uno studio in cui effettuiamo un’analisi monovariata (quando si


stimano le variabili ad una ad una) un campione di piccole dimensioni
può essere adeguato

Se nella stessa ricerca studiamo le relazioni tra le variabili, quindi


effettuiamo un analisi bivariata o multivariata, la dimensione del
campione deve essere adeguata, più ampia, altrimenti l’errore
cresce fino a livelli inaccettabili.
Errori campionari e non campionari

L’errore campionario è l’errore che la


statistica è in grado di misurare
(se il campione è stato scelto con procedura
casuale quindi si tratta di campione probabilistico)

L’errore non campionario, statisticamente


non è misurabile:
-errore di copertura
-errore di non risposta
Errori non campionari
Errore di copertura dipende dalle liste della
popolazione
Per ottenere un campione probabilistico si deve poter
assegnare a tutte le unità della popolazione una
probabilità di estrazione:
a) quando non esiste una lista di popolazione
(esempio: studi per fasce particolari di popolazioni,
disoccupati, cattolici praticanti) occorre rinunciare alle
tecniche di campionamento probabilistico;
b) nel caso di incompletezza delle liste (omissioni,
duplicazioni) 3 possibilità: ridefinire la popolazione,
trascurare egli esclusi, integrare il campione
Errori non campionari
Errore di non risposta ha 2 cause:

1) mancato contatto con i soggetti estratti per:


-difficoltà a raggiungere i soggetti (problema di costi)
-irreperibilità dei soggetti campionati

2) Rifiuto a rispondere
Errori non campionari
Errore di non risposta
Per contrastare efficacemente il problema delle
mancate risposte ci sono due metodi:

1. il primo è quello di tornare il più possibile dalla


persone che non rispondono per incontrarle o
convincerle;

2. il secondo consiste nella ponderazione, cioè


nell’attribuire alle persone non raggiunte dall’intervista
le risposte medie date dal gruppo sociale al quale esse
appartengono.
Minimizzare gli errori
• Si possono minimizzare gli errori
avvicinando le procedure di campionamento
al modello di campionamento probabilistico

Accuratezza della procedura di


campionamento e dimensione del campione
rappresentano le due caratteristiche della
bontà di un campione
Accuratezza della procedura di
campionamento
L’ Accuratezza della procedura di campionamento
viene prima della dimensione del campione

Esempio: se si vuole effettuare una ricerca sugli insegnanti di


una provincia e si hanno poche risorse a diposizione, è meglio
intervistare 300 insegnanti scelti casualmente dalla lista
completa del provveditorato che 1000 raggiunti attraverso
amicizie, conoscenti, questionari autocompilati.

La scelta impropria dei soggetti da campionare comporta una


distorsione del campione
Errori fase di osservazione
Gli errori di osservazione possono essere dovuti a:
1. Imperfezioni dei questionari o degli strumenti
usati per la rilevazione;
2. Individuo che compie la rilevazione
(intervistatore);
3. Individuo o l’oggetto della rilevazione
(intervistato).
Errori usuali
1. Errori per mancata chiarezza sull’oggetto
della rilevazione
– Popolazione e caratteristiche in analisi devono
essere definite in modo chiaro
– Es. Studio sull’entrata media dei lavoratori full time:
quante ore costituiscono il full time?, sono inclusi gli
straordinari? cosa intendiamo per entrata media: media
o mediana?
2. Errori nella costruzione del concetto e
dello strumento di valutazione
• Formulazione delle domande
• Modo di strutturare le risposte
Errori usuali
3. Errori nella raccolta dati
• Errori attribuibili al comportamento dell’intervistato:
mancata collaborazione per diffidenza, risposte fuorvianti
per domande delicate o per pregiudizi, risposte
volutamente menzognere

• Errori attribuibili al comportamento dell’intervistatore:


informazioni errate, schede compilate a “tavolino”,
registrazione errata delle risposte
Errori fase di trattamento dei dati

Errori durante lo spoglio dei dati


• Errore di interpretazione del significato
delle risposte e di alcuni dati;
• Errore di trascrizione;
• Errore di codifica
• Errore di elaborazione (arrotondamento)
2 Tipologie di errori
1.ERRORE SISTEMATICO
L’errore sistematico è un errore costante, che si
presenta in tutte le rilevazioni. Il valore osservato
tende a sovrastimare o sottostimare il valore vero
esempi:
una domanda sul reddito comporterà una sottostima costante
del reddito vero
il tasso medio di partecipazione elettorale osservato tramite
campione è sistematicamente superiore a quello vero

2. ERRORE ACCIDENTALE
L’errore accidentale è invece un errore variabile, che
varia da rilevazione a rilevazione
2 Tipologie di errori
Riassumendo

L’errore sistematico è la parte di errore comune a


tutte le applicazioni di una determinata rilevazione

L’errore accidentale è la parte di errore specifica di


ogni singola rilevazione.
ERRORE GLOBALE

L’errore globale di una ricerca


non è stimabile

L’unica componente misurabile dell’errore globale è


l’errore di campionamento
Correzione degli errori
METODO DIRETTO
prevede di risalire alle fonti. Se gli errori dipendono da
gravi negligenze sarà necessario rifare la rilevazione

METODO DI INGRANDIMENTO DELLE CLASSI


si utilizza per ridurre o eliminare gli errori dovuti a
spostamenti di frequenze e intensità tra modalità
contigue attraverso l’ingrandimento delle classi riunendo
più dati in una classe unica in modo da creare una
compensazione tra gli errori
Correzione degli errori
• PEREQUAZIONE
obiettivo è quello di eliminare le
oscillazioni di carattere accidentale,
sostituendo i valori affetti da errori
con valori presumibilmente corretti
Correzione degli errori
INTERPOLAZIONE: si procede
cercando di desumere i dati mancanti
da altri dati relativi a fenomeni che,
seppur diversi da quello in oggetto,
sono connessi ad esso.
IL QUESTIONARIO
Prof.ssa Maria Carella
Le modalità di rilevazione:
le tecniche di indagine
Rilevazioni dirette Rilevazioni indirette
a) Rilevazioni tramite Il rilevatore misura gli eventi a
intervistatore livello di atti
• intervista faccia a faccia a) Esame dei documenti
atti di nascita, statistiche
ufficiali e non.
libera con questionario
b) Metodo del sopralluogo
si osserva nel luogo oggetto di
• intervista telefonica
indagine comportamento delle
b) Rilevazione autocompilata unità di interesse
• con questionari postali
Le rilevazioni dirette:
Tipi di indagini
INDAGINI OCCASIONALI
Si tratta di indagini effettuate per ottenere stime riferite a
caratteristiche possedute dalla popolazione in un determinato
periodo o in un dato istante di tempo
(esempi: distribuzione del fatturato realizzato nell’arco di un
anno, distribuzione della popolazione per classi di età ad una
certa data).

INDAGINI PERIODICHE O RICORRENTI


Si tratta di indagini che vengono ripetute in momenti
programmati nel tempo.
Le rilevazioni dirette:
Tipi di indagini
• SONDAGGI DI OPINIONE: indagini condotte su
argomenti di attualità o di pubblico interesse

• STUDI PANEL: interviste ripetute su uno stesso gruppo


di soggetti su un ampio arco temporale

• STUDI DI TREND: interviste condotte su uno stesso


tema nel corso del tempo

Le indagini svolte su un periodo molto lungo sono dette


LONGITUDINALI
Le rilevazioni dirette:
Tipi di indagini
Indagini longitudinali senza rotazione:
sono indagini predisposte con lo scopo di seguire un
particolare gruppo di unità nel tempo in modo da
creare un record longitudinale per ogni unità
osservata.
Obiettivo: studiare le modificazioni intervenute nel
collettivo durante il tempo.

IMPORTANTE: è possibile produrre stime riferite alla sola


popolazione di partenza dal momento che, senza disporre di
ingressi di nuove unità, non si possono analizzare gli eventuali
mutamenti nella struttura del collettivo di riferimento.
Le rilevazioni dirette:
Tipi di indagini
Indagini longitudinali con rotazione:
indagini disegnate per seguire un particolare gruppo
di unità per un periodo di tempo, introducendo nuove
unità nel campione con cadenze specifiche.
In questo modo si tiene conto che nel tempo il
collettivo di interesse si modifica con l’ingresso di
nuove unità (es.: nascite o immigrazioni)

Mediante questo schema di indagine è quindi possibile


produrre sia stime longitudinali, riferite alle variazioni nette
intervenute e alle transizioni di stato, sia stime trasversali
riferite alle popolazioni aggiornate ad ogni occasione di
rilevazione.
Esempi indagini longitudinali

Rilevazione trimestrale sulle forze di lavoro, Istat:


prevede un piano di campionamento a rotazione, per cui
ogni famiglia fa parte del campione per due rilevazioni
consecutive, poi esce per due indagini per poi rientrare nel
campione per le ultime due.
• Cadenza trimestrale.
Indagine longitudinale sugli sbocchi professionali dei
laureati, Istat:
condotta su coorti di laureati seguiti per 5 anni, con una
prima rilevazione tre anni dopo la laurea e una seconda
due anni dopo, per mezzo di un questionario postale.
Rilevazioni tramite intervistatore:
L’intervista faccia a faccia

• libera :
focalizzata (quando l’intervistatore riesce
ad ottenere risposte esplicite a domande
precise)
biografica (quando l’intervistatore chiede
l’opinione all’intervistato su determinate
questioni sollecitando la sua esperienza di
vita)
Rilevazioni tramite intervistatore

L’intervista faccia a faccia

• con questionario
l’intervista viene condotta da un rilevatore che legge le
domande e le opzioni di risposta nell’esatto ordine e con
lo stesso linguaggio adottati nel questionario.

L’intervistatore può anche utilizzare un questionario


elettronico gestito da un PC
Sistema CAPI (Computer Assisted Personal Interviewing).
Vantaggi e limiti
Intervista faccia a faccia
VANTAGGI DIFETTI
Si identifica il rispondente • Costosa da
Maggiore possibilità di implementare
convincere il rispondente a • Necessita di una
collaborare organizzazione capillare
Possibilità di istruire il sul territorio
rispondente sul significato • Maggiori rischi di
delle domande e sul modo condizionamento
corretto di fornire le
risposte
Viene rispettato l’ordine delle
domande
Rilevazioni tramite intervistatore

Intervista telefonica
Intervista condotta al telefono da un intervistatore che
legge le domande e le opzioni di risposta nell’esatto
ordine e con lo stesso linguaggio adottati nel
questionario riportandovi quindi le risposte così come
sono fornite dal rispondente.
Vantaggi e limiti
Intervista telefonica
VANTAGGI DIFETTI
• Costi minori • Impossibile contattare
• Tempestività nella raccolta famiglie senza telefono
dati • Il rispondente non è
• Non richiede organizzazione identificato con
sul territorio certezza
• Maggiore controllo dei • Limitazioni nell’aiuto
rilevatori fornito ai rispondenti
• Bassi rischi di
condizionamento
• Maggiore possibilità di porre
quesiti delicati
Rilevazione autocompilata

Questionario postale autocompilato


Il rispondente riceve il questionario a mezzo posta e
provvede a compilarlo e a rispedirlo o eventualmente
a riconsegnarlo ad un addetto che lo ritira a
domicilio.
Vantaggi e limiti
Questionario postale autocompilato
VANTAGGI DIFETTI
• Bassi costi di • Tempi lunghi di raccolta
realizzazione • Basso livello di risposte
• Impossibilità di identificare
• Minore organizzazione
con certezza il rispondente
• Più impersonale (adatta • Minore capacità di ottenere la
per quesiti delicati) partecipazione all’indagine
• Rispondente si sente più • Impossibile aiutare i
garantito da anonimato rispondenti nella
comprensione delle domande e
nella compilazione del
questionario
Il questionario: definizione
Il questionario è lo strumento designato a
raccogliere le informazioni sulle variabili
qualitative e quantitative oggetto di indagine.

IMPORTANTE
Il questionario deve essere uno strumento standardizzato

Ciò significa che domande e formulazione devono essere identiche


per tutti i rispondenti in modo che le informazioni raccolte siano
confrontabili fra loro.
La costruzione del questionario
La progettazione di un questionario è un’operazione
complessa e difficile:
si basa su una precisa metodologia
non si può improvvisare.

TRE FASI:
1) Progettazione concettuale
2) Redazione del questionario
3) Verifica del questionario
La costruzione del questionario
La fase preliminare
1) Fase della progettazione concettuale
Devono essere specificati e definiti:
• la popolazione di riferimento
• aree (argomenti) e ambiti da indagare
• le caratteristiche di interesse del fenomeno da studiare
• le finalità conoscitive
• la tecnica di rilevazione

ATTENZIONE:
Occorre precisare in maniera chiara il concetto connesso al tema
sul quale si vuole indagare
(esempio: per un’ indagine sul tempo libero, occorre indicare
precisamente cosa si intende per tempo libero)
La fase della stesura del
questionario
2) Fase Redazione del questionario
scelta del tipo di domande
contenuto
forma
formulazione dei quesiti

ordine delle domande


La scelta delle domande: contenuto

In base al contenuto (argomento)


3 categorie domande che riguardano :

1. Caratteristiche socio-demografiche
2. Atteggiamenti
3. Comportamenti
La scelta delle domande: sostanza
1. Le Domande relative alle proprietà socio-demografiche:
si riferiscono alle caratteristiche permanenti o temporanee
dell’individuo (genere, età, luogo di nascita, titolo di studio
professione, stato civile)
vengono riportate in tutte le inchieste e seguono delle
formulazioni standard.
2. Le Domande relative agli atteggiamenti (area dei pensieri)
riguardano opinioni, motivazioni, sentimenti, giudizi, valori
sono le più difficili da formulare e le risposte sono
influenzate dal modo in cui sono poste le domande.
3. Le Domande relative ai comportamenti (area delle azioni)
rilevano ciò che il soggetto dice di fare o di aver fatto.
un aspetto più facile da indagare rispetto agli altri: i
comportamenti sono inequivoci e osservabili
CARATTERISTICHE DEMOGRAFICHE E SOCIALI INDIVIDUALI

1. Sesso: Maschio 1|__| Femmina 2|__|

2. Data di nascita: giorno |__|__| mese |__|__| anno 19|__|__|

3. Paese di nascita:__________________________________________________________ |__|__|__|

3.1. Luogo di nascita:


- Villaggio (nome della città più vicina) __________________________________ 1|__|
- Piccola città (specificare): ____________________________________________ 2|__|
- Grande città (specificare): ____________________________________________ 3|__|

3.2. Dove ha trascorso la maggior parte del tempo dalla nascita fino ai 14 anni?
- Villaggio (nome della città più vicina) ______________________________________ 1|__|
- Piccola città (specificare): ________________________________________________ 2|__|
- Grande città (specificare): ________________________________________________ 3|__|

4. Cittadinanza/e attuale/i : ____________________________________________________ |__|__|__|


____________________________________________________ |__|__|__|

4.1. Lei ha intenzione di acquisire la cittadinanza italiana in futuro?


- Sono già italiano 1|__|
- Sì 2|__|
- No 3|__|
- Non so 4|__|

5. Attuale conoscenza dell’italiano:

Molto Abbastanza Poco Per niente


4 3 2 1
- Comprende l’italiano |__| |__| |__| |__|
- Parla l’italiano |__| |__| |__| |__|
- Legge l’italiano |__| |__| |__| |__|
- Scrive l’italiano |__| |__| |__| |__|
La scelta delle domande: forma
In base alla forma:
1. Domande aperte o a risposta libera
- sono quelle in cui si lascia piena libertà
all’intervistato nella formulazione della risposta;
- si rivolgono di solito ad un campione ridotto.

2. Domande strutturate o a risposte chiuse


-offrono la possibilità di scegliere tra risposte
prefissate, quindi la risposta sarà standard.
- sono le sole che si possono utilizzare con campioni
di grandi dimensioni.
La scelta delle domande: forma

Esempio D. Aperta Esempio D.Chiusa


Cosa ne pensa dell’aborto? Qual è il suo stato civile?
Celibe/nubile  1
Secondo lei quali sono i Coniugato/a  2
problemi più gravi nel Vedovo/a  3
nostro paese? Separato/a  4
Divorziato/a  5
La scelta delle domande: forma
In base alla forma:
Domande a Risposta Mista: prevedono delle
alternative fisse di risposte predefinite dal
ricercatore ed una riposta aperta.
A volte si lascia aperta la risposta con la voce Altro da
specificare

Domande Multiresponse o Con Più di Una Risposta


l’intervistato deve indicare, nel caso di risposte
strutturate, una o più risposte fra le varie
alternative proposte, o formulare una o più
risposte di domande a risposta aperta.
La scelta delle domande: forma
D. a Risposta Mista D. Multiresponse
Qual è la trasmissione Quali trasmissioni
televisiva che segue televisive segue?
maggiormente? (sono previste più risposte)
telegiornali  1 telegiornali  1
film  2 film  2
fiction  3 fiction  3
documentari  4 documentari  4
Altro specificare_______
La scelta delle domande: forma
Domande Gerarchizzate: domande strutturate
con opzioni di risposta che devono essere ordinate
secondo una scala di preferenze.

Esempio: Indichi in ordine di preferenza con numeri


da 1 (più preferito) a 4 (meno preferito) il suo
gradimento fra i seguenti programmi televisivi:
- telegiornali 
- film 
- fiction 
- documentari 
LE DOMANDE APERTE
VANTAGGI
a) Concedono maggiore libertà di espressione
e spontaneità
b) Utili quando il ricercatore non è in grado
di preventivare le possibili risposte
c) Utili per affrontare problemi complessi o
delicati
LE DOMANDE APERTE
SVANTAGGI
a. Possono essere troppo vaghe e dunque non
comprese dall’intervistato.
b. Creano problemi di codifica, perché le risposte
possono essere generiche o imprecise
c. La qualità delle risposte dipende dal livello
culturale dell’intervistato
d. Penalizzano individui non avvezzi ad esprimersi
in forma scritta o a concettualizzare.
e. Sono più impegnative, provocano un’alta
percentuale di rifiuto
LE DOMANDE CHIUSE
VANTAGGI
a. Sono standardizzate e consentono comparazioni
b. Facilmente codificabili
c. Le risposte multiple aiutano nella comprensione
della domanda stessa
d. Sui dati sensibili risultano più adeguate per avere
risposte veritiere (es. reddito suddiviso in
intervalli)
e. Possono sollecitare la memoria nel caso di ricordi,
eventi o definizioni
f. L’intervistato è agevolato nella risposta.
LE DOMANDE CHIUSE
SVANTAGGI
a. L’intervistato può rispondere a caso
b. Rischio di influenzare la risposta con le
alternative proposte non considerando
tutte le altre possibili alternative di
risposta non previste
c. Se la lista delle risposte è molto lunga,
l’ordine delle risposte può influenzare
gli intervistati
La formulazione delle domande
La formulazione delle domande è
importantissima perché può influenzare
fortemente la risposta

Criteri suggeriti relativi a:


linguaggio
sintassi
contenuto
La formulazione delle domande
1. Il livello linguistico delle domande
- semplice (le domande devono essere formulate
con un linguaggio elementare);

- conciso (le domande non devono essere lunghe)

- appropriato (è preferibile non utilizzare parole


complicate né tantomeno espressioni gergali)
La formulazione delle domande
2. La sintassi: le domande non devono essere

sintatticamente complesse (Domande doppie: quelle


che includono due o più domande in una)
Es. Lei è favorevole all’aborto e al divorzio?
Es. Si ritiene soddisfatto delle mansioni svolte e della posizione
occupata nel suo attuale lavoro?

ambigue o imprecise (domande in cui i termini hanno


significato non definito)
Esempio: «Il suo è un lavoro stabile?»
La formulazione delle domande
le domande non devono essere

astratte (domande che possono dare facilmente luogo a


risposte generiche o normative)

tendenziose o viziate (domande che orientano


l’intervistato verso una possibile risposta)
Esempio: «Lei non fuma, vero?»
Le insidie da domande

Le domande delicate/imbarazzanti possono


riguardare argomenti che sono psicologicamente
difficili da indagare
a) Quali sono gli argomenti?
• Reddito personale
• Orientamento e comportamenti sessuali
• Comportamenti illegali
(es. uso di droghe non legali, evasione fiscale)
• Comportamenti moralmente inaccettabili
• Comportamenti socialmente stigmatizzati
(es. forte consumo di alcolici)
Le insidie da domande delicate
b) Quali risultati producono?
Le risposte a queste domande possono essere difformi
da ciò che è ritenuto socialmente accettabile

In realtà esse tendono a suscitare risposte normative


cioè socialmente accettabili: si parla di “desiderabilità
sociale”
Le insidie da domande delicate
c) Come formulare le domande? I possibili rimedi
Le domande devono porre bene in luce che il consenso
alla norma non è scontato
Si deve considerare normale e diffuso anche il
comportamento negativo
Esempio: indagine sulla propensione a frodare il fisco:
Domanda sbagliata :”Secondo lei è giusto frodare il fisco?”
Domanda corretta: ”Molti cittadini ritengono giustificabile chi froda
il fisco, lei condivide?”
si possono porre le domande in forma indiretta
Esempio: il reddito può essere stimato a partire da particolari
consumi: quante vacanze, quante automobili, ecc.)
Le insidie da domande delicate
d) Accorgimenti
Queste domande devono essere poste alla fine del
questionario per evitare che l’intervistato abbia
reazioni negative e si rifiuti di proseguire.

Vanno alternate le domande difficili con quelle di


informazione e di opinione
Le insidie da Acquiescenza e
Response set
Acquiescenza si riferisce alla tendenza degli
intervistati a scegliere risposte affermative
piuttosto che negative

Response set si riferisce alla tendenza degli


intervistati a scegliere la stessa risposta per
una batteria di domande che presentano lo stesso
tipo di alternativa (uniformità delle risposte)

Rimedio
Le domande devono essere formulate non tenendo
vicine quelle che abbiano tra di loro un nesso logico o
alternando la tipologia delle risposte
Tipologie di domande tecniche
LE DOMANDE FILTRO permettono di saltare uno o
più quesiti successivi se sono verificate alcune
condizioni (individuano i percorsi di compilazione ).
Sono utili:
1. per selezionare sottoinsiemi di intervistati, aventi
caratteristiche in comune, e per indirizzarli verso
alcune sezioni del questionario.
(es: occupati o non occupati)
2. per guadagnare tempo e quindi per evitare di porre
quesiti dettagliati quando è inutile
(es. Lei dedica parte del suo tempo alla lettura? Se la risposta è
sì l’intervista prosegue altrimenti si conclude)
28. Ha mai lavorato nel suo paese d’origine?
- Sì 1|__|
- No 2|__| [vai alla dom.28.2]

28.1. Qual è stata l’ultima attività lavorativa svolta nel paese di origine? _____________________
______________________________________________________________________________

28.2. Quale era la sua condizione professionale nel paese di origine prima della partenza?
- Occupato 1|__|
- Disoccupato/in cerca di nuova occupazione 2|__|
- In cerca di prima occupazione 3|__|
- Studente/studentessa 4|__|
- Casalinga 5|__|
- Altro (specificare): ____________________________________________________

29. Attualmente lei svolge un’attività lavorativa?


- Sì 1|__| [vai alla dom.29.2]
- No 2|__|
29.1. Ha effettuato ore di lavoro negli ultimi sette giorni?
- Sì 1|__|
- No 2|__| [vai alla dom.30]
29.2. Quale lavoro svolge? (se l’intervistato svolge più lavori, indicare nella prima riga quello che lo impiega
per il maggior numero di ore e così via, in ordine decrescente)
- Primo ___________________________________________________________________
- Secondo ___________________________________________________________________
- Terzo ___________________________________________________________________
Domande Condizionate
• Si definisce DOMANDA CONDIZONATA un
quesito la cui risposta è condizionata dalla
risposta data alla domanda precedente
DOMANDA FILTRO

Es. “Ha mai avuto un aborto?” e poi

“ Quanti anni aveva quando ha avuto il suo primo


aborto?”
DOMANDA
CONDIZIONATA
Tipologie di domande tecniche
Domande con tecnica a imbuto sono quesiti
collegati per cui si formulano prima domande
generali e poi domande più specifiche
Utili per:
- dare tempo al rispondente di focalizzare
l’attenzione sul tema proposto
- aiutare la memoria
- registrare opinioni non meditate

Domande a imbuto rovesciato: si antepongono le


domande specifiche a quelle più generali.
-Utili quando si desidera raccogliere opinioni
meditate su un determinato argomento.
Tipologie di domande tecniche
Domande di controllo: servono per attestare
l’attendibilità delle risposte date
Esempio: “quali di questi settimanali legge
abitualmente?” Segue un elenco e se l’intervistato
sceglie settimanali mai esistiti è evidente che
l’intervista non è attendibile
Tipologie di domande tecniche
Le batterie di domande sono domande che essendo
tutte formulate nello stesso modo vengono presentate
all’intervistato in un unico blocco

Tipo di formulazione: stessa domanda introduttiva e


stesse alternative di risposta, varia solo l’oggetto al quale
si riferiscono.
Obiettivi:
• risparmiare spazio sul questionario e tempo dell’intervista,
• facilitare la comprensione del meccanismo di risposta
Svantaggi:
Rischio che le riposte siano date a caso e che siano meccanicamente
tutte uguali tra di loro.
L’abitazione dispone di:

Sì No
- Una cucina o angolo 1|__| 2|__|
cottura
- Stanza bagno e doccia 1|__| 2|__|
- W.C. 1|__| 2|__|
- Illuminazione elettrica 1|__| 2|__|
- Acqua corrente 1|__| 2|__|
- Acqua potabile 1|__| 2|__|
- Giardino, balcone o 1|__| 2|__|
terrazza
- Impianto di riscaldamento 1|__| 2|__|
fisso
Esprima il suo grado d’accordo sulle seguenti
affermazioni:
Molto Abba- Poco Per Non
stanza Nient so
5 4 3 e 1
2
- È bene che una donna abbia figli prima dei 25
anni |__| |__| |__| |__| |__|
- Le decisioni importanti devono essere prese da
marito e moglie insieme |__| |__| |__| |__| |__|
- Il ricorso alla contraccezione all’interno della
coppia è utile |__| |__| |__| |__| |__|
- Per avere figli occorrono adeguati mezzi
economici |__| |__| |__| |__| |__|
- In una famiglia l’uomo lavora e la donna sta a
casa e si occupa dei figli |__| |__| |__| |__| |__|
- I figli devono professare la stessa religione
dei genitori |__| |__| |__| |__| |__|
- I figli devono adottare le abitudini del paese
in cui vivono |__| |__| |__| |__| |__|
L’ordine Delle Domande
REGOLE BASE
1. Presentare per prime le domande dalle risposte
semplici

2. Seguire un ordine logico nella presentazione delle


domande

3. Porre domande aperte o delicate nell’ultima parte


del questionario

4. Separare le coppie di domande con funzione di


controllo
5. Variare lunghezza e tipologia di domanda
Le Modalita’ Di Risposta

E’ NECESSARIO:
• Prevedere tutte le possibili risposte;
• indicare come l’intervistato deve comportarsi per
rispondere alla domanda correttamente

• Sesso: maschio femmina X


• Sesso: maschio femmina X
• Sesso: maschio 1 femmina 2
Disposizione delle categorie di
risposta
Bisogna fare in modo che l’intervistato non si
confonda quindi le risposte vanno disposte:
-In colonna “Con quale frequenza leggi i giornali?”
Sempre
Di tanto in tanto
Quasi mai
Mai
-Incasellate o a griglia
Nome Età Sesso
Maschio Femmina
Laura 22 X
Le Modalità Di Risposta
• PER LE DOMANDE APERTE è necessario predisporre
uno spazio bianco sufficiente in cui l’intervistato possa
riportare una risposta completa.

• PER LE DOMANDE CHIUSE esistono diverse


alternative a seconda che la variabile sia:
- nominale
- ordinale
- cardinale
Variabili e modalità
Ogni domanda individua una variabile statistica
Le caratteristiche riferite all’unità di analisi

Proprietà
Ogni proprietà può manifestarsi in diversi modi:
questi sono definiti stati della proprietà
Proprietà Stati della proprietà
Età 1,2,3,4,5…. Anni

Sesso Maschio, Femmina

Orientamento Ateo, buddista, musulmano, cattolico,


religioso etc…
Le variabili nominali
Le variabili nominali (caratteri qualitativi) sono quelle che si
presentano con modalità:
- non numeriche (espressioni verbali)
- discrete, cioè finite e delimitate
- non ordinabili
Esempi: orientamento religioso, professione, nazionalità

In questo caso la procedura di operativizzazione è la


classificazione

Alle modalità viene assegnato un valore=numero che non ha


alcun significato numerico

Le variabili dicotomiche sono quelle che presentano due sole


modalità esempio: Sesso: maschio / femmina
Le variabili ordinali
Le variabili ordinali (caratteri qualitativi) sono quelle che si
presentano con modalità:
- non numeriche (espressioni verbali)
- discrete
- ordinabili.
Esempio: titolo di studio, gerarchia militare, ceto sociale

In questo caso la procedura di operativizzazione è


l’ordinamento, che tiene conto dell’ordinabilità degli stati
della proprietà.

Alle modalità viene assegnato un valore=numero che ha un


significato solo ordinale
Le variabili cardinali
Le variabili cardinali (caratteri quantitativi) sono quelle che si
presentano con modalità :
- numeriche
- ordinabili
- discrete o continue

Esempio: età, reddito


In questo caso la procedura di operativizzazione è il conteggio (se
v. discrete) o la misurazione (se v. continua)
Dalla realtà alla matrice dei dati

Procedura di
Tipo di variabile Stato della proprietà
operativizzazione

Discreti non ordinabili


Nominale (orientamento Classificazione
religioso)

Discreti ordinabili
Ordinale Ordinamento
(titolo di studio)

Discreti enumerabili
Cardinale Conteggio
(n. di figli)

Cardinale Continui (altezza, peso) Misurazione

•Fonte: P. Corbetta, La ricerca sociale vol.II p39


Le Modalità Di Risposta

• PER LE DOMANDE CHIUSE se la variabile è:


- nominale: modalità di risposte non numeriche

- ordinale: modalità di risposte non numeriche ordinate


per rango
• es. favorevole/indifferente/sfavorevole

- cardinale: modalità di risposte numeriche discrete o


ordinate con eguali intervalli
• es. età, peso
Variabili Nominali
• In generale il numero delle modalità per variabili nominali
è definito ed è ben noto
-Le variabili più facili da misurare sono quelle in cui le
modalità sono di numero limitato e distinte
concettualmente
(es. sesso: risposte possibili maschio-femmina)

• In alcuni casi possono essere presenti moltissime


modalità:
1) si riportano sul questionario SOLO quelle più
frequenti e si prevede una modalità “altro” per
garantire l’esaustività della risposta.
Per es. “Che programmi vedi in tv?”:
telegiornali varietà film X altro
Variabili Nominali
2) si fornisce all’intervistato una scheda allegata al
questionario in cui rintracciare un eventuale codice da
inserire nelle risposte

(es. “In quale provincia della Puglia risiedi?” Nella scheda ci sarà un
codice identificativo di ogni città da riportare nel questionario)
01 Bari 03 Lecce 05 Foggia
02 Brindisi 04 Taranto 06 Bat
Variabili Ordinali
• Nella maggior parte dei casi i questionari
prevedono molte domande di opinione o di
atteggiamento in cui le risposte sono di tipo
ordinale.

• Le categorie per una scala ordinale sono


spesso soggettive e definite dal ricercatore
esempi: scale di risposta
Molto d’accordo/ d’accordo /indifferente/ in disaccordo/
assolutamente in disaccordo/ non in grado di rispondere
Spesso/qualche volta/ quasi mai
Le variabili ad intervalli
• Variabili continue (come l’età) consentono un
elevato numero di possibili modalità di
risposta, troppo elevato per una domanda
chiusa.
• L’intervistatore si accontenterà di conoscere
solo il gruppo di categorie entro il quale si
colloca l’intervistato
• es. Che età hai?
da 0-25 da 25-50 da 50-75 X 75 e oltre
Verifica del questionario:
il pretest
La fase finale di costruzione del
questionario si realizza con la verifica
dello stesso tramite pretest.
Per collaudare il questionario lo si
distribuisce ad un campione di persone
molto più piccolo rispetto a quello di cui ci
si servirà per la ricerca (indagine pilota):
– AVVERTENZA: è necessario che il campione sia
rappresentativo di tutti gli strati del collettivo
statistico oggetto di rilevazione
IL PRETEST
La verifica del questionario tramite pretest è importante
perché fa emergere domande poco chiare e quindi aiuta a
correggere le imperfezioni

Il campione per un pretest è di solito costituito da pubblico


ad hoc: possono essere per esempio impiegati dell’istituto
c/o cui si lavora o “testimoni privilegiati” (es. mediatori
culturali)

A livello grafico nel questionario usato come pretest si


lasciano margini più ampi (spazi per scrittura) per
incoraggiare commenti da parte dei rispondenti.

Il ricercatore non deve obbligatoriamente accettare tutti i


consigli degli intervistati anche se tali interventi spesso si
rivelano utili.
LA MATRICE
DEI DATI

MARIA CARELLA

1
LA RIDUZIONE DEI DATI
• Terminata la fase di raccolta dei dati, le
procedure che consentono la trasposizione
degli stessi nella forma più adeguata per le
successive analisi si chiamano:
PROCEDURE DI RIDUZIONE DEI DATI
• La riduzione dei dati è necessaria tutte le
volte che si effettua una ricerca quantitativa

2
LA RIDUZIONE DEI DATI
Il QUESTIONARIO, in quanto supporto, non
assicura un elevato grado di efficienza al
trattamento delle informazioni

Trattasi di supporto cartaceo quindi soggetto a


rapido deterioramento

Il fatto di essere composto da più pagine lo rende


difficilmente consultabile

Ottimo strumento di raccolta dati ma inadeguato


per l’analisi dei dati stessi
3
LA RIDUZIONE DEI DATI
Il problema della riduzione dei dati nel
caso di questionari diventa pertanto
quello di individuare forme di
registrazione più efficienti in cui tradurre
il contenuto degli stessi.
Quali soluzioni per una maggiore
efficienza di registrazione?

4
LA RIDUZIONE DEI DATI
In generale nella ricerca quantitativa il processo di
organizzazione del materiale empirico raccolto consiste
nella sua trasformazione in una matrice di numeri:
MATRICE DEI DATI

L’operazione di traduzione del materiale empirico in


matrice dei dati di chiama
CODIFICA DEI DATI

5
LA RIDUZIONE DEI DATI
TABELLONE DI CODIFICA Su supporto informatico
unico grande foglio diviso organizzazione dei dati
in righe e colonne in
FILES
La sua struttura si chiama (fogli di calcolo elettronici
MATRICE DATI con excel, spss)
2 limiti:
1) Il conteggio avviene in maniera
manuale Sistema che consente un
2) Il tabellone deve essere letto ottimo compattamento di
dall’occhio umano
dati
LA MATRICE DEI DATI
E’ un insieme rettangolare di numeri contenente

tante RIGHE quante sono le unità di analisi/I


CASI ovvero i questionari (INTERVISTATI)

Tante COLONNE quante sono LE VARIABILI


considerate

In ogni cella derivante dall’incrocio tra una riga e una colonna


abbiamo un dato, cioè il valore
assunto da una particolare variabile su un particolare caso.

7
LA MATRICE DEI DATI
Ogni riga
rappresenta Ogni colonna
un’unità statistica rappresenta
(caso) una
variabile

Numero SESSO Titolo studio Peso Numero figli


1 M Laurea 68 2

2 F Diploma 50 3

3 M Licenza Media 79 1

4 F Dottorato 54 1

8
In sintesi
Ogni riga della matrice corrisponde ad un caso: leggendo
ogni riga possiamo ottenere il profilo di un caso.

Ogni colonna corrisponde ad una variabile: leggendo una


colonna conosciamo le risposte date a quella domanda
da tutti gli intervistati.

Per potere essere organizzate in una matrice, le


informazioni devono avere due caratteristiche:
l’unità d’analisi deve essere sempre la stessa
su tutti i casi studiati devono essere rilevate le stesse
informazioni.

9
Supporto informatico: excel o SPSS
IL FILE
contiene
Tanti RECORDS quanti sono i casi
(INTERVISTATI) che coincidono con le righe
della matrice

Tanti BYTES (o campi) quante sono le


variabili considerate che coincidono con le
colonne
10
La matrice dei dati
Unità di analisi Definizioni
Variabili Proprietà
operative

Campionamento

Stati sulla
proprietà

Casi Valori/Dati

MATRICE DEI DATI


LA RIDUZIONE DEI DATI
QUESTIONARIO TABELLONE DI FILE
CODIFICA

NUMERO DEL RIGA RECORD


QUESTIONARIO

DOMANDE COLONNE BYTES

12
LA CODIFICA DEI DATI
intendiamo due operazioni:

Assegnazione di un L’organizzazione dei dati


distinto simbolo o codice relativi ad ogni singolo
alle risposte previste per questionario entro il file
ciascuna domanda del
questionario

13
LA CODIFICA DEI DATI
avviene con l’ausilio di due
strumenti:

Il codebook : assegna ad Il tracciato-record indica la


ogni modalità della posizione di ogni variabile
variabile un numero nella matrice
(per es. dice che nella
variabile genere si
assegna il valore 1 a M e
2 a F) 14
Il codebook
V13 - sesso
1 Maschio
2 Femmina

V16 - titolo di studio


1 Dottorato di ricerca o specializzazione post-laurea
2 Laurea
3 Diploma universitario
4 Diploma o qualifica di scuola media superiore (4-5 anni)
5 Diploma o qualifica di scuola media superiore (2-3 anni)
6 Licenza di scuola media inferiore
7 Licenza elementare
8 Nessun titolo (sa leggere e scrivere)
9 Nessun titolo (non sa leggere e/o scrivere)

V21 - stato civile


1 Celibe/nubile
2 Coniugato/a coabitante con coniuge
3 Separato/a di fatto
4 Separato/a legalmente
5 Divorziato/a
6 Vedovo/a
15
LA CODIFICA DEI DATI
PRIMA OPERAZIONE: Assegnazione di un
codice alle risposte previste per ciascuna
domanda del questionario

IL RICERCATORE preferisce i codici numerici (cioè cifre


comprese tra 0 e 9) a quelli alfabetici per due ragioni:
1. alcune domande prevedono risposte numeriche, ad
esempio domande circa l’età o il numero dei figli;
2. può succedere che i codici debbano essere scritti
accanto alle domande, dunque i codici alfabetici
potrebbero ingenerare più errori

16
LA CODIFICA DEI DATI
Come devono essere usati i codici numerici all’interno della
stessa domanda?
Per ogni modalità di risposta deve essere usata una
cifra diversa.

Lo stesso codice può essere utilizzato in domande diverse?

Sì lo stesso codice può essere utilizzato come simbolo di


modalità di risposte appartenenti a domande diverse.
Il codice che identifica la risposta ad una determinata
domanda viene registrato nel record (la riga) in posizione
diversa da quella che si riferisce ad altra domanda.
17
LA CODIFICA DEI DATI
SECONDA OPERAZIONE:
L’organizzazione dei dati relativi
ad un singolo questionario
entro il file
I CAMPI o BYTE corrispondono alle colonne, i
RECORDS alle righe.
Per ogni unità d’analisi/CASO (QUESTIONARIO)
esisterà un RECORD e per ogni VARIABILE (domanda
del questionario) UN CAMPO.
-Un campo è distinguibile da un altro solo grazie alla
posizione che occupa nel record (primo, secondo, terzo) per
l’ordine di memorizzazione
-E’ dunque necessario che ogni variabile (domanda) venga
associata ad un campo e ad uno solo entro il record. 18
LA CODIFICA DEI DATI
Sex= Sesso EtàP= Età del padre C.FAM= Componenti
1=maschio 2=femmina della famiglia
1=0-2 compon ; 2= 2-4
Lin.m.=Lingua madre compon; 3= da 4 comp.
1=Italiano 2= Inglese in su
3= Francese 4=Spagnolo

1 2 3 4 5 6 7
Cod.id Sex Età Lin.m. Età P C.fam
001 1 2 2 1 6 0 1
002 1 2 3 2 5 8 2
003 2 2 2 1 5 2 2
004 1 2 6 4 5 5 3
005 2 2 8 2 5 3 2
006 2 2 3 3 5 4 2
007 2 2 1 1 5 1 1 19
LA CODIFICA DEI DATI

Quando deve essere effettuata l’operazione di


assegnazione dei codici alle risposte?
L’operazione può essere effettuata quando il
questionario viene redatto oppure dopo la sua
somministrazione

20
LA CODIFICA A PRIORI
E’ LIMITATA NECESSARIAMENTE ALLE
DOMANDE PER CUI SI CONOSCONO
PREVENTIVAMENTE TUTTE LE MODALITA’ DI
RISPOSTE POSSIBILI (domande chiuse)

RISULTA POCO PRATICA SE IL RICERCATORE


NON E’ IN GRADO DI PREVEDERE QUALI
MODALITA’ DI RISPOSTA SARANNO FORNITE
(domande aperte)

21
LA CODIFICA A PRIORI
PROBLEMA: Come ci si deve comportare nei casi in cui
le risposte possibili sono superiori a dieci?
Non essendo possibile registrare simili valori, si
useranno 2 campi contigui del file per codificare
questa variabile. Così come se è maggiore di 99
diventano 3 campi.
Per es. Età del padre: colonne 4-5/

22
LA CODIFICA A PRIORI
Come ci si deve comportare Se la domanda consente due o più
risposte possibili?
CASO RISPOSTE MULTIPLE
Quale di questi locali frequenta almeno una volta a settimana?
(Cerchiare tutti quelli che frequenta)
INDIVIDUO 001 INDIVIDUO 002
Discoteca 1 61/ Discoteca 1 61/
Pub 2 62/ Pub 2 62/
Bar 3 63/ Bar 3 63/
Sala giochi 4 64/ Sala giochi 4 64/
Pizzeria 5 65/ Pizzeria 5 65/
Ristorante 6 66/ Ristorante 6 66/

RISPOSTA: Si attribuisce un campo (una colonna) a ciascuna delle


possibili risposte quindi la domanda genera più variabili (tante
variabili quante le risposte che il soggetto può dare)

23
LA CODIFICA A PRIORI
Come ci si deve comportare Se la domanda consente
due o più risposte possibili? CASO RISPOSTE MULTIPLE
Quale di questi locali frequenta almeno una volta a
settimana? (Cerchiare tutti quelli che frequenta)
INDIVIDUO 001 INDIVIDUO 002
Discoteca 1 61/ Discoteca 1 61/
Pub 2 62/ Pub 2 62/
Bar 3 63/ Bar 3 63/
Sala giochi 4 64/ Sala giochi 4 64/
Pizzeria 5 65/ Pizzeria 5 65/
Ristorante 6 66/ Ristorante 6 66/

Cod.id 61 62 63 64 65 66
001 1 1 1
002 1 1 1
24
LA CODIFICA DELLE MANCATE RISPOSTE
I numeri usati più spesso per le mancate risposte sono 9 e 0 (o 99 per
le variabili che hanno bisogno di più di un campo) mentre per i non so
sono 8 e 98
Molti lasciano lo spazio bianco, da evitare perché si generano più
facilmente errori e si potrebbero avere difficoltà nei calcoli.

RECORD 21
CAMPO DOMANDA E DESCRIZIONE CODICE PAG 2
D.80 Quando ha partorito (la prima volta)?

20-21 MESE del parto 01 Gennaio ecc.


12 Dicembre
99 Non risponde
22-23 ANNO del parto Precodificato
99 Non risponde
24-25 Quanti anni aveva quando ha partorito? Precodificato
99 Non risponde25
LA CODIFICA A POSTERIORI
• Consente di accertare, prima di iniziare la fase di codifica,
quali risposte sono state date effettivamente dagli
intervistati
– Esempio: Se ad una domanda in cui erano previste più di 10
modalità di risposta si scopre che solo 3 modalità sono state
scelte dai rispondenti, si evita di utilizzare un campo in più perché
3 modalità occupano un solo campo, 10 ne avrebbero occupati 2.

Il LIBRO CODICE ha lo scopo di definire il significato del codice


numerico e di indicare la collocazione della variabile sul
record.

26
Dato il seguente tracciato: E la seguente matrice dei dati
1-3 N. Caso • 0012111
4 Genere • 0022413
1. M • 0031321
2. F • 0041222
5 Titolo di studio • 0052211
1. Elementari
2. Medie
3. Diploma
Qual è il significato del numero in
4. Laurea grassetto rosso e sottolineato nella
6 Favorevole alla liberalizzazione delle matrice?
droghe leggere
1. Sì
2. No
7 Partito votato
1. Ulivo
2. Casa delle libertà
3. Altro

Il numero in grassetto indica che il caso n. 4 ha dichiarato di non essere


favorevole alla liberalizzazione delle droghe leggere
27
LA PULIZIA DEI DATI
REGISTRATI
• Controlli di plausibilità: Una volta terminata la
memorizzazione dati conviene ricontrollare che
sia giusta la trascrizione dal questionario al
computer. Se i questionari sono tanti, il
ricercatore usa un metodo di controllo che è
denominato pulizia dei codici non previsti
(attraverso programmi di statistica)
• Es: se una domanda prevede solo 4 risposte e il
programma trova risposte che superano il 4
provvede a correggerle.
28
LA PULIZIA DEI DATI
REGISTRATI
Controlli di congruenza
• Anche le domande condizionate si prestano
allo stesso tipo di correzione, perché sono
domande cui l’intervistato risponde solo se ha
risposto ad una domanda precedente.
• Laddove non dovesse sussistere tale
condizione e il programma trova delle risposte
che non dovrebbero esserci, corregge l’errore
direttamente.

29
Trattamento dei missing
Le variabili presentano spesso valori mancanti (missing values)

Si dice che ad un certo caso in una certa variabile viene assegnato


“valore mancante” se quel caso è privo di informazioni su quella
variabile.

Esistono quattro situazioni di possibile mancata risposta:


“non sa”
“non applicabile”
“non risponde”
“valore implausibile” (valore non previsto dal codice)

Di solito si tende ad esporre i “non risponde” nell’analisi monovariata e ad


escluderli nell’analisi a più variabili.

30

Potrebbero piacerti anche