DEMOGRAFIA
L’ANALISI DEI DATI:
Tabelle, frequenze
Si articola in 4 fasi:
FASE 1 PROGRAMMAZIONE
1. predisposizione del piano di rilevazione/indagine
FASE 2 RILEVAZIONE
2. raccolta dei dati
FASE 3 ELABORAZIONE
3. classificazione e spoglio dei dati
ESEMPIO
Per ogni studente di un gruppo di universitari
determiniamo l’età, il luogo di nascita, la statura, la
nazionalità, il peso , il colore degli occhi..
La tabella statistica
è un prospetto utilizzato per meglio rappresentare la
distribuzione di frequenza
Esempio: Distribuzione di frequenza della variabile (carattere) sesso
Sesso Frequenza
Maschio 325
Femmina 254
Totale 579
La tabella di frequenza (2)
La tabella di frequenza (caso di variabile statistica discreta)
è costituita da una serie di colonne che procedendo da sinistra
verso destra contengono :
1) la descrizione della modalità del carattere(xi) ;
2) le frequenze con cui le modalità del carattere si ripetono
Neri 10
Castani Frequenze
6 assolute
modalità Rossi 1
biondi 5
totale 22
Le classi devono:
a) essere in numero abbastanza limitato per fornire una
adeguata sintesi della distribuzione;
b) comprendere tutte le possibili modalità della variabile;
c) avere, se possibile, tutte la stessa ampiezza;
d) devono essere mutualmente esclusive .
Variabile statistica divisa in classi
La rappresentazione di una DISTRIBUZIONE DI DATI
PER CLASSI, si presenta VANTAGGIOSA quando i dati
sono molto NUMEROSI
Rappresentazione per classi di peso
PESO (Kg) N° STUDENTI
(termini) (frequenze) CLASSI DI PESO N° STUDENTI
(termini) (frequenze)
52 1
50 – 60 Kg 4
E 54 1
60 – 70 Kg 7
S 55 2
70 – 80 Kg 3
E 61 1
totale 14
M 63 1
P 68 2
I 69 3
O 71 1 L’ informazione, diviene meno precisa nel
caso di una distribuzione per classi, tuttavia
73 1
la visione della distribuzione diventa più
75 1 semplice e rapida
TOTALE 14
La tabella di frequenza (2)
La tabella di frequenza (caso di mutabile statistica) è
costituita da una serie di colonne che procedendo da sinistra
verso destra contengono :
1) la descrizione della modalità del carattere(ai) ;
2) le frequenze con cui le modalità del carattere si ripetono
Modalità del carattere Frequenza assolute
ai ni
a1 n1
a2 n2
a3 n3
as ns
Totale N
quindi
Modalità Frequenza
Ni
carattere assolute
cumulate
xi ni
x1 n1 N1=n1
x2 n2 N2=n1+n2
x3 n3 N3=n1+n2+n3
Totale N
Frequenze relative cumulate
Frequenze
Frequenze
Modalità Retro-
assolute Percentuali Cumulate
cumulate
Senza titolo 30 2,5 30 1200
Lic. elementare 509 42,4 539 1170
Licenza media 342 28,5 881 661
Diploma 264 22,0 1145 319
Laurea 55 4,6 1200 55
Totale 1.200 100,0
(N=1.200)
Fonte o, se survey,
domanda del questionario
L’ANALISI DEI DATI:
Rappresentazioni grafiche
e Rapporti statistici
Vantaggi:
sono semplici da disegnare
Consentono un’ agevole comparazione
tra le frequenze delle varie modalità
Svantaggi:
3 30
ni
20
4 35 15 2; 16
10 5; 11
5 11 1; 8
5
Totale 100
0
0 1 2 3 4 5 6
esami sostenuti
Rappresentazioni grafiche:
variabili cardinali discrete -2
Per rendere maggiormente visibili tali punti:
a) si tracciano dei segmenti verticali congiungenti
l’ascissa (xi) con il punto del piano corrispondente
all’ordinata (yi) da cui:
DIAGRAMMA A SEGMENTI O A PETTINE
20
2; 16
10 5; 11
1; 8
0
0 1 2 3 4 5 6
esami sostenuti
40
35
30
25
20
ni
15
10
5
0
0 1 2 3 4 5 6
esami sostenuti
Istogrammi
Quando si costruisce un istogramma si devono tenere
distinti 2 casi:
Vantaggi: Svantaggi:
• è semplice da disegnare •difficile definire il rapporto
• facilita la comparazione tra tra una modalità e l’intera
frequenze di categorie distribuzione
contigue
Istogrammi: variabile cardinale (2)
VARIABILE CARDINALE DIVISA IN CLASSI
15-20 25 25
totale 60 20
aziende (ni)
15
10
0
0;5 5;10 10;15 15;20
classi di reddito
Istogrammi: variabile cardinale (2)
X=
12 8 16 24
Si rappresenti graficamente la variabile statistica X.
Tabella calcoli intermedi
0 - 12 12 12 0,200 0,017
12 - 36 8 24 0,133 0,006
36 - 90 16 54 0,267 0,005
90 - 186 24 96 0,400 0,004
60 1
Soluzione: variabile cardinale
in classi di diversa ampiezza
Dato il tipo di variabile (continua per classi) la rappresentazione
grafica corretta è l'istogramma dove sull’asse orizzontale abbiamo
la base dei rettangoli cioè l’ampiezza delle classi Δi e sull'asse
verticale si rappresenta la densità di frequenza hi=yi/Δi.
0,02 hi
0,017
0,015
0,01
0,006
0,005 0,004
0,005
0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180
xi|--xi+1
Istogrammi: variabile cardinale
in classi di diversa ampiezza
È nota la distribuzione del carattere X.
0,1 hi
0,071
0,063 0,066
0,044
0,05
0,015 0,015
0 0 0 0
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
xi|--xi+1
Rappresentazioni grafiche –accorgimenti
In un grafico devono figurare:
a) il titolo, che deve indicare con chiarezza l’oggetto, il
luogo, l’epoca cui i dati si riferiscono;
b) il carattere con le rispettive modalità in funzione
delle quali sono classificate le unità statistiche. Nel
grafico dovrà figurare una legenda con la descrizione in
chiaro dei simboli impiegati e, nel caso di più grafici
insieme, il significato dei diversi tratteggi o colori
impiegati;
c) la chiara indicazione dell’unità di misura impiegata per
graduare l’asse (o gli assi);
d) la fonte di provenienza dei dati.
Riepilogo: Rappresentazioni grafiche per
distribuzioni semplici
Tipo di grafico Livello di misurazione dei caratteri
Esempi
• quoziente di natalità : (nati/popolazione)*100
• quoziente di mortalità : (morti/popolazione)*100
• quoziente di nuzialità : (matrimoni/popolazione)*100
• Operai cassaintegrati/totale operai
• laureati/ numero di iscritti all’università
Rapporti di densità o rapporti medi
Variazione relativa
Nord +82,2%
Gli stranieri residenti in
Centro +65,5%
Italia sono aumentati di più
Mezzogiorno +60,9%
nel Nord
Totale Italia +73,0%
I numeri indice
Il numero indice è UN RAPPORTO che serve a
mettere in luce le variazioni di una serie
temporale rispetto ad un tempo assunto come base
di riferimento.
MISURE SINTETICHE
Dalla descrizione alla sintesi
La sintesi numerica di una distribuzione statistica è
basata sulla costruzione di particolari indici che
evidenziano alcuni aspetti essenziali della
distribuzione.
Le misure sintetiche cercano di individuare un’unica
modalità che rappresenti al massimo tutte le altre
presenti nella distribuzione
TRE TIPOLOGIE
indici di tendenza centrale o di posizione
indici di variabilità o dispersione
indici di forma
MISURE
DI TENDENZA CENTRALE
(INDICI DI POSIZIONE)
INDICI DI POSIZIONE (1)
Gli indici di posizione o misure di tendenza
centrale (“valori medi”) sintetizzano
l’osservazione effettuata con un solo valore
rappresentativo della globalità del fenomeno.
Due tipologie
– MEDIE DI CALCOLO:(media aritmetica,
quadratica, armonica e geometrica)
– MEDIE LASCHE (mediana, quartili, moda)
INDICI DI POSIZIONE (2)
Gli indici di posizione si ricavano:
∑x i
µ= i =1
N = ∑ ni
S
N i ≅1
Gli indici posti sopra e sotto il simbolo di sommatoria indicano che essa assume
tutti i valori da 1 a n e quindi si deve intendere la sommatoria di tutti i termini
della serie
MEDIA ARITMETICA semplice
Consideriamo una distribuzione di DATI DIVERSI UNO
DALL’ALTRO (ogni modalità si presenta con frequenza unitaria):
x x x ............. xn
1 2 3
La MEDIA ARITMETICA SEMPLICE è uguale alla somma
dei dati divisa per N, cioè:
x + x + x +......+ x
µ= 1 2 3 n
N
esempio
CALCOLO MEDIA ARITMETICA
ES: VOTI RIPORTATI DA UNO STUDENTE
18 – 21 – 24 – 19 – 30 – 20
(voti esami 1° anno Università)
18 + 21 + 24 + 19 + 30 + 20 132
µ= = = 22
6 6
MEDIA ARITMETICA PONDERATA
Se i dati si presentano con una certa FREQUENZA
allora il calcolo della media deve essere effettuato sommando
ogni termine tante volte quante indica la sua frequenza
Supponiamo che:
Il termine x1 si presenta con frequenza n1
Il termine x2 si presenta con frequenza n2
…………………………………………………………………………
Il termine xn si presenta con frequenza ns
Il calcolo della MEDIA PONDERATA si effettua così
x ⋅n + x ⋅n + x ⋅n +......+ xs ⋅ns
µ= 1 1 2 2 3 3
n + n + n +.......+ ns
1 2 3
MEDIA ARITMETICA PONDERATA
S
∑ x i ⋅ ni
i =1
µ=
N
VARIABILE STATISTICA DIVISA IN INTERVALLI
N
∑ v.c.χ i
⋅ ni
v.c. =
χ i + χ i +1
µ= i =1
2
N
CALCOLO MEDIA ARITMETICA
PONDERATA
VOTI ESAMI INTERO CORSO UNIVERSITARIO
VOTI 18 19 20 21 24 26 30 TOTALE
ESAMI 4 4 5 3 2 2 1 21
18 ⋅ 4 + 19 ⋅ 4 + 20 ⋅ 5 + ...... + 30 ⋅1
µ= =
21
N
∑x ⋅n i i
441
= i =1
= = 21
N 21
CALCOLO MEDIA ARITMETICA
PONDERATA
MODULO PER SEMPLIFICARE IL CALCOLO STATISTICO
x1 n1 x1n1
x2 n2 x2n2
x3 n3 x3n3
xs ns xsns
Totale N Σxini
18 4 72
19 4 76
20 5 100
21 3 63
24 2 48
26 2 52
30 1 30
Totale N=21 Σxini=441
Esempio di calcolo (2)
MEDIA ARITMETICA PONDERATA
20 Studenti di una classe hanno ottenuto in matematica i voti
riportati in tabella. Calcolare la MEDIA PONDERATA dei voti.
x ⋅ n + x ⋅ n + x ⋅ n + ...... + x s ⋅ ns
Voto in Numero xi*ni µ= 1 1 2 2 3 3
Matematica Studenti n + n + n + ....... + n s
1 2 3
xi ni
µ = 4⋅2+5⋅3+6⋅8+7⋅5+8⋅2 =122=6,1
4 2 8
5 3 15
2+3+8+5+2 20
6 8 48
7 5 35 Dove:
8 2 16 122 = somma dei voti
20 = numero di studenti
totale 20 122
6,1 = MEDIA PONDERATA dei voti
MEDIA VARIABILE STATISTICA
DIVISA IN CLASSI
In questo caso ad ogni classe, viene sostituito il VALORE CENTRALE (V.C.),
calcolato mediante la semisomma dei termini estremi della classe (Xi-Xi+1)
I termini centrali cosi ottenuti costituiscono i termini x1; x2; x3; ecc. della
distribuzione
la media x ⋅ n + x ⋅ n + x ⋅ n + ...... + x s ⋅ ns
µ= 1 1 2 2 3 3
ponderata si n + n + n + ....... + n s
1 2 3
calcola
ESEMPIO MEDIA VARIABILE STATISTICA
DIVISA IN CLASSI
Classi di n° persone
CALCOLO valori n° persone
età (anni) valori centrali
(Frequenze) centrali (Frequenze)
0 + 20 20
0 - 20 35 vcx1 = = =10 x1 = 10 n1 = 35
2 2
20 - 40 4 x2 = 30 n2 = 4
20 + 40 60
40 - 60 1 vcx2 = = = 30 x3 = 50 n3 = 1
2 2 totale 40
totale 40
n s
∑ (χ i − µ ) = 0 ∑ (χ i − µ ) ⋅ n i = 0
i =1 i =1
Esempio caso media semplice
Voto xi xi-μ
26 26-27=-1
27 27-27=0
28 28-27=1
totale 0
26+ 27+ 28 81
µ= = = 27
3 3
Esempio caso media ponderata
46 azionisti e loro azioni
xi ni xi ni (xi-μ) (xi-μ)n i
40
10 35 350
-11,739 -410,87 30
50 9 450 20
28,261 +254,35
100 2 200 10
78,261 +156,52 0
46 1000
1000 0
20
40
60
80
0
10
m=21,739
μ = Σxi ni/N=1000/46=21,74
Nota:
La media aritmetica è l’unica media che possiede questa proprietà.
Dimostrazione
1a PROPRIETA’ DELLA MEDIA
ARITMETICA
s
∑ (χi − µ ) ⋅ ni = 0
DIMOSTRAZIONE i =1
sostituendo a µ il suo valore
(χ1 − µ)n1 = χ1 ⋅ n1 − µ ⋅ n1 s
∑ χ i ni
(χ2 − µ)n2 = χ2 ⋅ n2 − µ ⋅ n2 s
i =1
s
∑ x i ⋅ ni − ∑ ni =0
(χi − µ)ni = χi ⋅ ni − µ ⋅ ni i =1
s
∑ ni i =1
(χs − µ)ns = χs ⋅ ns − µ ⋅ ns i =1
s
s s s ∑χ n i i s
∑x i ⋅ ni − µ ⋅ ∑ ni = ∑x ⋅n i i − i =1
s ∑n i =0
i =1 i =1 i =1
∑n
i =1
i
i =1
IIa proprietà della media
la somma dei quadrati degli scarti (xi - μ )
è uguale a un minimo
s 2
∑ (χ
i =1
i − µ ) ⋅ n i = min imo
∑ ( xi −µ ) 2
< ∑ ( xi −k ) 2
Esempio caso media semplice
26+ 27+ 28 81
µ= = = 27
3 3
2° PROPRIETA’ MEDIA
ARITMETICA …
s 2
∑ (χ
i =1
i − µ ) ⋅ n i = min imo
DIMOSTRAZIONE: Indichiamo con k un valore qualunque diverso da µ
k≠µ d = µ −k k = µ −d
s
∑ (χ − µ + d ) ⋅ ni
2
i
andando a sostituire k i =1
2° PROPRIETA’ MEDIA
ARITMETICA …
s
∑ (χ − µ + d ) ⋅ ni
2 risolvendolo l’espressione come un binomio
i (a+b)2 = a2 + b2 + 2ab
i =1
Dove
Il primo termine a = (x-μ)
Il secondo termine b = d
2° PROPRIETA’ MEDIA
ARITMETICA
s s s s
[(
∑ i χ − µ) + d ] ⋅
2
ni = (
∑ iχ − µ) ⋅ ni
2
+ d 2
∑ni + 2d∑(χi − µ)⋅ ni
i=1 i=1 i=1 i=1
s
Il terzo addendo è zero
per la I proprietà della
2 d ∑ (χ i − µ ) ⋅ n i
i =1
media
s s
∑ (χ i − k )
i =1
2
⋅ ni = (
∑ iχ
i =1
− µ )2
⋅ n i + d 2
N
2° PROPRIETA’ MEDIA
ARITMETICA
s s
∑ (χ i − k )
i =1
2
⋅ ni = (
∑ iχ
i =1
− µ )2
⋅ n i + d 2
N
s 2
cvd
∑ (χ
i =1
i − µ ) ni < ∑ ( xi −k ) ni 2
PROPRIETA’ ASSOCIATIVA
La media aritmetica è associativa, in quanto,
suddividendo in due o più gruppi i valori della variabile x,
la media aritmetica della variabile è uguale alla media
aritmetica delle medie dei singoli gruppi ponderate con
le rispettive numerosità.
MEDIA GENERALE
20+21+22+23+24+25+26+27+28= 216/9=24
MEDIA PARZIALE Primo gruppo
20+21+22+23= 86/4=21,5
MEDIA PARZIALE Secondo Gruppo
24+25+26+27+28=130/5=26
Verifica Proprietà associativa
21,5X4+26x5=86+130=216/9=24
ALTRE PROPRIETA’
PROPRIETA’ TRASLATIVA o uniforme significa che se
si aggiunge una quantità h a ciascuno dei valori anche la
media risulterà ’aumentata di h
N
Mg = N χ1 ⋅ χ 2 ⋅ ..... ⋅ χ i ⋅ .....χ n = N π χ i
i =1
s
Mg = χ1 ⋅ χ 2 ⋅ ..... ⋅ χ i ⋅ .....χ s = π χi
N n1 n2 ni ns N ni
i =1
MEDIA GEOMETRICA
termini x. MQ = i =1
N
– È detta media di
precisione: è adoperata caso ponderato
se, in presenza di valori s
positivi e negativi, si
vogliono eliminare i ∑ i ⋅ ni
χ 2
segni MQ = i =1
N
Relazione tra medie
Il valore della media cresce al crescere dell’indice
Moda
xi ni
50
1 18
40
2 16
30
3 11
20
4 30 M
Moda
10
5 15
0
Mus ul ma no Ca ttol i co Prote s ta nte Buddi s ta
6 6
Variabili qualitative: la moda
60 1
54
48 0,8
42
36 0,6
30
24 0,4
18
12 0,2
6
0 0
sx csx cx cdx dx insuff 6m insuff 3m sufficiente
xi ni yi
Per variabili xi ni yi
Sinistra 20 0,113
qualitative la Sufficiente 33679 0,667
Centrosin. 45 0,254
Moda è la Insuff. 3 mesi 6291 0,124
Centro 39 0,220 modalità con la Insuff. 6 mesi 10574 0,209
Centrodes. 59 0,290 massima
X=acqua corr. 50544 1,000
Destra 20 0,113 frequenza.
X=deputati 177 1,000
Quando e come usare la MODA
VOTI 18 21 24 19 30
VOTI ORDINATI 18 19 21 24 30
M e = χ 5 +1 = χ (3)
2
MEDIANA = 21 poiché occupa il 3° posto
MEDIANA: distribuzione unitaria
Se N è pari
χ N + χ N
+1
Me = 2 2
VOTI 18 21 24 19 30 20
VOTI ORDINATI 18 19 20 21 24 30
χ (3 ) + χ ( 4 ) 20 + 21
Me = = = 20,5
2 2
MEDIANA = 20,5 poiché compresa tra il 3° ed il 4° posto
ESEMPIO CALCOLO MEDIANA:
distribuzione di frequenza: dati discreti
VOTI ESAMI Ni
xi ni Per il calcolo della
mediana,
18 2 2 (N1) costruiamo la
colonna delle
19 9 11 (N2)
frequenze
20 5 16 (N3) cumulate Ni e
21 4 20 (N4) individuiamo la
modalità che
24 2 22 (N5)
occupa il posto
26 1 23 (N6) centrale
30 1 24 (N7 =N)
Totale N=24
χ + χ 20 + 20
N
N
+1 χ (12 ) + χ (13 ) == = 20
M = 2 2
=
e
2 2 2
CALCOLO MEDIANA:
distribuzione di frequenza: dati discreti
Caso N dispari
Per il calcolo della mediana, costruiamo le colonne delle frequenze
cumulate e individuiamo la modalità che occupa il posto centrale
Xi ni Ni % % cum
14 3 3 10,3 10,3
15 7 10 24,1 34,4
16 10 20 34,5 68,9
17 5 25 17,2 86,2
18 3 28 10,3 96,5
21 1 29 3,4 100,0
N=29
Xi ni Ni % % cum
1 10 10 10,3 10,3
2 20 30 24,1 34,4
3 50 80 34,5 68,9
4 10 90 17,2 86,2
5 10 100 10,3 96,5
N 100
χi +1−χi
Me = xi+ (N/ 2−Ni −1)
ni
CALCOLO MEDIANA:
v.s. divise in classi (2)
χi +1−χi
Me = xi+ (N/ 2−Ni −1)
ni
Xi= estremo inferiore della classe che contiene il valore mediano
N = frequenze complessive
100-200 10 10
200-300 20 30
300-400 30 60
400-500 10 70
Totale N=70
400 − 300
M e = 300 + (35 − 30) = 316,5
30
Quando usare la mediana
Si può utilizzare per variabili cardinali e per
variabili ordinali (caratteri qualitativi rettilinei)
56
Confronto media e mediana
La media può essere trattata con il calcolo algebrico,
mentre la mediana non può esserlo.
Me=9 μ=8.8
Me=9 μ =15.1
Me=9 μ=44.3
Esempio: media o mediana? (1)
• Distribuzioni di tre diversi gruppi secondo l’età
Osserviamo i primi due gruppi: cosa succede?
Età Primo gruppo Secondo gruppo Terzo gruppo
18 37 37 37
22 29 30 30
23 21 20 20
24 23 23 23
25 23 23 18
64 0 0 5
Totale 133 133 133
Media 21,91 21,90 23,37
Mediana 23 22 22
Tipo di comune %
2 1
Q2 = ⋅ N = ⋅ N = M e
4 2
• Terzo Quartile Q3 = è il valore al di sopra del quale
stanno 3/4 dei valori della X e al di sotto del quale
stanno 1/4 dei valori della X
3 3N
Q3 = ⋅ N =
4 4
CALCOLO QUARTILI
Come si calcolano:
• 1. Si ordinano in senso crescente le
modalità o i valori della variabile
• 2. Si calcolano le frequenze cumulate
• 3. Si calcola la posizione del quartile con
le apposite formule verificando la
numerosità della distribuzione
• 4. Si cerca nella distribuzione il valore
corrispondente alla posizione trovata
CALCOLO QUARTILI
Per calcolare la posizione del quartile occorre
verificare la numerosità del collettivo studiato
– Se N è dispari : Q1 = x N +1 Q3 = x 3N+1
4 4
– Se N è pari : χ N + χ N χ 3N + χ 3N
+1 +1
Q1 = 4 4
Q3 = 4 4
2 2
ESEMPIO CALCOLO QUARTILI
15 individui hanno espresso il loro giudizio su un libro di
recente pubblicazione (punteggio da 1 a 7).
I risultati sono:1 5 4 6 7 2 5 6 3 1 2 4 4 7 7
Trovare il 1° 2°e 3°quartile Caso N dispari
xi
1
ni
2
Ni
2
()
Q1 = x N +1 = x 164 = x( 4 ) = 2
4
()
2 2 4
3 1 5 Q2 / Me= x N+1 = x 162 = x( 8) = 4
4 3 8
2
5 2 10
6
7
2
3
12
15
( )
Q3 = x 3N+1 = x 3*416 = x(12) = 6
4
Caso N pari
voti ni Ni
1
18 1
posizione 1 χ N +χ N
6
+1 χ(5) +χ(6) 19+19
19 5 posizioni Q1 = 4 4
= = =19
(2,3,4,5,6) 2 2 2
9
20 3 posizioni
(7,8,9) χ N +χ N
11
+1 χ(10) +χ(11) 21+21
21 2 posizioni Q2 = 2 2
= = =21
(10,11) 2 2 2
14
22 3 posizioni
(12,13,14)
15 χ 3N +χ 3N
23 1
posizione 15
+1 χ(15) + χ(16) 23+24
18
Q3 = 4 4
= = = 23,50
2 2 2
24 3 posizioni
(16,17,18)
20
25 2 posizioni
(19,20)
20
ESEMPIO CALCOLO QUARTILI
Caso N pari
QUARTILI CHE CONCIDONO
χ N + χ N
+1 χ(3) + χ(4) 2+2
xi ni Ni Q1 = 4 4
= = =2
1 1 1
2 2 2
2 10 11 χ N + χ N
+1 χ (6 ) + χ (7 ) 2+2
3 1 12 Q2 = 2 2
= = =2
2 2 2
TOT 12
χ 3N + χ 3N
+1 χ(9) + χ(10) 2+2
Q3 = 4 4
= = =2
2 2 2
ESEMPIO CALCOLO QUARTILI
Caso N pari
xi ni Ni χ N +χ N
1 48 48
+1 χ(16) +χ(17) 1+1
Q1 = 4 4
= = =1
2 5 53 2 2 2
3 4 57
χ N + χ N
4 5 62
+1 χ(32) + χ(33) 1+1
Q2 = 2 2
= = =1
5 2 64 2 2 2
tot 64
χ3N +χ3N
+1 χ(48) +χ(49) 1+2
Q3 = 4 4
= = =1,5
2 2 2
CALCOLO QUARTILI
Per calcolare con N grande e quindi in caso di
distribuzione di frequenza, possiamo anche utilizzare le
frequenze percentuali cumulate (o relative cumulate)
N = frequenze complessive
N = frequenze complessive
Variabilità e mutabilità
Prof. Maria Carella
Variabilità
Le misure di tendenza centrale non sono
sufficienti alla comprensione dei fenomeni.
Una sintesi appropriata deve tener conto
del modo in cui si distribuiscono le diverse
modalità della variabile
VARIABILITA’
E(relativo)=E/ Emax
La variabile W indica il livello di soddisfazione espresso da 12
intervistate (M= molto; A=abbastanza; P= poco; PN= per nulla).
Si misuri l'eterogeneità di W.
wi ni yi yi2
M 3 0,250 0,063
A 3 0,250 0,063
P 4 0,333 0,111
PN 2 0,167 0,028
Totale 12 1 ∑=0,265
E(W)=1-∑y2i= 1-0,265=0,735
E(W)max=(K-1)/K= 3/4=0,75
E(relativo)=E(W)/ E(W)max=0,98
Misure della variabilità
Per misurare la variabilità la metodologia statistica
ricorre alle seguenti categorie di indici:
• Intervalli di variazione
CAMPO DI VARIAZIONE
osservazione più grande –osservazione più piccola
W = xS – x1
DIFFERENZA INTERQUARTILICA
quartile superiore – quartile inferiore
Dq = Q3 – Q1
Misure della variabilità:
B) INDICI DI DISPERSIONE
Indici basati sugli scarti dei singoli valori da una
loro media o dalla mediana
VARIANZA
DEVIANZA
Misure della variabilità
Lo SCARTO SEMPLICE MEDIO è la media aritmetica dei
valori assoluti degli scarti dalla media.
n
x1 − µ n1 + x2 − µ n2 + ... + xn − µ nn ∑ x −µni i
SM = = i =1
N N
δ = i =1
N
Misure della variabilità
SCARTO DALLA MEDIANA
N
∑χ i − Me
(nel caso di una serie)
Sme = i =1
N
S
∑χ i − Me ⋅ ni
Sme = i =1
N
(nel caso di una distribuzione)
Misure della variabilità
Lo scarto quadratico medio è la media aritmetica
dei quadrati degli scarti dalla media sotto radice
E’ anche uguale alla media quadratica degli scarti.
È uguale alla radice quadrata della varianza
N
La varianza è la media aritmetica dei quadrati
degli scarti dalla media
Varianza = σ 2
=
(x − x ) + (x
1
2
2 ) 2
(
− x + ..... + xn − x )
2
N
Misure della variabilità
SCARTO QUADRATICO MEDIO
(nel caso di una serie)
N
(
∑ iχ − µ )2
σ= i =1
N
(nel caso di una distribuzione)
S
(
∑ iχ − µ )2
ni
σ= i =1
N
Misure della variabilità
VARIANZA
N
(
∑ iχ − µ )2
(nel caso di una serie)
σ =
2 i =1
N
S
( χ −
∑ i ni µ)2
σ 2 = i=1
N (nel caso di una distribuzione)
Esempio: calcolo variabilità (1)
Si calcoli la varianza e lo scarto quadratico medio per la
variabile X che rappresenta il numero di posti letto
presenti in 6 reparti ospedalieri.
X (xi-μ) (xi-μ)2
Media=81/6= 13.5
14 0.5 0.25
n
∑ ( xi - µ ) 3 -10.5 110.25
2
1297.5
σ2 = i =1
= = 216.25 2 -11.5 132.25
N 6
45 31.5 992.25
n 11 -2.5 6.25
∑ (xi - x )
2
6 -7.5 56.25
σ= i =1
= 216.25 =14.71
N 81 0 1297.5
24
Esempio: calcolo variabilità (2)
Si calcoli la varianza e lo scarto quadratico medio per la variabile X
nella distribuzione di voti per un collettivo di 20studenti
Xi ni Xini (x-μ)^2*ni
10,89
μ=426/20=21,30
18 1 18 =(18-21,30)2*1
26,45
k
=(19-21,30)2*5
19 5 95
5,07 (x −µ
∑ i ⋅ni
)2
96,20
20 3 60 =(20-21,30)2*3 σ2 = i=1 = = 4,81
0,18 N 20
21 2 42 =(21-21,30)2*2
1,47
22 3 66 =(22-21,30)2*3
2,89
=(23-21,30)2*1
σ = 4,81 = 2,19
23 1 23
21,87
24 3 72 =(24-21,30)2*3
27,38
25 2 50 =(25-21,30)2*2
TOT 20 Σ=426 Σ=96,20
Misure della variabilità
DEVIANZA (numeratore della varianza)
N
Dev(Χ ) = ∑ (χ i − µ )
2
(nel caso di una serie)
i =1
S
Dev(Χ) = ∑(χi − µ ) ni
2
(nel caso di una distribuzione)
i =1
Dev(Χ )
σ = 2
= Var(Χ )
N
Esempio: calcolo devianza
Calcolare la devianza dell’età, espressa in anni, di 6
bambini iscritti ad una scuola di pianoforte:
5; 6; 7; 7; 8; 10.
= (5 - 7.16)2+(6-7.16)2+(7-7.16)2+(7-7.16)2+(8-7.16)2+(10-7.16)2=
=4.665 + 1.346 + 0.026 + 0.026 + 0.706 + 8.066 = 14.835
La varianza: formula alternativa (1)
La varianza si può calcolare anche come differenza fra la
media quadratica al quadrato e il quadrato della media
aritmetica.
σ2
= M2
q −µ
2
ovvero
La varianza: formula alternativa (2)
2) Dividendo tutto per N e semplificando si ricava:
s s
∑ (χ − µ ) ⋅ ni ∑ (χ − k ) ⋅ ni
s
( )
2 2
i i 2
d N ∑ iχ − k
2
⋅ ni
i =1
= i =1
− σ2 = i =1
− d2
N N N N
4) Ponendo K= 0
La varianza: formula alternativa (3)
ovvero
Il campo di variazione
La differenza interquartile
Lo scarto quadratico medio e la varianza
18 37 37 37
22 29 30 30
23 21 20 20
24 23 23 23
25 23 23 18
64 0 0 5
Totale 133 133 133
Campo di variazione 25-18=7 25-18=7 64-18=46
18 37 37 37
22 29 30 30
23 21 20 20
24 23 23 23
25 23 23 18
64 0 0 5
Totale 133 133 133
Scarto quadratico medio 2,617 2,615 8,424
Media 21,91 21,90 23,37
Scarto quadratico medio: misura con elevata capacità
informativa e non robusta
Ricapitolando:
le misure di variabilità (dispersione)
e mutabilità
variabili nominali e ordinali (caratteri qualitativi)
indice di eterogeneità
LA DIFFERENZA MEDIA
è la media delle differenze tra ciascuna quantità
e tutte le altre
misura la diseguaglianza media tra i termini della
distribuzione
Differenza media
La differenza media è calcolata utilizzando le differenze
tra i termini della distribuzione in valore assoluto :
d ih = xi − xh
N N S S
∑∑ χ i − χh ∑∑ χ i − χ h ⋅ ni nh
∆= i =1 h =1
∆= i =1 h =1
N ( N − 1) N ( N − 1)
N N S S
∑∑ χ i − χh ∑∑ χ i − χ h ⋅ ni nh
∆R = i =1 h =1
2
∆R = i =1 h =1
2
N N
∑∑ χ i − χh
∆= i =1 h =1
N ( N − 1)
1−2 + 1−4 + 1−7 + 2 −1 + 2 −4 + 2 −7 + 4 −1 + ......
∆=
4(4 −1)
Xh ni Xi,h 1 2 3 4 TOT
Xi RIGA
1 4 1 --- 24 16 60 100
2 6 2 24 --- 12 60 96
3 2 3 16 12 --- 10 38
4 5 4 60 60 10 --- 130
17 TOT COL 100 96 38 130 364
1 − 1 4 ⋅ 4 + 1 − 2 4 ⋅ 6 + 1 − 3 4 ⋅ 2... 0 + 24 + 16 + ...
=
17(17 − 1) 17 ⋅16
L’ANALISI
MONOVARIATA:
Variabilità relativa
Prof. Maria Carella
Gli indici di variabilità assoluti
sono sufficienti?
Gli indici di variabilità assoluti non sono sempre
adeguati quando si confrontano le variabilità di
distribuzioni differenti in particolare perché:
1. i caratteri delle distribuzioni possono essere in
unità di misura diverse
2. le intensità medie delle distribuzioni possono
essere differenti
i Ni
pi = oppure pi =
N N
2) Frazioni cumulate del carattere posseduto dalle
rispettive frazioni di possessori (frazione rispettivi
redditi)
Ai Ai=cumulate di xi nel
qi = caso di una serie
AN Ai=cumulate di
ai=xi*ni nel caso di
una distribuzione
Calcolo della concentrazione (2)
Le differenze tra pi e qi sono misure dirette della
concentrazione.
∑(p i − qi )
i =1
Calcolo della concentrazione (3)
N −1
∑(p i − qi )
i =1
∑p
i =1
i
Calcolo della concentrazione (3)
Rapporto di concentrazione di Gini
N −1
∑(p i − qi ) 0 ≤ R ≤1
i =1
R= N −1
∑p
i =1
i
0
R = − 1
R=0 pi=qi
N
∑i = 1
p i
N −1
R=1 qi=0 ∑ p i
R = i=1
N −1
∑
i=1
p i
CONCENTRAZIONE
INTERMEDIA
Frazioni Frazioni
xi ni cumulate cumulate
redditieri reddito
pi= i/N qi=Ai/AN
Reddito Redditieri i Ai=cumxi pi - qi
N −1
∑ ( p i − qi)
0 ,5
R = i=1
N −1
= = 0 , 33
1,5
∑ i=1
p i
CONCENTRAZIONE NULLA
(EQUIDISTRIBUZIONE)
Frazioni Frazioni
xi ni cumulate cumulate
redditieri reddito
pi= i/N qi=Ai/AN
Reddito Redditieri i Ai=cum xi pi - qi
∑ ( p i − qi)
0
R = i=1
N −1
= = 0
1,5
∑
i=1
p i
CONCENTRAZIONE MASSIMA
Frazioni Frazioni cumulate
xi ni cumulate reddito
redditieri
pi= i/N qi=Ai/AN
Reddito Redditieri Ai pi - qi
N −1
∑ ( p i − qi)
1,5
R = i=1
N −1
= = 1
1,5
∑
i=1
p i
LA CURVA DI CONCENTRAZIONE (1)
Rappresentando graficamente le coppie di valori di pi (in ascisse)
e qi (in ordinate) e congiungendo i punti risultanti si ottiene una
spezzata che prende il nome di curva di concentrazione o curva di
Lorenz.
1
qi
0,8
0,6
0,4
0,2
0
0 0,2 0,4 pi 0,6 0,8 1
LA CURVA DI CONCENTRAZIONE (2)
La curva di Lorenz è sempre convessa verso l’asse delle
ascisse, perché a successivi incrementi uguali fra loro delle pi
corrispondono incrementi crescenti delle qi, avendo ordinato le
xi in senso crescente.
1
qi
0,8
0,6
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1
pi
LA CURVA DI CONCENTRAZIONE (3)
Nel grafico si riporta anche la retta di equidistribuzione che è
il segmento che congiunge il punto (0, 0) al punto (1, 1).
Qualsiasi punto situato su tale segmento ha coordinate uguali
0,8
0,6
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1
LA CURVA DI CONCENTRAZIONE (4)
La curva di concentrazione cambia la sua forma:
Si usano :
1. Le distanze verticali tra la curva di concentrazione e la bisettrice
2. L’area compresa tra la curva di concentrazione e la bisettrice.
In ambedue i casi: Rapporto di concentrazione di Gini.
CURVA e RAPPORTO DI CONCENTRAZIONE
Le distanze verticali tra la curva di concentrazione e la retta di
equidistribuzione sono date dalle differenze pi – qi.
Si noti come pi-qi ≥ 0 per ogni i
Sommando le differenze e dividendo per il valore massimo che tali
differenze possono assumere otteniamo il Rapporto di concentrazione di
Gini
1
0,8
N −1
∑ (p i − qi )
R= 1 0,6
N −1
∑p
i =1
i
0,4
P3-q3
0,2 P2-q2
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
AREA DI CONCENTRAZIONE
In alternativa misuriamo l’area tra la curva di concentrazione e
la retta di equidistribuzione che prende il nome di
area di concentrazione.
0,8
0,6
0,4
0,2
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
AREA DI CONCENTRAZIONE
Una misura esatta dell’area di concentrazione può essere ottenuta
sottraendo all’area del triangolo OAB la somma delle aree degli
n trapezi rettangoli sotto la curva delimitati dai punti (Pi,Qi) per
i =0,1,…,n.
Area di concentrazione
AREA DEL TRIANGOLO OAB =
OB ⋅ BA 1 ⋅1 1
= =
2 2 2
cioè prodotto dei cateti che misurano
ciascuno 1
Area di concentrazione
• BASE MAGGIORE = qi
• BASE MINORE = qi-1
• ALTEZZA = pi-pi-1
Area di concentrazione
• BASE MAGGIORE = qi
• BASE MINORE = qi-1
• ALTEZZA = pi-pi-1
Area del trapezio:
½ x Somma delle basi x
1 altezza
0,9
0,8
qi
0,7
0,6
A qi
0,5 qi −1
0,4
0,3
0,2 pi −1 pi
0,1 pi
1
0
0 0,2 0,4 0,6 0,8 1
Ai = ( pi − pi −1 )(qi + qi −1 )
2
altezza Somma basi
AREA e RAPPORTO DI CONCENTRAZIONE
− ∑ ( p i − p i −1 )(q i + q i −1 )
1 1
R = 2 2 =
1
2
AREA e RAPPORTO DI CONCENTRAZIONE
• Rapporto di concentrazione
TRE TIPOLOGIE
indici di tendenza centrale o di posizione
indici di variabilità
indici di forma
Gli indici di forma
Sono indici sintetici utilizzati per
evidenziare particolarità nella forma della
distribuzione a partire dallo studio della
curva di frequenza
0,25
•media = mediana =
0,2 moda
frequenza
0,15
0,1
0,05
0
0 2 4 6 8 10 12 14 16
valori della variabile
Simmetria (b)
3. Individuato un asse di simmetria, il ramo a destra
della mediana si può sovrapporre al ramo a sinistra
tramite un ribaltamento intorno all’ordinata
condotta per il punto mediano
4. In una distribuzione simmetrica (unimodale)
media, mediana e moda coincidono
Confronto di distrib. norm ali
1° distrib. normale
0,25
•media = mediana =
0,2 moda
frequenza
0,15
0,1
0,05
0
0 2 4 6 8 10 12 14 16
valori della variabile
Simmetria e Asimmetria
Una distribuzione è simmetrica se nella sua
rappresentazione grafica presenta due rami
sovrapponibili ribaltandoli intorno all’asse di simmetria
(μ = Me = Mo)
12
8
•moda < mediana < media frequenza
6
0
0 20 40 60 80 100 120 140 160
valori •media=63,6
•moda = 48
•mediana=58 8
Asimmetria negativa (a sinistra)
Si ha un’asimmetria negativa o a sinistra quando
il ramo sinistro della curva è più lungo di quello destro
si osserva una tendenza della curva di frequenza a
presentare maggiore addensamento negli scarti a sinistra
rispetto al valore mediano
Asimmetria negativa o as. sinistra
14
12
•In questo caso si ha: 10
frequenza
8
INDICE DI ASIMMETRIA
∑ (χ i − µ )3 caso semplice
γ = i=1
Nσ
1 3
∑ (χ i − µ )3 n i caso ponderato
γ = i=1
Nσ
1 3
γ1 = 0 CURVA SIMMETRICA
γ1 > 0 (valori positivi) ASIMMETRIA POSITIVA
γ1 < 0 (valori negativi) ASIMMETRIA NEGATIVA
La presenza di σ3 è dovuto alla necessità di conservare il segno
che determina il tipo di asimmetria della distribuzione
CURVA NORMALE O GAUSSIANA
LA CURVA NORMALE è la curva continua
rappresentativa delle distribuzioni che più
frequentemente si incontrano in statistica
CURVA NORMALE O GAUSSIANA
La distribuzione empirica che si incontra più
frequentemente è quella in cui i valori estremi
sono i più rari, quelli centrali sono i più numerosi.
Statura cm ni
120 2 12
121 2
10
122 3
123 7 8
124 8 6
125 11
4
126 7
127 5 2
128 2 0
129 2 120 121 122 123 124 125 126 127 128 129 130
130 1
Totale 50
CURVA NORMALE O GAUSSIANA
La curva normale o curva degli errori accidentali
fu proposta da Gauss (1809) nell’ambito della
teoria degli errori.
−
( χ − µ )2
N
y= e 2σ 2
dove
σ 2π
e = 2,71828 costante matematica (base dei logaritmi)
π = costante matematica approssimata 3,14
σ = scarto quadratico medio
(X-μ)2 = scarto dalla media della distribuzione al quadrato
Espressione della curva normale
Identificano i 3 parametri :
N = area sotto la
curva
σ σ
µ1 µ2 µ3 x
µ1 < µ2 < µ3
La forma della curva normale (3)
Dal grafico si
nota che se è σ
piccolo, la curva
è stretta ed
allungata. Ciò
significa che i
dati si addensano
attorno al valore
medio
distribuzione.
COME SI OTTIENE
UNA CURVA NORMALE STANDARDIZZATA?
La distribuzione standardizzata è
(3-4)/0,84=-1,19; (3,5-4)/0,84=-0,60 (4-4)/0,84=0
(4-4)/0,84= 0 (5,5-4)/0,84=1,79
INOLTRE
• Poiché l’area totale sotto la curva è uguale ad 1, la
metà sarà 0,50 cioè tutta l’area alla destra
dell’ordinata corrispondente a z=0,00.
42
In termini pratici…
• Poiché le tavole danno solo le aree a partire dal
punto z=0,00, il calcolo richiede il seguente
passaggio:
– l’area tra le ordinate corrispondenti a z=0,00 e
z=0,50 è 0,1915; mentre l’area tra z=0,00 e
z=2,50 è 0,4938.
0,45
0,4
•leptocurtosi
0,35
• K = 8,57
0,3
•curva normale
frequenza
0,25
•K=3
0,2
0,15
•platicurtosi
0,1
• K = 2,8
0,05
0
0 2 4 6 8 10 12 14 16
-0,05
valori della variabile
COEFFICIENTE DI CURTOSI
caso semplice
∑ (χ − µ ) ni
4
i
caso ponderato
γ2 = i =1
−3
Nσ 4
γ2 = 0 CURVA NORMALE
γ2 > 0 (valori positivi) DISTRIBUZ.IPERNORMALE
γ2 < 0 (valori negativi) DISTRIBUZ. IPONORMALE
L’ANALISI BIVARIATA:
LA TABELLA DI CONTINGENZA
La tavola di contingenza
Si tratta di tabella a doppia entrata in cui risultano una
variabile di riga e una variabile di colonna, mentre nelle celle definite
dall’incrocio fra le righe e le colonne troviamo il numero di casi che
presentano le corrispondenti modalità delle due variabili
(FREQUENZE CONGIUNTE).
LA TABELLA A DOPPIA ENTRATA
Origine sociale
Conoscenza inglese Alta Media Bassa Totale
Alta 61 79 34 174
Media 18 189 55 262
Bassa 8 81 347 436
Totale 87 349 436 872
Ultima riga: TOTALI DELLE FREQUENZE DELLE COLONNE
Ultima colonna: TOTALI DELLE FREQUENZE DELLE RIGHE
All’interno della tabella: LE FREQUENZE DELLE COPPIE DI MODALITA’
LA TABELLA A DOPPIA ENTRATA
Origine sociale
Conoscenza inglese Alta Media Bassa Totale
Alta 61 79 34 174
Media 18 189 55 262
Distribuzione
parziale di
Bassa 8 81 347 436
frequenze Totale 87 349 436 872
In altri termini, una tabella a doppia entrata è costituita da Distribuzioni
molteplici distribuzioni semplici, dette distribuzioni parziali marginali di
di frequenza, perché si riferiscono a sottocampioni. frequenza
(o frequenze
La colonna e la riga 'Totale' si chiamano marginali della marginali)
tabella. Sono le distribuzioni semplici di frequenze
rispettivamente dell’ origine sociale e dell’inglese e si
riferiscono a tutto il campione.
Schema tabella di contingenza
Y
X y1 y2 y3 … yh Totale
nih
x1 n11 n12 n13 … n1h n10 il primo indice i
si riferisce alla
x2 n21 n22 n23 … n2h n20 modalità di X, il
secondo h alla
x3 n31 n32 n33 … n3h n30 modalità di y
..
xi ni1 ni2 ni3 … nih ni0
Totale n01 n02 n03 … n0h N
Frequenza congiunta
Frequenza marginale di Y n11=4 è il numero di donne con
n02=3+2=5 basso reddito
Distribuzione condizionata di X dato Y
(X|Y=yh)
Y
X y1 y2 y3 … yh Totale
x1 n11 n12 n13 … n1h n10
x2 n21 n22 n23 … n2h n20
x3 n31 n32 n33 … n3h n30
..
xi ni1 ni2 ni3 … nih ni0
Totale n01 n02 n03 … n0h N
Statistica 35 65 100
Ingegneria 60 20 80
Distribuzione
di X
condizionata a
y1
LE PERCENTUALI NELLA
Le
TABELLA
Per studiare la relazione tra due variabili e per i confronti con
altre distribuzioni doppie si ricorre alle PERCENTUALI
Lo scopo della percentuale è quello di “pareggiare” basi diverse.
1) Le percentuali sul totale si ottengono percentualizzando
tutte le frequenze di cella sul totale generale.
2) Le percentuali di colonna si ottengono registrando i valori
percentuali della variabile di colonna
3) Le percentuali di riga si ottengono registrando i valori
percentuali della variabile di riga
Indipendenza, Dipendenza e interdipendenza
In una VARIABILIE STATISTICA DOPPIA si
possono avere tre tipi di relazione tra X e
Y: INDIPENDENZA, DIPENDENZA E
INTERDIPENDENZA
In matematica si dice che la variabile Y non
dipende dalla variabile X quando essa rimane
costante al variare dei valori assunti da X.
Nel caso contrario si dice che la y dipende ed è
funzione di x.
3
Nella tabella a doppia entrata:
Y è indipendente in distribuzione da X
X è indipendente in distribuzione da Y
Y è indipendente in distribuzione da X
X è indipendente in distribuzione da Y
Y
X
1 2 3 4 totale
1 2/8=1/4 6/24=1/4 4/16=1/4 10/40=1/4 22/88=1/4
2 1/8 3/24=1/8 2/16=1/8 5/40=1/8 11/88=1/8
3 5/8 15/24=5/8 10/16=5/8 25/40=5/8 55/88=5/8
0 ⊣ 10 26 52 40
10 ⊣ 20 42 60 46
20 ⊣ 30 12 18 14
Qual è la percentuale di Enti Pubblici tra i clienti
che hanno saldato la fattura più di 10 giorni dopo la consegna del PC?
42+12=54 frequenza assoluta congiunta (enti pubblici ) La frequenza assoluta
marginale 148+44=192.
148+44=192. Pertanto, la frequenza relativa richiesta è 54/192=0,28,
54/192=0,28,
ossia 28%.
Giorni Tipologia del cliente
trascorsi
consegna-
consegna- A B C Totale
saldo
0 ⊣ 10 26 52 40 118
10 ⊣ 20 42 60 46 148
20 ⊣ 30 12 18 14 44
si hanno
RETTA DI REGRESSIONE
Dal punto di vista grafico si sceglie la
retta che rende minima la distanza tra la
retta stessa e i punti dello scatter .
Per scatter intendiamo una nuvola di N punti,
ciascun punto è rappresentativo di una
coppia di valori Xi, Yi
peso y
160 50
40 165; 53
172 60 155; 40
155 40 20
165 53 0
150 155 160 165 170 175 180 185
altezza X
180 85 60
Peso y
160 50
40
172 60
155 40 20
165 53 0
150 155 160 165 170 175 180 185
Altezza x
100
altezza peso
80
180 85 60 Y*
e
Peso y
yi
160 50
40
172 60
155 40 20
165 53 0
xi
150 155 160 165 170 175 180 185
Altezza x
(varia tra - ∞ + ∞)
b è la variazione della Y per una variazione unitaria della X
Donne 1 2 3 4 5 6 7 8 9 10 11
x 36 38 42 47 49 55 56 60 63 68 72
y 118 115 140 128 145 150 147 155 149 152 160
(Xi – Xm)*
Xm)*
Età (X) Pressione (Y) Xi - Xm Yi - Ym (Xi – Xm
Xm))2
(Yi – Ym)
Ym)
36 118 -17,27 -23,73 409,83 298,35
38 115 -15,27 -26,73 408,20 233,26
42 140 -11,27 -1,73 19,47 127,07
47 128 -6,27 -13,73 86,11 39,35
49 145 -4,27 3,27 -13,98 18,26
55 150 1,73 8,27 14,29 2,98
56 147 2,73 5,27 14,38 7,44
60 155 6,73 13,27 89,29 45,26
63 149 9,73 7,27 70,74 94,62
68 152 14,73 10,27 151,29 216,89
72 160 18,73 18,27 342,20 350,71
Media 53,27 Media 141,73 0,00 0,00 ∑=1591,82 ∑=1434,18
b=1,11
a=Ym
a=Ym-
Ym-bXm 82,599
Calcoliamo dei valori di Y*
(Xi – Xm)*
età pressione Xi - Xm Yi - Ym Y*=a+bX
*=a+bX
(Yi – Ym) (Xi – Xm)2
36 118 -17,27 -23,73 409,83 298,35 122,56
38 115 -15,27 -26,73 408,20 233,26 124,78
42 140 -11,27 -1,73 19,47 127,07 129,22
47 128 -6,27 -13,73 86,11 39,35 134,77
49 145 -4,27 3,27 -13,98 18,26 136,98
55 150 1,73 8,27 14,29 2,98 143,64
56 147 2,73 5,27 14,38 7,44 144,75
60 155 6,73 13,27 89,29 45,26 149,19
63 149 9,73 7,27 70,74 94,62 152,52
68 152 14,73 10,27 151,29 216,89 158,07
72 160 18,73 18,27 342,20 350,71 162,51
53,27 141,73 0,00 0,00 1591,82 1434,18
b= 1,11
a=Ym-
a=Ym-bXm 82,599
Retta di regressione e parametri
180
140
120
pressione (Y)
100
80
60
40
20
0
0 10 20 30 40 50 60 70 80
età (X)
La tabella mostra le stature per un gruppo di padri e figli.
Presupponendo una relazione lineare tra le
stature dei padri e le stature dei figli, si dica che statura ci si
aspetta per un figlio di un padre alto 170.5 cm.
stature dei
padri 165 170 180 172 179 174 176 168 181 173 170 178 176
statura dei
figli 167 169 181 171 180 176 180 171 179 174 173 176 178
(Xi – Xm)*
padri (X) figli (Y) Xi - Xm Yi - Ym (Xi – Xm)2 Y*
(Yi – Ym)
165 167 -9 -8 72 81 167
170 169 -4 -6 24 16 172
180 181 6 6 36 36 180
172 171 -2 -4 8 4 173
179 180 5 5 25 25 179
174 176 0 1 0 0 175
176 180 2 5 10 4 177
168 171 -6 -4 24 36 170
181 179 7 4 28 49 181
173 174 -1 -1 1 1 174
170 173 -4 -2 8 16 172
178 176 4 1 4 16 178
176 178 2 3 6 4 177
Media 174 Media 175 0 0 Σ =246 Σ =288
b= 0,8542
a= 26,375
Y*
167
padri (X) figli (Y) 172
182 180
180
y = 0,8542x + 26,375 173
179
178
Statura figli
175
176
177
174
170
172 181
170 174
168 172
166
178
164 166 168 170 172 174 176 178 180 182 177
Statura padri
∑ (y − y )
Dev (E) DEVIANZA DELL’ERRORE O RESIDUA * 2
i i
Rapportando la devianza di regressione Dev (R) alla
devianza totale Dev (Y) individueremo quanta parte
della devianza totale è determinata o spiegata dalla
retta di regressione supposta rappresentativa del
fenomeno
b= 0,8542
a= 26,375 R2= 0,8405
Misura l’associazione tra due variabili, in cui è
difficile stabilire qual è il carattere
antecedente e quale quello conseguente.
4
3
2
1
0
0 20 40 60 80 100
% donne contraccettvi
Per misurare la dipendenza del livello di fecondità dal livello
d’uso di contraccettivi ricorriamo alla regressione
%donne
%donne
donne
donne che Numero
Numero 2
usano
che usano medio medio
di di (Xi – Xm)*
(Xi –(Yi-Ym)
Xm)* (Yi (Yi-Ym)22
Yi - Ym
Yi - Ym
Xi-Xm Xi-Xm (Xi – Xm) (Xi – Xm)2
Y*=a+bX
contraccettivi
contraccet figli per
figli per (Yi – Ym) – Ym)
(xi)
tivi donna
donna (yi
(yi)
yi)
82 82 1,8 1,8-2,03 -2,03 35,5 35,5
-72,07 -72,07
4,12 1260,25
4,12 1260,25
1,2
71 71 2,1 2,1-1,73 -1,73 24,5 24,5
-42,39 -42,39
2,99 600,25
2,99 2,0
600,25
12 12 5,4 5,4 1,57 1,57-34,5 -34,5
-54,17 -54,17
2,46 1190,25
2,46 1190,25
6,3
55 55 2,8 2,8-1,03 -1,03 8,5 8,5
-8,76 -8,76
1,06 72,25
1,06 3,2
72,25
53 53 3 3-0,83 -0,83 6,5 6,5
-5,40 -5,40
0,69 42,25
0,69 3,4
42,25
66 66 2,3 2,3-1,53 -1,53 19,5 19,5
-29,84 -29,84
2,34 380,25
2,34 2,4
380,25
15 15 7,1 7,1 3,27 3,27-31,5 -103,01
-31,5 -103,01
10,69 992,25
10,69 6,1
992,25
74 74 1,8 1,8-2,03 -2,03 27,5 27,5
-55,83 -55,83
4,12 756,25
4,12 1,8
756,25
4 4 7,3 7,3 3,47 3,47-42,5 -147,48
-42,5 -147,48
12,04 1806,25
12,04 1806,25
6,9
33 33 4,7 4,7 0,87 0,87-13,5 -13,5
-11,75 -11,75
0,76 0,76
182,25 182,25
4,8
Media MediaMedia
Media
46,5
46,5 3,83 3,83 -530,65 -530,65
41,28 7282,5
41,28 7282,5
num denomin
b= -530,65 7282,5 -0,07
%donne
donne
che usano Numero (Xi – Xm)* (Yi-Ym)2
Yi - Ym Xi-Xm (Xi – Xm)2 Y*=a+bX
contraccet medio di (Yi – Ym)
tivi figli per
donna
82 1,8 -2,03 35,5 -72,07 4,12 1260,25 1,2
71 2,1 -1,73 24,5 -42,39 2,99 600,25 2,0
12 5,4 1,57 -34,5 -54,17 2,46 1190,25 6,3
55 2,8 -1,03 8,5 -8,76 1,06 72,25 3,2
53 3 -0,83 6,5 -5,40 0,69 42,25 3,4
66 2,3 -1,53 19,5 -29,84 2,34 380,25 2,4
15 7,1 3,27 -31,5 -103,01 10,69 992,25 6,1
74 1,8 -2,03 27,5 -55,83 4,12 756,25 1,8
4 7,3 3,47 -42,5 -147,48 12,04 1806,25 6,9
33 4,7 0,87 -13,5 -11,75 0,76 182,25 4,8
Media Media
46,5 3,83 -530,65 41,28 7282,5
num denomin
a=Ym
a=Ym-
Ym-bXm 3,83-
3,83-(-0,07*46,5) 7,22
b= -530,65 7282,5 -0,07
8,00
%donne che
Numero medio 7,00
usano
di figli
contraccettivi 6,00
Y*=a+bX
Y*=a+bX
5,00
0 7,22
4,00
1 7,15
2 7,07 3,00
25 5,40 2,00
40 4,30 1,00
80 1,39 0,00
0 20 40 60 80 100
• Rinnovo:
• Nascite
• Immigrazioni
• Estinzione:
• Morti
• Emigrazioni
“Fenomeni” ed “eventi” demografici
Fenomeni demografici sono quelli che
determinano o concorrono a determinare i flussi
di rinnovo e di estinzione in una popolazione:
– Fecondità (e nuzialità)
– Mortalità
– Migratorietà o mobilità territoriale
Eventi :
– Nascite (matrimoni-divorzi)
– Decessi
– Migrazioni
Ritornando alla definizione
Demo-grafia formale:
è l’insieme di tecniche e metodi riconosciuti come
utili e adeguati per misurare la struttura per
sesso ed età di una popolazione, la
riproduttività, la mortalità, la mobilità e le
unioni.
L’analisi demografica fornisce gli
strumenti per:
Misurare i comportamenti/fenomeni
demografici
– Ogni comportamento si esplica in eventi
Nascite, matrimoni, divorzi, decessi, migrazioni
Comprendere le cause
– Gli studi di demografia possono andare oltre
l’ambito descrittivo e spingersi verso avventure
conoscitive (quelle della “spiegazione” e
“comprensione”) più ricche e stimolanti.
DEMOGRAFIA
Formal Demography
Legami con altre discipline
• Epidemiologia
(studio di cause, distribuzione e controllo delle malattie
nelle popolazioni)
• Ecologia umana
(studio delle relazioni tra i gruppi umani ed il loro
ambiente fisico)
• Economia
(studio di produzione, distribuzione, consumo di beni e
servizi)
• Storia
(La dimensione del tempo)
• Biologia
(Es. la genetica delle popolazioni)
Demografia e sociologia
• Ampia area di interessi scientifici comuni
14
Lo studio del movimento della
popolazione
• La popolazione è definita come un gruppo di individui
aventi un insieme di caratteristiche comuni che si
rinnovano per effetto dei meccanismi di entrata (nascite e
immigrazioni) e di uscita (decessi ed emigrazioni)
Pt = P0 + N – M + I - E
Se
Pt = P0 + SN + SM
Anche se nella realtà:
SM = Pt - P0 - SN
Un esempio per l’Italia nel 2001
Poste di Bilancio
Poste di Bilancio
3. Tassi di incremento
L’incremento della popolazione
Pt - P0 = SN + SM
∆P
I tassi di incremento
A che cosa servono?
Consentono di rispondere alle domande:
• Di quanto è aumentata (o diminuita) la
popolazione?
• A quale velocità?
Esempio
La popolazione di Adelfia nel corso del 2011 è passata da 16.495 a 16.526
abitanti. Quindi in termini assoluti si rileva una variazione di 31 unità.
Possiamo allora dire che l’entità dell’incremento nei due comuni è la stessa?
Ovvero ad Adelfia ogni 1000 abitanti se ne sono aggiunti nel corso del 2011
1,9 mentre a Poggiorsini ogni 1000 abitanti se ne sono aggiunti 60,4.
• Aritmetico
• Geometrico (o composto)
• Continuo (o esponenziale)
Tasso di incremento aritmetico
Pt = P0 (1 + art)
Tasso di incremento aritmetico
Pt = P0 (1 + art) da cui
Pt = P0 + P0 ar t
Pt -P0= P0 ar t risolvendo
ar = (Pt - P0) / P0 t
La popolazione di riferimento: popolazione iniziale
Esempio di calcolo del tasso di incremento aritmetico
• 1971P = 54.136.547
• 1981P = 56.556.911
• t = 10,0027 (cioè 10 anni e 1 giorno)
Si ricava
• 1971P = 54.136.547
• 1981P = 56.556.911
• t = 10,0027 (cioè 10 anni e 1 giorno)
Rilevazioni Campionarie:
la rilevazione delle informazioni è eseguita solo su una
parte delle unità che compongono la popolazione
LE RILEVAZIONI CAMPIONARIE
Rilevazioni campionarie raccolgono dati provenienti solo
dalle unità della popolazione che vengono selezionate.
-Vantaggi rispetto alla rilevazioni totali:
riduzione costi,
riduzione dei tempi,
riduzione del carico organizzativo,
vantaggi di approfondimento e di accuratezza
-Svantaggi:
la base di campionamento non è sempre disponibile o
facile da conoscere
LE RILEVAZIONI CAMPIONARIE
• La rilevazione campionaria può essere
compiuta per scelta obbligata
– Casi in cui la popolazione di riferimento è
parzialmente sconosciuta in termini di
composizione o numerosità
Campione stratificato
Campionamento stratificato
Il metodo si articola in 3 fasi :
RISTORANTE
CATEGORIA
SI NO
5 STELLE 80 65
4 STELLE 100 70
3 STELLE 120 55
2 STELLE 80 10
1 STELLA 40 5
Costruzione campione
A. Indicare la numerosità campionaria nel caso in cui si proceda
all’estrazione di un campione casuale semplice con frazione di
campionamento pari al 10%.
Calcoliamo il totale:
RISTORANTE
CATEGORIA
SI NO TOT
5 STELLE 80 65 145
4 STELLE 100 70 170
3 STELLE 120 55 175
2 STELLE 80 10 90
1 STELLA 40 5 45
TOTALE 420 205 625
Poiché il totale degli alberghi è 625 un CCS (Campione Casuale Semplice) con
frazione di campionamento del 10% avrebbe dimensione 625 × 0,10 ≈ 63
RISTORANTE
CATEGORIA
SI NO TOT Nr. Alberghi per strato
5 STELLE 8 6 14
4 STELLE 10 7 17
3 STELLE 12 6 18
2 STELLE 8 1 9
1 STELLA 4 1 5
63 Nr. Campionaria n = ∑ nj =
TOTALE 42 21
63
Costruzione campione
a) Indicare la frazione di campionamento adottata in ciascuno strato nel
caso in cui si proceda all’estrazione di 20 alberghi in ciascuno strato
fs = nj / Nj = 20 / Nj
salvo per i due strati in cui il numero di unità statistiche è inferiore alla
numerosità richiesta. Per questi strati tutte le unità statistiche devono essere
inserite nel campione e quindi la frazione di campionamento risulta essere
pari a 1
RISTORANTE
CATEGORIA
SI NO TOT
5 STELLE 20/80=0,25 0,31 0,28
4 STELLE 0,20 0,29 0,24
3 STELLE 0,17 0,36 0,23
2 STELLE 0,25 1,00 0,33
1 STELLA 0,50 1,00 0,56
0,28 (20 × 8) + 15 / 625=
TOTALE 0,24 0,37
0,28
ASSUNTO:
L’indagine campionaria fornisce una stima, cioè solo
un valore approssimato, del parametro che si vuole
conoscere di una popolazione.
-Ciò significa che il valore in questione non è certo, ma solo
probabile, e inoltre questa probabilità può variare entro un
certo intervallo (detto intervallo di confidenza).
CONSEGUENZA
La stima del campione è quindi sempre affetta
da errore
Errori di campionamento
Intendendo per:
Parametro: qualsiasi statistica (valore) calcolata relativamente ad
una o più caratteristiche di tutte le unità d’analisi appartenenti alla
popolazione (universo).
2. Si può misurare
La dimensione dell’errore può essere calcolata solo in un
campione probabilistico
Espresso dall’errore standard SE=dev.std/√n
Funzione di:
– Numerosità campionaria
–Variabilità nel misurare il fattore di interesse
Esempio di errore nei campioni
2) Rifiuto a rispondere
Errori non campionari
Errore di non risposta
Per contrastare efficacemente il problema delle
mancate risposte ci sono due metodi:
2. ERRORE ACCIDENTALE
L’errore accidentale è invece un errore variabile, che
varia da rilevazione a rilevazione
2 Tipologie di errori
Riassumendo
• libera :
focalizzata (quando l’intervistatore riesce
ad ottenere risposte esplicite a domande
precise)
biografica (quando l’intervistatore chiede
l’opinione all’intervistato su determinate
questioni sollecitando la sua esperienza di
vita)
Rilevazioni tramite intervistatore
• con questionario
l’intervista viene condotta da un rilevatore che legge le
domande e le opzioni di risposta nell’esatto ordine e con
lo stesso linguaggio adottati nel questionario.
Intervista telefonica
Intervista condotta al telefono da un intervistatore che
legge le domande e le opzioni di risposta nell’esatto
ordine e con lo stesso linguaggio adottati nel
questionario riportandovi quindi le risposte così come
sono fornite dal rispondente.
Vantaggi e limiti
Intervista telefonica
VANTAGGI DIFETTI
• Costi minori • Impossibile contattare
• Tempestività nella raccolta famiglie senza telefono
dati • Il rispondente non è
• Non richiede organizzazione identificato con
sul territorio certezza
• Maggiore controllo dei • Limitazioni nell’aiuto
rilevatori fornito ai rispondenti
• Bassi rischi di
condizionamento
• Maggiore possibilità di porre
quesiti delicati
Rilevazione autocompilata
IMPORTANTE
Il questionario deve essere uno strumento standardizzato
TRE FASI:
1) Progettazione concettuale
2) Redazione del questionario
3) Verifica del questionario
La costruzione del questionario
La fase preliminare
1) Fase della progettazione concettuale
Devono essere specificati e definiti:
• la popolazione di riferimento
• aree (argomenti) e ambiti da indagare
• le caratteristiche di interesse del fenomeno da studiare
• le finalità conoscitive
• la tecnica di rilevazione
ATTENZIONE:
Occorre precisare in maniera chiara il concetto connesso al tema
sul quale si vuole indagare
(esempio: per un’ indagine sul tempo libero, occorre indicare
precisamente cosa si intende per tempo libero)
La fase della stesura del
questionario
2) Fase Redazione del questionario
scelta del tipo di domande
contenuto
forma
formulazione dei quesiti
1. Caratteristiche socio-demografiche
2. Atteggiamenti
3. Comportamenti
La scelta delle domande: sostanza
1. Le Domande relative alle proprietà socio-demografiche:
si riferiscono alle caratteristiche permanenti o temporanee
dell’individuo (genere, età, luogo di nascita, titolo di studio
professione, stato civile)
vengono riportate in tutte le inchieste e seguono delle
formulazioni standard.
2. Le Domande relative agli atteggiamenti (area dei pensieri)
riguardano opinioni, motivazioni, sentimenti, giudizi, valori
sono le più difficili da formulare e le risposte sono
influenzate dal modo in cui sono poste le domande.
3. Le Domande relative ai comportamenti (area delle azioni)
rilevano ciò che il soggetto dice di fare o di aver fatto.
un aspetto più facile da indagare rispetto agli altri: i
comportamenti sono inequivoci e osservabili
CARATTERISTICHE DEMOGRAFICHE E SOCIALI INDIVIDUALI
3.2. Dove ha trascorso la maggior parte del tempo dalla nascita fino ai 14 anni?
- Villaggio (nome della città più vicina) ______________________________________ 1|__|
- Piccola città (specificare): ________________________________________________ 2|__|
- Grande città (specificare): ________________________________________________ 3|__|
Rimedio
Le domande devono essere formulate non tenendo
vicine quelle che abbiano tra di loro un nesso logico o
alternando la tipologia delle risposte
Tipologie di domande tecniche
LE DOMANDE FILTRO permettono di saltare uno o
più quesiti successivi se sono verificate alcune
condizioni (individuano i percorsi di compilazione ).
Sono utili:
1. per selezionare sottoinsiemi di intervistati, aventi
caratteristiche in comune, e per indirizzarli verso
alcune sezioni del questionario.
(es: occupati o non occupati)
2. per guadagnare tempo e quindi per evitare di porre
quesiti dettagliati quando è inutile
(es. Lei dedica parte del suo tempo alla lettura? Se la risposta è
sì l’intervista prosegue altrimenti si conclude)
28. Ha mai lavorato nel suo paese d’origine?
- Sì 1|__|
- No 2|__| [vai alla dom.28.2]
28.1. Qual è stata l’ultima attività lavorativa svolta nel paese di origine? _____________________
______________________________________________________________________________
28.2. Quale era la sua condizione professionale nel paese di origine prima della partenza?
- Occupato 1|__|
- Disoccupato/in cerca di nuova occupazione 2|__|
- In cerca di prima occupazione 3|__|
- Studente/studentessa 4|__|
- Casalinga 5|__|
- Altro (specificare): ____________________________________________________
Sì No
- Una cucina o angolo 1|__| 2|__|
cottura
- Stanza bagno e doccia 1|__| 2|__|
- W.C. 1|__| 2|__|
- Illuminazione elettrica 1|__| 2|__|
- Acqua corrente 1|__| 2|__|
- Acqua potabile 1|__| 2|__|
- Giardino, balcone o 1|__| 2|__|
terrazza
- Impianto di riscaldamento 1|__| 2|__|
fisso
Esprima il suo grado d’accordo sulle seguenti
affermazioni:
Molto Abba- Poco Per Non
stanza Nient so
5 4 3 e 1
2
- È bene che una donna abbia figli prima dei 25
anni |__| |__| |__| |__| |__|
- Le decisioni importanti devono essere prese da
marito e moglie insieme |__| |__| |__| |__| |__|
- Il ricorso alla contraccezione all’interno della
coppia è utile |__| |__| |__| |__| |__|
- Per avere figli occorrono adeguati mezzi
economici |__| |__| |__| |__| |__|
- In una famiglia l’uomo lavora e la donna sta a
casa e si occupa dei figli |__| |__| |__| |__| |__|
- I figli devono professare la stessa religione
dei genitori |__| |__| |__| |__| |__|
- I figli devono adottare le abitudini del paese
in cui vivono |__| |__| |__| |__| |__|
L’ordine Delle Domande
REGOLE BASE
1. Presentare per prime le domande dalle risposte
semplici
E’ NECESSARIO:
• Prevedere tutte le possibili risposte;
• indicare come l’intervistato deve comportarsi per
rispondere alla domanda correttamente
Proprietà
Ogni proprietà può manifestarsi in diversi modi:
questi sono definiti stati della proprietà
Proprietà Stati della proprietà
Età 1,2,3,4,5…. Anni
Procedura di
Tipo di variabile Stato della proprietà
operativizzazione
Discreti ordinabili
Ordinale Ordinamento
(titolo di studio)
Discreti enumerabili
Cardinale Conteggio
(n. di figli)
(es. “In quale provincia della Puglia risiedi?” Nella scheda ci sarà un
codice identificativo di ogni città da riportare nel questionario)
01 Bari 03 Lecce 05 Foggia
02 Brindisi 04 Taranto 06 Bat
Variabili Ordinali
• Nella maggior parte dei casi i questionari
prevedono molte domande di opinione o di
atteggiamento in cui le risposte sono di tipo
ordinale.
MARIA CARELLA
1
LA RIDUZIONE DEI DATI
• Terminata la fase di raccolta dei dati, le
procedure che consentono la trasposizione
degli stessi nella forma più adeguata per le
successive analisi si chiamano:
PROCEDURE DI RIDUZIONE DEI DATI
• La riduzione dei dati è necessaria tutte le
volte che si effettua una ricerca quantitativa
2
LA RIDUZIONE DEI DATI
Il QUESTIONARIO, in quanto supporto, non
assicura un elevato grado di efficienza al
trattamento delle informazioni
4
LA RIDUZIONE DEI DATI
In generale nella ricerca quantitativa il processo di
organizzazione del materiale empirico raccolto consiste
nella sua trasformazione in una matrice di numeri:
MATRICE DEI DATI
5
LA RIDUZIONE DEI DATI
TABELLONE DI CODIFICA Su supporto informatico
unico grande foglio diviso organizzazione dei dati
in righe e colonne in
FILES
La sua struttura si chiama (fogli di calcolo elettronici
MATRICE DATI con excel, spss)
2 limiti:
1) Il conteggio avviene in maniera
manuale Sistema che consente un
2) Il tabellone deve essere letto ottimo compattamento di
dall’occhio umano
dati
LA MATRICE DEI DATI
E’ un insieme rettangolare di numeri contenente
7
LA MATRICE DEI DATI
Ogni riga
rappresenta Ogni colonna
un’unità statistica rappresenta
(caso) una
variabile
2 F Diploma 50 3
3 M Licenza Media 79 1
4 F Dottorato 54 1
8
In sintesi
Ogni riga della matrice corrisponde ad un caso: leggendo
ogni riga possiamo ottenere il profilo di un caso.
9
Supporto informatico: excel o SPSS
IL FILE
contiene
Tanti RECORDS quanti sono i casi
(INTERVISTATI) che coincidono con le righe
della matrice
Campionamento
Stati sulla
proprietà
Casi Valori/Dati
12
LA CODIFICA DEI DATI
intendiamo due operazioni:
13
LA CODIFICA DEI DATI
avviene con l’ausilio di due
strumenti:
16
LA CODIFICA DEI DATI
Come devono essere usati i codici numerici all’interno della
stessa domanda?
Per ogni modalità di risposta deve essere usata una
cifra diversa.
1 2 3 4 5 6 7
Cod.id Sex Età Lin.m. Età P C.fam
001 1 2 2 1 6 0 1
002 1 2 3 2 5 8 2
003 2 2 2 1 5 2 2
004 1 2 6 4 5 5 3
005 2 2 8 2 5 3 2
006 2 2 3 3 5 4 2
007 2 2 1 1 5 1 1 19
LA CODIFICA DEI DATI
20
LA CODIFICA A PRIORI
E’ LIMITATA NECESSARIAMENTE ALLE
DOMANDE PER CUI SI CONOSCONO
PREVENTIVAMENTE TUTTE LE MODALITA’ DI
RISPOSTE POSSIBILI (domande chiuse)
21
LA CODIFICA A PRIORI
PROBLEMA: Come ci si deve comportare nei casi in cui
le risposte possibili sono superiori a dieci?
Non essendo possibile registrare simili valori, si
useranno 2 campi contigui del file per codificare
questa variabile. Così come se è maggiore di 99
diventano 3 campi.
Per es. Età del padre: colonne 4-5/
22
LA CODIFICA A PRIORI
Come ci si deve comportare Se la domanda consente due o più
risposte possibili?
CASO RISPOSTE MULTIPLE
Quale di questi locali frequenta almeno una volta a settimana?
(Cerchiare tutti quelli che frequenta)
INDIVIDUO 001 INDIVIDUO 002
Discoteca 1 61/ Discoteca 1 61/
Pub 2 62/ Pub 2 62/
Bar 3 63/ Bar 3 63/
Sala giochi 4 64/ Sala giochi 4 64/
Pizzeria 5 65/ Pizzeria 5 65/
Ristorante 6 66/ Ristorante 6 66/
23
LA CODIFICA A PRIORI
Come ci si deve comportare Se la domanda consente
due o più risposte possibili? CASO RISPOSTE MULTIPLE
Quale di questi locali frequenta almeno una volta a
settimana? (Cerchiare tutti quelli che frequenta)
INDIVIDUO 001 INDIVIDUO 002
Discoteca 1 61/ Discoteca 1 61/
Pub 2 62/ Pub 2 62/
Bar 3 63/ Bar 3 63/
Sala giochi 4 64/ Sala giochi 4 64/
Pizzeria 5 65/ Pizzeria 5 65/
Ristorante 6 66/ Ristorante 6 66/
Cod.id 61 62 63 64 65 66
001 1 1 1
002 1 1 1
24
LA CODIFICA DELLE MANCATE RISPOSTE
I numeri usati più spesso per le mancate risposte sono 9 e 0 (o 99 per
le variabili che hanno bisogno di più di un campo) mentre per i non so
sono 8 e 98
Molti lasciano lo spazio bianco, da evitare perché si generano più
facilmente errori e si potrebbero avere difficoltà nei calcoli.
RECORD 21
CAMPO DOMANDA E DESCRIZIONE CODICE PAG 2
D.80 Quando ha partorito (la prima volta)?
26
Dato il seguente tracciato: E la seguente matrice dei dati
1-3 N. Caso • 0012111
4 Genere • 0022413
1. M • 0031321
2. F • 0041222
5 Titolo di studio • 0052211
1. Elementari
2. Medie
3. Diploma
Qual è il significato del numero in
4. Laurea grassetto rosso e sottolineato nella
6 Favorevole alla liberalizzazione delle matrice?
droghe leggere
1. Sì
2. No
7 Partito votato
1. Ulivo
2. Casa delle libertà
3. Altro
29
Trattamento dei missing
Le variabili presentano spesso valori mancanti (missing values)
30