Sei sulla pagina 1di 12

Dipartimento di Sociologia e Ricerca Sociale

Corso di Laurea in Sociologia

Insegnamento di Statistica (a.a. 2018-2019)

dott.ssa Gaia Bertarelli

Esercitazione n. 4

1. La seguente tabella riporta la distribuzione delle forze di lavoro per condizione professionale e

ripartizione geografica di residenza per l’anno 2007 (Fonte: ISTAT, Annuario Statistico Italiano

2008):

Zona Occupati In cerca di


Residenza Agricoltura Industria Terziario occupazione
Nord-Ovest 157 2361 4356 270
Nord-Est 189 1812 3047 162
Centro 122 1271 3392 267
Mezzogiorno 456 1560 4500 808

(a) Si ottengano le distribuzioni marginali.

(b) Si ottengano le distribuzioni condizionate percentuali rispetto all’area geografica di residenza.

(c) Dal confronto delle distribuzioni condizionate si indichi se esiste o meno dipendenza tra la zona

geografica di residenza e la condizione lavorativa.

(d) Si calcoli un opportuno indice di dipendenza e si commenti il risultato ottenuto.

SOLUZIONE

(a) Le distribuzioni marginali dei caratteri zona di residenza e condizione professionale si ottengono

dai totali riga e colonna della tabella (facendo quindi in un caso la somma di tutti i valori su

ogni riga e nell’altro la somma di tutti i valori sulla colonna):

Zona geografica fi. Condizione professionale f.j


Nord-Ovest 7144 Agricoltura 924
Nord-Est 5210 Industria 7004
Centro 5052 Terziario 15295
Mezzogiorno 7324 In cerca di occupazione 1507
Totale 24730 Totale 24730

(b) Le distribuzioni condizionate percentuali rispetto all’area geografica di residenza sono le se-

guenti: Il totale di riga, quindi il totale della modalit rispetto alla quale si condiziona, deve
157
essere 100. Quindi per il nord ovest ad esempio si ha 7144 = 2, 20 per Agricoltura al nord-ovest,
2361
7144 = 33, 05 per Industria al Nord-Ovest, e similmente fino a riempire la tabella.

1
Agricoltura Industria Terziario In cerca di occupazione Totale
Nord-Ovest 2,20 33,05 60,97 3,78 100,00
Nord-Est 3,63 34,78 58,48 3,11 100,00
Centro 2,41 25,16 67,14 5,29 100,00
Mezzogiorno 6,23 21,30 61,44 11,03 100,00

(c) Le distribuzioni condizionate percentuali del punto precedente risultano lievemente differenti,

in particolare quella del Mezzogiorno e del Centro rispetto alle zone Nord del paese. Qualora

i due caratteri fossero stati indipendenti tali distribuzioni sarebbero risultate uguali. Per tale

motivo ci aspettiamo la presenza di un certo grado di dipendenza.

(d) La tabella di indipendenza in cui le frequenze teoriche (cioè nel caso di indipendenza) congiunte

sono calcolate come fij = fi. f.j /N è la seguente:

Agricoltura Industria Terziario In cerca di occupazione Totale


Nord-Ovest 266,925 2023,315 4418,418 435,342 7144
Nord-Est 194,664 1475,570 3222,279 317,488 5210
Centro 188,761 1430,821 3124,559 307,859 5052
Mezzogiorno 273,650 2074,294 4529,744 446,311 7324
Totale 924 7004 15295 1507 24730

L’indice di connessione χ2 può essere calcolato come segue:


∗ 2
X (fij − fij ) (157 − 266, 925)2 (2361 − 2023, 315)2 (808 − 446, 311)2
χ2 = ∗ = + +. . .+ = 939, 969
ij
fij 266, 925 2023, 315 446, 311

L’indice di connessione ci dice solo che, essendo diverso da zero, i due caratteri sono connessi.

Per avere informazioni sul grado di connessione dobbiamo andare a studiare l’indice di con-

nessione normalizzato che è definito come la radice quadrata del rapporto fra l’indice χ2 e il

suo valore massimo, ossia N × min[(s − 1), (t − 1)] dove s e t sono il numero delle modalità per

il carattere sulle righe e sulle colonne .

L’indice di connessione normalizzato di Cramer è sempre compreso fra 0 e 1. Moltiplicato per

100 è interpretabile come percentuale di connessione. È dato da

χ2 939, 969 939, 969


χ2N = = = = 0, 013
N × min[(s − 1), (t − 1)] 24730 × min[(4 − 1, 4 − 1)] 24730 × 3

1.3% di connessione fra i caratteri distribuzione forze lavoro e zona di residenza.

2
2. Si voglia stabilire dalla seguente tabella (Hand et al., 1994) se tra il livello di colesterolo e i disturbi

cardiaci esiste un legame associativo.

Colesterolo Si Disturbi Cardiaci No Disturbi Cardiaci Totale


< 219 20 553 573
220 − 259 31 439 470
> 259 41 245 286
Totale 92 1237 1329

SOLUZIONE

La risposta a quesito si ricava dall’osservazione delle distribuzioni condizionate del carattere ”di-

sturbi cardiaci” espresse in forma percentuale e riportate di seguito. Le distribuzioni condizionate

percentuali sono state ottenute sostituendo alle frequenze assolute quelle percentuali, calcolate po-

nendo uguale a 100 il totale di riga. Quindi, per esempio, la percentuale 3.5 nella prima tabella
20
data da 573 × 100. Si deve ricorrere alle percentuali perchè le distribuzioni condizionate iniziali non

sono comparabili, avendo totali diversi.

Colesterolo Si Disturbi Cardiaci No Disturbi Cardiaci Totale


< 219 3.5 96.5 100
220 − 259 6.6 93.4 100
> 259 14.3 85.7 100

Come si osserva le tre distribuzioni condizionate differiscono sensibilmente: l’incidenza dei disturbi

cardiaci passa dal 3.5% per un livello di colesterolo normale al 6.6% per un livello di colesterolo

lievemente superiore alla norma, al 14.3% per un livello elevato. La conclusione è che esiste un

qualche grado di connessione fra i due caratteri.

3
3. La quantità di precipitazioni (in mm) e le temperature medie (in gradi C) registrate in 8 stazioni

meteorologiche sono state le seguenti:

Stazione meteor. 1 2 3 4 5 6 7 8
Precipitazioni (in mm) 29 35 87 32 112 14 26 120
Temperatura (in gradi C) 18 16 14 19 11 20 17 12

(a) Si rappresentino graficamente i dati tramite un diagramma di dispersione.

(b) Si calcoli il coefficiente di correlazione e si commenti il risultato.

SOLUZIONE

In questo esercizio ci conviene lavorare con la matrice dei dati grezzi poichè ciascuna coppia di

modalità dei due fenomeni osservati compare per una sola unità. Costruiamo quindi la tabella per

i calcoli partendo dalla matrice dei dati grezzi:

i yi xi xi − x̄ yi − ȳ (xi − x̄)2 (yi − ȳ)2 (xi − x̄)(yi − ȳ)


1 29 18 2,13 -27,88 4,52 777,02 -59,23
2 35 16 0,13 -21,88 0,02 478,52 -2,73
3 87 14 -1,88 30,13 3,52 907,52 -56,48
4 32 19 3,13 -24,88 9,77 618,77 -77,73
5 112 11 -4,88 55,13 23,77 3038,77 -268,73
6 14 20 4,13 -42,88 17,02 1838,27 -176,86
7 26 17 1,13 -30,88 1,27 953,27 -34,73
8 120 12 -3,88 63,13 15,02 3984,77 -244,61
Totale 455 127 74,88 12596,88 -921,13
Medie 56,88 15,88

4
(a) Diagramma di dispersione

120
100
80
y

60
40
20

12 14 16 18 20

(b) Il coefficiente di correlazione lineare fra due variabili X e Y misura la relazione statistica di

tipo lineare fra le due variabili. È definito come la loro covarianza (σXY ) divisa per il prodotto

delle deviazioni standard (o scarto quadratico medio σX e σY ) delle due variabili. Assume

valori fra -1 e +1 e fornisce indicazioni sia sul verso sia sull’intensità della correlazione fra le

due variabili.

• Se ρ = −1 X e Y sono perfettamente e negativamente correlate

• Se ρ = +1 X e Y sono perfettamente e positivamente correlate

• Se ρ = 0 X e Y sono incorrelate

• I valori intermedi sono interpretabili come percentuale di correlazione (negativa per valori

compresi fra 0 e -1 e positiva per valori compresi fra 0 e +1)

A volte su alcuni eserciziari si può trovare definito il coefficiente di correlazione lineare come

il rapporto fra la codevianza (ossia il numeratore della covarianza CXY ) e il prodotto della

devianza delle due variabili (ossia il numeratore della deviazione standard (o scarto quadratico

medio) DX e Dy ). Le due formule sono equivalenti in quanto la numerosità N a denomina-



tore nella covarianza e le due numerosit N a denominatore delle due deviazioni standard

si annullano a vicenda nel rapporto che definisce il coefficiente di correlazione lineare ρ. Nel

calcolo del coefficiente di correlazione lineare ρ a partire dai dati della tabella per i calcoli per

la matrice dei dati grezzi noi utilizzeremo effettivamente questa seconda formulazione. Quindi

5
ρ è dato da
PN
σXY CXY (xi − x̄)(yi − ȳ) −921, 13
ρ= = = qP i=1 =√ = −0, 948.
σX σY DX DY N 2
P N 2 74, 88 × 12596, 88
(x
i=1 i − x̄) (y
i=1 i − ȳ)

(Si osservi che in questo caso l’indice i somma tutte le unità, quindi arriva fino a N, non

raggruppa le modalità).

Commento: il coefficiente di correlazione assume un valore negativo prossimo al limite inferiore

-1, indicando un’elevata associazione lineare negativa tra precipitazioni e temperatura (Si

ricordi che il coefficiente di correlazione pu variare fra -1 e 1).

6
4. ESERCIZIO DI RIPASSO (indici di variabilità in presenza di una carattere diviso in classi) La tavola

che segue riporta la popolazione appartenente alle forze di lavoro per classi di età quinquennali e

condizione professionale per la Provincia di Perugia (Fonte: ISTAT, Censimento 2001):

Classi di età Occupati Disoccupati


15-19 2.934 1.397
20-24 16.814 3.057
25-29 29.362 3.555
30-34 35.348 2.619
35-39 37.780 1.991
40-44 34.387 1.341
45-49 30.905 891
50-54 27.963 574
55-59 13.967 338
60-64 6.911 144
65 e più 4.416 53
Totale 240.787 15.960

(a) Si confronti la variabilità delle due distribuzioni sulla base di un opportuno indice di variabilità.

SOLUZIONE

Tabelle per i calcoli:

Occupati
Classi di età ci − 1 ci x∗i fi Fi pi Φi x∗i · pi (x∗i − x̄)2 · pi
15-19 15 20 17,5 2.934 2.934 0,012 0,012 0,213 6,398
20-24 20 25 22,5 16.814 19.748 0,070 0,082 1,571 22,408
25-29 25 30 27,5 29.362 49.110 0,122 0,204 3,353 20,335
30-34 30 35 32,5 35.348 84.458 0,147 0,351 4,771 9,194
35-39 35 40 37,5 37.780 122.238 0,157 0,508 5,884 1,332
40-44 40 45 42,5 34.387 156.625 0,143 0,650 6,069 0,622
45-49 45 50 47,5 30.905 187.530 0,128 0,779 6,097 6,445
50-54 50 55 52,5 27.963 215.493 0,116 0,895 6,097 16,965
55-59 55 60 57,5 13.967 229.460 0,058 0,953 3,335 16,934
60-64 60 65 62,5 6.911 236.371 0,029 0,982 1,794 14,001
65 e più 65 67,0 4.416 240.787 0,018 1,000 1,229 12,963
Totale 240.787 40,414 127,597

Si noti che siamo passati alle classi reali.


Pk
L’età media degli occupati è pari a x̄ = i=1 x∗i pi = 40, 414, mentre per i disoccupati è pari a
Pk
x̄ = i=1 x∗i pi = 32, 093.
Pk ∗
La varianza degli occupati è pari a: σ 2 = i=1 (xi − x̄)2 pi = 127, 597, mentre per i disoccupati è
Pk
pari a σ 2 = i=1 (x∗i − x̄)2 pi = 108, 029.

7
Disoccupati
Classi di età ci − 1 ci x∗i fi Fi pi Φi x∗i · pi (x∗i − x̄)2 · pi
15-19 15 20 17,5 1.397 1.397 0,088 0,088 1,532 18,641
20-24 20 25 22,5 3.057 4.454 0,192 0,279 4,310 17,628
25-29 25 30 27,5 3.555 8.009 0,223 0,502 6,125 4,699
30-34 30 35 32,5 2.619 10.628 0,164 0,666 5,333 0,027
35-39 35 40 37,5 1.991 12.619 0,125 0,791 4,678 3,647
40-44 40 45 42,5 1.341 13.960 0,084 0,875 3,571 9,100
45-49 45 50 47,5 891 14.851 0,056 0,931 2,652 13,252
50-54 50 55 52,5 574 15.425 0,036 0,966 1,888 14,977
55-59 55 60 57,5 338 15.763 0,021 0,988 1,218 13,670
60-64 60 65 62,5 144 15.907 0,009 0,997 0,564 8,342
65 e pi 65 67,0 53 15.960 0,003 1,000 0,224 4,046
Totale 15.960 32,093 108,029

(a) Per confrontare la variabilità delle due distribuzioni utilizzo il coefficiente di variazione (medie

diverse nei due gruppi):


σ
CV = · 100.
µ
√ √
127,597 108,029
Per gli occupati ottengo CV = 40,414 · 100 = 27, 95 e per i disoccupati CV = 32,093 · 100 =

32, 39. Quindi, la variabilità del carattere età è maggiore tra i disoccupati. Si noti che se,

erroneamente, ci fossimo basati sulla varianza (o sullo scostamento quadratico medio) saremmo

pervenuti alla conclusione opposta.

8
5. ESERCIZIO DI RIPASSO (distribuzioni marginali e condizionate) La seguente tabella descrive i

clienti di un certo negozio in possesso di una carta sconto, in base al genere (X) e al numero di libri

acquistati nell’ultimo mese (Y).

Numero libri acquistati


0 1 2 3 4
Maschi 9 21 10 6 4
Femmine 7 36 30 20 11

(a) Quali sono le unità statistiche? Qual è la natura dei caratteri osservati?

(b) Si rappresentino graficamente i dati della tabella.

(c) Si determinino le distribuzioni marginali del “Numero di libri acquistati” e del “Sesso”.

(d) Si determini la proporzione di soggetti che hanno acquistato al massimo 1 libro nell’ultimo

mese.

(e) Si determinino le distribuzioni secondo il “Numero di libri acquistati”, fatte con le frequenze

relative, condizionate al “Sesso” e si commentino i risultati, discutendo in particolare se il

“Numero di libri acquistati” è indipendente dal “Sesso”.

(f) Sulla base dei risultati di cui al punto (e), si consideri la distribuzione marginale secondo il

“Numero di libri acquistati” e se ne calcoli la mediana.

(g) Si calcolino la media e la deviazione standard del “Numero di libri acquistati” separatamente

per i maschi e per le femmine e si confronti la variabilità utilizzando la metodologia più

appropriata.

SOLUZIONE

(a) Le unità statistiche sono i clienti del negozio in possesso di una carta di sconto. Il numero di

libri acquistati è un carattere quantitativo discreto; il sesso è un carattere qualitativo sconnesso

o nominale.

9
(b) Rappresentazione grafica dei dati:

(c) Distribuzioni marginali:

Numero libri acquistati Totale


0 1 2 3 4
Maschi 9 21 10 6 4 50
Femmine 7 36 30 20 11 104
Totale 16 57 40 26 15 154

(d) Proporzione di soggetti che hanno acquistato al massimo un libro nell’ultimo mese =

= (16 + 57)/154 = 0,47.

(e) Distribuzione condizionata del Numero di libri letti secondo il Sesso:

Numero libri acquistati Totale


0 1 2 3 4
Maschi 0,18 0,42 0,20 0,12 0,08 1,00
Femmine 0,07 0,35 0,29 0,19 0,11 1,00
Totale 0,10 0,37 0,26 0,17 0,10 1,00

Commento: dal momento che la distribuzione del Numero di libri letti dato il Sesso è diversa

per maschi e femmine possiamo concludere che i due caratteri non sono indipendenti. In

effetti, la frequenza relativa condizionata di Numero di libri letti è maggiore per i maschi per

le modalità 0 e 1 ed è superiore per le femmine per le restanti modalità.

(f) Frequenze assolute cumulate marginali del Numero di libri letti:

Num. libri 0 1 2 3 4
Fi 16 73 113 139 154

La mediana :

10
x0.5 = m = 2;

(g) Tabella per i calcoli:

Maschi Femmine
xi pi xi p i xi − x̄ (xi − x̄)2 pi pi xi pi xi − x̄ (xi − x̄)2 pi
0 0,18 0,00 -1,50 0,41 0,07 0,00 -1,92 0,25
1 0,42 0,42 -0,50 0,11 0,35 0,35 -0,92 0,29
2 0,20 0,40 0,50 0,05 0,29 0,58 0,08 0,00
3 0,12 0,36 1,50 0,27 0,19 0,58 1,08 0,22
4 0,08 0,32 2,50 0,50 0,11 0,42 2,08 0,46
Totale 1,50 1,33 1,92 1,22

Quindi:

Sesso x̄ σ CV
Maschi 1,50 1,15 76,88
Femmine 1,92 1,11 57,55

Commento: sulla base del coefficiente di variazione si osserva che la variabilità del carattere

considerato è maggiore per i maschi rispetto alle femmine.

11
6. Si consideri la seguente distribuzione doppia di 10 capoluoghi di regione, secondo la ”Percentuale

di superficie verde” ed il ”Numero di centraline per il monitoraggio dell’aria ogni 100 kmq.” (cfr.

Italia in cifre, Anno 2008, pag. 6 ):

Capoluoghi 1 2 3 4 5 6 7 8 9 10
% Superficie verde 16,2 11,4 8,6 5,4 28,1 1,5 23,9 0,9 33,9 52,9
Centraline per 100 kmq. 4,6 4,4 5,0 5,9 4,0 5,4 6,8 2,3 5,7 8,2

Per la distribuzione in oggetto:

(a) si calcoli la covarianza tra i due caratteri, commentando il senso del valore ottenuto;

(b) si calcoli l’indice di correlazione lineare ρ e si commenti.

SOLUZIONE

Come nell’esercizio due lavoriamo con la matrice dei dati grezzi. I calcoli necessari per svolgere

l’esercizio sono contenuti nella tabella che segue.

Capoluoghi xi yi (xi − x̄) (yi − ȳ) (yi − ȳ)(yi − ȳ) (xi − x̄)2 (yi − ȳ)2
1 16,2 4,6 -2,1 -0,6 1,3 4,3 0,4
2 11,4 4,4 -6,9 -0,8 5,7 47,3 0,7
3 8,6 5,0 -9,7 -0,2 2,2 93,7 0,1
4 5,4 5,9 -12,9 0,7 -8,6 165,9 0,4
5 28,1 4,0 9,8 -1,2 -12,1 96,4 1,5
6 1,5 5,4 -16,8 0,2 -2,9 281,6 0,0
7 23,9 6,8 5,6 1,6 8,8 31,6 2,5
8 0,9 2,3 -17,4 -2,9 50,9 302,1 8,6
9 33,9 5,7 15,6 0,5 7,3 244,0 0,2
10 52,9 8,2 34,6 3,0 102,8 1.198,5 8,8
Totali 182,8 52,3 155,6 2.465,4 23,2

(a) Se entrambi i fenomeni sono quantitativi è possibie calcolare la covarianza, una sorta di

misura della variabilità congiunta, che indichiamo con σXY . La covarianza può assume-

re valori positivi, negativi od essere nulla. Dalla tabella risulta che la codevianza pari a
P
Cxy = i (yi − ȳ)(yi − ȳ) = 155, 6. La covarianza si calcla dunque come
Cxy 155, 6
σX,Y = = = 15, 56.
N 10
Il segno positivo indica relazione di concordanza (associazione positiva) tra i due caratteri in

esame, ovvero che all’aumentare della superficie verde tende anche ad aumentare il numero di

centraline per il controllo dell’aria.

(b) Per quanto riguarda il coefficiente di correlazione lineare avremo:


Cxy
ρ = = √ 155,6 = 0, 65, che indica un discreto grado di correlazione tra i due
Dx Dy 2.465,4·23,2

caratteri.

12