Stefano Marchetti
Soluzione es. 1
I caratteri Sesso e Miopia sono entrambi qualitativi, quindi l’indice di asso-
ciazione da utilizzare è l’indice V di Cramer:
s
X2
V = 2 .
XM AX
1
Per calcolare X 2 è comodo pre-calcolare le frequenze teoriche, n∗ij =
(ni. · n.j )/N :
Notare che la somma per riga e colonna delle frequenze teoriche è sempre
uguale a quella delle frequenze osservate.
L’indice XM2 2
AX è il valore massimo che può assumere l’indice X in caso di
perfetta dipendenza:
2
XM AX = N · min(K − 1; H − 1) = 400 · min(2 − 1; 2 − 1) = 400 · 1 = 400 .
Esercizio 2
Si consideri la distribuzione doppia di frequenza relativa ai caratteri Sesso e
Titolo di studio:
2
Determinare il grado di associazione tra i due caratteri usando un oppor-
tuno indice. Se le frequenze assolute fossero espresse in termini percentuali
quanto varrebbero l’indice X 2 e l’indice V di Cramer?
Soluzione es. 2
Per determinare il grado di associazione tra i caratteri sesso e titolo di studio,
essendo entrambi qualitativi, si può utilizzare l’indice V di Cramer (vedi
esercizio 1).
Le frequenze teoriche sono:
Notare che la somma per riga e colonna delle frequenze teoriche è sempre
uguale a quella delle frequenze osservate.
L’indice XM2 2
AX è il valore massimo che può assumere l’indice X in caso di
perfetta dipendenza:
2
XM AX = N · min(K − 1; H − 1) = 200 · min(2 − 1; 3 − 1) = 200 · 1 = 200 .
3
che anche l’indice XN 2 2
EW delle frequenze percentuali sarà pari all’indice X
calcolato sulle frequenze originarie diviso 200 e moltiplicato 100, ovvero:
2 X2
XN EW = · 100 = 2,2485.
200
L’indice V di Cramer essendo un indice assoluto rimane invariato, infatti:
2
XM AXN EW = N · min(K − 1; H − 1) = 100 · min(2 − 1; 3 − 1) = 100 · 1 = 100 ,
e
r
2,2485
VN EW = = 0,15 .
100
4
Esercizio 3
Si consideri la distribuzione di frequenza doppia per i caratteri Sesso (con mo-
dalità Maschio e Femmina) e Tipo di auto posseduta (con modalità Utilitaria,
Berlina, Stationwagon, SUV).
Soluzione es. 3
Osservando le frequenze congiunte della tabella a doppia entrata dell’eserci-
zio 3 si nota subito che esiste una relazione di dipendenza perfetta del Sesso
rispetto al Tipo di auto posseduta. Infatti conoscendo il tipo di auto pos-
seduta è possibile determinare il sesso, es. se un individuo (del collettivo)
possiede una berlina allora è un maschio. Tuttavia il viceversa non è vero,
conoscendo il sesso non si può determinare quale sia il tipo di auto posseduta.
Esistendo una dipendenza perfetta l’indice V di Cramer vale 1 e l’indice
χ2 vale χ2M AX :
5
(0 − 16,5)2 (30 − 13,5)2 (60 − 33)2
X2 = + +
16,5 13,5 33
(0 − 27) 2 (50 − 27,5)2 (0 − 22,5)2
+ + +
27 27,5 22,5
(0 − 33) 2 (60 − 27)2
+ +
33 27
= 200 .
χ2 = χ2M AX c.v.d. q
Ovviamente: V = χ2 /χ2M AX = 1.
Nota: nello svolgimento di una prova scritta non è necessario effettuare
questa "riprova".
6
Associazione tra una variabile quantitativa e una
qualitativa o quantitativa discreta (indice η 2 e scom-
posizione della varianza)
Esercizio 4
Si consideri la distribuzione di un collettivo di 500 individui per Reddito (in
classi) e Anni di Studio:
Soluzione es. 4
Nell’esercizio 4 si richiede di calcolare l’indice η 2 di Pearson. Tale indice è
dato dal rapporto tra la varianza totale di un carattere quantitativo, in questo
caso il Reddito, e la varianza esterna rispetto ad un carattere qualitativo o
quantitativo discreto, in questo caso gli Anni di Studio. Posto X il Reddito
e Y gli Anni di Studio si ha:
2
σest
2
ηX|Y = 2 ,
σX
2 è la varianza delle medie condizionate di X dato Y e σ 2 è la
dove σest X
varianza della X. Spesso poiché la varianza è scomponibile in due parti,
varianza esterna e varianza interna, la semplice varianza viene definita come
varianza totale.
2
Per determinare l’indice ηX|Y è necessario calcolare la media di X, la
varianza (totale) di X, le medie condizionate di X dato Y , la varianza delle
medie condizionate (ovvero la varianza esterna).
Dato che la variabile Reddito è espressa per classi, per calcolare media
e varianza è necessario utilizzare il valore centrale delle classi: 1000, 1400,
1800, 2200, 2600 (che d’ora in avanti sono i valori di Xi , i = 1, 2, 3, 4, 5).
7
Serve inoltre conoscere la frequenza marginale del carattere Reddito (X)
che si ottiene come totali di riga nella tabella a doppia entrate riportata
dall’esercizio. Sarà utile anche la frequenza marginale del carattere Anni di
Studio (Y ) per il calcolo delle medie condizionate e della varianza esterna.
Si riporta la tabella a doppia entrata con il valore centrale delle classi per il
Reddito e le frequenze marginali:
K
1 X
µX = Xi ni.
N
i=1
1
= (1000 · 25 + 1400 · 50 + 1800 · 175 + 2200 · 150 + 2600 · 100)
500
= 2000
K
2 1 X
σX = (Xi − µX )2 ni.
N
i=1
1
= (1000 − 2000)2 · 25 + (1400 − 2000)2 · 50 + (1800 − 2000)2 · 175
500
+ (2200 − 2000)2 · 150 + (2600 − 2000)2 · 100 = 184000 .
8
1 X
µX|Y =yj = i = 1K Xi nij
n.j
1
µX|Y =5 = (1000 · 25 + 1400 · 25 + 1800 · 0 + 2200 · 0 + 2600 · 0)
50
= 1200
1
µX|Y =8 = (1000 · 0 + 1400 · 25 + 1800 · 75 + 2200 · 0 + 2600 · 0)
100
= 1700
1
µX|Y =13 = (1000 · 0 + 1400 · 0 + 1800 · 100 + 2200 · 100 + 2600 · 0)
200
= 2000
1
µX|Y =16 = (1000 · 0 + 1400 · 0 + 1800 · 0 + 2200 · 50 + 2600 · 50)
100
= 2400
1
µX|Y =18 = (1000 · 0 + 1400 · 0 + 1800 · 0 + 2200 · 0 + 2600 · 50)
50
= 2600 .
K
2 1 X
σest = (µX|Y =yj − µX )2 n.j
N
i=1
1
= (1200 − 2000)2 50 + (1700 − 2000)2 100 + (2000 − 2000)2 200
500
+ (2400 − 2000)2 100 + (2600 − 2000)2 50 +
= 150000
L’indice η 2 è:
2
σest 150000
2
ηX|Y = 2 = = 0,815 ,
σX 184000
e rappresenta la parte di variabilità del carattere Reddito (X) dovuta alla
dipendenza del Reddito (X) dal carattere Anni di Studio (Y ).
Nota: per calcolare l’indice η 2 non è necessario calcolare la varianza
interna (detta anche varianza entro i gruppi), che è la media delle varianze
condizionate.
9
Esercizio 5
Si consideri i voti ottenuti all’esame di Statistica da un collettivo di 13
studenti, divisi tra frequentanti e non frequentanti:
Frequentanti 23 25 25 27 28 29 29 30
Non frequentanti 18 19 20 22 30
Soluzione es. 5
L’esercizio 5, come il 4, chiede di determinare l’indice η 2 di Pearson. A
differenza dell’esercizio 4, i dati non sono raggruppati in una distribuzione
di frequenza (doppia), sono dati in forma elementare (o "grezza").
Il procedimento da seguire per il calcolo di η 2 è il medesimo dell’eser-
cizio 4. Dato X il carattere Voto e Y il carattere Frequenza (con moda-
lità Frequenta e Non frequenta), si inizia con il calcolare media e varianza
del Voto senza tener conto della distinzione in gruppi (frequentanti e non
frequentanti):
N
1 X
µX = Xi
N
i=1
1
= (23 + 25 + 25 + 27 + 28 + 29 + 29 + 30 + 18 + 19 + 20 + 22 + 30)
13
= 25
N
2 1 X
σX = (Xi − µX )2
N
i=1
1
= (23 − 25)2 + (25 − 25)2 + (25 − 25)2 + (27 − 25)2 + (28 − 25)2
13
+ (29 − 25)2 + (29 − 25)2 + (30 − 25)2 + (18 − 25)2 + (19 − 25)2
+ (20 − 25)2 + (22 − 25)2 + (30 − 25)2
= 16,77 .
10
nj
1 X
µX|Y =yj = Xi
nj
i=1
1
µX|Y =Frequenta = (23 + 25 + 25 + 27 + 28 + 29 + 29 + 30) = 27
8
1
µX|Y =Non freq. = (18 + 19 + 20 + 22 + 30) = 21,8 ,
5
dove, in generale, nj indica la numerosità del gruppo j-esimo con j =
1, . . . , K (nell’esercizio n1 = 8 e n2 = 5 con j = 1, 2 = K).
La varianza esterna, o varianza tra, è data da:
K
2 1 X
σest = (µX|Y =yj − µX )2 nj
N
j=1
1
(27 − 25)2 8 + (21,8 − 25)2 5 = 6,4 .
=
13
L’indice η 2 è:
2
σest 6,4
2
ηX|Y = 2 = = 0,38 .
σX 16,77
L’indice η 2 di Pearson varia tra zero e uno (η 2 ∈ [0, 1]) e questo risultato
indica che c’è una bassa dipendenza in media del voto dal fatto di frequentare
o meno il corso di studi.
Nota: il risultato può risultare sorprendente poiché "ad occhio" sembre-
rebbe che i voti dei frequentanti siano più alti dei voti dei non frequentanti.
Tuttavia bisogna tenere conto della bassa numerosità del secondo gruppo
rispetto al primo e del fatto che il voto medio nei due gruppi non è mol-
to diverso (è rispettivamente di 27 e 22). L’indice η 2 di Pearson permette
di esprimere un giudizio oggettivo sulla dipendenza che esiste in media tra
la variabile X e la variabile Y (dalle cui modalità si ottiene la divisione in
gruppi delle osservazioni), per questo è preferibile usare sempre degli indici
descrittivi e non basarsi sulle mere impressioni.
11
Esercizio 6
L’età media degli 11 calciatori schierati in campo da una squadra è di 25
anni con devianza pari a 66. L’età dei 5 giocatori in panchina è di 18, 18,
20, 21, 33 anni.
Determinare: i. l’età media dei calciatori e ii. la varianza delle età.
Soluzione es. 6
Per determinare l’età media è sufficiente applicare la proprietà dell’asso-
ciatività della media aritmetica. Conoscendo la media per i due gruppi di
calciatori, per la proprietà associativa della media aritmetica la media delle
età di tutti i calciatori è data dalla media aritmetica delle medie dei gruppi
opportunamente pesate per la numerosità dei gruppi.
Dai dati a disposizione nell’esercizio le medie per i "titolari" e per i
"panchinari" sono:
µX|Titolari = 25
1
µX|Panchianri = (18 + 18 + 20 + 21 + 33) = 22 .
5
Inoltre sappiamo che i titolari sono 11 (c’è scritto nel testo dell’esercizio) e i
panchinari sono 5, dunque riassumendo
PG
i=1 µXi ni
µX = P G
i=1 ni
25 · 11 + 22 · 5
= = 24, 06 .
11 + 5
Per calcolare la varianza delle età è necessario ricorrere alle regole del-
la scomposizione della varianza poiché non si conoscono le singole età dei
calciatoriPtitolari e quindi non si può calcolare la varianza con la consueta
formula N 2
i=1 (Xi − µX ) .
La varianza (totale) è scomponibile in varianza esterna e varianza esterna.
Con i dati a disposizione è possibile calcolarle entrambe ed ottenere poi la
varianza totale.
Dai dati dell’esercizio è noto che la devianza dei titolari è 66, mentre per
i panchinari sono note le singole età; per cui le varianze dei due gruppi sono:
12
2 DEV 66
σTitolari = = =6
ni 11
ni
2 1 X
σPanchinari = (Xj − µX|Panchianri )2
ni
j=1
1
= (18 − 22)2 + (18 − 22)2 + (20 − 22)2 + (21 − 22)2
5
+ (33 − 22)2 = 31,6 .
PG
2 i=1 σi2 ni
σint = P G
i=1 ni
6 · 11 + 31,6 · 5
= = 14 .
11 + 5
La varianza esterna è la varianza tra le medie dei gruppi:
PG 2
2 i=1 (µXi − µX ) ni
σest = PG
i=1 ni
(25 − 24,06)2 11 + (22 − 24,06)2 5
= = 1,938 .
11 + 5
La varianza delle età è data dalla somma di varianza interna e varianza
esterna:
σ 2 = σint
2 2
+ σest = 14 + 1,938 = 15,938 .
13
Esercizio 7
Per un certo carattere X riferito a due gruppi (A e B) rispettivamente di
100 e 300 individui, si conosce:
Soluzione es. 7
Per trovare la media di X nel gruppo A si ricorre alla proprietà associativa
della media aritmetica. Infatti, dati due gruppi di numerosità nA e nB con
medie rispettivamente µXA e µXB risulta:
µXA nA + µXB nB
µX = . (1)
nA + nB
L’unica grandezza non conosciuta è µXA , infatti µX = 10, µXB = 12, nA =
100 e nB = 300. Basta risolvere l’equazione 1 rispetto a µXA per rispondere
al punto i.:
µX (nA + nB ) − µXB nB
µXA =
nA
10(100 + 300) − 12 · 300
= =4.
100
Per determinare la varianza del carattere X nel gruppo B è necessario ri-
correre alle regole della scomposizione della varianza. E’ noto che la varianza
di un carattere in un certo collettivo diviso in gruppi (detta anche varianza
totale) è scomponibile in varianza interna e varianza esterna. La varianza
interna è la media opportunamente pesata delle varianze nei gruppi mentre
la varianza esterna è la varianza delle medie dei singoli gruppi rispetto al-
la media dell’intero collettivo (ottenuta pesando opportunamente ciascuno
scarto al quadrato). Dai dati dell’esercizio si deduce immediatamente la va-
rianza di X nel gruppo A, si conosce la varianza totale di X e tramite le
medie µXA , µXB e µX si può calcolare la varianza esterna. L’unica parte
incognita rimane la varianza di X nel gruppo B.
Come primo passo si calcoli la varianza esterna:
14
PB 2
2 i=A (µXi − µX ) ni
σest = PB
i=A ni
2
(4 − 10) 100 + (12 − 10)2 300
= = 12 ;
100 + 300
essendo la varianza totale la somma di varianza esterna e varianza interna
risulta:
2 2 2 2 2 2
σX = σint + σest =⇒ σint = σX − σest ,
dunque dai risultati ottenuti si ha
2
σint = 20 − 12 = 8 .
La varianza interna è la media pesata delle varianze dei gruppi:
PB
2 i=A σi2 ni 2 n + σ2 n
σA A B B
σint = P B
= ,
i=A ni
nA + nB
2 (ovvero la varianza di X nel gruppo
dove la sola dimensione incognita è σB
B):
2 (n + n ) − σ 2 n
σint
2 A B A A
σB =
nB
15
8 · (100 + 300) − 100 100
= = 10,62 .
300
Come riprova per i punti i. e ii. si ha:
µXA nA +µXB nB 4·100+12·300
i. µX = nA +nB = 100+300 = 10 c.v.d.;
2 n +σ 2 n 15
2 = σA 2 = ·100+10,62·300
ii. σX A B B
nA +nB + σest 100
100+300 + 12 = 20 c.v.d.1
1 2
A causa dell’arrotondamento di σB non si ottiene esattamente 20 ma 20,0025,
utilizzando tutti i decimali non ci sarebbe nessun errore.
15
Associazione tra due variabili quantitative (interpo-
lazione lineare e indice di correlazione lineare rXY )
Esercizio 8
Calcolare i coefficienti della retta interpolante per le variabili X, fatturato,
e Y , numero di addetti, per un collettivo di 4 aziende:
Soluzione es. 8
La retta interpolante ha forma Y = a + bX. Le coppie di valori (Xi , Yi )
rappresentano i punti che devono essere interpolati da una retta, per cui
risulta Yi = a + bXi + ei . Tramite il metodo dei minimi quadrati si individua
il valore dei parametri a e b che rende minima la somma degli e2i :
N
X
min e2i ,
a,b∈R
i=1
N −1 N
P
σXY i=1 (Xi − µX )(Yi − µY )
b= 2 = PN
σX N −1
i=1 (Xi − µX )
2
a = µY − bµX .
16
Si ricorda che esistono diverse formule alternative per calcolare la covarianza
tra X e Y :
N
1 X
σXY = [(Xi − µX )(Yi − µY )]
N
i=1
N
1 X
= (Xi − µX )Yi
N
i=1
N
1 X
= (Yi − µY )Xi
N
i=1
1 XN
= Xi Yi − µX µY .
N
i=1
2 = Q2 − µ2 , dove Q2 = N −1
PN 2
Per la varianza si ricorda che σX X i=1 Xi è la
media quadratica al quadrato.
Per calcolare i parametri della retta interpolante per i dati dell’esercizio
8 ci si avvale dei seguenti calcoli:
2975
b= = 0,074
40075
a = 15,5 − 0,074 · 177,5 = 2,365 .
17
Esercizio 9
Si consideri le variabili Altezza e Peso di 4 individui:
Soluzione es. 9
a. l’indice da utilizzare è l’indice di correlazione lineare, rXY :
σXY
rXY = rXY ∈ [−1; 1] .
σX σY
Dato X carattere Altezza e Y carattere Peso (si poteva fare anche il contra-
rio) si ha:
N −1 N
P
i=1 (Xi −qµX )(Yi − µY )
rXY = q
N −1 N
P 2 N −1
PN 2
i=1 (Xi − µX ) i=1 (Yi − µY )
N −1 N
P
i=1 (Xi − µX )(Yi − µY )
= q
N −2 N
P 2
PN 2
i=1 (Xi − µX ) i=1 (Yi − µY )
N −1 N
P
(Xi − µX )(Yi − µY )
= qP i=1
N PN
N −1 i=1 (Xi − µX )
2
i=1 (Yi − µY )
2
PN
(Xi − µX )(Yi − µY )
= qP i=1 .
N 2
PN 2
i=1 (X i − µ X ) (Y
i=1 i − µ Y )
18
Nel caso in esame risulta:
12,5
rXY = √ = 0,086 .
125 · 168,75
b. Il risultato ci induce ad affermare che non esiste una relazione lineare
tra Peso e Altezza (per questo collettivo).
19
Esercizio 10
Per due caratteri quantitativi X e Y relativi ad un collettivo di 100 individui
si conosce:
• µY = 15;
P100 2
• i=1 Yi = 25000;
P100 2
• i=1 (Yi − Ŷi ) = 1000, dove Ŷi = a + bXi .
Soluzione es. 10
a. L’indice di determinazione è R2 :
PN PN
2 i=1 (Ŷ − µY )2 (Yi − Ŷ )2
R = PN = 1 − PNi=1 .
i=1 (Yi − µY ) 2 i=1 (Yi − µY )
2
PN 2
E’ noto che
PN i=1 (Yi − µY ) (la devianza di Y ) è ottenibile anche come
2 2
i=1 Yi − N µY . Risulta:
PN PN
(Yi − Ŷ )2 (Yi − Ŷ )2
R2 = 1 − PNi=1 = 1 − PNi=1
2 2 2
i=1 (Yi − µY ) i=1 Yi − N µY
1000
=1− = 0,6 .
25000 − 100 · 152
b. Un indice di determinazione di 0,6 significa che il 60% della variabilità
del carattere Y è spiegato dalla variabilità del carattere X.
20
Esercizio 11
Siano X e Y due variabili quantitative e sia Ŷi = a + bXi il valore della
retta interpolante per l’osservazione i-esima. Verificare che µY = µŶ (con
µŶ = N −1 N
P
i=1 Ŷi ).
Soluzione es. 11
E’ noto che la retta interpolante passi per il baricentro delle distribuzioni,
ovvero che passi per il punto (µX , µY ). Da ciò risulta vero che:
µY = a + bµX .
Si calcoli la media degli Ŷi :
N N N
1 X 1 X 1 1 X
µŶ = Ŷi = (a + bXi ) = N a + b Xi = a + bµX .
N N N N
i=1 i=1 i=1
21
Esercizio 12
Per due caratteri quantitativi X e Y su cui è stata fatta una interpolazione
si conosce:
• R2 = 0,8;
• b = 1;
• σX = 5.
Soluzione es. 12
Si consideri che
σ
XY
2 σ2 σ2 2
2 σX
R2 = = 2XY2 X2 = b = 0,8 ,
σX σY σX σY σX σY2
essendo b = 1 e σX = 5 si ha che
52
12 = 0,8 ,
σY2
22