Sei sulla pagina 1di 22

Esercizi su Associazione tra due caratteri

Stefano Marchetti

Associazione tra due variabili qualitative (indice V


di Cramer )
Esercizio 1
Si consideri la distribuzione di frequenza doppia per i caratteri Sesso e Miopia
per un collettivo di 400 individui:

Tabella 1: Distribuzione di 400 individui secondo il Sesso e la Miopia

Miope Non miope


Maschio 80 100
Femmina 110 110

Determinare il grado di associazione usando un opportuno indice.

Soluzione es. 1
I caratteri Sesso e Miopia sono entrambi qualitativi, quindi l’indice di asso-
ciazione da utilizzare è l’indice V di Cramer:
s
X2
V = 2 .
XM AX

L’indice X 2 si ottiene rapportando le differenze al quadrato tra le frequenze


osservate e le frequenze teoriche con le frequenze teoriche:
K X
K
2
X (nij − n∗ij )2
X = ,
n∗ij
i=1 j=1

dove K e H sono il numero delle modalità dei caratteri considerati, nij è


la frequenza osservata per la i-esima modalità e j-esima modalità dei due
caratteri ed n∗ij è la corrispondente frequenza teorica che si osserverebbe in
caso di indipendenza dei due caratteri.

1
Per calcolare X 2 è comodo pre-calcolare le frequenze teoriche, n∗ij =
(ni. · n.j )/N :

Tabella 2: Frequenze teoriche in caso di indipendenza tra il Sesso e la Miopia

Miope Non miope Totale


Maschio 85,5 94,5 180
Femmina 104,5 115,5 220
Totale 190 210 400

Notare che la somma per riga e colonna delle frequenze teoriche è sempre
uguale a quella delle frequenze osservate.

(80 − 85,5)2 (100 − 94,5)2 (110 − 1045,5)2 (110 − 115,5)2


X2 = + + +
85,5 94,5 104,5 115,5
= 1,2253 .

L’indice XM2 2
AX è il valore massimo che può assumere l’indice X in caso di
perfetta dipendenza:

2
XM AX = N · min(K − 1; H − 1) = 400 · min(2 − 1; 2 − 1) = 400 · 1 = 400 .

L’indice V di Cramer sarà dunque:


r
1,2253
V = = 0,055 .
400
Essendo l’indice V di Cramer prossimo allo 0 possiamo affermare che i ca-
ratteri (o variabili) Sesso e Miopia sono pressoché indipendenti. Infatti si
ricorda che l’indice V di Cramer varia tra 0 (perfetta indipendenza) e 1
(perfetta dipendenza).

Esercizio 2
Si consideri la distribuzione doppia di frequenza relativa ai caratteri Sesso e
Titolo di studio:

Tabella 3: Distribuzione di 200 individui secondo il Sesso e il Titolo di studio

Medie inferiori Medie superiori Laurea


Maschio 5 85 20
Femmina 10 70 10

2
Determinare il grado di associazione tra i due caratteri usando un oppor-
tuno indice. Se le frequenze assolute fossero espresse in termini percentuali
quanto varrebbero l’indice X 2 e l’indice V di Cramer?

Soluzione es. 2
Per determinare il grado di associazione tra i caratteri sesso e titolo di studio,
essendo entrambi qualitativi, si può utilizzare l’indice V di Cramer (vedi
esercizio 1).
Le frequenze teoriche sono:

Tabella 4: Frequenze teoriche in caso di indipendenza tra il Sesso e il Titolo


di studio

Medie inferiori Medie superiori Laurea Totale


Maschio 8,25 85,25 16,5 110
Femmina 6,75 69,75 13,5 90
Totale 15 155 30 200

Notare che la somma per riga e colonna delle frequenze teoriche è sempre
uguale a quella delle frequenze osservate.

(5 − 8,25)2 (85 − 85,25)2 (20 − 16,5)2


X2 = + +
8,25 85,25 16,5
(10 − 6,75) 2 (70 − 69,75)2 (10 − 13,5)2
+ + +
6,75 69,75 13,5
= 4,497 .

L’indice XM2 2
AX è il valore massimo che può assumere l’indice X in caso di
perfetta dipendenza:

2
XM AX = N · min(K − 1; H − 1) = 200 · min(2 − 1; 3 − 1) = 200 · 1 = 200 .

L’indice V di Cramer sarà dunque:


r
4,497
V = = 0,15 .
200
Essendo l’indice V di Cramer molto piccolo si può affermare che i caratteri
(o variabili) Sesso e Titolo di studio hanno una dipendenza molto bassa.
Se le frequenze assolute fossero espresse in termini percentuali avremmo
che la generica frequenza percentuale pij è pari a (nij /200) · 100, ciò implica

3
che anche l’indice XN 2 2
EW delle frequenze percentuali sarà pari all’indice X
calcolato sulle frequenze originarie diviso 200 e moltiplicato 100, ovvero:

2 X2
XN EW = · 100 = 2,2485.
200
L’indice V di Cramer essendo un indice assoluto rimane invariato, infatti:

2
XM AXN EW = N · min(K − 1; H − 1) = 100 · min(2 − 1; 3 − 1) = 100 · 1 = 100 ,

e
r
2,2485
VN EW = = 0,15 .
100

4
Esercizio 3
Si consideri la distribuzione di frequenza doppia per i caratteri Sesso (con mo-
dalità Maschio e Femmina) e Tipo di auto posseduta (con modalità Utilitaria,
Berlina, Stationwagon, SUV).

Tabella 5: Distribuzione di 200 individui secondo il Sesso e il Tipo di auto


posseduta

Utilitaria Berlina Stationwagon SUV


Maschio 0 60 50 0
Femmina 30 0 0 60

Determinare il grado di associazione tra i due caratteri.

Soluzione es. 3
Osservando le frequenze congiunte della tabella a doppia entrata dell’eserci-
zio 3 si nota subito che esiste una relazione di dipendenza perfetta del Sesso
rispetto al Tipo di auto posseduta. Infatti conoscendo il tipo di auto pos-
seduta è possibile determinare il sesso, es. se un individuo (del collettivo)
possiede una berlina allora è un maschio. Tuttavia il viceversa non è vero,
conoscendo il sesso non si può determinare quale sia il tipo di auto posseduta.
Esistendo una dipendenza perfetta l’indice V di Cramer vale 1 e l’indice
χ2 vale χ2M AX :

χ2 = χ2M AX = N · min(H − 1, K − 1) = 200 · min(2 − 1, 4 − 1) = 200.

Per scopo didattico si verifica il risultato ottenuto calcolando l’indice χ2


e l’indice V di Cramer.
Si riporta la tabella delle frequenze teoriche:

Tabella 6: Frequenze teoriche, ovvero frequenze che osserveremmo in caso di


indipendenza tra il Sesso e il Tipo di auto posseduta

Utilitaria Berlina Stationwagon SUV


Maschio 16,5 33 27,5 33
Femmina 13,5 27 22,5 27

Da cui risulta un indice χ2 :

5
(0 − 16,5)2 (30 − 13,5)2 (60 − 33)2
X2 = + +
16,5 13,5 33
(0 − 27) 2 (50 − 27,5)2 (0 − 22,5)2
+ + +
27 27,5 22,5
(0 − 33) 2 (60 − 27)2
+ +
33 27
= 200 .

χ2 = χ2M AX c.v.d. q
Ovviamente: V = χ2 /χ2M AX = 1.
Nota: nello svolgimento di una prova scritta non è necessario effettuare
questa "riprova".

6
Associazione tra una variabile quantitativa e una
qualitativa o quantitativa discreta (indice η 2 e scom-
posizione della varianza)
Esercizio 4
Si consideri la distribuzione di un collettivo di 500 individui per Reddito (in
classi) e Anni di Studio:

Tabella 7: Distribuzione di 500 individui secondo il Reddito (riga) e gli Anni


di Studio (colonna)

Reddito / Anni Studio 5 8 13 16 18


800 − 1200 25 0 0 0 0
1200 − 1600 25 25 0 0 0
1600 − 2000 0 75 100 0 0
2000 − 2400 0 0 100 50 0
2400 − 2800 0 0 0 50 50

Determinare la parte di variabilità del carattere Reddito dovuta alla


dipendenza del Reddito dal carattere Anni di Studio.

Soluzione es. 4
Nell’esercizio 4 si richiede di calcolare l’indice η 2 di Pearson. Tale indice è
dato dal rapporto tra la varianza totale di un carattere quantitativo, in questo
caso il Reddito, e la varianza esterna rispetto ad un carattere qualitativo o
quantitativo discreto, in questo caso gli Anni di Studio. Posto X il Reddito
e Y gli Anni di Studio si ha:
2
σest
2
ηX|Y = 2 ,
σX
2 è la varianza delle medie condizionate di X dato Y e σ 2 è la
dove σest X
varianza della X. Spesso poiché la varianza è scomponibile in due parti,
varianza esterna e varianza interna, la semplice varianza viene definita come
varianza totale.
2
Per determinare l’indice ηX|Y è necessario calcolare la media di X, la
varianza (totale) di X, le medie condizionate di X dato Y , la varianza delle
medie condizionate (ovvero la varianza esterna).
Dato che la variabile Reddito è espressa per classi, per calcolare media
e varianza è necessario utilizzare il valore centrale delle classi: 1000, 1400,
1800, 2200, 2600 (che d’ora in avanti sono i valori di Xi , i = 1, 2, 3, 4, 5).

7
Serve inoltre conoscere la frequenza marginale del carattere Reddito (X)
che si ottiene come totali di riga nella tabella a doppia entrate riportata
dall’esercizio. Sarà utile anche la frequenza marginale del carattere Anni di
Studio (Y ) per il calcolo delle medie condizionate e della varianza esterna.
Si riporta la tabella a doppia entrata con il valore centrale delle classi per il
Reddito e le frequenze marginali:

Tabella 8: Distribuzione di 500 individui secondo il Reddito (riga) e gli Anni


di Studio (colonna)

X /Y 5 8 13 16 18 Fr. marg. X, ni.


1000 25 0 0 0 0 25
1400 25 25 0 0 0 50
1800 0 75 100 0 0 175
2200 0 0 100 50 0 150
2600 0 0 0 50 50 100
Fr. marg. Y , n.j 50 100 200 100 50 N = 500

La media e la varianza di X sono:

K
1 X
µX = Xi ni.
N
i=1
1
= (1000 · 25 + 1400 · 50 + 1800 · 175 + 2200 · 150 + 2600 · 100)
500
= 2000
K
2 1 X
σX = (Xi − µX )2 ni.
N
i=1
1
= (1000 − 2000)2 · 25 + (1400 − 2000)2 · 50 + (1800 − 2000)2 · 175
500
+ (2200 − 2000)2 · 150 + (2600 − 2000)2 · 100 = 184000 .


Le medie condizionate di X dato Y sono:

8
1 X
µX|Y =yj = i = 1K Xi nij
n.j
1
µX|Y =5 = (1000 · 25 + 1400 · 25 + 1800 · 0 + 2200 · 0 + 2600 · 0)
50
= 1200
1
µX|Y =8 = (1000 · 0 + 1400 · 25 + 1800 · 75 + 2200 · 0 + 2600 · 0)
100
= 1700
1
µX|Y =13 = (1000 · 0 + 1400 · 0 + 1800 · 100 + 2200 · 100 + 2600 · 0)
200
= 2000
1
µX|Y =16 = (1000 · 0 + 1400 · 0 + 1800 · 0 + 2200 · 50 + 2600 · 50)
100
= 2400
1
µX|Y =18 = (1000 · 0 + 1400 · 0 + 1800 · 0 + 2200 · 0 + 2600 · 50)
50
= 2600 .

Il passo successivo consiste nel calcolare la varianza esterna (o varianza tra


gruppi):

K
2 1 X
σest = (µX|Y =yj − µX )2 n.j
N
i=1
1
= (1200 − 2000)2 50 + (1700 − 2000)2 100 + (2000 − 2000)2 200
500
+ (2400 − 2000)2 100 + (2600 − 2000)2 50 +


= 150000

L’indice η 2 è:
2
σest 150000
2
ηX|Y = 2 = = 0,815 ,
σX 184000
e rappresenta la parte di variabilità del carattere Reddito (X) dovuta alla
dipendenza del Reddito (X) dal carattere Anni di Studio (Y ).
Nota: per calcolare l’indice η 2 non è necessario calcolare la varianza
interna (detta anche varianza entro i gruppi), che è la media delle varianze
condizionate.

9
Esercizio 5
Si consideri i voti ottenuti all’esame di Statistica da un collettivo di 13
studenti, divisi tra frequentanti e non frequentanti:

Tabella 9: Voti all’esame di Statistica per un collettivo di 13 studenti divisi


tra frequentanti e non frequentanti

Frequentanti 23 25 25 27 28 29 29 30
Non frequentanti 18 19 20 22 30

Determinare la parte di variabilità del voto all’esame di statistica dovuta


alla dipendenza del voto dal fatto che uno studenti frequenti o meno le lezioni.
Commentare il risultato.

Soluzione es. 5
L’esercizio 5, come il 4, chiede di determinare l’indice η 2 di Pearson. A
differenza dell’esercizio 4, i dati non sono raggruppati in una distribuzione
di frequenza (doppia), sono dati in forma elementare (o "grezza").
Il procedimento da seguire per il calcolo di η 2 è il medesimo dell’eser-
cizio 4. Dato X il carattere Voto e Y il carattere Frequenza (con moda-
lità Frequenta e Non frequenta), si inizia con il calcolare media e varianza
del Voto senza tener conto della distinzione in gruppi (frequentanti e non
frequentanti):

N
1 X
µX = Xi
N
i=1
1
= (23 + 25 + 25 + 27 + 28 + 29 + 29 + 30 + 18 + 19 + 20 + 22 + 30)
13
= 25
N
2 1 X
σX = (Xi − µX )2
N
i=1
1
= (23 − 25)2 + (25 − 25)2 + (25 − 25)2 + (27 − 25)2 + (28 − 25)2
13
+ (29 − 25)2 + (29 − 25)2 + (30 − 25)2 + (18 − 25)2 + (19 − 25)2
+ (20 − 25)2 + (22 − 25)2 + (30 − 25)2


= 16,77 .

Le medie del Voto (X) condizionate dalla Frequenza (Y ) sono:

10
nj
1 X
µX|Y =yj = Xi
nj
i=1
1
µX|Y =Frequenta = (23 + 25 + 25 + 27 + 28 + 29 + 29 + 30) = 27
8
1
µX|Y =Non freq. = (18 + 19 + 20 + 22 + 30) = 21,8 ,
5
dove, in generale, nj indica la numerosità del gruppo j-esimo con j =
1, . . . , K (nell’esercizio n1 = 8 e n2 = 5 con j = 1, 2 = K).
La varianza esterna, o varianza tra, è data da:

K
2 1 X
σest = (µX|Y =yj − µX )2 nj
N
j=1
1
(27 − 25)2 8 + (21,8 − 25)2 5 = 6,4 .

=
13
L’indice η 2 è:
2
σest 6,4
2
ηX|Y = 2 = = 0,38 .
σX 16,77
L’indice η 2 di Pearson varia tra zero e uno (η 2 ∈ [0, 1]) e questo risultato
indica che c’è una bassa dipendenza in media del voto dal fatto di frequentare
o meno il corso di studi.
Nota: il risultato può risultare sorprendente poiché "ad occhio" sembre-
rebbe che i voti dei frequentanti siano più alti dei voti dei non frequentanti.
Tuttavia bisogna tenere conto della bassa numerosità del secondo gruppo
rispetto al primo e del fatto che il voto medio nei due gruppi non è mol-
to diverso (è rispettivamente di 27 e 22). L’indice η 2 di Pearson permette
di esprimere un giudizio oggettivo sulla dipendenza che esiste in media tra
la variabile X e la variabile Y (dalle cui modalità si ottiene la divisione in
gruppi delle osservazioni), per questo è preferibile usare sempre degli indici
descrittivi e non basarsi sulle mere impressioni.

11
Esercizio 6
L’età media degli 11 calciatori schierati in campo da una squadra è di 25
anni con devianza pari a 66. L’età dei 5 giocatori in panchina è di 18, 18,
20, 21, 33 anni.
Determinare: i. l’età media dei calciatori e ii. la varianza delle età.

Soluzione es. 6
Per determinare l’età media è sufficiente applicare la proprietà dell’asso-
ciatività della media aritmetica. Conoscendo la media per i due gruppi di
calciatori, per la proprietà associativa della media aritmetica la media delle
età di tutti i calciatori è data dalla media aritmetica delle medie dei gruppi
opportunamente pesate per la numerosità dei gruppi.
Dai dati a disposizione nell’esercizio le medie per i "titolari" e per i
"panchinari" sono:

µX|Titolari = 25
1
µX|Panchianri = (18 + 18 + 20 + 21 + 33) = 22 .
5
Inoltre sappiamo che i titolari sono 11 (c’è scritto nel testo dell’esercizio) e i
panchinari sono 5, dunque riassumendo

Gruppo Media (µXi ) Numerosità (ni )


Titolari 25 11
Panchinari 22 5

Applicando la proprietà associativa si ottiene la media delle età di tutti i


giocatori:

PG
i=1 µXi ni
µX = P G
i=1 ni
25 · 11 + 22 · 5
= = 24, 06 .
11 + 5
Per calcolare la varianza delle età è necessario ricorrere alle regole del-
la scomposizione della varianza poiché non si conoscono le singole età dei
calciatoriPtitolari e quindi non si può calcolare la varianza con la consueta
formula N 2
i=1 (Xi − µX ) .
La varianza (totale) è scomponibile in varianza esterna e varianza esterna.
Con i dati a disposizione è possibile calcolarle entrambe ed ottenere poi la
varianza totale.
Dai dati dell’esercizio è noto che la devianza dei titolari è 66, mentre per
i panchinari sono note le singole età; per cui le varianze dei due gruppi sono:

12
2 DEV 66
σTitolari = = =6
ni 11
ni
2 1 X
σPanchinari = (Xj − µX|Panchianri )2
ni
j=1
1
= (18 − 22)2 + (18 − 22)2 + (20 − 22)2 + (21 − 22)2
5
+ (33 − 22)2 = 31,6 .


La varianza interna è data dalla media, opportunamente pesata con la nu-


merosità dei gruppi, delle varianze nei gruppi:

PG
2 i=1 σi2 ni
σint = P G
i=1 ni
6 · 11 + 31,6 · 5
= = 14 .
11 + 5
La varianza esterna è la varianza tra le medie dei gruppi:

PG 2
2 i=1 (µXi − µX ) ni
σest = PG
i=1 ni
(25 − 24,06)2 11 + (22 − 24,06)2 5

= = 1,938 .
11 + 5
La varianza delle età è data dalla somma di varianza interna e varianza
esterna:

σ 2 = σint
2 2
+ σest = 14 + 1,938 = 15,938 .

13
Esercizio 7
Per un certo carattere X riferito a due gruppi (A e B) rispettivamente di
100 e 300 individui, si conosce:

• la media di X nell’intero collettivo, µX = 10;

• la media di X nel gruppo B, µXB = 12;

• la devianza di X nel gruppo A, DEVA = 15;

• la varianza di X nell’intero collettivo, σ 2 = 20.

Determinare: i. la media di X nel gruppo A e ii. la varianza di X nel gruppo


B.

Soluzione es. 7
Per trovare la media di X nel gruppo A si ricorre alla proprietà associativa
della media aritmetica. Infatti, dati due gruppi di numerosità nA e nB con
medie rispettivamente µXA e µXB risulta:
µXA nA + µXB nB
µX = . (1)
nA + nB
L’unica grandezza non conosciuta è µXA , infatti µX = 10, µXB = 12, nA =
100 e nB = 300. Basta risolvere l’equazione 1 rispetto a µXA per rispondere
al punto i.:

µX (nA + nB ) − µXB nB
µXA =
nA
10(100 + 300) − 12 · 300
= =4.
100
Per determinare la varianza del carattere X nel gruppo B è necessario ri-
correre alle regole della scomposizione della varianza. E’ noto che la varianza
di un carattere in un certo collettivo diviso in gruppi (detta anche varianza
totale) è scomponibile in varianza interna e varianza esterna. La varianza
interna è la media opportunamente pesata delle varianze nei gruppi mentre
la varianza esterna è la varianza delle medie dei singoli gruppi rispetto al-
la media dell’intero collettivo (ottenuta pesando opportunamente ciascuno
scarto al quadrato). Dai dati dell’esercizio si deduce immediatamente la va-
rianza di X nel gruppo A, si conosce la varianza totale di X e tramite le
medie µXA , µXB e µX si può calcolare la varianza esterna. L’unica parte
incognita rimane la varianza di X nel gruppo B.
Come primo passo si calcoli la varianza esterna:

14
PB 2
2 i=A (µXi − µX ) ni
σest = PB
i=A ni
2
(4 − 10) 100 + (12 − 10)2 300
= = 12 ;
100 + 300
essendo la varianza totale la somma di varianza esterna e varianza interna
risulta:

2 2 2 2 2 2
σX = σint + σest =⇒ σint = σX − σest ,
dunque dai risultati ottenuti si ha

2
σint = 20 − 12 = 8 .
La varianza interna è la media pesata delle varianze dei gruppi:
PB
2 i=A σi2 ni 2 n + σ2 n
σA A B B
σint = P B
= ,
i=A ni
nA + nB
2 (ovvero la varianza di X nel gruppo
dove la sola dimensione incognita è σB
B):

2 (n + n ) − σ 2 n
σint
2 A B A A
σB =
nB
15
8 · (100 + 300) − 100 100
= = 10,62 .
300
Come riprova per i punti i. e ii. si ha:
µXA nA +µXB nB 4·100+12·300
i. µX = nA +nB = 100+300 = 10 c.v.d.;
2 n +σ 2 n 15
2 = σA 2 = ·100+10,62·300
ii. σX A B B
nA +nB + σest 100
100+300 + 12 = 20 c.v.d.1

1 2
A causa dell’arrotondamento di σB non si ottiene esattamente 20 ma 20,0025,
utilizzando tutti i decimali non ci sarebbe nessun errore.

15
Associazione tra due variabili quantitative (interpo-
lazione lineare e indice di correlazione lineare rXY )
Esercizio 8
Calcolare i coefficienti della retta interpolante per le variabili X, fatturato,
e Y , numero di addetti, per un collettivo di 4 aziende:

Tabella 10: Fatturato (in migliaia di euro) e numero di addetti

Fatturato 100 60 250 300


N. addetti 10 8 14 30

Che informazione forniscono in pratica i coefficienti calcolati?

Soluzione es. 8
La retta interpolante ha forma Y = a + bX. Le coppie di valori (Xi , Yi )
rappresentano i punti che devono essere interpolati da una retta, per cui
risulta Yi = a + bXi + ei . Tramite il metodo dei minimi quadrati si individua
il valore dei parametri a e b che rende minima la somma degli e2i :
N
X
min e2i ,
a,b∈R
i=1

con ei = Yi − a − bXi . Minimizzando questa funzione rispetto ad a e b si


ottiene:

N −1 N
P
σXY i=1 (Xi − µX )(Yi − µY )
b= 2 = PN
σX N −1
i=1 (Xi − µX )
2

a = µY − bµX .

16
Si ricorda che esistono diverse formule alternative per calcolare la covarianza
tra X e Y :
N
1 X
σXY = [(Xi − µX )(Yi − µY )]
N
i=1
N
1 X
= (Xi − µX )Yi
N
i=1
N
1 X
= (Yi − µY )Xi
N
i=1
1 XN 
= Xi Yi − µX µY .
N
i=1

2 = Q2 − µ2 , dove Q2 = N −1
PN 2
Per la varianza si ricorda che σX X i=1 Xi è la
media quadratica al quadrato.
Per calcolare i parametri della retta interpolante per i dati dell’esercizio
8 ci si avvale dei seguenti calcoli:

Xi Yi Xi − µX Yi − µY (Xi − µX )(Yi − µY ) (Xi − µX )2


100 10 −77,5 −5,5 426,25 6006,25
60 8 −117,5 −7,5 881,25 13 806,25
250 14 72,5 −1,5 −108,75 5256,25
300 30 122,5 14,5 1776,25 15 006,25
710 62 0,0 0,0 2975,00 40 075,00

Con µX = 177,5 e µY = 15,5. Si avrà dunque:

2975
b= = 0,074
40075
a = 15,5 − 0,074 · 177,5 = 2,365 .

Il coefficiente a = 2,365 (intercetta) significa che in media una azienda


con zero fatturato ha una media di 2,365 addetti. Il coefficiente b = 0,074
(coefficiente angolare) significa che aumentando di uno il fatturato (aumento
di 1000 euro) il numero di addetti aumenta in media di 0,074.

17
Esercizio 9
Si consideri le variabili Altezza e Peso di 4 individui:

Tabella 11: Altezza (in cm.) e Peso (in Kg.)

Altezza 160 170 155 165


Peso 55 70 70 60

a. calcolare tramite un opportuno indice l’interdipendenza tra i due


caratteri e b. commentare il risultato.

Soluzione es. 9
a. l’indice da utilizzare è l’indice di correlazione lineare, rXY :
σXY
rXY = rXY ∈ [−1; 1] .
σX σY
Dato X carattere Altezza e Y carattere Peso (si poteva fare anche il contra-
rio) si ha:

Xi Yi Xi − µX Yi − µY (Xi − µX )(Yi − µY ) (Xi − µX )2 (Yi − µY )2


160 55 −2,5 −8,75 21,875 6,25 76,5625
170 70 7,5 6,25 46,875 56,25 39,0625
155 70 −7,5 6,25 −46,875 56,25 39,0625
165 60 2,5 −3,75 −9,375 6,25 14,0625
650 255 0,0 0,00 12,500 125,00 168,7500

E’ facile verificare che l’indice di correlazione lineare è uguale al rapporto


tra codevianza e la radice del prodotto delle devianze di X e Y :

N −1 N
P
i=1 (Xi −qµX )(Yi − µY )
rXY = q
N −1 N
P 2 N −1
PN 2
i=1 (Xi − µX ) i=1 (Yi − µY )

N −1 N
P
i=1 (Xi − µX )(Yi − µY )
= q
N −2 N
P 2
PN 2
i=1 (Xi − µX ) i=1 (Yi − µY )

N −1 N
P
(Xi − µX )(Yi − µY )
= qP i=1
N PN
N −1 i=1 (Xi − µX )
2
i=1 (Yi − µY )
2
PN
(Xi − µX )(Yi − µY )
= qP i=1 .
N 2
PN 2
i=1 (X i − µ X ) (Y
i=1 i − µ Y )

18
Nel caso in esame risulta:
12,5
rXY = √ = 0,086 .
125 · 168,75
b. Il risultato ci induce ad affermare che non esiste una relazione lineare
tra Peso e Altezza (per questo collettivo).

19
Esercizio 10
Per due caratteri quantitativi X e Y relativi ad un collettivo di 100 individui
si conosce:

• µY = 15;
P100 2
• i=1 Yi = 25000;
P100 2
• i=1 (Yi − Ŷi ) = 1000, dove Ŷi = a + bXi .

a. calcolare l’indice di determinazione e b. spiegarne il significato.

Soluzione es. 10
a. L’indice di determinazione è R2 :
PN PN
2 i=1 (Ŷ − µY )2 (Yi − Ŷ )2
R = PN = 1 − PNi=1 .
i=1 (Yi − µY ) 2 i=1 (Yi − µY )
2

PN 2
E’ noto che
PN i=1 (Yi − µY ) (la devianza di Y ) è ottenibile anche come
2 2
i=1 Yi − N µY . Risulta:

PN PN
(Yi − Ŷ )2 (Yi − Ŷ )2
R2 = 1 − PNi=1 = 1 − PNi=1
2 2 2
i=1 (Yi − µY ) i=1 Yi − N µY
1000
=1− = 0,6 .
25000 − 100 · 152
b. Un indice di determinazione di 0,6 significa che il 60% della variabilità
del carattere Y è spiegato dalla variabilità del carattere X.

20
Esercizio 11
Siano X e Y due variabili quantitative e sia Ŷi = a + bXi il valore della
retta interpolante per l’osservazione i-esima. Verificare che µY = µŶ (con
µŶ = N −1 N
P
i=1 Ŷi ).

Soluzione es. 11
E’ noto che la retta interpolante passi per il baricentro delle distribuzioni,
ovvero che passi per il punto (µX , µY ). Da ciò risulta vero che:

µY = a + bµX .
Si calcoli la media degli Ŷi :

N N N
1 X 1 X 1 1 X
µŶ = Ŷi = (a + bXi ) = N a + b Xi = a + bµX .
N N N N
i=1 i=1 i=1

Essendo µY = a + bµX e µŶ = a + bµX si è verificato che µY = µŶ .

21
Esercizio 12
Per due caratteri quantitativi X e Y su cui è stata fatta una interpolazione
si conosce:

• R2 = 0,8;

• b = 1;

• σX = 5.

Determinare l’errore standard di Y .

Soluzione es. 12
Si consideri che
 σ
XY
2 σ2 σ2 2
2 σX
R2 = = 2XY2 X2 = b = 0,8 ,
σX σY σX σY σX σY2

essendo b = 1 e σX = 5 si ha che

52
12 = 0,8 ,
σY2

da cui banalmente si ottiene che


52
σY2 = = 31,25 .
0,8

σY = 31,25 = 5,59.

22

Potrebbero piacerti anche