Esercizi Svolti Bivariata
Esercizi Svolti Bivariata
1
2
1. La popolazione (in migliaia) residente a Milano negli anni 1971 e 1981 è riportata
nella seguente tabella:
Anno 1971 1981
.
Abitanti 1731 1605
Valutare il numero di residenti negli anni intermedi usando le due funzioni interpolan-
ti Ŷ = p0 + p1 X e Ŷ = α0 α1X dove si è indicato con X l’anno e con Y la popolazione.
Svolgimento
Per semplificare i calcoli, poniamo, come origine del tempo, l’anno 1971 ed esprimia-
mo X come gli anni trascorsi dal 1971. Avremo perciò la seguente tabella:
X Y
0 1731
10 1605
A questo punto dobbiamo determinare i due parametri p0 e p1 in modo tale che la retta
Ŷ = p0 + p1 X
passi per i punti A = (0; 1731) e B = (10; 1605).
-passaggio per A-
1731 = p0 + p1 · 0
1605 = p0 + p1 · 10 -passaggio per B-
da cui ricaviamo
p0 = 1731
Ŷ = 1731 − 12.6 · X.
-passaggio per A-
1731 = α0 · α10
1605 = α0 · α110 -passaggio per B-
3
da cui
α0 = 1731
r
10 1605
α1 = = 0.9925
1731
Abbiamo quindi ricavato l’equazione:
Ŷ = 1731 · (0.9925)X .
Per valutare il numero di residenti negli anni compresi tra il 1971 e il 1981, tramite
le due funzioni interpolanti trovate, basterà sostituire in esse i valori di X corrispon-
denti. Facendo ciò è possibile completare la seguente tabella:
Dalla tabella ricaviamo che ad esempio, per l’anno 1975, secondo la retta interpolante
Ŷ = 1731 − 12.6 · X, la popolazione residente a Milano è stata di 1680.6 (migliaia
di persone), mentre, secondo la funzione Ŷ = 1731 · (0.9925)X è stata di 1679.65
(migliaia di persone).
2. La seguente tabella riporta, per due famiglie, il reddito annuo netto X e la spesa
annua per abbigliamento Y (dati in migliaia di euro):
X 20.5 25
.
Y 0.8 1.1
Svolgimento
Consideriamo i seguenti due punti A = (20.5; 0.8) e B = (25; 1.1) e impostiamo il
seguente sistema imponendo il passaggio della funzione interpolante per essi:
-passaggio per A-
0.8 = α0 · (20.5)α1
1.1 = α0 · (25)α1 -passaggio per B-
4
da cui:
α0 = 0.00628
α1 = 1.6046
Ŷ = 0.00628 · X 1.6046 .
3. Valutare l’area sottesa alla curva normale standardizzata in corrispondenza del va-
lore z = 0, 537. Calcolare inoltre il 75-esimo percentile della distribuzione normale
standardizzata.
Svolgimento
Dalle tavole della distribuzione normale standard, ricaviamo i seguenti valori
z Φ(z)
0.53 0.70194
0.54 0.70540
5
-passaggio per A-
0.70194 = p0 + 0.53 · p1
0.70540 = p0 + 0.54 · p1 -passaggio per B-
da cui otteniamo
p0 = 0.70194 − 0.53 · p1
0.70540 = 0.70194 − 0.53 · p1 + 0.54 · p1
p0 = 0.70194 − 0.53 · p1
(
0.00346
p1 =
0.01
p0 = 0.51856
p1 = 0.346
Abbiamo quindi determinato, come richiesto, l’area sottesa alla curva normale stan-
dardizzata da −∞ a 0.537:
Φ(0.537) = 0.704362.
Per calcolare il 75-esimo percentile (terzo quartile) della distribuzione normale stan-
dardizzata, consultiamo le tavole ed otteniamo:
Φ(z) z
0.74857 0.67
0.75175 0.68
-passaggio per A-
0.74857 = p0 + 0.67 · p1
0.75175 = p0 + 0.68 · p1 -passaggio per B-
da cui otteniamo con calcoli analoghi a quelli svolti precedentemente che
p0 = 0.318
p1 = 0.53551.
6
Ŷ = 0.53551 + 0.318 · Z.
z = 0.6745.
4. Nove soggetti di età diversa sono stati sottoposti ad un test. Per ogni individuo è
stata registrata l’età in anni compiuti (carattere X) ed il tempo di risoluzione del
test (carattere Y ) espresso in minuti:
xi 15 16 17 18 19 20 21 22 23
.
yi 15 16 14 12 10 10 9 9 8
Svolgimento
Y
16
14
12
10
8
5 10 15 20 23 X
Fig. 1: Grafico della nuvola di punti (xi , yi ).
xi yi xi yi x2i yi2
15 15 225 225 225
16 16 256 256 256
17 14 238 289 196
18 12 216 324 144
19 10 190 361 100
20 10 200 400 100
21 9 189 441 81
22 9 198 484 81
23 8 184 529 64
171 103 1896 3309 1247
Andiamo quindi a determinare α̂0 e α̂1 della retta interpolante
Ŷ = α̂0 + α̂1 · X
dove
cov(X, Y )
α̂1 =
var(X)
α̂0 = ȳ − α̂1 · x̄
103
ȳ = = 11.4̄
9
e quindi la covarianza:
n
1X
cov(X, Y ) = xi yi − x̄ȳ
n i=1
1
= · (1896) − 19 · 11.4̄
9
= −6.7̄.
Calcoliamo la varianza di X:
Quindi:
−6.7̄
α̂1 =
6.6̄
−6.7̄
α̂0 = 11.4̄ −
· 19
6.6̄
α̂1 = −1.016̄
α̂0 = 30.761̄
Ŷ = 30.761̄ − 1.016̄ · X.
Y
16
14
12 (X,Y)
10
8
5 10 15 20 23 X
Fig. 2: Grafico della retta interpolante Ŷ = 30.761̄ − 1.016̄ · X.
Per riempire l’ultima colonna, non resta che calcolare il modulo del residuo:
Ora è necessario controllare che i segni dei residui non si susseguano in mo-
do sistematico. Per fare ciò controlliamo la quarta colonna (yi − ŷi) della
tabella precedente: in questo caso, si può notare che il segno dei residui non
è propriamente casuale, infatti si può evidenziare una certa regolarità.
Osserviamo inoltre che in corrispondenza dei punti in cui yi − ŷi > 0 la retta in-
terpolante sottostima Y, infatti il valore previsto ŷi è inferiore al valore effettivo
yi .
Nei punti invece dove yi − ŷi < 0 la retta interpolante sovrastima Y dal momento
che ŷi > yi.
yi -yi
1.5
0.5
15 17 19 21 23 X
-0.5
-1
-1.5
Un altro modo per valutare l’ordine di grandezza dei residui è quello di calcolare
la media quadratica dei residui: per fare ciò, completiamo la seguente tabella
xi yi ŷi |yi − ŷi | |yi − ŷi|2
15 15 15.511 0.511 0.261
16 16 14.494 1.506 2.268
17 14 13.478 0.522 0.272
18 12 12.461 0.461 0.212
19 10 11.444 1.444 2.085
20 10 10.428 0.428 0.183
21 9 9.411 0.411 0.169
22 9 8.394 0.606 0.368
23 8 7.378 0.622 0.387
6.511 6.205
e calcoliamo la media quadratica dei residui:
v
u 9
u1 X
M2 (|Y − Ŷ |) = t |yi − ŷi |2
9 i=1
r
1
= · 6.205
9
= 0.8303.
(a)
M1 (|Y − Ŷ |) 0.7234̄
= = 0.0632
M1 (Y ) 11.4̄
12
9
X 9
X
2
(yi − ȳ) = yi2 − 9 · (ȳ)2
i=1 i=1
= 1247 − 9 · (11.4̄)2
= 68.223
la devianza residua
9
X
(yi − ŷi )2 = 6.206
i=1
e la devianza spiegata
9
X
(ŷi − ȳ)2 = 62.017.
i=1
= 0.909.
5. La seguente tabella riporta il numero di occupati (in migliaia di unità) in Italia per
gli anni dal 1998 al 2002 (Fonte Istat):
Ŷ = α̂0 + α̂1 X
Svolgimento
Y
13600
13500
13400
13300
13200
13100
0 1 2 3 4 5 X
b) Per prima cosa riscriviamo i dati relativi agli anni considerando il carattere X
come il numero di anni trascorsi dal 1998 e completiamo la seguente tabella:
Ŷ = α̂0 + α̂1 X
5
1X 66612
ȳ = yi = = 13322.4.
5 i=1 5
15
5
1X 2
var(X) = x − (x̄)2
5 i=1 i
30
= − 22 = 2
5
vale a dire
α̂1 = 130.5
α̂0 = 13061.8
Ŷ = 13061.8 + 130.3 · X.
Y
13600
13500
13400
13300
13200
13100
0 1 2 3 4 5 X
e la devianza spiegata:
5
X
(ŷi − ȳ)2 = 169780.9.
i=1
169780.9
=
171885.2
= 0.987.
N
X N
X N
X
x2i = 2410; yi2 = 46240; xi yi = 8200.
i=1 i=1 i=1
Svolgimento
Determiniamo i parametri a e b tali che
Ŷ = a + b · X.
N
1 X 1
ȳ = yi = · 600 = 60
N i=1 10
18
N
1 X 2
var(X) = x − (x̄)2
N i=1 i
1
= · 2410 − (15)2
10
= 16
N
1 X 2
var(Y ) = y − (ȳ)2
N i=1 i
1
= · 46240 − (60)2
10
= 1024
N
1 X
cov(X, Y ) = xi yi − x̄ȳ
N i=1
1
= · 8200 − (15 · 60)
10
= −80.
cioè
b = −5
a = 135
e otteniamo
d = −0.078125
c = 19.6875
X̂ = 19.6875 − 0.078125 · Y.
X=19.6875-0.078925Y
60 (X;Y) Y=135-5X
40
20
0 15 20 27 X
Osserviamo che l’unico punto che hanno in comune le due rette è il punto (15; 60)
che ha come coordinate le medie aritmentiche dei due caratteri.
7. La seguente tabella riporta il numero di spettatori Y (in migliaia) delle sale cine-
matografiche di una città della Lombardia negli anni X dal 1995 al 2001:
Svolgimento
a) Per prima cosa riscriviamo i dati relativi agli anni considerando il carattere X
come il numero di anni trascorsi dal 1995 e completiamo la seguente tabella:
Anno xi yi x2i xi yi
1995 0 12.3 0 0
1996 1 12 1 12
1997 2 11.5 4 23
1998 3 11.1 9 33.3
1999 4 9.8 16 39.2
2000 5 9.7 25 48.5
2001 6 9.8 36 58.8
TOT 21 76.2 91 214.8
Determiniamo i parametri a e b tali che
Ŷ = a + b · X.
N
1 X 1
ȳ = yi = · 76.2 = 10.885
N i=1 7
N
1 X 2
var(X) = xi − (x̄)2
N i=1
1
= · 91 − (3)2
7
= 4
N
1 X
cov(X, Y ) = xi yi − x̄ȳ
N i=1
1
= · 214.8 − (3 · 10.885)
7
= −1.9692.
cioè
b = −0.492
a = 12.361
Ŷ = 12.361 − 0.492 · X.
Per l’anno 2008 si prevedono nelle sale cinematografiche della città lombarda
presa in esame 5.965 migliaia di spettatori.
Y
14
(X,Y) Y=12.361-0.492X
10
0 3 5 10 15 X
Anno xi yi x2i xi yi
1995 0 12.3 0 0
1996 1 12 1 12
1997 2 11.5 4 23
1999 4 9.8 16 39.2
2000 5 9.7 25 48.5
2001 6 9.8 36 58.8
TOT 18 65.1 82 181.5
tramite la quale determiniamo i nuovi parametri ã e b̃ tali che
Ŷ = ã + b̃ · X.
Impostiamo perciò il sistema:
cov(X, Y )
b̃ =
var(X)
ã = ȳ − b̃ · x̄
N
1 X 2
var(X) = x − (x̄)2
N i=1 i
1
= · 82 − (3)2
6
= 4.6̄
N
1 X
cov(X, Y ) = xi yi − x̄ȳ
N i=1
1
= · 181.5 − (3 · 10.85)
6
= −2.3.
Sostituendo nel sistema, otteniamo:
−2.3
b̃ =
4.6̄
ã = 10.85 − b̃ · 3
24
cioè
b̃ = −0.493
ã = 12.329
Ŷ = 12.329 − 0.492 · X.
Y
14
(X,Y) Y=12.329-0.493X
10
0 5 10 15 X
Per calcolare il numero di spettatori nel 1998 (dato mancante), basta andare a
valutare il valore della retta interpolante in corrispondenza del valore x = 3 (3
anni trascorsi dal 1995):
Supponendo di non avere il dato relativo all’anno 1998, si prevedono nelle sale
cinematografiche della città lombarda presa in esame, per l’anno 1998, 10.85
migliaia di spettatori.
Notiamo che tale previsione non si discosta in modo eccessivo dal valore effettivo
relativo all’anno 1998 (11.1): ciò conferma il buon comportamento della retta
ai minimi quadrati nella situazione analizzata.
STATISTICA: esercizi svolti sulla
CONNESSIONE
1
1 LA CONNESSIONE 2
1 LA CONNESSIONE
1. I dati relativi alla popolazione occupata per grande ripartizione geografica e per
settore di attività economica sono riportati nella seguente tabella:
Svolgimento.
Svolgimento punto a) Le frequenze congiunte relative sono ricavabili dalle frequenze
congiunte attraverso la relazione:
nij
f r(ai , bj ) = per i = 1, 2, 3 e j = 1, 2.
N
Nel nostro caso abbiamo ad esempio che:
n11 698
f r(A, N ) = = = 0.0332
N 21002
Tale valore indica l’importanza numerica relativa degli individui che nella popolazione
occupata sono caratterizzati dall’essere contemporaneamente impiegati in agricoltura
e risiedere al nord. In particolare possiamo dire che il 3.32% della popolazione
occupata risiede al nord ed è impiegata nel settore agricolo.
n12 1248
f r(A, CS) = = = 0.0594
N 21002
Tale valore dice che il 5.94% della popolazione occupata risiede al centro sud ed è
impiegata nel settore agricolo.
Procedendo in modo del tutto analogo nel caso di tutte le altre frequenze congiunte
relative si ottiene la seguente tabella:
1 LA CONNESSIONE 3
Nell’ultima riga e colonna della tabella sopra ricavata sono riportate le frequenze
marginali relative rispettivamente dei caratteri “Ripartizione Geografica” e “Settore
di Attività Economica”. Esse sono state ricavate, rispettivamente, utilizzando le
espressioni:
n.j
f r(bj ) = j = 1, 2
N
ni.
f r(ai ) = i = 1, 2, 3.
N
Le frequenze marginali relative del carattere “Ripartizione Geografica” forniscono le
seguenti informazioni:
• f r(N ) = 0.5009 indica che il 50.09% della popolazione occupata risiede al nord.
• f r(CS) = 0.4991 indica che il 49.91% della popolazione occupata risiede al
centro sud.
• f r(A) = 0.0926 indica che il 9.26% della popolazione occupata è impiegata nel
settore agricolo.
• f r(I) = 0.3215 indica che il 32.15% della popolazione occupata è impiegata nel
settore industriale.
• f r(AA) = 0.5859 indica che il 58.59% della popolazione occupata è impiegata
in altre attività.
1 LA CONNESSIONE 4
Si osservi che l’ultima colonna della tabella sopra riportata contiene le frequenze rel-
ative marginali del carattere “Settore di Attività Economica”.
Le frequenze relative condizionate del carattere “Settore di Attività Economica”
danno le seguenti informazioni:
Per quanto riguarda il calcolo delle frequenze relative condizionate del carattere “Ri-
partizione Geografica”, fissiamo innanzi tutto l’attenzione sulla distribuzione parziale
1 LA CONNESSIONE 5
associata alla modalità A del carattere “Settore di attività Economica”. In tal caso
le frequenze relative condizionate sono date da:
n11 698
f r(N |A) = = = 0.3587
n1. 1946
n12 1248
f r(CS|A) = = = 0.6413
n1. 1946
In modo del tutto analogo possono essere ricavate le frequenze relative del carattere
“Ripartizione Geografica” condizionate alla modalità I e AA del carattere “Settore di
attività Economica”. I risultati di questi calcoli sono riportati sinteticamente nella
seguente tabella:
Si osservi che l’ultima riga della tabella sopra riportata contiene le frequenze relative
marginali del carattere “Ripartizione Geografica”.
Le frequenze relative condizionate del carattere “Ripartizione geografica” forniscono
le seguenti informazioni:
• f r(N |A) = 0.3587 indica che il 35.87% della popolazione occupata impiegata
nel settore agricolo risiede al nord;
• f r(CS|A) = 0.6413 indica che il 64.13% della popolazione occupata impiegata
nel settore agricolo risiede al centro sud;
• f r(N |I) = 0.6112 indica che il 66.12% della popolazione occupata impiegata nel
settore industriale risiede al nord;
• f r(CS|I) = 0.3888 indica che il 38.88% della popolazione occupata impiegata
nel settore industriale risiede al centro sud;
• f r(N |AA) = 0.4629 indica che il 46.29% della popolazione occupata impiegata
in altri settori risiede al nord;
• f r(CS|AA) = 0.5371 indica che il 53.71% della popolazione occupata impiegata
in altri settori risiede al centro sud.
nij = n̂ij i = 1, 2, 3 j = 1, 2.
1 LA CONNESSIONE 6
E’ sufficiente che una sola frequenza congiunta differisca dalla corrispondente frequen-
za teorica per concludere che tra i due caratteri non vi è indipendenza distributiva.
Ad esempio, se i due caratteri in considerazione fossero indipendenti in distribuzione,
n11 dovrebbe coincidere con:
n1. · n.1 1946 · 10520
n̂11 = = = 974.7605
N 21002
In realtà abbiamo che n11 = 698 6= n̂11 e di conseguenza tra i due caratteri in
considerazione non vi è indipendenza distributiva.
Come richiesto dal testo dell’esercizio, si ricava la tabella delle frequenze teoriche nel
caso di indipendenza distributiva:
Si osservi che le distribuzioni marginali della tabella delle ferquenze teoriche n̂ij co-
incidono con quelle della tabella delle frequenze effettive nij .
Svolgimento punto d) Le contingenze Cij sono per definizione costituite dalla differen-
za tra la frequenza effettiva nij e quella teorica nel caso di indipendenza distributiva
n̂ij :
Cij = nij − n̂ij i = 1, 2, 3 j = 1, 2.
Il loro calcolo è riportato nella seguente tabella:
Si osservi che sia i totali di riga che di colonna delle contingenze sono nulli.
Il valore assunto dalle contingenze appena ricavate fornisce le seguenti informazioni:
Cij
ρij = i = 1, 2, 3 j = 1, 2.
n̂ij
1 LA CONNESSIONE 8
2979.5665
= = 0.1419
21002
Il valore appena individuato informa che, in media, le frequenze effettive differiscono
da quelle teoriche del 14.19% del valore di quest’ultime.
C2
Nella seguente tabella sono riportati i valori dei rapporti n̂ijij . Tali valori saranno utili
per il calcolo dell’indice quadratico di connessione di K. Pearson.
• 0 ≤ C ≤ 1;
• C = 0 se e solo se tra i caratteri in considerazione vi è indipendenza distributiva;
1 LA CONNESSIONE 10
Svolgimento
Svolgimento punto a) Le 3 distribuzioni condizionate, o parziali, del carattere “Esito
della prova C”, corrispondono alle colonne della tabella di contingenza fornita dal
testo dell’esercizio. Si osservi che tali distribuzioni parziali non sono direttamente
confrontabili in quanto hanno differente numerosità complessiva. Per effettuare un
confronto, è opportuno ricavare le distribuzioni condizionate (o parziali) di frequenze
relative:
C\D Insufficiente (ID ) Sufficiente (SD ) Buono (BD ) Tot
Insufficiente (IC ) 0.6504 0.0690 0.0444 0.3
Sufficiente (SC ) 0.2276 0.6897 0.3889 0.41
Buono (BC ) 0.1219 0.2414 0.5667 0.29
Tot 1 1 1 1
La tabella sopra riportata mostra che la quota di prove C valutate insufficienti, varia
al variare dell’esito della prova D. Lo stesso possiamo dire anche per le quote di prove
C che sono state valutate sufficienti o buone. Dato che, se i due caratteri in consid-
erazione fossero indipendenti in distribuzione, tutte le distribuzioni condizionate di
fequenze relative sarebbero identiche, si può concludere che tra “Esito della prova C”
1 LA CONNESSIONE 11
Nel loro complesso le contingenze relative sembrano suggerire che tra i due caratteri
allo studio vi sia una elevata connessione, in particolare permettono di osservare la
tendenza dei partecipanti al concorso pubblico ad ottenere la medesima valutazione
in entrambe le prove. Infatti le coppie di modalità (IC ; ID ), (SC ; SD ) e (BC ; BD ) sono
le uniche che si “attraggono” e, come evidenziano i commenti fatti in precedenza, il
grado di tale attrazione è in genere elevato. E’ interessante anche osservare che il
grado di repulsione tende a crescere all’aumentare della diversità nella valutazione
delle due prove. Si osservi ad esempio che ρ31 < ρ21 .
Svolgimento punto c) Per completezza calcoliamo sia l’indice di connessione di Mor-
tara sia l’indice quadratico di connessione di [Link]. L’indice di connessione di
Mortara è dato da:
3 3
1 XX
M1 (|ρ|) = |ρij | · n̂ij
N i=1 j=1
3 3
1 XX
= |Cij |
N i=1 j=1
1
= (43.10 + 20.10 + 23.00 + 22.43 + 24.33 + 1.90 + 20.67 + 4.23 + 24.90)
300
184.66
= = 0.6155
300
Il valore appena individuato informa che, in media, le frequenze effettive differiscono
da quelle teoriche del 61.55% del valore di quest’ultime.
1 LA CONNESSIONE 13
C2
Nella seguente tabella sono riportati i valori dei rapporti n̂ijij . Tali valori saranno utili
per il calcolo dell’indice quadratico di connessione di K. Pearson.
C\D Insufficiente (ID ) Sufficiente (SD ) Buono (BD ) Tot
Insufficiente (IC ) 50.34 15.48 19.59 85.41
Sufficiente (SC ) 9.98 16.60 0.10 26.67
Buono (BC ) 11.98 0.71 23.76 36.44
Tot 72.30 32.78 43.45 148.53
n2
Nella seguente tabella sono riportati i valori dei rapporti n̂ijij . Tali valori sono utili per
il calcolo, mediante il procedimento indiretto, dell’indice quadratico di connessione
di K. Pearson.
C\D Insufficiente (ID ) Sufficiente (SD ) Buono (BD ) Tot
Insufficiente (IC ) 173.4417 1.3793 0.5926 175.4136374
Sufficiente (SC ) 15.5463 100.9251 33.1978 149.6693
Buono (BC ) 6.3078 17.4792 99.6552 123.4422
Tot 195.2958 119.7836 133.4456 448.5251
1 LA CONNESSIONE 14
In definitiva, si ha che:
r
1 2
M2 (|ρ|) = X
N
r
1
= 148.5251
300
= 0.7037
L’indice quadratico di connessione di Pearson, è pari al 49.75% del suo massimo val-
ore (che corrisponde al caso di massima connessione). Si può quindi concludere che
tra i due caratteri “Esito della prova C” e “Esito della prova D” vi è un medio grado
di connessione.
3. I 400 studenti di due istituti di scuola media inferiore sono stati classificati in base
al sesso ed alla categoria di peso (sottopeso, peso forma, sovrappeso). Da tale
classificazione è emerso quanto segue:
e) valutare la connessione tra i due caratteri mediante un indice basato sulle contin-
genze.
Svolgimento
Svolgimento punto a) Nel seguito indicheremo ripettivamente con M e F le modalità
maschio e femmina del carattere “Sesso” e con s, P ed S le modalità sottopeso, peso
forma e sovrappeso del carattere “Peso.”
Dall’informazione 1) del testo dell’esercizio abbiamo che
f r(M ) = 0.4
e di conseguenza
f r(F ) = 1 − f r(M ) = 0.6 .
Abbiamo in questo modo ricavato la distribuzione di frequenze relative marginali del
carattere “Sesso”.
Dall’informazione 2) del testo dell’esercizio abbiamo che
f r(s) = 0.1
ed inolte
f r(M |s) = 0.30 .
f r(M,s)
Ricordando che f r(M |s) = f r(s)
abbiamo che
e di conseguenza
Abbiamo così ricato le frequenze congiunte relative delle modalità del carattere “Ses-
so” con la modalità s del carattere “Peso”.
Dall’informazione 3) del testo dell’esercizio abbiamo che
f r(S) = 0.35
e di conseguenza
Siamo in questo modo riusciti a ricavare le frequenze congiunte relative delle modalità
del carattere “Sesso” con la modalità S del carattere “Peso”. Le frequenze congiunte
relative che risultano ancora incognite sono f r(M, P ) e f r(F, P ). Il loro valore è
calcolabile, sfruttando quanto in precedenza ricavato, nel seguente modo:
Si osservi che sia i totali di riga che di colonna delle contingenze sono nulli.
Il valore assunto dalle contingenze appena ricavate fornisce le seguenti informazioni:
• C11 = −4: la frequenza congiunta effettiva associata alle modalità M del carat-
tere “Sesso” e s del carattere “Peso”, risulta essere minore rispetto a quella teorica
in ipotesi di indipendenza distributiva. Tra le modalità F del carattere “Sesso”
e s del carattere “Peso” ’ vi è repulsione in quanto la frequenza congiunta che
si è osservata è minore di quella che si sarebbe dovuta osservare se tra i due
caratteri vi fosse stata indipendenza distributiva;
• C21 = 4: la frequenza congiunta effettiva associata alle modalità F del carattere
“Sesso” e s del carattere “Peso”, risulta essere maggiore rispetto a quella teorica
in ipotesi di indipendenza distributiva. Tra le modalità F del carattere “Sesso”
e s del carattere “Peso” vi è attrazione in quanto la frequenza congiunta che si
è osservata è maggiore di quella che si sarebbe dovuta osservare se tra i due
caratteri vi fosse stata indipendenza distributiva;
• C12 = 11: la frequenza congiunta effettiva associata alle modalità M del carat-
tere “Sesso” e P del carattere “Peso”, risulta essere maggiore rispetto a quella
teorica in ipotesi di indipendenza distributiva. Tra le modalità M del carattere
“Sesso” e P del carattere “Peso” vi è attrazione in quanto la frequenza congiunta
che si è osservata è maggiore di quella che si sarebbe dovuta osservare se tra i
due caratteri vi fosse stata indipendenza distributiva;
• C22 = −11: la frequenza congiunta effettiva associata alle modalità F del carat-
tere “Sesso” e P del carattere “Peso”, risulta essere minore rispetto a quella
teorica in ipotesi di indipendenza distributiva. Tra le modalità F del carattere
1 LA CONNESSIONE 18
r
5.417
= = 0.1164
400
Il valore appena individuato informa che, in media quadratica, le frequenze effettive
differiscono da quelle teoriche del 11.64% del valore di quest’ultime.
Per avere informazioni sul grado della connessione esistente tra i due caratteri, ricor-
riamo all’indice normalizzato:
M2 (|ρ|)
C= 1
(k − 1) 2
dove k = min(r, c) ed r e c indicano il numero di modalità dei due caratteri. Nel
nostro caso k = 2 da cui:
M2 (|ρ|)
C = 1
(2 − 1) 2
0.1164
= √
1
= 0.1164
L’indice quadratico di connessione di Pearson, è pari al 11.64% del suo massimo val-
ore (che corrisponde al caso di massima connessione). Si può quindi concludere che
tra i due caratteri “Sesso” e “Peso” vi è un basso grado di connessione.
STATISTICA: esercizi svolti sulla
DIPENDENZA IN MEDIA
1
1 LA DIPENDENZA IN MEDIA 2
1 LA DIPENDENZA IN MEDIA
1. La popolazione in migliaia di unità occupata in Piemonte nel 1985 per reddito annuo
Y (migliaia di euro) e per settore di attività economica A è riportata nella seguente
tabella:
Settore Agricoltura Industria Altre attività
Reddito Totale
Fino a 15 50 116 160 326
15 a 30 90 140 241 471 .
30 a 45 20 200 260 480
45 a 65 1 280 200 481
Totale 161 736 861 1758
Svolgimento
Svolgimento punto a) Nella seguente tabella riportiamo i calcoli utili per ricavare le
medie parziali del carattere “Reddito Annuo”:
Reddito
Agricoltura Industria Altre Attività
(valori centrali)
yi ni1 yi · ni1 ni2 yi · ni2 ni3 yi · ni3
10 50 500 116 1160 160 1600
22.5 90 2025 140 3150 241 5422.5
37.5 20 750 200 7500 260 9750
55 1 55 280 15400 200 11000
Totale 161 3330 736 27210 861 27772.5
27210
• ȳ2 = = 36.97: la popolazione piemontese occupata nel settore industriale,
736
durante l’anno 1985, ha avuto un reddito medio annuo pari a 36.97 migliaia di
euro. Più precisamente 36.97 indica il reddito annuo che sarebbe spettato nel
1985 ad un impiegato nell’indistria, se il reddito annuo totale degli impiegati in
questo settore fosse stato suddiviso in parti uguali tra gli stessi, ossia nell’ipotesi
in cui ciascun occupato nell’industria avesse avuto lo stesso reddito;
27772.5
• ȳ3 = = 32.26: la popolazione piemontese occupata in altre attività,
861
durante l’anno 1985, ha avuto un reddito medio annuo pari a 32.26 migliaia
di euro. Più precisamente 32.26 indica il reddito annuo che sarebbe spettato
nel 1985 ad un impiegato nelle altre attività, se il reddito annuo totale degli
impiegati in questi settori fosse stato suddiviso in parti uguali tra gli stessi,
ossia nell’ipotesi in cui ciascun occupato in altre attività avesse avuto lo stesso
reddito.
Osserviamo che i salari medi variano al mutare dell’attività economica svolta. Pos-
siamo dunque concludere che il “Reddito Annuo” non è indipendente in media dal
“Settore di Attività Economica”.
Calcoliamo le varianze delle distribuzioni parziali utilizzando il metodo indiretto:
4
1 X 2
σj2 = yi · nij − ȳj2 j = 1, 2, 3.
n.j i=1
Reddito
Agricoltura Industria Altre Attività
(valori centrali)
yi ni1 yi2· ni1 ni2 yi2· ni2 ni3 yi2 · ni3
10 50 5000 116 11600 160 16000
22.5 90 45562.5 140 70875 241 122006.25
37.5 20 28125 200 281250 260 365625
55 1 3025 280 847000 200 605000
Totale 161 81712.5 736 1210725 861 1108631.25
1210725
σ22 = − 36.972 = 278.22
736
1108631.25
σ32 = − 32.262 = 247.15
861
1 LA DIPENDENZA IN MEDIA 4
Svolgimento punto b) La seguente tabella riporta i conti che facilitano il calcolo della
media e della varianza dell’intera popolazione:
yi ni. yi · ni. yi2 · ni.
10 326 3260 32600
22.5 471 10597.5 238443.75
37.5 480 18000 675000
55 481 26455 1455025
T otale 1758 58312.5 2401068.75
Il reddito medio aritmetico per l’intera popolazione risulta essere:
4
1 X
ȳ = yi · ni.
N i=1
58312.5
= = 33.17
1758
La popolazione piemontese occupata, nel 1985, ha avuto un reddito medio pari a
33.17 migliaia di euro. Più precisamente 33.17 indica il reddito che sarebbe spettato
nel 1985 ad un occupato in Piemonte, se il reddito totale degli occupati fosse stato
suddiviso in parti uguali tra gli stessi, ossia nell’ipotesi in cui ciascun occupato avesse
avuto lo stesso reddito.
Di seguito calcoliamo il valore di ȳ sfuttando la proprietà associativa della media
aritmetica:
3
1 X
ȳ = ȳj · n.j
N j=1
1
= [(20.68 · 161) + (36.97 · 736) + (32.26 · 861)]
1758
= 33.17
Il valore appena ricavato coincide con quanto calcolato in precedenza e la proprietà
associativa della media aritmetica risulta così verificata.
La varianza della popolazione totale (calcolata con il metodo indiretto) risulta essere:
4
2 1 X 2
σ = y · ni . − ȳ 2
N i=1 i
2401068.75
= − 33.172 = 265.56 .
1758
Al fine di verificare la scomposizione della varianza, calcoliamo la varianza nei gruppi:
3
DN 1 X 2
= σ · n.j
N N j=1 j
1
= [(79.74 · 161) + (278.22 · 736) + (247.15 · 861)]
1758
= 244.83 .
1 LA DIPENDENZA IN MEDIA 5
2. La seguente tabella riporta i dati relativi a 74 alberghi di una nota località sciistica
classificati in base al numero di stanze (carattere X) e alla categoria (carattere Y ):
Categoria Alta Bassa
Stanze
Fino a 10 10 15 .
11 `a 20 16 20
oltre 20 5 8
Svolgimento
Al fine di calcolare la media e la varianza del carattere X, supponiamo di chiudere
le classi “Fino a 10” e “oltre 20” rispettivamente con i valori 1 e 30, ottenendo così le
classi:
1 `a 10 e 21 `a 30 .
Sulla base di queste ipotesi è possibile ricavare i valori centrali di ciascuna delle classi
in cui sono raggrupate le modalità di X. Il loro valore, insieme ad altri calcoli, è
riportato nella seguente tabella:
Stanze
Alta Bassa Totale
(valori centrali)
xi ni1 xi · ni1 x2i · ni1 ni2 xi · ni2 x2i · ni2 ni· xi · ni· x2i · ni·
5.5 10 55 302.5 15 82.5 453.75 25 137.5 756.25
15.5 16 248 3844 20 310 4805 36 558 8649
25.5 5 127.5 3251.25 8 204 5202 13 331.5 8453.25
Totale 31 430.5 7397.75 43 596.5 10460.75 74 1027 17858.5
3
1 X
x̄2 = xi · ni2
n.2 i=1
596.5
= = 13.872 .
43
In media, i 43 alberghi di bassa categoria hanno 13.872 stanze. Più precisamente
13.872 indica il numero ipotetico di stanze di ogni albergo di bassa categoria nel-
l’ipotesi in cui tutti gli alberghi di questa categoria avessero un ugual numero di
stanze (a parità del numero totale delle stesse all’interno della categoria in conside-
razione).
Verifichiamo la proprietà associativa della media aritmetica:
2
1 X
x̄ = x̄j · n.j
N j=1
(13.887 · 31) + (13.872 · 43)
= = 13.878
74
che coincide con quanto ricavato in precedenza.
La varianza del carattere X è data da:
3
1 X 2
σ2 = x · ni. − x̄2
N i=1 i
17858.5
= − 13.8782 = 48.732 .
74
Le varianze parziali del carattere X risultano essere:
3
1 X 2
σ12 = xi · ni1 − x̄21
n.1 i=1
7397.75
= − 13.8872 = 45.788 .
31
1 LA DIPENDENZA IN MEDIA 8
3
1 X 2
σ22 = xi · ni2 − x̄22
n.2 i=1
10460.75
= − 13.8722 = 50.841 .
43
Al fine di verificare la scomposizione della varianza, calcoliamo la varianza nei gruppi:
2
DN 1 X 2
= σ · n.j
N N j=1 j
(45.788 · 31) + (50.841 · 43)
= = 48.724 .
74
Calcoliamo la varianza tra le medie parziali:
2
DF 1 X
= (x̄j − x̄)2 · n.j
N N j=1
(13.887 − 13.878)2 · 31 + (13.872 − 13.878)2 · 43
=
74
∼
= 0 .
3. Mille alunni di una scuola superiore sono stati classificati in base al rendimento
scolastico, X, ed al numero di libri extra-scolastici letti, Y . Da tale rilevazione è
emerso quanto segue:
Svolgimento
Svolgimento punto a) Dalle informazioni che vengono fornite dal testo dell’esercizio
abbiamo che che:
• il numero totale di studenti classificati è N = 1000;
• il carattere “Rendimento Scolastico” assume le due modalità medio-basso (MB)
e medio-alto (MA);
70 30
• n(M B) = 1000 · = 700 e n(M A) = 1000 · = 300;
100 100
• il carattere “N◦ di libri extrascolastici mediamente letti ogni mese” assume le
modalità {2; 3; 4; 5};
60 60
• n(M B, 2) = n(M B) = 700 · = 420;
100 100
1 LA DIPENDENZA IN MEDIA 10
30 30
• n(M B, 3) = n(M B) = 700 · = 210;
100 100
10 10
• n(M B, 4) = n(M B) = 700 · = 70;
100 100
• n(M B, 5) = 0;
• n(M A, 2) = 0;
20 20
• n(M A, 3) = n(M A) = 300 · = 60;
100 100
40 40
• n(M A, 4) = n(M A) = 300 · = 120;
100 100
40 40
• n(M A, 5) = n(M A) = 300 · = 120.
100 100
I risultati appena ottenuti sono riportati nella seguente tabella di contingenza:
X\Y 2 3 4 5 Totale
MB 420 210 70 0 700
.
MA 0 60 120 120 300
Totale 420 270 190 120 1000
Svolgimento punto b) Si osservi che, nella precedente tabella, le coppie di modalità
(M B, 5) e (M A, 2) hanno una frequenza congiunta pari a zero. Osserviamo inoltre
che, ad esempio, n(M B) 6= 0 e n(5) 6= 0. Di conseguenza
n(M B) · n(5)
n̂(M B, 5) = 6= 0.
N
Nel caso della coppia di modalità (M B, 5), la frequenza congiunta osservata n(M B, 5)
non coincide con la frequenza congiunta teorica del caso di indipendenza distributiva
n̂(M B, 5). Possiamo quindi concludere che i caratteri X e Y non sono indipendenti
in distribuzione.
Svolgimento punto c) Al fine di verificare se esite indipendenza in media di Y da X,
calcoliamo le medie parziali di Y.
(2 · 420) + (3 · 210) + (4 · 70) + 0
ȳ(M B) = = 2.5 ;
700
0 + (3 · 60) + (4 · 120) + (5 · 120)
ȳ(M A) = = 4.2; .
300
(2 · 420) + (3 · 270) + (4 · 190) + (5 · 120)
ȳ = = 3.01 ;
1000
Dato che le medie parziali del carattere Y non sono uguali, il carattere Y non è in-
dipendente in media dal carattere X. Al fine di quantificare il grado della dipendenza
in media di Y da X, calcoliamo il rapporto di correlazione di [Link]. Preliminar-
mente al calcolo di quest’indice, è necessario ricavare i valori della devianza totale e
della devianza fra le medie parziali. Quest’ultima è data da:
DF = (2.5 − 3.1)2 · 700 + (4.2 − 3.01)2 · 300
= 606.9 .
1 LA DIPENDENZA IN MEDIA 11
Svolgimento
Svolgimento punto a) Osserviamo innanzitutto che non è possibile valutare il grado di
dipendenza in media di X da Y in quanto il carattere X è qualitativo. Concentriamo
quindi l’attenzione sullo studio della dipendenza in media di Y da X. A tal fine
verifichiamo se Y è indipendente in media da X confrontando i valori delle medie
parziali di Y. Per facilitare il loro calcolo, predisponiamo la seguente tabella:
Y
Basso Medio Alto Totale
(valori centrali)
yi ni1 yi · ni1 ni2 yi · ni2 ni3 yi · ni3 ni· yi · ni·
1 45 45 20 20 0 0 65 65
3.5 20 70 35 122.5 20 70 75 262.5
6 5 30 10 60 35 210 50 300
Totale 70 145 65 202.5 55 280 190 627.5
1 LA DIPENDENZA IN MEDIA 12
2 DF
η(Y /X) =
DT
284.48
= = 0.3999 .
711.35
Il valore dell’indice informa che la variabilità fra le medie parziali rappresenta il
39.99% della variabilità totale. L’indice è pari al 39.99% del suo massimo valore
assumibile (corrispondente al caso di massima connessione) e di conseguenza vi è un
contenuto grado di dipendenza in media del carattere Y dal carattere X .
Svolgimento punto b) Tra i caratteri in considerazione non vi è indipendenza distrib-
utiva in quanto Y non è indipendente in media da X.
STATISTICA esercizi svolti su:
INTERPOLAZIONE PONDERATA,
REGRESSIONE E CORRELAZIONE
1
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2
1.1 Esercizi
1. La seguente tabella riporta i dati relativi al numero Y di pezzi prodotti ed al numero
X di addetti di 108 imprese di un certo settore economico:
Y 10 15 20
X Totale
0⊢⊣4 12 12 0 24
5⊢⊣11 12 12 24 48
12⊢⊣30 0 36 0 36
Totale 24 60 24 108
Svolgimento
10 · 12 + 15 · 12 + 20 · 0
ȳ1 = M1 (Y |X ∈ [0, 4]) =
24
300
= = 12.5.
24
10 · 12 + 15 · 12 + 20 · 24
ȳ2 = M1 (Y |X ∈ [5, 11]) =
48
780
= = 16.25.
48
10 · 0 + 15 · 36 + 20 · 0
ȳ3 = M1 (Y |X ∈ [12, 30]) =
36
540
= = 15.
36
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 3
Calcoliamo la varianza di Y :
2 σF2 2.083̄
η(Y /X) = = = 0.1875
σT2 11.1̄
e concludere che la varianza fra i gruppi (fra le medie parziali) è il 18.75% della
varianza totale.
2
Ricordando che l’indice η(Y /X) è sempre compreso tra 0 e 1, possiamo concludere
che in questo caso, la dipendenza in media di Y da X è debole.
b) Per calcolare il coefficiente di correlazione lineare, è necessario calcolare lo scarto
quadratico medio di Y : √
σ(Y ) = 11.1̄ = 3.3̄;
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 4
la media aritmetica di X:
r
1 X c 2 · 24 + 8 · 48 + 21 · 36
M1 (X) = x̄ = xi · ni· = = 11;
N i=1 108
la varianza di X:
σ 2 (X) = M1 (X 2 ) − [M1 (X)]2
3
1 X c 2
= (x ) · ni· − (x̄)2
108 i=1 i
4 · 24 + 64 · 48 + 441 · 36
= − (11)2
108
1188
= − 121
108
= 55.3̄
da cui si ottiene lo scarto quadratico medio di X:
√
σX = 55.3̄ = 7.4386.
Impostiamo il sistema:
cod(Ȳi , X)
α̂1 =
dev(X)
α̂0 = ȳ − α̂1 · x̄.
e poi la devianza di X:
cioè
α̂1 = 0.0602
α̂0 = 14.3378.
Ŷ = 14.3378 + 0.0602 · X.
Y
20 24 Y=14.3378+0.0602X
y2 y3
15 12 12
36
12.5 y1
10 12 12
0 2 5 8 10 15 20 25 30 X
cioè
α̂1 = 0.0602
α̂0 = 14.3378
DT = σT2 (Y ) · N
= 11.1̄ · 108 = 1200.
Y 10 15 20
X
(10 − 14.4582)2 · 12 = (15 − 14.4582)2 · 12 = (20 − 14.4582)2 · 0 =
2
238.506 3.522 0
(10 − 14.8194)2 · 12 = (15 − 14.8194)2 · 12 = (20 − 14.8194)2 · 24 =
8
278.7192 0.3912 644.1264
(10 − 15.602)2 · 0 = (15 − 15.602)2 · 36 = (20 − 15.602)2 · 0 =
21
0 13.0464 0
Sommando tutti i valori contenuti nelle celle della precedente tabella, otteniamo
la devianza residua:
3 X
X 3
DR = (yj − ŷi )2 nij = 1178.3112.
i=1 j=1
Entrambi i valori degli indici Id∗2 e Id2 ci permettono di concludere che la bontà
di adattamento della retta di regressione alla situazione analizzata è bassissima.
Svolgimento
0 · 5 + 1 · 10 + 4 · 0
ȳ1 = M1 (Y |X = −1) =
15
10
= = 0.6̄
15
0 · 5 + 1 · 40 + 4 · 25
ȳ2 = M1 (Y |X = 0) =
70
140
= =2
70
0 · 0 + 1 · 0 + 4 · 15
ȳ3 = M1 (Y |X = 1) =
15
60
= = 4.
15
Calcoliamo ora anche la media totale del carattere Y :
0 · 10 + 1 · 50 + 4 · 40
ȳ = M1 (Y ) =
100
210
= = 2.1.
100
Poichè non si ha che
ȳ1 = ȳ2 = ȳ3 = ȳ
possiamo concludere che non c’è indipendenza in media del carattere Y dal
carattere X.
Calcoliamo la varianza di Y :
2 σF2 0.856̄
η(Y /X) = 2 = = 0.344
σT 2.49
osservando che la varianza fra i gruppi (fra le medie parziali) rappresenta il
34.4% della varianza totale.
2
Ricordando che l’indice η(Y /X) è sempre compreso tra 0 e 1, possiamo concludere
che esiste una bassa dipendenza in media di Y da X.
b) Si determinano ora i parametri α̂0 e α̂1 della retta interpolante
Ŷ = α̂0 + α̂1 · X
con
cov(X, Ȳj )
α̂1 =
var(X)
α̂0 = ȳ − α̂1 · x̄
dove si è indicato con Ȳj il carattere che assume valori pari alle medie parziali
di Y con frequenze pari alle numerosità dei gruppi.
Si calcola la media aritmetica di X:
−1 · 15 + 0 · 70 + 1 · 15
M1 (X) = x̄ = =0
100
e la varianza di X:
30
= −0
100
= 0.3
e si completa la tabella
3
1 X
cov(X, Ȳj ) = xj ȳj n·j − x̄ȳ
N j=1
1
= · 50 − 2.1 · 0
100
= 0.5.
da cui
α̂1 = 1.6̄
α̂0 = 2.1.
Ŷ = 2.1 + 1.6̄ · X.
Y
y3 15
4 25
Y=2.1+1.6X
2 y2
10 1 40
y1 0.6
5 5
-1 0 1 X
Fig. 2: Grafico della retta di regressione Ŷ = 2.1 + 1.6̄ · X.
√
r
1
= · 2.32 = 0.0232 = 0.152
100
d) Per valutare quanta parte della varianza totale è spiegata dalla retta inter-
polante, bisogna calcolare l’indice di determinazione :
σS2
Id2 = .
σT2
0.83̄
Id2 = = 0.335.
2.49
Tale valore indica che la retta di regressione spiega il 33.5% della variabilità
totale di Y .
Se però calcoliamo l’indice Id∗2 , otteniamo
σS2 0.83̄
Id∗2 = 2
= = 0.973.
σF 0.856̄
Tale valore indica che la retta di regressione spiega il 97.3% della variabilità fra
le medie parziali di Y .
Confrontando i valori dei due indici Id2 e Id∗2 , possiamo concludere che il modello
Ŷ = 2.1 + 1.6̄ · X spiega bene la variabilità fra le medie parziali, ma non la
variabilità totale, perchè la varianza nei gruppi è elevata.
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 15
3. La seguente tabella riporta i dati (in migliaia) relativi agli occupati con doppio lavoro
classificati in base alle ore settimanali di lavoro impiegate nella attività principale
(carattere X) e nelle attività secondarie (carattere Y ):
Svolgimento
• C12 = −12: la frequenza congiunta effettiva associata alle classi “16 − 25”
del carattere X e “0 − 10” del carattere Y , risulta essere minore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “16 − 25” del
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 17
• C13 = 17.88: la frequenza congiunta effettiva associata alle classi “26 − 40”
del carattere X e “0 − 10” del carattere Y , risulta essere maggiore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “26 − 40” del
carattere X e “0 − 10” del carattere Y vi è attrazione in quanto la frequen-
za congiunta che si è osservata è superiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;
• C14 = 12.39: la frequenza congiunta effettiva associata alle classi “41 − 50”
del carattere X e “0 − 10” del carattere Y , risulta essere maggiore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “41 − 50” del
carattere X e “0 − 10” del carattere Y vi è attrazione in quanto la frequen-
za congiunta che si è osservata è superiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;
• C22 = 4.93: la frequenza congiunta effettiva associata alle classi “16 − 25”
del carattere X e “11 − 20” del carattere Y , risulta essere maggiore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “16 − 25” del
carattere X e “11 − 20” del carattere Y vi è attrazione in quanto la frequen-
za congiunta che si è osservata è superiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;
• C23 = 5.02: la frequenza congiunta effettiva associata alle classi “26 − 40”
del carattere X e “11 − 20” del carattere Y , risulta essere maggiore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “26 − 40” del
carattere X e “11 − 20” del carattere Y vi è attrazione in quanto la frequen-
za congiunta che si è osservata è superiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;
• C24 = −3.16: la frequenza congiunta effettiva associata alle classi “41 − 50”
del carattere X e “11 − 20” del carattere Y , risulta essere minore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “41 − 50” del
carattere X e “11 − 20” del carattere Y vi è repulsione in quanto la frequen-
za congiunta che si è osservata è inferiore a quella che si sarebbe dovuta
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 18
• C31 = 7.81: la frequenza congiunta effettiva associata alle classi “5 − 15” del
carattere X e “21 − 30” del carattere Y , risulta essere maggiore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “5 − 15” del
carattere X e “21 − 30” del carattere Y vi è attrazione in quanto la frequen-
za congiunta che si è osservata è superiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;
• C32 = 7.43: la frequenza congiunta effettiva associata alle classi “16 − 25”
del carattere X e “21 − 30” del carattere Y , risulta essere maggiore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “16 − 25” del
carattere X e “21 − 30” del carattere Y vi è attrazione in quanto la frequen-
za congiunta che si è osservata è superiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;
• C42 = −0.35: la frequenza congiunta effettiva associata alle classi “16 − 25”
del carattere X e “31 − 40” del carattere Y , risulta essere minore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “16 − 25” del
carattere X e “31 − 40” del carattere Y vi è repulsione in quanto la frequen-
za congiunta che si è osservata è inferiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 19
• C44 = −4.65: la frequenza congiunta effettiva associata alle classi “41 − 50”
del carattere X e “31 − 40” del carattere Y , risulta essere minore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “41 − 50” del
carattere X e “31 − 40” del carattere Y vi è repulsione in quanto la frequen-
za congiunta che si è osservata è inferiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva.
Si ha quindi
v
u1 r X c
Cij2
u X r
1
M2 (|ρ|) = t = · 195.65 = 0.53.
N i=1 j=1 n̂ij 372
possiamo concludere che non c’è indipendenza in media del carattere Y dal
carattere X.
Calcoliamo la varianza di Y :
2 σF2 33.74
η(Y /X) = 2
= = 0.392
σT 85.93
ed osservare che la varianza fra i gruppi (fra le medie parziali) è il 39.2% della
varianza totale.
2
Ricordando che l’indice η(Y /X) è sempre compreso tra 0 e 1, possiamo concludere
che esiste una bassa dipendenza in media di Y da X.
e) Determiniamo i parametri della retta di regressione
Ŷ = α0 + α1 · X
e la varianza di X:
sostituendo i valori:
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 23
−53.42
α̂1 =
107.5
α̂0 = 12.16 − α̂1 · 32.11
e otteniamo
α̂1 = −0.50
α̂0 = 28.22.
Ŷ = 28.22 − 0.5 · X.
Y
28
Y=28.22-0.5X
20
15 (X,Y)
10
0 10 20 30 X
Fig. 3: Grafico della retta di regressione Ŷ = 28.22 − 0.5 · X.
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 24
f) Per calcolare la devianza spiegata e la devianza residua, sono necessari i valori ŷj ,
ovvero i valori previsti della retta di regressione in corrispondenza dei valori centrali
delle classi di X: calcoliamoli.
cov(X, Y ) −53.42
r(X, Y )) p p =√ √ = −0.55.
var(X) var(Y ) 107.5 85.93
Dal valore del coefficiente di correlazione lineare, possiamo dedurre che esiste una
discreta correlazione lineare negativa tra i due caratteri.