Il 0% ha trovato utile questo documento (0 voti)
6 visualizzazioni80 pagine

Esercizi Svolti Bivariata

Il documento presenta esercizi di statistica riguardanti l'interpolazione per punti noti, analizzando la popolazione di Milano tra il 1971 e il 1981, il reddito e la spesa per abbigliamento di due famiglie, e la distribuzione normale standardizzata. Vengono utilizzate diverse funzioni interpolanti per stimare valori intermedi e calcolare percentili. Inoltre, si analizza un test di risoluzione in relazione all'età, determinando la retta interpolante e i parametri associati.

Caricato da

betisirenele
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Il 0% ha trovato utile questo documento (0 voti)
6 visualizzazioni80 pagine

Esercizi Svolti Bivariata

Il documento presenta esercizi di statistica riguardanti l'interpolazione per punti noti, analizzando la popolazione di Milano tra il 1971 e il 1981, il reddito e la spesa per abbigliamento di due famiglie, e la distribuzione normale standardizzata. Vengono utilizzate diverse funzioni interpolanti per stimare valori intermedi e calcolare percentili. Inoltre, si analizza un test di risoluzione in relazione all'età, determinando la retta interpolante e i parametri associati.

Caricato da

betisirenele
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd

STATISTICA esercizi svolti su:

INTERPOLAZIONE PER/FRA PUNTI


NOTI

1
2

1. La popolazione (in migliaia) residente a Milano negli anni 1971 e 1981 è riportata
nella seguente tabella:
Anno 1971 1981
.
Abitanti 1731 1605
Valutare il numero di residenti negli anni intermedi usando le due funzioni interpolan-
ti Ŷ = p0 + p1 X e Ŷ = α0 α1X dove si è indicato con X l’anno e con Y la popolazione.

Svolgimento
Per semplificare i calcoli, poniamo, come origine del tempo, l’anno 1971 ed esprimia-
mo X come gli anni trascorsi dal 1971. Avremo perciò la seguente tabella:

X Y
0 1731
10 1605

A questo punto dobbiamo determinare i due parametri p0 e p1 in modo tale che la retta

Ŷ = p0 + p1 X
passi per i punti A = (0; 1731) e B = (10; 1605).

Impostiamo perciò il sistema

-passaggio per A-

1731 = p0 + p1 · 0
1605 = p0 + p1 · 10 -passaggio per B-

da cui ricaviamo 
 p0 = 1731

 p1 = 1605 − 1731 = −12.6



10
L’equazione della retta interpolante per punti noti è quindi:

Ŷ = 1731 − 12.6 · X.

Seguiamo ora lo stesso procedimento per determinare i parametri α0 e α1 in modo


che la funzione
Ŷ = α0 · α1X
passi per i punti A e B.
Il sistema da impostare è:

-passaggio per A-

1731 = α0 · α10
1605 = α0 · α110 -passaggio per B-
3

da cui 

 α0 = 1731

r
10 1605
 α1 = = 0.9925


1731
Abbiamo quindi ricavato l’equazione:
Ŷ = 1731 · (0.9925)X .

Per valutare il numero di residenti negli anni compresi tra il 1971 e il 1981, tramite
le due funzioni interpolanti trovate, basterà sostituire in esse i valori di X corrispon-
denti. Facendo ciò è possibile completare la seguente tabella:

Anno x Ŷ = 1731 − 12.6x Ŷ = 1731 · (0.9925)x


1971 0 1731 1731
1972 1 1718.4 1718.02
1973 2 1705.8 1705.13
1974 3 1693.2 1692.34
1975 4 1680.6 1679.65
1976 5 1668 1667.05
1977 6 1655.4 1654.55
1978 7 1642.8 1642.14
1979 8 1630.2 1629.83
1980 9 1617.6 1617.6
1981 10 1605 1605

Dalla tabella ricaviamo che ad esempio, per l’anno 1975, secondo la retta interpolante
Ŷ = 1731 − 12.6 · X, la popolazione residente a Milano è stata di 1680.6 (migliaia
di persone), mentre, secondo la funzione Ŷ = 1731 · (0.9925)X è stata di 1679.65
(migliaia di persone).

2. La seguente tabella riporta, per due famiglie, il reddito annuo netto X e la spesa
annua per abbigliamento Y (dati in migliaia di euro):
X 20.5 25
.
Y 0.8 1.1

Si determinino i parametri della funzione interpolante Ŷ = α0 X α1 .

Svolgimento
Consideriamo i seguenti due punti A = (20.5; 0.8) e B = (25; 1.1) e impostiamo il
seguente sistema imponendo il passaggio della funzione interpolante per essi:
-passaggio per A-

0.8 = α0 · (20.5)α1
1.1 = α0 · (25)α1 -passaggio per B-
4

Risolvendo si ottiene:  0.8


 α0 =

(20.5)α1
0.8
 1.1 =
 · (25)α1
(20.5)α1
0.8

 α0 =


(20.5)α1 α1
25
 1.1 = 0.8 ·


20.5

0.8
 α0 =


α
 (20.5)
 1  
1.1 25
 log = α1 · log


0.8 20.5
0.8


 α0 = α


 (20.5)
 1 
1.1


log
0.8

 α1 =  
25


log


20.5

da cui: 
α0 = 0.00628
α1 = 1.6046

Abbiamo perciò ottenuto l’equazione della funzione interpolante cercata:

Ŷ = 0.00628 · X 1.6046 .

3. Valutare l’area sottesa alla curva normale standardizzata in corrispondenza del va-
lore z = 0, 537. Calcolare inoltre il 75-esimo percentile della distribuzione normale
standardizzata.

Svolgimento
Dalle tavole della distribuzione normale standard, ricaviamo i seguenti valori

z Φ(z)
0.53 0.70194
0.54 0.70540
5

Abbiamo quindi i due punti A = (0.53; 0.70194) e B = (0.54; 0.70540) e cerchiamo i


parametri della retta interpolante passante per A e B. Impostiamo il sistema

-passaggio per A-

0.70194 = p0 + 0.53 · p1
0.70540 = p0 + 0.54 · p1 -passaggio per B-
da cui otteniamo

p0 = 0.70194 − 0.53 · p1
0.70540 = 0.70194 − 0.53 · p1 + 0.54 · p1

p0 = 0.70194 − 0.53 · p1
(
0.00346
p1 =
0.01

p0 = 0.51856
p1 = 0.346

L’equazione della retta interpolante passante per A e per B è perciò

Ŷ = 0.51856 + 0.346 · Z per 0.53 < Z < 0.54

e tale retta nel punto z = 0.537 assume il valore 0.704362.

Abbiamo quindi determinato, come richiesto, l’area sottesa alla curva normale stan-
dardizzata da −∞ a 0.537:

Φ(0.537) = 0.704362.

Per calcolare il 75-esimo percentile (terzo quartile) della distribuzione normale stan-
dardizzata, consultiamo le tavole ed otteniamo:

Φ(z) z
0.74857 0.67
0.75175 0.68

Abbiamo quindi i due punti A = (0.67; 0.74857) e B = (0.68; 0.75175) e cerchiamo i


parametri della retta interpolante passante per A e B. Impostiamo il sistema

-passaggio per A-

0.74857 = p0 + 0.67 · p1
0.75175 = p0 + 0.68 · p1 -passaggio per B-
da cui otteniamo con calcoli analoghi a quelli svolti precedentemente che

p0 = 0.318
p1 = 0.53551.
6

La retta interpolante passante per A e per B è perciò

Ŷ = 0.53551 + 0.318 · Z.

Andiamo ora a calcolare il valore di z in corrispondenza del quale Ŷ = 0.75:

0.75 = 0.53551 + 0.318 · z

z = 0.6745.

Il 75-esimo percentile della distribuzione normale standardizzata, è perciò 0.6745.

4. Nove soggetti di età diversa sono stati sottoposti ad un test. Per ogni individuo è
stata registrata l’età in anni compiuti (carattere X) ed il tempo di risoluzione del
test (carattere Y ) espresso in minuti:

xi 15 16 17 18 19 20 21 22 23
.
yi 15 16 14 12 10 10 9 9 8

a) Dopo aver rappresentato graficamente la nuvola di punti (xi , yi ) per i = 1, . . . 9,


determinare l’equazione della retta interpolante Ŷ = α0 + α1 · X ottenuta col
metodo dei minimi quadrati. Rappresentare inoltre la retta interpolante ed
interpretare il significato dei parametri α0 e α1 .
b) Al fine di valutare la bontà di adattamento della retta interpolante ricavata al
punto precedente:
– calcolare i residui di interpolazione e fornirne un’opportuna rappresentazione
grafica;
– valutare, mediante un opportuno indice, l’ordine di grandezza dei residui;
– scomporre la devianza totale di Y in devianza spiegata (dalla retta) e
devianza residua;
– calcolare l’indice di determinazione della retta commentando i risultati.

Svolgimento

a) Il grafico della nuvola di punti è il seguente:


7

Y
16
14
12
10
8

5 10 15 20 23 X
Fig. 1: Grafico della nuvola di punti (xi , yi ).

Completiamo la seguente tabella per agevolare i calcoli successivi:

xi yi xi yi x2i yi2
15 15 225 225 225
16 16 256 256 256
17 14 238 289 196
18 12 216 324 144
19 10 190 361 100
20 10 200 400 100
21 9 189 441 81
22 9 198 484 81
23 8 184 529 64
171 103 1896 3309 1247
Andiamo quindi a determinare α̂0 e α̂1 della retta interpolante

Ŷ = α̂0 + α̂1 · X

dove 
cov(X, Y )
 α̂1 =


var(X)


α̂0 = ȳ − α̂1 · x̄

Calcoliamo per prima cosa le medie dei due caratteri:


171
x̄ = = 19
9
8

103
ȳ = = 11.4̄
9
e quindi la covarianza:
n
1X
cov(X, Y ) = xi yi − x̄ȳ
n i=1
1
= · (1896) − 19 · 11.4̄
9
= −6.7̄.

Calcoliamo la varianza di X:

V ar(X) = M1 (X 2 ) − [M1 (X)2 ]


N
" N
#2
1 X 2 1 X
= x − xi
N i=1 i N i=1
1
= · 3309 − (19)2
9
= 6.6̄.

Quindi:
−6.7̄

 α̂1 =

6.6̄  
−6.7̄
 α̂0 = 11.4̄ −
 · 19
6.6̄


α̂1 = −1.016̄
α̂0 = 30.761̄

L’equazione della retta interpolante ai minimi quadrati è perciò:

Ŷ = 30.761̄ − 1.016̄ · X.

Il grafico della retta è riportato in Figura (2).


Interpretiamo ora i valori dei parametri:
* α̂0 = 30.761̄ significa che (in teoria) un soggetto di 0 anni impiega per risol-
vere il test 30.761̄ minuti. Notiamo che in questo contesto, il valore di α0 è
poco significativo (perchè non ha senso valutare il tempo di risoluzione del
test per un individuo di 0 anni).

* α̂1 = −1.016̄ significa che all’aumentare di un anno dell’età del soggetto, il


tempo di risoluzione del test diminuisce di 1.016̄ minuti.
9

Y
16
14
12 (X,Y)
10
8

5 10 15 20 23 X
Fig. 2: Grafico della retta interpolante Ŷ = 30.761̄ − 1.016̄ · X.

b) Calcoliamo ora i residui di interpolazione, completando la seguente tabella.

xi yi ŷi yi − ŷi |yi − ŷi|


15 15 15.511 -0.511 0.511
16 16 14.494 1.506 1.506
17 14 13.478 0.522 0.522
18 12 12.461 -0.461 0.461
19 10 11.444 -1.444 1.444
20 10 10.428 -0.428 0.428
21 9 9.411 -0.411 0.411
22 9 8.394 0.606 0.606
23 8 7.378 0.622 0.622
6.511
A titolo esemplificativo, riportiamo i calcoli effettuati per completare la quarta
riga: le altre sono state riempite in modo analogo.
Consideriamo x4 = 18 e il corrispondente valore di Y : y4 = 12. Per determinare
ŷ4 sostituiamo, nell’equazione della retta interpolante Ŷ = 30.761̂ − 1.016̄ · X, il
valore x4 = 18 ad X:

ŷ4 = 30.761̂ − 1.016̄ · x4 = 30.761̂ − 1.016̄ · 18 = 12.461.

A questo punto calcoliamo il residuo di interpolazione

y4 − ŷ4 = 12 − 12.461 = −0.461.

Per riempire l’ultima colonna, non resta che calcolare il modulo del residuo:

|y4 − ŷ4 | = | − 0.461| = 0.461.


10

Ora è necessario controllare che i segni dei residui non si susseguano in mo-
do sistematico. Per fare ciò controlliamo la quarta colonna (yi − ŷi) della
tabella precedente: in questo caso, si può notare che il segno dei residui non
è propriamente casuale, infatti si può evidenziare una certa regolarità.
Osserviamo inoltre che in corrispondenza dei punti in cui yi − ŷi > 0 la retta in-
terpolante sottostima Y, infatti il valore previsto ŷi è inferiore al valore effettivo
yi .
Nei punti invece dove yi − ŷi < 0 la retta interpolante sovrastima Y dal momento
che ŷi > yi.

Possiamo ora rappresentare graficamente i residui di interpolazione (vedi Figura


(3)).

yi -yi

1.5

0.5

15 17 19 21 23 X

-0.5

-1

-1.5

Fig. 3: Rappresentazione grafica dei residui di interpolazione.

Notiamo che anche l’analisi grafica dei residui di interpolazione evidenzia un


andamento dei residui non casuale: ciò sottolinea maggiormente che i segni dei
residui non si susseguono in modo non sistematico.
Per valutare l’ordine di grandezza dei residui, calcoliamo la media aritmetica
11

dei loro valori assoluti:


9
1X
M1 (|Y − Ŷ |) = |yi − ŷi |
9 i=1
1
= · 6.511
9
= 0.7234̄

É possibile commentare il valore ottenuto nel seguente modo: mediamente i va-


lori osservati (Y ) si discostano dai valori previsti dalla retta (Ŷ ) di 0.7234̄ minuti.

Un altro modo per valutare l’ordine di grandezza dei residui è quello di calcolare
la media quadratica dei residui: per fare ciò, completiamo la seguente tabella
xi yi ŷi |yi − ŷi | |yi − ŷi|2
15 15 15.511 0.511 0.261
16 16 14.494 1.506 2.268
17 14 13.478 0.522 0.272
18 12 12.461 0.461 0.212
19 10 11.444 1.444 2.085
20 10 10.428 0.428 0.183
21 9 9.411 0.411 0.169
22 9 8.394 0.606 0.368
23 8 7.378 0.622 0.387
6.511 6.205
e calcoliamo la media quadratica dei residui:
v
u 9
u1 X
M2 (|Y − Ŷ |) = t |yi − ŷi |2
9 i=1
r
1
= · 6.205
9
= 0.8303.

É possibile commentare il valore ottenuto nel seguente modo: mediamente (in


media quadratica) i valori osservati (Y ) si discostano dai valori previsti dalla
retta (Ŷ ) di 0.8303 minuti.

Continuando l’analisi dell’ordine di grandezza dei residui, possiamo calcolare


anche i seguenti due indici relativi alla media aritmetica:

(a)
M1 (|Y − Ŷ |) 0.7234̄
= = 0.0632
M1 (Y ) 11.4̄
12

che significa che mediamente lo scostamento tra i valori osservati e i valori


interpolati è pari al 6.32% della media di Y ;
(b)
M2 (|Y − Ŷ |) 0.8303
= = 0.0725
M1 (Y ) 11.4̄
che significa invece che mediamente (in media quadratica) lo scostamento
tra i valori osservati e i valori interpolati è pari al 7.25% della media di Y .

Per calcolare la devianza totale di Y e la devianza residua, riprendiamo la


precedente tabella e completiamola:
xi yi ŷi yi − ŷi (yi − ŷi )2 ŷi − ȳ (ŷi − ȳ)2
15 15 15.511 -0.511 0.261 4.066 16.540
16 16 14.494 1.506 2.267 3.049 9.304
17 14 13.478 0.522 0.273 2.032 4.136
18 12 12.461 -0.461 0.212 1.016 1.034
19 10 11.444 -1.444 2.086 0 0
20 10 10.428 -0.428 0.183 -1.017 1.033
21 9 9.411 -0.411 0.169 -2.033 7.133
22 9 8.394 0.606 0.367 -3.050 9.301
23 8 7.378 0.622 0.387 -4.067 16.536
6.206 62.017
Calcoliamo ora la devianza totale

9
X 9
X
2
(yi − ȳ) = yi2 − 9 · (ȳ)2
i=1 i=1
= 1247 − 9 · (11.4̄)2
= 68.223
la devianza residua
9
X
(yi − ŷi )2 = 6.206
i=1

e la devianza spiegata
9
X
(ŷi − ȳ)2 = 62.017.
i=1

É quindi verificata la scomposizione:

68.223 = 6.206 + 62.017

DEVIANZA = DEVIANZA + DEVIANZA


TOTALE RESIDUA SPIEGATA
13

Calcoliamo infine l’indice di determinazione:


DEV. SPIEGATA
Id2 =
DEV. TOTALE
62.017
=
68.223

= 0.909.

La retta interpolante ai minimi quadrati spiega il 90.9% della variabilità totale


del carattere Y : possiamo pertanto concludere che esiste un buon adattamento
della retta ai minimi quadrati al fenomeno analizzato.

5. La seguente tabella riporta il numero di occupati (in migliaia di unità) in Italia per
gli anni dal 1998 al 2002 (Fonte Istat):

anno 1998 1999 2000 2001 2002


.
occupati 13090 13158 13316 13455 13593

a) Rappresentare graficamente il fenomeno;


b) Determinare e rappresentare graficamente l’equazione della retta interpolante:

Ŷ = α̂0 + α̂1 X

dove X rappresenta il numero di anni trascorsi dal 1998;


c) Calcolare i residui di interpolazione e valutare la bontà di adattamento della
retta interpolante.

Svolgimento

a) La rappresentazione grafica del fenomeno è riportata in Figura (4).


14

Y
13600
13500
13400
13300
13200
13100

0 1 2 3 4 5 X

Fig. 4: Rappresentazione grafica della nuvola dei punti.

b) Per prima cosa riscriviamo i dati relativi agli anni considerando il carattere X
come il numero di anni trascorsi dal 1998 e completiamo la seguente tabella:

Anno xi yi xi yi x2i ŷi


1998 0 13090 0 0 13061.8
1999 1 13158 13158 1 13192.1
2000 2 13316 26632 4 13322.4
2001 3 13455 40365 9 13452.7
2002 4 13593 54372 16 13583
TOT 10 66612 134527 30 66612

Per determinare i parametri della retta interpolante

Ŷ = α̂0 + α̂1 X

impostiamo il seguente sistema:



cov(X, Y )
 α̂1 =


var(X)


α̂0 = ȳ − α̂1 · x̄

Calcoliamo le medie dei due caratteri:


5
1X 10
x̄ = xi = =2
5 i=1 5

5
1X 66612
ȳ = yi = = 13322.4.
5 i=1 5
15

e grazie alla tabella sopra riportata, calcoliamo la covarianza tra X e Y e la


varianza di X:
5
1X
cov(X, Y ) = xi yi − x̄ȳ
5 i=1
1
= · 134527 − 2 · 13322.4
5
= 260.6

5
1X 2
var(X) = x − (x̄)2
5 i=1 i
30
= − 22 = 2
5

Sostituendo tali valori, otteniamo:


260.6

 α̂1 =

2

α̂0 = 13322.4 − α̂1 · 2

vale a dire 
 α̂1 = 130.5

α̂0 = 13061.8

L’equazione della retta interpolante fra punti noti è quindi:

Ŷ = 13061.8 + 130.3 · X.

In Figura (5) vediamo rappresentata tale retta interpolante.


16

Y
13600
13500
13400
13300
13200
13100

0 1 2 3 4 5 X

Fig. 5: Rappresentazione grafica della retta interpolante Ŷ = 13061.8 + 130.3 · X.

c) Per calcolare i residui di interpolazione, completiamo la seguente tabella:


Anno xi yi ŷi yi − ŷi yi2 (ŷi − ȳ)2
1998 0 13090 13061.8 28.2 171348100 67912.36
1999 1 13158 13192.1 -34.1 173132964 16978.09
2000 2 13316 13322.4 -6.4 177315856 0
2001 3 13455 13452.7 2.3 181037025 16978.09
2002 4 13593 13583 10 184769649 67912.36
TOT 10 66612 66612 0 887603594 169780.9
Osservando i segni dei residui di interpolazione, risulta chiaro che la retta inter-
polante ai minimi quadrati tende a sottostimare il carattere Y in corrispondenza
dei valori estremi (anno 1998 e anno 2002), mentre tende a sovrastimare Y in
quasi tutti gli anni intermedi (anno 1999 e anno 2000).

Calcoliamo ora la devianza totale:


5
X 5
X
2
(yi − ȳ) = yi2 − 5 · (ȳ)2
i=1 i=1
= 887603594 − 5 · (13322.4)2
= 171885.2

e la devianza spiegata:
5
X
(ŷi − ȳ)2 = 169780.9.
i=1

A questo punto possiamo calcolare l’indice di determinazione per valutare la


bontà di adattamento della retta interpolante:
DEV. SPIEGATA
Id2 =
DEV. TOTALE
17

169780.9
=
171885.2

= 0.987.

La retta interpolante ai minimi quadrati spiega il 98.7% della variabilità totale


del carattere Y : possiamo quindi concludere che esiste un ottimo adattamento
della retta interpolante ai minimi quadrati al fenomeno analizzato.

6. Siano X e Y due variabili di cui sono note le seguenti quantità:


N
X N
X
N = 10; xi = 150; yi = 600;
i=1 i=1

N
X N
X N
X
x2i = 2410; yi2 = 46240; xi yi = 8200.
i=1 i=1 i=1

Determinare i parametri delle due rette di interpolazione Ŷ = a + bX e X̂ = c + dY


e rappresentare graficamente le due rette.

Svolgimento
Determiniamo i parametri a e b tali che

Ŷ = a + b · X.

Impostiamo perciò il sistema:



cov(X, Y )
 b=


var(X)


a = ȳ − b · x̄

e andiamo a calcolare le quantità che ci interessano:


N
1 X 1
x̄ = xi = · 150 = 15
N i=1 10

N
1 X 1
ȳ = yi = · 600 = 60
N i=1 10
18

N
1 X 2
var(X) = x − (x̄)2
N i=1 i
1
= · 2410 − (15)2
10
= 16

N
1 X 2
var(Y ) = y − (ȳ)2
N i=1 i
1
= · 46240 − (60)2
10
= 1024

N
1 X
cov(X, Y ) = xi yi − x̄ȳ
N i=1
1
= · 8200 − (15 · 60)
10
= −80.

Sostituendo nel sistema, otteniamo:


−80

 b=

16

a = 60 − b · 15

cioè 
 b = −5

a = 135

Otteniamo perciò la retta interpolante:


Ŷ = 135 − 5 · X.

Per determinare i parametri c e d tali che


X̂ = c + d · Y

è necessario invece risolvere il sistema



 d = cov(X, Y )

var(Y )



c = x̄ − d · ȳ

19

Andiamo quindi a sostituire i valori ricavati:


−80

 d=

1024

c = 15 − d · 60

e otteniamo 
 d = −0.078125

c = 19.6875

La retta interpolante è pertanto:

X̂ = 19.6875 − 0.078125 · Y.

Il grafico delle due rette interpolanti è riportato in Figura (6).

X=19.6875-0.078925Y

60 (X;Y) Y=135-5X

40

20

0 15 20 27 X

Fig. 6: Rappresentazione grafica delle due rette interpolanti.


20

Osserviamo che l’unico punto che hanno in comune le due rette è il punto (15; 60)
che ha come coordinate le medie aritmentiche dei due caratteri.
7. La seguente tabella riporta il numero di spettatori Y (in migliaia) delle sale cine-
matografiche di una città della Lombardia negli anni X dal 1995 al 2001:

Anni 1995 1996 1997 1998 1999 2000 2001


.
Spettatori 12.3 12 11.5 11.1 9.8 9.7 9.8

a) Costruire la retta interpolante a minimi quadrati Ŷ = a + bX ed interpretare il


significato dei parametri a e b.
b) Indicare quale numero di spettatori si può prevedere per l’anno 2008 e commentare
il risultato ottenuto.
c) Calcolare i residui dopo aver rappresentato graficamente la retta interpolante.
d) Supponendo che il dato relativo all’anno 1998 non sia noto, ricalcolare i parametri
della retta interpolante, rappresentarla graficamente e calcolare il numero di
spettatori per l’anno 1998, commentando.

Svolgimento
a) Per prima cosa riscriviamo i dati relativi agli anni considerando il carattere X
come il numero di anni trascorsi dal 1995 e completiamo la seguente tabella:

Anno xi yi x2i xi yi
1995 0 12.3 0 0
1996 1 12 1 12
1997 2 11.5 4 23
1998 3 11.1 9 33.3
1999 4 9.8 16 39.2
2000 5 9.7 25 48.5
2001 6 9.8 36 58.8
TOT 21 76.2 91 214.8
Determiniamo i parametri a e b tali che

Ŷ = a + b · X.

Impostiamo perciò il sistema:



cov(X, Y )
 b=


var(X)


a = ȳ − b · x̄

21

e andiamo a calcolare le quantità che ci interessano:


N
1 X 1
x̄ = xi = · 21 = 3
N i=1 7

N
1 X 1
ȳ = yi = · 76.2 = 10.885
N i=1 7

N
1 X 2
var(X) = xi − (x̄)2
N i=1
1
= · 91 − (3)2
7
= 4

N
1 X
cov(X, Y ) = xi yi − x̄ȳ
N i=1
1
= · 214.8 − (3 · 10.885)
7
= −1.9692.

Sostituendo nel sistema, otteniamo:


−1.9692

 b=

4

a = 10.885 − b · 3

cioè 
 b = −0.492

a = 12.361

La retta interpolante ha equazione:

Ŷ = 12.361 − 0.492 · X.

Interpretiamo ora i valori dei parametri:


* a = 12.361 significa che la retta prevede che nell’anno 1995 (cioè quando
sono trascorsi 0 anni dal 1995) nelle sale cinematografiche della città della
Lombardia presa in esame, ci siano stati 12.375 migliaia di spettatori.
22

* b = −0.492 significa che passando da un anno al successivo, il numero di


spettatori nelle sale cinematografiche della città lombarda presa in esame,
diminuisce di 0.492 migliaia di unità.
b) Per calcolare il numero di spettatori previsti nel 2008, basta andare a valutare
il valore della retta interpolante in corrispondenza del valore x = 13 (13 anni
trascorsi dal 1995):

Ŷ2008 = 12.361 − 0.492 · 13


= 5.965

Per l’anno 2008 si prevedono nelle sale cinematografiche della città lombarda
presa in esame 5.965 migliaia di spettatori.

c) In Figura (7) vediamo rappresentata tale retta interpolante.

Y
14
(X,Y) Y=12.361-0.492X
10

0 3 5 10 15 X

Fig. 7: Rappresentazione grafica della retta interpolante Ŷ = 12.361 − 0.492X.

Per calcolare i residui di interpolazione, completiamo la seguente tabella:


Anno xi yi ŷi yi − ŷi
1995 0 12.3 12.361 -0.061
1996 1 12 11.869 0.131
1997 2 11.5 11.377 0.123
1998 3 11.1 10.885 0.215
1999 4 9.8 10.393 -0.593
2000 5 9.7 9.901 -0.201
2001 6 9.8 9.409 0.391
d) Supponiamo ora che il dato relativo all’anno 1998 non sia noto. Avremo quindi
la nuova tabella:
23

Anno xi yi x2i xi yi
1995 0 12.3 0 0
1996 1 12 1 12
1997 2 11.5 4 23
1999 4 9.8 16 39.2
2000 5 9.7 25 48.5
2001 6 9.8 36 58.8
TOT 18 65.1 82 181.5
tramite la quale determiniamo i nuovi parametri ã e b̃ tali che
Ŷ = ã + b̃ · X.
Impostiamo perciò il sistema:

cov(X, Y )
 b̃ =


var(X)


ã = ȳ − b̃ · x̄

e andiamo a calcolare le quantità che ci interessano:


N
1 X 1
x̄ = xi = · 18 = 3
N i=1 6
N
1 X 1
ȳ = yi = · 65.1 = 10.85
N i=1 6

N
1 X 2
var(X) = x − (x̄)2
N i=1 i
1
= · 82 − (3)2
6
= 4.6̄
N
1 X
cov(X, Y ) = xi yi − x̄ȳ
N i=1
1
= · 181.5 − (3 · 10.85)
6
= −2.3.
Sostituendo nel sistema, otteniamo:
 −2.3
 b̃ =

4.6̄

ã = 10.85 − b̃ · 3

24

cioè 
 b̃ = −0.493

ã = 12.329

Si ottiene perciò la retta interpolante:

Ŷ = 12.329 − 0.492 · X.

In Figura (8) vediamo rappresentata tale retta interpolante.

Y
14
(X,Y) Y=12.329-0.493X
10

0 5 10 15 X

Fig. 8: Rappresentazione grafica della retta interpolante Ŷ = 12.329 − 0.493X.

Per calcolare il numero di spettatori nel 1998 (dato mancante), basta andare a
valutare il valore della retta interpolante in corrispondenza del valore x = 3 (3
anni trascorsi dal 1995):

Ŷ1998 = 12.329 − 0.493 · 3


= 10.85.

Supponendo di non avere il dato relativo all’anno 1998, si prevedono nelle sale
cinematografiche della città lombarda presa in esame, per l’anno 1998, 10.85
migliaia di spettatori.

Notiamo che tale previsione non si discosta in modo eccessivo dal valore effettivo
relativo all’anno 1998 (11.1): ciò conferma il buon comportamento della retta
ai minimi quadrati nella situazione analizzata.
STATISTICA: esercizi svolti sulla
CONNESSIONE

1
1 LA CONNESSIONE 2

1 LA CONNESSIONE
1. I dati relativi alla popolazione occupata per grande ripartizione geografica e per
settore di attività economica sono riportati nella seguente tabella:

Ripartiz. Nord (N) Centro-Sud (CS)


Attività Totale
Agricoltura (A) 698 1248 1946
.
Industria (I) 4127 2625 6752
Altre attività (AA) 5695 6609 12304
Totale 10520 10482 21002

a) Determinare la distribuzione bivariata di frequenze relative;


b) determinare le distribuzioni condizionate di frequenze relative;
c) valutare, mediante il calcolo delle frequenze teoriche, se esiste indipendenza dis-
tributiva tra i due caratteri. In caso di risposta negativa, costruire la tabella
corrispondente a questa situazione;
d) calcolare le contingenze e fornire la loro interpretazione;
e) calcolare le contingenze relative e fornire la loro interpretazione;
f) valutare la connessione tra i due caratteri mediante un indice basato sulle contin-
genze relative.

Svolgimento.
Svolgimento punto a) Le frequenze congiunte relative sono ricavabili dalle frequenze
congiunte attraverso la relazione:
nij
f r(ai , bj ) = per i = 1, 2, 3 e j = 1, 2.
N
Nel nostro caso abbiamo ad esempio che:
n11 698
f r(A, N ) = = = 0.0332
N 21002
Tale valore indica l’importanza numerica relativa degli individui che nella popolazione
occupata sono caratterizzati dall’essere contemporaneamente impiegati in agricoltura
e risiedere al nord. In particolare possiamo dire che il 3.32% della popolazione
occupata risiede al nord ed è impiegata nel settore agricolo.
n12 1248
f r(A, CS) = = = 0.0594
N 21002
Tale valore dice che il 5.94% della popolazione occupata risiede al centro sud ed è
impiegata nel settore agricolo.
Procedendo in modo del tutto analogo nel caso di tutte le altre frequenze congiunte
relative si ottiene la seguente tabella:
1 LA CONNESSIONE 3

Ripartiz. Nord (N) Centro-Sud (CS)


Attività Totale
Agricoltura (A) 0.0332 0.0594 0.0926
.
Industria (I) 0.1965 0.1250 0.3215
Altre attività (AA) 0.2712 0.3147 0.5859
Totale 0.5009 0.4991 1

• f r(I, N ) = 0.1965 indica che il 19.65% della popolazione occupata risiede al


nord ed è impiegata nel settore industriale;
• f r(I, CS) = 0.1250 indica che il 12.5% della popolazione occupata risiede al
centro sud ed è impiegata nel settore industriale;
• f r(AA, N ) = 0.2712 indica che il 27.12% della popolazione occupata risiede al
nord ed è impiegata nelle altre attività;
• f r(AA, CS) = 0.3147 indica che il 31.47% della popolazione occupata risiede al
centro sud ed è impiegata nelle altre attività;

Nell’ultima riga e colonna della tabella sopra ricavata sono riportate le frequenze
marginali relative rispettivamente dei caratteri “Ripartizione Geografica” e “Settore
di Attività Economica”. Esse sono state ricavate, rispettivamente, utilizzando le
espressioni:
n.j
f r(bj ) = j = 1, 2
N
ni.
f r(ai ) = i = 1, 2, 3.
N
Le frequenze marginali relative del carattere “Ripartizione Geografica” forniscono le
seguenti informazioni:

• f r(N ) = 0.5009 indica che il 50.09% della popolazione occupata risiede al nord.
• f r(CS) = 0.4991 indica che il 49.91% della popolazione occupata risiede al
centro sud.

Le frequenze marginali relative del carattere “Settore di Attività Economica” for-


niscono invece le seguenti informazioni:

• f r(A) = 0.0926 indica che il 9.26% della popolazione occupata è impiegata nel
settore agricolo.
• f r(I) = 0.3215 indica che il 32.15% della popolazione occupata è impiegata nel
settore industriale.
• f r(AA) = 0.5859 indica che il 58.59% della popolazione occupata è impiegata
in altre attività.
1 LA CONNESSIONE 4

Svolgimento punto b) Iniziamo con il calcolo delle frequenze relative condizionate


del carattere “Settore di attività Economica”. Fissiamo innanzi tutto l’attenzione
sulla distribuzione parziale associata alla modalità N del carattere “Ripartizione
Geografica”. In tal caso le frequenze relative condizionate sono date da:
n11 698
f r(A|N ) = = = 0.0664
n.1 10520
n21 4127
f r(I|N ) = = = 0.3923
n.1 10520
n31 5695
f r(AA|N ) = = = 0.5413
n.1 10520
In modo del tutto analogo possono essere ricavate le frequenze relative del carat-
tere “Settore di Attività Economica” condizionate alla modalità CS del carattere
“Ripartizione Geografica”. I risultati sono riportati nella seguente tabella:

Ripartiz. Nord (N) Centro-Sud (CS)


Attività —
Agricoltura (A) 0.0664 0.1191 0.0926
Industria (I) 0.3923 0.2504 0.3215
Altre attività (AA) 0.5413 0.6305 0.5859
Totale 1 1 1

Si osservi che l’ultima colonna della tabella sopra riportata contiene le frequenze rel-
ative marginali del carattere “Settore di Attività Economica”.
Le frequenze relative condizionate del carattere “Settore di Attività Economica”
danno le seguenti informazioni:

• f r(A|N ) = 0.0664 indica che il 6.64% della popolazione occupata residente al


nord risulta essere impiegata nel settore agricolo;
• f r(I|N ) = 0.3923 indica che il 39.23% della popolazione occupata residente al
nord risulta essere impiegata nel settore industriale;
• f r(AA|N ) = 0.5413 indica che il 54.13% della popolazione occupata residente
al nord risulta essere impiegata in altre attività;
• f r(A|CS) = 0.1191 indica che il 11.91% della popolazione occupata residente
al centro sud risulta essere impiegata nel settore agricolo;
• f r(I|CS) = 0.2504 indica che il 25.04% della popolazione occupata residente al
centro sud risulta essere impiegata nel settore industriale;
• f r(AA|CS) = 0.6305 indica che il 63.05% della popolazione occupata residente
al centro sud risulta essere impiegata in altre attività.

Per quanto riguarda il calcolo delle frequenze relative condizionate del carattere “Ri-
partizione Geografica”, fissiamo innanzi tutto l’attenzione sulla distribuzione parziale
1 LA CONNESSIONE 5

associata alla modalità A del carattere “Settore di attività Economica”. In tal caso
le frequenze relative condizionate sono date da:
n11 698
f r(N |A) = = = 0.3587
n1. 1946
n12 1248
f r(CS|A) = = = 0.6413
n1. 1946
In modo del tutto analogo possono essere ricavate le frequenze relative del carattere
“Ripartizione Geografica” condizionate alla modalità I e AA del carattere “Settore di
attività Economica”. I risultati di questi calcoli sono riportati sinteticamente nella
seguente tabella:

Ripartiz. Nord (N) Centro-Sud (CS)


Attività Totale
Agricoltura (A) 0.3587 0.6413 1
Industria (I) 0.6112 0.3888 1
Altre attività (AA) 0.4629 0.5371 1
— 0.5009 0.4991 1

Si osservi che l’ultima riga della tabella sopra riportata contiene le frequenze relative
marginali del carattere “Ripartizione Geografica”.
Le frequenze relative condizionate del carattere “Ripartizione geografica” forniscono
le seguenti informazioni:

• f r(N |A) = 0.3587 indica che il 35.87% della popolazione occupata impiegata
nel settore agricolo risiede al nord;
• f r(CS|A) = 0.6413 indica che il 64.13% della popolazione occupata impiegata
nel settore agricolo risiede al centro sud;
• f r(N |I) = 0.6112 indica che il 66.12% della popolazione occupata impiegata nel
settore industriale risiede al nord;
• f r(CS|I) = 0.3888 indica che il 38.88% della popolazione occupata impiegata
nel settore industriale risiede al centro sud;
• f r(N |AA) = 0.4629 indica che il 46.29% della popolazione occupata impiegata
in altri settori risiede al nord;
• f r(CS|AA) = 0.5371 indica che il 53.71% della popolazione occupata impiegata
in altri settori risiede al centro sud.

Svolgimento punto c) Affinchè tra i due caratteri “Settore di attività Economica” e


“Ripartizione geografica” vi sia indipendenza distributiva, è necessario che ciascu-
na delle frequenze congiunte nij coincida con la corrispondente frequenza teorica di
n ·n
indipendenza distributiva n̂ij = i.N .j :

nij = n̂ij i = 1, 2, 3 j = 1, 2.
1 LA CONNESSIONE 6

E’ sufficiente che una sola frequenza congiunta differisca dalla corrispondente frequen-
za teorica per concludere che tra i due caratteri non vi è indipendenza distributiva.
Ad esempio, se i due caratteri in considerazione fossero indipendenti in distribuzione,
n11 dovrebbe coincidere con:
n1. · n.1 1946 · 10520
n̂11 = = = 974.7605
N 21002
In realtà abbiamo che n11 = 698 6= n̂11 e di conseguenza tra i due caratteri in
considerazione non vi è indipendenza distributiva.
Come richiesto dal testo dell’esercizio, si ricava la tabella delle frequenze teoriche nel
caso di indipendenza distributiva:

Ripartiz. Nord (N) Centro-Sud (CS)


Attività Totale
Agricoltura (A) 974.7605 971.2395 1946
Industria (I) 3382.1084 3369.8916 6752
Altre attività (AA) 6163.1311 6140.8689 12304
Totale 10520 10482 21002

Si osservi che le distribuzioni marginali della tabella delle ferquenze teoriche n̂ij co-
incidono con quelle della tabella delle frequenze effettive nij .
Svolgimento punto d) Le contingenze Cij sono per definizione costituite dalla differen-
za tra la frequenza effettiva nij e quella teorica nel caso di indipendenza distributiva
n̂ij :
Cij = nij − n̂ij i = 1, 2, 3 j = 1, 2.
Il loro calcolo è riportato nella seguente tabella:

Ripartiz. Nord (N) Centro-Sud (CS)


Attività Totale
Agricoltura (A) -276.7605 276.7605 0
Industria (I) 744.8916 -744.8916 0
Altre attività (AA) -468.1311 468.1311 0
Totale 0 0 0

Si osservi che sia i totali di riga che di colonna delle contingenze sono nulli.
Il valore assunto dalle contingenze appena ricavate fornisce le seguenti informazioni:

• C11 = −276.7605: la frequenza congiunta effettiva associata alle modalità A del


carattere “Settore di Attività Economica” e N del carattere “Ripartizione Ge-
ografica”, risulta essere minore rispetto a quella teorica in ipotesi di indipendenza
distributiva. Tra le modalità A del carattere “Settore di attività Economica”, e
N del carattere “Ripartizione Geografica” vi è repulsione in quanto la frequenza
congiunta che si è osservata è inferiore a quella che si sarebbe dovuta osservare
se tra i due caratteri vi fosse stata indipendenza distributiva;
1 LA CONNESSIONE 7

• C12 = 276.7605: la frequenza congiunta effettiva associata alle modalità A del


carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Ge-
ografica”, risulta essere maggiore rispetto a quella teorica in ipotesi di indipen-
denza distributiva. Tra le modalità A del carattere “Settore di Attività Eco-
nomica” e CS del carattere “Ripartizione Geografica” vi è attrazione in quanto
la frequenza congiunta che si è osservata è maggiore di quella che si sarebbe
dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva;
• C21 = 744.8916: la frequenza congiunta effettiva associata alle modalità modal-
ità I del carattere “Settore di Attività Economica” e N del carattere “Ripar-
tizione Geografica”, risulta essere maggiore rispetto a quella teorica in ipotesi di
indipendenza distributiva. Tra le modalità I del carattere “Settore di Attività
Economica” e N del carattere “Ripartizione Geografica” vi è attrazione in quan-
to la frequenza congiunta che si è osservata è maggiore di quella che si sarebbe
dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva;
• C22 = −744.8916: la frequenza congiunta effettiva associata alle modalità modal-
ità I del carattere “Settore di Attività Economica” e CS del carattere “Ripar-
tizione Geografica”, risulta essere minore rispetto a quella teorica in ipotesi di
indipendenza distributiva. Tra le modalità I del carattere “Settore di Attività
Economica” e CS del carattere “Ripartizione Geografica” vi è repulsione in quan-
to la frequenza congiunta che si è osservata è inferiore a quella che si sarebbe
dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva;
• C31 = −468.1311: la frequenza congiunta effettiva associata alle modalità modal-
ità AA del carattere “Settore di Attività Economica” e N del carattere “Ripar-
tizione Geografica”, risulta essere minore rispetto a quella teorica in ipotesi di
indipendenza distributiva. Tra le modalità AA del carattere “Settore di Attività
Economica” e N del carattere “Ripartizione Geografica” vi è repulsione in quan-
to la frequenza congiunta che si è osservata è inferiore a quella che si sarebbe
dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva;
• C32 = 468.1311: la frequenza congiunta effettiva associata alle modalità modal-
ità AA del carattere “Settore di Attività Economica” e CS del carattere “Ripar-
tizione Geografica”, risulta essere maggiore rispetto a quella teorica in ipotesi di
indipendenza distributiva. Tra le modalità AA del carattere “Settore di Attività
Economica” e CS del carattere “Ripartizione Geografica” vi è attrazione in quan-
to la frequenza congiunta che si è osservata è maggiore di quella che si sarebbe
dovuta osservare se tra i due caratteri vi fosse stata indipendenza distributiva;

Svolgimento punto e) Per contingenze relative si intendono le grandezze:

Cij
ρij = i = 1, 2, 3 j = 1, 2.
n̂ij
1 LA CONNESSIONE 8

Il calcolo delle contingenze relative è riportato nella segeunte tabella:


Ripartiz. Nord (N) Centro-Sud (CS)
Attività
Agricoltura (A) -0.2839 0.2839
Industria (I) 0.2202 - 0.2202
Altre attività (AA) -0.0756 0.0756
Il valore assunto dalle contingenze relative appena ricavate fornisce le seguenti infor-
mazioni:
• ρ11 = −0.2839: la frequenza congiunta effettiva associata alle modalità A
del carattere “Settore di Attività Economica” e N del carattere “Ripartizione
Geografica”, è inferiore del 28.39% rispetto a quella teorica d’indipendenza
distributiva.
• ρ12 = 0.2839: la frequenza congiunta effettiva associata alle modalità A del
carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Ge-
ografica”, supera del 28.39% quella teorica d’indipendenza distributiva.
• ρ21 = 0.2202: la frequenza congiunta effettiva associata alle modalità I del carat-
tere “Settore di Attività Economica” e N del carattere “Ripartizione Geografica”,
supera del 22.02% quella teorica d’indipendenza distributiva.
• ρ22 = −0.2202: la frequenza congiunta effettiva associata alle modalità I del
carattere “Settore di Attività Economica” e CS del carattere “Ripartizione Ge-
ografica”, è inferiore del 22.02%rispetto a quella teorica d’indipendenza distrib-
utiva.
• ρ31 = −0.0756: la frequenza congiunta effettiva associata alle modalità AA
del carattere “Settore di Attività Economica” e N del carattere “Ripartizione
Geografica”, è inferiore del 7.56% rispetto a quella teorica d’indipendenza dis-
tributiva.
• ρ11 = 0.0756: la frequenza congiunta effettiva associata alle modalità AA
del carattere “Settore di Attività Economica” e CS del carattere “Ripartizione
Geografica”, supera del 7.56% quella teorica d’indipendenza distributiva.
Svolgimento punto f ) Al fine di effettuare una sintesi delle contingenze relative in
precedenza calcolate, utilizziamo l’indice di connessione di Mortara e l’indice quadrati-
co di connessione di K. Pearson.
L’indice di connessione di Mortara è dato da:
3 2
1 XX
M1 (|ρ|) = |ρij | · n̂ij
N i=1 j=1
3 2
1 XX
= |Cij |
N i=1 j=1
1
= (276.7605 + 276.7605 + 744.8916 + 744.8916 + 468.1311 + 468.1311)
21002
1 LA CONNESSIONE 9

2979.5665
= = 0.1419
21002
Il valore appena individuato informa che, in media, le frequenze effettive differiscono
da quelle teoriche del 14.19% del valore di quest’ultime.
C2
Nella seguente tabella sono riportati i valori dei rapporti n̂ijij . Tali valori saranno utili
per il calcolo dell’indice quadratico di connessione di K. Pearson.

Ripartiz. Nord (N) Centro-Sud (CS)


Attività Totale
Agricoltura (A) 78.5797 78.5797 157.4442
Industria (I) 164.6532 164.6532 328.7117
Altre attività (AA) 35.6866 35.6866 71.2443
Totale 278.1958 279.2044 557.4002

L’indice quadratico di connessione di [Link] è dato da:


v
u 3 X 2
u1 X
M2 (|ρ|) = t ρ2 · n̂ij
N i=1 j=1 ij
v
3 X 2
Cij2
u
u1 X
= t
N i=1 j=1 n̂ij
r
557.4002
= = 0.1629
21002
Il valore appena individuato informa che, in media quadratica, le frequenze effettive
differiscono da quelle teoriche del 16.29% del valore di quest’ultime.
Per avere informazioni sul grado della connessione esistente tra i due caratteri, è
opportuno ricorrere ad un indice normalizzato. Un indice che possiede tale caratte-
ristica, viene ottenuto dividendo l’indice di connessione quadratico di Pearson per il
suo massimo valore assumibile. Il valore massimo assumibile da M2 (|ρ|) corrisponde
al caso di massima connessione tra i due caratteri e, in tale caso, si dimostra che
1
M2 (|ρ|) = (k − 1) 2

dove k = min(r, c) ed r e c indicano il numero di modalità dei due caratteri.


Otteniamo quindi l’indice di connessione quadratico normalizzato:
M2 (|ρ|)
C= 1 .
(k − 1) 2
L’indice appena introdotto gode delle seguenti proprietà:

• 0 ≤ C ≤ 1;
• C = 0 se e solo se tra i caratteri in considerazione vi è indipendenza distributiva;
1 LA CONNESSIONE 10

• C = 1 se e solo se tra i caratteri vi è massima connessione.

Nel nostro caso abbiamo:


0.1629
C= = 0.1629
1
Concludendo, l’indice quadratico di connessione di Pearson, è pari al 16.29% del suo
massimo valore (che corrisponde al caso di massima connessione). Si può quindi
concludere che tra i due caratteri “Settore di Attività Economica” e “Ripartizione
geografica” vi è un basso grado di connessione.

2. I 300 partecipanti ad un concorso pubblico costituito dalle due prove C e D hanno


ottenuto le seguenti valutazioni:

C\D Insufficiente (ID ) Sufficiente (SD ) Buono (BD ) Tot


Insufficiente (IC ) 80 6 4 90
Sufficiente (SC ) 28 60 35 123 .
Buono (BC ) 15 21 51 87
Tot 123 87 90 300

a) Si confrontino le distribuzioni condizionate del carattere “Esito della prova C” e


si commenti;
b) calcolare le contingenze relative e fornire la loro interpretazione;
c) calcolare un indice di connessione ed interpretare il valore ottenuto.

Svolgimento
Svolgimento punto a) Le 3 distribuzioni condizionate, o parziali, del carattere “Esito
della prova C”, corrispondono alle colonne della tabella di contingenza fornita dal
testo dell’esercizio. Si osservi che tali distribuzioni parziali non sono direttamente
confrontabili in quanto hanno differente numerosità complessiva. Per effettuare un
confronto, è opportuno ricavare le distribuzioni condizionate (o parziali) di frequenze
relative:
C\D Insufficiente (ID ) Sufficiente (SD ) Buono (BD ) Tot
Insufficiente (IC ) 0.6504 0.0690 0.0444 0.3
Sufficiente (SC ) 0.2276 0.6897 0.3889 0.41
Buono (BC ) 0.1219 0.2414 0.5667 0.29
Tot 1 1 1 1

La tabella sopra riportata mostra che la quota di prove C valutate insufficienti, varia
al variare dell’esito della prova D. Lo stesso possiamo dire anche per le quote di prove
C che sono state valutate sufficienti o buone. Dato che, se i due caratteri in consid-
erazione fossero indipendenti in distribuzione, tutte le distribuzioni condizionate di
fequenze relative sarebbero identiche, si può concludere che tra “Esito della prova C”
1 LA CONNESSIONE 11

ed “Esito della prova D” non vi è indipendenza distributiva.


Svolgimento punto b) Per calcolare le contingenze è comodo ricavare dapprima le fre-
quenze congiunte teoriche n̂ij nell’ipotesi di indipendenza distributiva. Ricordiamo
che il valore di tale frequenze è dato da:
ni. · n.j
n̂ij = i = 1, ..., r; j = 1, ..., c.
N
Il loro calcolo è riportato nella seguente tabella:
C\D Insufficiente (ID ) Sufficiente (SD ) Buono (BD ) Tot
Insufficiente (IC ) 36.90 26.10 27.00 90
Sufficiente (SC ) 50.43 35.67 36.90 123
Buono (BC ) 35.67 25.23 26.10 87
Tot 123 87 90 300
Nella seguente tabella sono riportati i valori delle contingenze Cij = nij − n̂ij :

C\D Insufficiente (ID ) Sufficiente (SD ) Buono (BD ) Tot


Insufficiente (IC ) 43.10 -20.10 -23.00 0
Sufficiente (SC ) -22.43 24.33 -1.90 0
Buono (BC ) -20.67 -4.23 24.90 0
Tot 0 0 0 0
A questo punto è possibile ricavare agevolmente le contingenze relative ρij ricordando
che:
Cij
ρij = i = 1, ..., r; j = 1, ..., c.
n̂ij
Il loro valore è riportato nella seguente tabella:
C\D Insufficiente (ID ) Sufficiente (SD ) Buono (BD )
Insufficiente (IC ) 1.168 -0.770 -0.852
Sufficiente (SC ) -0.445 0.682 -0.051
Buono (BC ) -0.579 -0.168 0.954
Il valore assunto dalle contingenze relative appena ricavate, fornisce le seguenti in-
formazioni:
• ρ11 = 1.168: la frequenza congiunta effettiva associata alle modalità IC del
carattere “Esito della prova C” e ID del carattere “Esito della prova D”, supera
del 116.8% quella teorica d’indipendenza distributiva.
• ρ21 = −0.445: la frequenza congiunta effettiva associata alle modalità IC del
carattere “Esito della prova C” e SD del carattere “Esito della prova D”, è inferiore
del 44.5% rispetto a quella teorica d’indipendenza distributiva.
• ρ31 = −0.579: la frequenza congiunta effettiva associata alle modalità IC del
carattere “Esito della prova C” e BD del carattere “Esito della prova D”, è
inferiore del 57.9% rispetto a quella teorica d’indipendenza distributiva.
1 LA CONNESSIONE 12

• ρ12 = −0.770: la frequenza congiunta effettiva associata alle modalità SC del


carattere “Esito della prova C” e ID del carattere “Esito della prova D”, è inferiore
del 77.0% rispetto a quella teorica d’indipendenza distributiva.
• ρ22 = 0.682: la frequenza congiunta effettiva associata alle modalità SC del
carattere “Esito della prova C” e SD del carattere “Esito della prova D”, supera
del 68.2% quella teorica d’indipendenza distributiva.
• ρ32 = −0.168: la frequenza congiunta effettiva associata alle modalità SC del
carattere “Esito della prova C” e BD del carattere “Esito della prova D”, è
inferiore del 16.8% rispetto a quella teorica d’indipendenza distributiva.
• ρ13 = −0.852: la frequenza congiunta effettiva associata alle modalità BC del
carattere “Esito della prova C” e ID del carattere “Esito della prova D”, è inferiore
del 85.2% rispetto a quella teorica d’indipendenza distributiva.
• ρ23 = −0.051: la frequenza congiunta effettiva associata alle modalità BC del
carattere “Esito della prova C” e SD del carattere “Esito della prova D”, è inferiore
del 5.1% rispetto a quella teorica d’indipendenza distributiva.
• ρ33 = 0.954: la frequenza congiunta effettiva associata alle modalità BC del
carattere “Esito della prova C” e SD del carattere “Esito della prova D”, supera
del 95.4% quella teorica d’indipendenza distributiva.

Nel loro complesso le contingenze relative sembrano suggerire che tra i due caratteri
allo studio vi sia una elevata connessione, in particolare permettono di osservare la
tendenza dei partecipanti al concorso pubblico ad ottenere la medesima valutazione
in entrambe le prove. Infatti le coppie di modalità (IC ; ID ), (SC ; SD ) e (BC ; BD ) sono
le uniche che si “attraggono” e, come evidenziano i commenti fatti in precedenza, il
grado di tale attrazione è in genere elevato. E’ interessante anche osservare che il
grado di repulsione tende a crescere all’aumentare della diversità nella valutazione
delle due prove. Si osservi ad esempio che ρ31 < ρ21 .
Svolgimento punto c) Per completezza calcoliamo sia l’indice di connessione di Mor-
tara sia l’indice quadratico di connessione di [Link]. L’indice di connessione di
Mortara è dato da:
3 3
1 XX
M1 (|ρ|) = |ρij | · n̂ij
N i=1 j=1
3 3
1 XX
= |Cij |
N i=1 j=1
1
= (43.10 + 20.10 + 23.00 + 22.43 + 24.33 + 1.90 + 20.67 + 4.23 + 24.90)
300
184.66
= = 0.6155
300
Il valore appena individuato informa che, in media, le frequenze effettive differiscono
da quelle teoriche del 61.55% del valore di quest’ultime.
1 LA CONNESSIONE 13

C2
Nella seguente tabella sono riportati i valori dei rapporti n̂ijij . Tali valori saranno utili
per il calcolo dell’indice quadratico di connessione di K. Pearson.
C\D Insufficiente (ID ) Sufficiente (SD ) Buono (BD ) Tot
Insufficiente (IC ) 50.34 15.48 19.59 85.41
Sufficiente (SC ) 9.98 16.60 0.10 26.67
Buono (BC ) 11.98 0.71 23.76 36.44
Tot 72.30 32.78 43.45 148.53

L’indice quadratico di connessione di [Link] è dato da:


v
u 3 X3
u1 X
M2 (|ρ|) = t ρ2 · n̂ij
N i=1 j=1 ij
v
3 X3
Cij2
u
u1 X
= t
N i=1 j=1 n̂ij
r
148.53
= = 0.7037
300
In alternativa, il valore di M2 (|ρ|) si sarebbe potuto ricavare mediante il procedimento
indiretto. A tal fine, ricordiamo che:
r
1 2
M2 (|ρ|) = X
N
dove
3 X 3
2
X (nij − n̂ij )2
X =
i=1 j=1
n̂ij
3 X
3 3 X
3 3 X
3
X n2ij X X
= − n̂ij − 2 nij
i=1 j=1
n̂ij i=1 j=1 i=1 j=1
3
3 X
X n2ij
= −N
i=1 j=1
n̂ij

n2
Nella seguente tabella sono riportati i valori dei rapporti n̂ijij . Tali valori sono utili per
il calcolo, mediante il procedimento indiretto, dell’indice quadratico di connessione
di K. Pearson.
C\D Insufficiente (ID ) Sufficiente (SD ) Buono (BD ) Tot
Insufficiente (IC ) 173.4417 1.3793 0.5926 175.4136374
Sufficiente (SC ) 15.5463 100.9251 33.1978 149.6693
Buono (BC ) 6.3078 17.4792 99.6552 123.4422
Tot 195.2958 119.7836 133.4456 448.5251
1 LA CONNESSIONE 14

In definitiva, si ha che:

X 2 = 448.5251 − 300 = 148.5251

r
1 2
M2 (|ρ|) = X
N
r
1
= 148.5251
300
= 0.7037

Il valore appena individuato informa che, in media quadratica, le frequenze effettive


differiscono da quelle teoriche del 70.37% del valore di quest’ultime.
Per avere informazioni sul grado della connessione esistente tra i due caratteri, ricor-
riamo all’indice normalizzato:
M2 (|ρ|)
C= 1
(k − 1) 2
dove k = min(r, c) ed r e c indicano il numero di modalità dei due caratteri. Nel
nostro caso k = 3 da cui:
M2 (|ρ|)
C = 1
(3 − 1) 2
0.7037
= √
2
= 0.4975

L’indice quadratico di connessione di Pearson, è pari al 49.75% del suo massimo val-
ore (che corrisponde al caso di massima connessione). Si può quindi concludere che
tra i due caratteri “Esito della prova C” e “Esito della prova D” vi è un medio grado
di connessione.

3. I 400 studenti di due istituti di scuola media inferiore sono stati classificati in base
al sesso ed alla categoria di peso (sottopeso, peso forma, sovrappeso). Da tale
classificazione è emerso quanto segue:

1) i maschi sono il 40% degli studenti;


2) il 10% degli studenti è sottopeso; di questi il 30% sono maschi;
3) il 35% degli studenti è sovrappeso; di questi il 65% sono femmine.

a) Costruire la distribuzione congiunta delle frequenze assolute dei due caratteri,


“Sesso” e “Peso”;
b) determinare le distribuzioni di frequenze relative condizionate di “Peso” da “Sesso”;
c) determinare le contingenze assolute e fornire la loro interpretazione;
1 LA CONNESSIONE 15

e) valutare la connessione tra i due caratteri mediante un indice basato sulle contin-
genze.

Svolgimento
Svolgimento punto a) Nel seguito indicheremo ripettivamente con M e F le modalità
maschio e femmina del carattere “Sesso” e con s, P ed S le modalità sottopeso, peso
forma e sovrappeso del carattere “Peso.”
Dall’informazione 1) del testo dell’esercizio abbiamo che

f r(M ) = 0.4

e di conseguenza
f r(F ) = 1 − f r(M ) = 0.6 .
Abbiamo in questo modo ricavato la distribuzione di frequenze relative marginali del
carattere “Sesso”.
Dall’informazione 2) del testo dell’esercizio abbiamo che

f r(s) = 0.1

ed inolte
f r(M |s) = 0.30 .
f r(M,s)
Ricordando che f r(M |s) = f r(s)
abbiamo che

f r(M, s) = f r(M |s) · f r(s) = 0.30 · 0.1 = 0.03

e di conseguenza

f r(F, s) = f r(s) − f r(M, s) = 0.1 − 0.03 = 0.07 .

Abbiamo così ricato le frequenze congiunte relative delle modalità del carattere “Ses-
so” con la modalità s del carattere “Peso”.
Dall’informazione 3) del testo dell’esercizio abbiamo che

f r(S) = 0.35

e sfruttando quanto ricavato in precedenza abbiamo

f r(P ) = 1 − (f r(s) + f r(S)) = 1 − 0.1 − 0.35 = 0.55 .

Siamo in questo modo riusciti a ricavare l’intera distribuzione di frequenze relative


marginali del carattere “Peso”. Abbiamo inoltre che:

f r(F |S) = 0.65 .


f r(F,S)
Ricordando che f r(F |S) = f r(S)
abbiamo

f r(F, S) = f r(F |S) · f r(S) = 0.65 · 0.35 = 0.2275


1 LA CONNESSIONE 16

e di conseguenza

f r(M, S) = f r(S) − f r(F, S) = 0.35 − 0.2275 = 0.1225 .

Siamo in questo modo riusciti a ricavare le frequenze congiunte relative delle modalità
del carattere “Sesso” con la modalità S del carattere “Peso”. Le frequenze congiunte
relative che risultano ancora incognite sono f r(M, P ) e f r(F, P ). Il loro valore è
calcolabile, sfruttando quanto in precedenza ricavato, nel seguente modo:

f r(M, P ) = f r(M ) − f r(M, s) − f r(M, S) = 0.4 − 0.03 − 0.1225 = 0.2475

f r(F, P ) = f r(F ) − f r(F, s) − f r(F, S) = 0.6 − 0.07 − 0.2275 = 0.3025


In definitiva, la distribuzione di fequenze congiunte relative è riportata nelle seguente
tabella:
Sesso\P eso s P S Tot
M 0.03 0.2475 0.1225 0.4
F 0.07 0.3025 0.2275 0.6
Tot 0.1 0.55 0.35 1
La distribuzione di frequenze assolute congiunte può essere a questo punto ricavata
semplicemente moltiplicando per N = 400 le frequenze relative congiunte appena
calcolate. Tale distribuzione è riportata nella tabella seguente:

Sesso\P eso s P S Tot


M 12 99 49 160
F 28 121 91 240
Tot 40 220 140 400

Svolgimento punto b) Iniziamo con il ricavare la distribuzione di frequenze condizio-


nate di “Peso” relative alla modalità M di “Sesso”.
f r(M, s) n(M, s) 0.03 12
f r(s|M ) = = = = = 0.075
f r(M ) n(M ) 0.4 160
f r(M, P ) n(M, P ) 0.2475 99
f r(P |M ) = = = = = 0.6188
f r(M ) n(M ) 0.4 160
f r(M, S) n(M, S) 0.1225 49
f r(S|M ) = = = = = 0.3063
f r(M ) n(M ) 0.4 160
Procedendo in modo analogo possiamo ricavare la distribuzione di frequenze con-
dizionate di “Peso” relative alla modalità F di “Sesso”. I risultati di questi calcoli e
di quelli già fatti in precedenza sono riportati nella seguente tabella.

Sesso\P eso s P S Tot


M 0.0750 0.6188 0.3062 1.000
F 0.1167 0.5042 0.3791 1.000
– 0.1 0.55 0.35 1.000
1 LA CONNESSIONE 17

Svolgimento punto c) Per calcolare le contingenze ricaviamo dapprima le frequenze


congiunte teoriche n̂ij nell’ipotesi di indipendenza distributiva. Ricordiamo che il
valore di tale frequenze è dato da:
ni. · n.j
n̂ij = i = 1, ..., r; j = 1, ..., c.
N
Il loro calcolo è riportato nella seguente tabella:

Sesso\P eso s P S Tot


M 16 88 56 160
F 24 132 84 240
Tot 40 220 140 400

Di seguito sono riportati i valori delle contingenze Cij = nij − n̂ij :

Sesso\P eso s P S Tot


M -4 11 -7 0
F 4 -11 7 0
Tot 0 0 0 0

Si osservi che sia i totali di riga che di colonna delle contingenze sono nulli.
Il valore assunto dalle contingenze appena ricavate fornisce le seguenti informazioni:

• C11 = −4: la frequenza congiunta effettiva associata alle modalità M del carat-
tere “Sesso” e s del carattere “Peso”, risulta essere minore rispetto a quella teorica
in ipotesi di indipendenza distributiva. Tra le modalità F del carattere “Sesso”
e s del carattere “Peso” ’ vi è repulsione in quanto la frequenza congiunta che
si è osservata è minore di quella che si sarebbe dovuta osservare se tra i due
caratteri vi fosse stata indipendenza distributiva;
• C21 = 4: la frequenza congiunta effettiva associata alle modalità F del carattere
“Sesso” e s del carattere “Peso”, risulta essere maggiore rispetto a quella teorica
in ipotesi di indipendenza distributiva. Tra le modalità F del carattere “Sesso”
e s del carattere “Peso” vi è attrazione in quanto la frequenza congiunta che si
è osservata è maggiore di quella che si sarebbe dovuta osservare se tra i due
caratteri vi fosse stata indipendenza distributiva;
• C12 = 11: la frequenza congiunta effettiva associata alle modalità M del carat-
tere “Sesso” e P del carattere “Peso”, risulta essere maggiore rispetto a quella
teorica in ipotesi di indipendenza distributiva. Tra le modalità M del carattere
“Sesso” e P del carattere “Peso” vi è attrazione in quanto la frequenza congiunta
che si è osservata è maggiore di quella che si sarebbe dovuta osservare se tra i
due caratteri vi fosse stata indipendenza distributiva;
• C22 = −11: la frequenza congiunta effettiva associata alle modalità F del carat-
tere “Sesso” e P del carattere “Peso”, risulta essere minore rispetto a quella
teorica in ipotesi di indipendenza distributiva. Tra le modalità F del carattere
1 LA CONNESSIONE 18

“Sesso” e P del carattere “Peso” vi è repulsione in quanto la frequenza congiunta


che si è osservata è minore di quella che si sarebbe dovuta osservare se tra i due
caratteri vi fosse stata indipendenza distributiva;
• C13 = −7: la frequenza congiunta effettiva associata alle modalità M del carat-
tere “Sesso” e S del carattere “Peso”, risulta essere minore rispetto a quella
teorica in ipotesi di indipendenza distributiva. Tra le modalità M del carattere
“Sesso” e S del carattere “Peso” vi è repulsione in quanto la frequenza congiunta
che si è osservata è minore di quella che si sarebbe dovuta osservare se tra i due
caratteri vi fosse stata indipendenza distributiva;
• C23 = 7: la frequenza congiunta effettiva associata alle modalità F del carattere
“Sesso” e S del carattere “Peso”, risulta essere maggiore rispetto a quella teorica
in ipotesi di indipendenza distributiva. Tra le modalità F del carattere “Sesso”
e S del carattere “Peso” vi è attrazione in quanto la frequenza congiunta che
si è osservata è maggiore di quella che si sarebbe dovuta osservare se tra i due
caratteri vi fosse stata indipendenza distributiva;
Svolgimento punto d) Per completezza calcoliamo sia l’indice di connessione di Mor-
tara che l’indice quadratico di connessione di [Link].
Al fine di agevolare il calcolo dell’indice di connessione di Mortara, riportiamo di
seguito la tabella delle contingenze in valore assoluto |Cij |.
Sesso\P eso s P S Tot
M 4 11 7 22
F 4 11 7 22
Tot 8 22 14 44
L’indice di connessione di Mortara è dato da:
r c
1 XX
M1 (|ρ|) = |Cij |
N i=1 j=1
44
= = 0.11
400
Il valore appena individuato informa che, in media, le frequenze effettive differiscono
da quelle teoriche del 11% del valore di quest’ultime.
C2
Nella seguente tabella sono riportati i valori dei rapporti n̂ijij . Tali valori saranno utili
per il calcolo dell’indice quadratico di connessione di K. Pearson.
Sesso\P eso s P S Tot
M 1.000 1.375 0.875 3.250
F 0.667 0.917 0.583 2.167
Tot 1.667 2.292 1.458 5.417
L’indice quadratico di connessione di [Link] è dato da:
v
u1 r X c
Cij2
u X
M2 (|ρ|) = t
N i=1 j=1 n̂ij
1 LA CONNESSIONE 19

r
5.417
= = 0.1164
400
Il valore appena individuato informa che, in media quadratica, le frequenze effettive
differiscono da quelle teoriche del 11.64% del valore di quest’ultime.
Per avere informazioni sul grado della connessione esistente tra i due caratteri, ricor-
riamo all’indice normalizzato:
M2 (|ρ|)
C= 1
(k − 1) 2
dove k = min(r, c) ed r e c indicano il numero di modalità dei due caratteri. Nel
nostro caso k = 2 da cui:
M2 (|ρ|)
C = 1
(2 − 1) 2
0.1164
= √
1
= 0.1164

L’indice quadratico di connessione di Pearson, è pari al 11.64% del suo massimo val-
ore (che corrisponde al caso di massima connessione). Si può quindi concludere che
tra i due caratteri “Sesso” e “Peso” vi è un basso grado di connessione.
STATISTICA: esercizi svolti sulla
DIPENDENZA IN MEDIA

1
1 LA DIPENDENZA IN MEDIA 2

1 LA DIPENDENZA IN MEDIA
1. La popolazione in migliaia di unità occupata in Piemonte nel 1985 per reddito annuo
Y (migliaia di euro) e per settore di attività economica A è riportata nella seguente
tabella:
Settore Agricoltura Industria Altre attività
Reddito Totale
Fino a 15 50 116 160 326
15 a 30 90 140 241 471 .
30 a 45 20 200 260 480
45 a 65 1 280 200 481
Totale 161 736 861 1758

a) Determinare la media aritmetica e la varianza per ciascuna distribuzione parziale


del reddito assumendo 10 come valore centrale per la classe di reddito Fino a
15 ;
b) determinare media e varianza del reddito per la distribuzione totale e verificare la
proprietà associativa della media aritmetica e la scomposizione della varianza;
c) esiste indipendenza in media di Y da A? In caso di risposta negativa fornire una
misura del grado di dipendenza e commentare.

Svolgimento
Svolgimento punto a) Nella seguente tabella riportiamo i calcoli utili per ricavare le
medie parziali del carattere “Reddito Annuo”:

Reddito
Agricoltura Industria Altre Attività
(valori centrali)
yi ni1 yi · ni1 ni2 yi · ni2 ni3 yi · ni3
10 50 500 116 1160 160 1600
22.5 90 2025 140 3150 241 5422.5
37.5 20 750 200 7500 260 9750
55 1 55 280 15400 200 11000
Totale 161 3330 736 27210 861 27772.5

Le medie parziali del carattere “Reddito Annuo” risultano essere:


3330
• ȳ1 = = 20.68: la popolazione piemontese occupata nel settore agricolo,
161
durante l’anno 1985, ha avuto un reddito medio annuo pari a 20.68 migliaia di
euro. Più precisamente 20.68 indica il reddito annuo che sarebbe spettato, nel
1985, a ciascun agricoltore se il reddito annuo totale degli agricoltori fosse stato
suddiviso in parti uguali tra gli stessi, ossia nell’ipotesi in cui ciascun agricoltore
avesse avuto lo stesso reddito;
1 LA DIPENDENZA IN MEDIA 3

27210
• ȳ2 = = 36.97: la popolazione piemontese occupata nel settore industriale,
736
durante l’anno 1985, ha avuto un reddito medio annuo pari a 36.97 migliaia di
euro. Più precisamente 36.97 indica il reddito annuo che sarebbe spettato nel
1985 ad un impiegato nell’indistria, se il reddito annuo totale degli impiegati in
questo settore fosse stato suddiviso in parti uguali tra gli stessi, ossia nell’ipotesi
in cui ciascun occupato nell’industria avesse avuto lo stesso reddito;
27772.5
• ȳ3 = = 32.26: la popolazione piemontese occupata in altre attività,
861
durante l’anno 1985, ha avuto un reddito medio annuo pari a 32.26 migliaia
di euro. Più precisamente 32.26 indica il reddito annuo che sarebbe spettato
nel 1985 ad un impiegato nelle altre attività, se il reddito annuo totale degli
impiegati in questi settori fosse stato suddiviso in parti uguali tra gli stessi,
ossia nell’ipotesi in cui ciascun occupato in altre attività avesse avuto lo stesso
reddito.

Osserviamo che i salari medi variano al mutare dell’attività economica svolta. Pos-
siamo dunque concludere che il “Reddito Annuo” non è indipendente in media dal
“Settore di Attività Economica”.
Calcoliamo le varianze delle distribuzioni parziali utilizzando il metodo indiretto:
4
1 X 2
σj2 = yi · nij − ȳj2 j = 1, 2, 3.
n.j i=1

Al fine di agevolare i calcoli, predisponiamo la seguente tabella:

Reddito
Agricoltura Industria Altre Attività
(valori centrali)
yi ni1 yi2· ni1 ni2 yi2· ni2 ni3 yi2 · ni3
10 50 5000 116 11600 160 16000
22.5 90 45562.5 140 70875 241 122006.25
37.5 20 28125 200 281250 260 365625
55 1 3025 280 847000 200 605000
Totale 161 81712.5 736 1210725 861 1108631.25

Le varianze parziali risultano essere:


81712.5
σ12 = − 20.682 = 79.74
161

1210725
σ22 = − 36.972 = 278.22
736

1108631.25
σ32 = − 32.262 = 247.15
861
1 LA DIPENDENZA IN MEDIA 4

Svolgimento punto b) La seguente tabella riporta i conti che facilitano il calcolo della
media e della varianza dell’intera popolazione:
yi ni. yi · ni. yi2 · ni.
10 326 3260 32600
22.5 471 10597.5 238443.75
37.5 480 18000 675000
55 481 26455 1455025
T otale 1758 58312.5 2401068.75
Il reddito medio aritmetico per l’intera popolazione risulta essere:
4
1 X
ȳ = yi · ni.
N i=1
58312.5
= = 33.17
1758
La popolazione piemontese occupata, nel 1985, ha avuto un reddito medio pari a
33.17 migliaia di euro. Più precisamente 33.17 indica il reddito che sarebbe spettato
nel 1985 ad un occupato in Piemonte, se il reddito totale degli occupati fosse stato
suddiviso in parti uguali tra gli stessi, ossia nell’ipotesi in cui ciascun occupato avesse
avuto lo stesso reddito.
Di seguito calcoliamo il valore di ȳ sfuttando la proprietà associativa della media
aritmetica:
3
1 X
ȳ = ȳj · n.j
N j=1
1
= [(20.68 · 161) + (36.97 · 736) + (32.26 · 861)]
1758
= 33.17
Il valore appena ricavato coincide con quanto calcolato in precedenza e la proprietà
associativa della media aritmetica risulta così verificata.
La varianza della popolazione totale (calcolata con il metodo indiretto) risulta essere:
4
2 1 X 2
σ = y · ni . − ȳ 2
N i=1 i
2401068.75
= − 33.172 = 265.56 .
1758
Al fine di verificare la scomposizione della varianza, calcoliamo la varianza nei gruppi:
3
DN 1 X 2
= σ · n.j
N N j=1 j
1
= [(79.74 · 161) + (278.22 · 736) + (247.15 · 861)]
1758
= 244.83 .
1 LA DIPENDENZA IN MEDIA 5

La varianza tra le medie parziali risulta essere:


3
DF 1 X
= (ȳj − ȳ)2 · n.j
N N j=1
1
= [(20.68 − 33.17)2 · 161 + (36.97 − 33.17)2 · 736 + (32.26 − 33.17)2 · 861]
1758
36456.85
= = 20.74 .
1758
La varianza totale risulta di conseguenza pari a
DT DN DF
= +
N N N
= 244.83 + 20.74 = 265.57

che coincide con quanto ricavato in precedenza.


Svolgimento punto c) Come già osservato, dato che le medie parziali del reddito var-
iano al mutare del settore di attività economica, possiamo concludere che il “Reddito
Annuo” non è indipendente in media dal “Settore di Attività Economica”.
Dato che nel caso di indipendenza in media si ha ȳ1 = ȳ2 = ȳ3 = ȳ, al fine di quantifi-
care l’allontanamento dall’indipendenza in media è del tutto naturale utilizzare un
indice basato sugli scarti |ȳi − ȳ|. Uno di questi indici è:
(3
) 21
1 X
M2 (|ȳj − ȳ|) = (|ȳj − ȳ|)2 · n.j
N j=1
r
DF √
= = 20.74 = 4.55
N
Il valore assunto dall’indice informa che, mediamente, le medie parziali differiscono
dalla media totale di 4.55 migliaia di euro.
Al fine di valutare il grado di dipendenza in media, utilizziamo il rapporto di corre-
lazione di K. Pearson:
DF
DF
2
η(Y /A) = = N
DT DT
N
20.74
= = 0.078 .
265.57
Il valore dell’indice informa che la variabilità fra le medie parziali, rappresenta il
7.8% della variabilità totale. L’indice è pari al 7.8% del suo massimo valore assumi-
bile (corrispondente al caso di massima connessione) e ci permette di concludere che
il carattere “Reddito Annuo” è debolmente dipendente in media dal carattere “Settore
di Attività Economica”.
1 LA DIPENDENZA IN MEDIA 6

2. La seguente tabella riporta i dati relativi a 74 alberghi di una nota località sciistica
classificati in base al numero di stanze (carattere X) e alla categoria (carattere Y ):
Categoria Alta Bassa
Stanze
Fino a 10 10 15 .
11 `a 20 16 20
oltre 20 5 8

a) Calcolare le medie e le varianze totali e parziali del carattere X verificando la


proprietà associativa della media aritmetica e la scomposizione della varianza;
b) calcolare le distribuzioni condizionate di frequenze relative del carattere X e
stabilire, in base ad esse, se esiste indipendenza distributiva tra i due caratteri;
c) fornire un indice che valuti il grado di dipendenza in media del carattere X dal
carattere Y .

Svolgimento
Al fine di calcolare la media e la varianza del carattere X, supponiamo di chiudere
le classi “Fino a 10” e “oltre 20” rispettivamente con i valori 1 e 30, ottenendo così le
classi:
1 `a 10 e 21 `a 30 .
Sulla base di queste ipotesi è possibile ricavare i valori centrali di ciascuna delle classi
in cui sono raggrupate le modalità di X. Il loro valore, insieme ad altri calcoli, è
riportato nella seguente tabella:

Stanze
Alta Bassa Totale
(valori centrali)
xi ni1 xi · ni1 x2i · ni1 ni2 xi · ni2 x2i · ni2 ni· xi · ni· x2i · ni·
5.5 10 55 302.5 15 82.5 453.75 25 137.5 756.25
15.5 16 248 3844 20 310 4805 36 558 8649
25.5 5 127.5 3251.25 8 204 5202 13 331.5 8453.25
Totale 31 430.5 7397.75 43 596.5 10460.75 74 1027 17858.5

La media aritmetica del carattere X è data da:


3
1 X
x̄ = xi · ni.
N i=1
1027
= = 13.878 .
74
In media, i 74 alberghi hanno 13.878 stanze. Più precisamente 13.878 indica il numero
ipotetico di stanze di ogni albergo nell’ipotesi in cui tutti gli alberghi avessero un
1 LA DIPENDENZA IN MEDIA 7

ugual numero di stanze (a parità del numero totale delle stesse).


Calcoliamo a questo punto le medie parziali del carattere X.
3
1 X
x̄1 = xi · ni1
n.1 i=1
430.5
= = 13.887 .
31
In media, i 31 alberghi di alta categoria hanno 13.887 stanze. Più precisamente 13.887
indica il numero ipotetico di stanze di ogni albergo di alta categoria nell’ipotesi in
cui tutti gli alberghi di questa categoria avessero un ugual numero di stanze (a parità
del numero totale delle stesse all’interno della categoria in considerazione).

3
1 X
x̄2 = xi · ni2
n.2 i=1
596.5
= = 13.872 .
43
In media, i 43 alberghi di bassa categoria hanno 13.872 stanze. Più precisamente
13.872 indica il numero ipotetico di stanze di ogni albergo di bassa categoria nel-
l’ipotesi in cui tutti gli alberghi di questa categoria avessero un ugual numero di
stanze (a parità del numero totale delle stesse all’interno della categoria in conside-
razione).
Verifichiamo la proprietà associativa della media aritmetica:
2
1 X
x̄ = x̄j · n.j
N j=1
(13.887 · 31) + (13.872 · 43)
= = 13.878
74
che coincide con quanto ricavato in precedenza.
La varianza del carattere X è data da:
3
1 X 2
σ2 = x · ni. − x̄2
N i=1 i
17858.5
= − 13.8782 = 48.732 .
74
Le varianze parziali del carattere X risultano essere:
3
1 X 2
σ12 = xi · ni1 − x̄21
n.1 i=1
7397.75
= − 13.8872 = 45.788 .
31
1 LA DIPENDENZA IN MEDIA 8

3
1 X 2
σ22 = xi · ni2 − x̄22
n.2 i=1
10460.75
= − 13.8722 = 50.841 .
43
Al fine di verificare la scomposizione della varianza, calcoliamo la varianza nei gruppi:
2
DN 1 X 2
= σ · n.j
N N j=1 j
(45.788 · 31) + (50.841 · 43)
= = 48.724 .
74
Calcoliamo la varianza tra le medie parziali:
2
DF 1 X
= (x̄j − x̄)2 · n.j
N N j=1
(13.887 − 13.878)2 · 31 + (13.872 − 13.878)2 · 43
=
74

= 0 .

La varianza totale risulta di conseguenza pari a:


DT
σ2 =
N
DN DF
= +
N N

= 48.724 .

La discrepanza tra il valore appena ottenuto e quello ricavato in precedenza, è at-


tribuibile ad approssimazioni e possiamo dunque ritenere verificata la scomposizione
della varianza.
Svolgimento punto b) Le distribuzioni condizionate di frequenze relative del carattere
X sono riportate nella seguente tabella:

Categoria Alta Bassa


Stanze
Fino a 10 0.323 0.349
.
11 `a 20 0.516 0.465
oltre 20 0.161 0.186
tot 1 1

Dato che, se i due caratteri in considerazione fossero indipendenti in distribuzione, le


distribuzioni condizionate di fequenze relative sarebbero identiche, si può concludere
che tra i caratteri X e Y non vi è indipendenza distributiva.
Svolgimento punto c) Le medie parziali del carattere X calcolate in precedenza non
1 LA DIPENDENZA IN MEDIA 9

sono identiche e di conseguenza X non è indipendente in media da Y . Tuttavia il


loro valore è molto simile e ciò è indice del fatto che il grado di dipendenza in media
di X da Y dovrebbe essere basso. Al fine di valutare oggettivamente il grado di
dipendenza in media, utilizziamo il rapporto di correlazione di K. Pearson:
DF
DF 0 ∼
2
η(X/Y ) = = N ∼= =0 .
DT DT 48.732
N
Il valore assunto dall’indice è approssimativamente pari a 0 e vale a dire al valore che
lo stesso assumerebbe nel caso in cui X fosse indipendente in media da Y . Il valore
assunto dall’indice informa che il grado di dipendenza in media è basso a tal punto
che X può sostanzialmente ritenersi indipendente in media da Y .

3. Mille alunni di una scuola superiore sono stati classificati in base al rendimento
scolastico, X, ed al numero di libri extra-scolastici letti, Y . Da tale rilevazione è
emerso quanto segue:

• il 70% degli alunni ha un rendimento medio-basso; di questi il 60% legge in


media due libri, il 30% ne legge in media 3 ed il restante 10% ne legge in media
4;
• il 30% degli alunni ha un rendimento medio-alto; di questi il 20% legge in media
due 3 libri, il 40% ne legge in media 4 e un altro 40% ne legge in media 5.

a) Costruire la distribuzione congiunta delle frequenze assolute dei due caratteri, X


e Y;
b) senza effettuare calcoli, dire se esiste indipendenza distributiva fra Y ed X e
motivare la risposta;
c) verificare se esiste indipendenza in media di Y da X e in caso di risposta negativa
valutare il grado di dipendenza in media attraverso un indice adeguato.

Svolgimento
Svolgimento punto a) Dalle informazioni che vengono fornite dal testo dell’esercizio
abbiamo che che:
• il numero totale di studenti classificati è N = 1000;
• il carattere “Rendimento Scolastico” assume le due modalità medio-basso (MB)
e medio-alto (MA);
70 30
• n(M B) = 1000 · = 700 e n(M A) = 1000 · = 300;
100 100
• il carattere “N◦ di libri extrascolastici mediamente letti ogni mese” assume le
modalità {2; 3; 4; 5};
60 60
• n(M B, 2) = n(M B) = 700 · = 420;
100 100
1 LA DIPENDENZA IN MEDIA 10

30 30
• n(M B, 3) = n(M B) = 700 · = 210;
100 100
10 10
• n(M B, 4) = n(M B) = 700 · = 70;
100 100
• n(M B, 5) = 0;
• n(M A, 2) = 0;
20 20
• n(M A, 3) = n(M A) = 300 · = 60;
100 100
40 40
• n(M A, 4) = n(M A) = 300 · = 120;
100 100
40 40
• n(M A, 5) = n(M A) = 300 · = 120.
100 100
I risultati appena ottenuti sono riportati nella seguente tabella di contingenza:
X\Y 2 3 4 5 Totale
MB 420 210 70 0 700
.
MA 0 60 120 120 300
Totale 420 270 190 120 1000
Svolgimento punto b) Si osservi che, nella precedente tabella, le coppie di modalità
(M B, 5) e (M A, 2) hanno una frequenza congiunta pari a zero. Osserviamo inoltre
che, ad esempio, n(M B) 6= 0 e n(5) 6= 0. Di conseguenza
n(M B) · n(5)
n̂(M B, 5) = 6= 0.
N
Nel caso della coppia di modalità (M B, 5), la frequenza congiunta osservata n(M B, 5)
non coincide con la frequenza congiunta teorica del caso di indipendenza distributiva
n̂(M B, 5). Possiamo quindi concludere che i caratteri X e Y non sono indipendenti
in distribuzione.
Svolgimento punto c) Al fine di verificare se esite indipendenza in media di Y da X,
calcoliamo le medie parziali di Y.
(2 · 420) + (3 · 210) + (4 · 70) + 0
ȳ(M B) = = 2.5 ;
700
0 + (3 · 60) + (4 · 120) + (5 · 120)
ȳ(M A) = = 4.2; .
300
(2 · 420) + (3 · 270) + (4 · 190) + (5 · 120)
ȳ = = 3.01 ;
1000
Dato che le medie parziali del carattere Y non sono uguali, il carattere Y non è in-
dipendente in media dal carattere X. Al fine di quantificare il grado della dipendenza
in media di Y da X, calcoliamo il rapporto di correlazione di [Link]. Preliminar-
mente al calcolo di quest’indice, è necessario ricavare i valori della devianza totale e
della devianza fra le medie parziali. Quest’ultima è data da:
DF = (2.5 − 3.1)2 · 700 + (4.2 − 3.01)2 · 300
= 606.9 .
1 LA DIPENDENZA IN MEDIA 11

La devianza totale è data da:


DT = [(2)2 · 420 + (3)2 · 270 + (4)2 · 190 + (5)2 · 120] − (3.01)2 · 1000
= 10150 − 9060.1 = 1089.9 .
Il rapporto di correlazione di [Link], di conseguenza, risulta:
2 DF
η(Y /X) =
DT
606.9
= = 0.5568 .
1089.9
Il valore dell’indice informa che la variabilità fra le medie parziali, rappresenta il
55.68% della variabilità totale. L’indice è pari al 55.68% del suo massimo valore
assumibile (corrispondente al caso di massima connessione) e di conseguenza vi è un
buon grado di dipendenza in media del carattere Y dal carattere X .

4. La rilevazione congiunta su 190 famiglie del livello di reddito familiare annuo, X, e


della spesa annua (in migliaia di euro) destinata a viaggi e vacanze, Y , ha fornito il
seguente risultato:
X\Y 0a2 2a5 5a7 Totale
Basso 45 20 5 70
Medio 20 35 10 65 .
Alto 0 20 35 55
Totale 65 75 50 190

a) Valutare, qualora possibile, il grado di dipendenza in media di Y da X e quella


di X da Y attraverso un adeguato indice.
b) Stabilire senza effettuare calcoli se i caratteri X e Y possono ritenersi indipendenti
in distribuzione.

Svolgimento
Svolgimento punto a) Osserviamo innanzitutto che non è possibile valutare il grado di
dipendenza in media di X da Y in quanto il carattere X è qualitativo. Concentriamo
quindi l’attenzione sullo studio della dipendenza in media di Y da X. A tal fine
verifichiamo se Y è indipendente in media da X confrontando i valori delle medie
parziali di Y. Per facilitare il loro calcolo, predisponiamo la seguente tabella:

Y
Basso Medio Alto Totale
(valori centrali)
yi ni1 yi · ni1 ni2 yi · ni2 ni3 yi · ni3 ni· yi · ni·
1 45 45 20 20 0 0 65 65
3.5 20 70 35 122.5 20 70 75 262.5
6 5 30 10 60 35 210 50 300
Totale 70 145 65 202.5 55 280 190 627.5
1 LA DIPENDENZA IN MEDIA 12

Le medie parziali del carattere Y sono date da:


145
ȳ1 = = 2.07
70
202.5
ȳ2 = = 3.11
65
280
ȳ3 = = 5.09
55
627.5
ȳ = = 3.30
190
Come possiamo osservare, le medie parziali non sono tra loro uguali e di conseguenza
Y non è indipendente in media da X. A questo punto è interessante valutare il grado
della dipendenza in media di Y da X. A tal fine calcoliamo il rapporto di correlazione
di [Link]. Preliminarmente al calcolo di quest’indice, è necessario ricavare i valori
della devianza totale e della devianza fra le medie parziali. Quest’ultima è data da:

DF = (2.07 − 3.3)2 · 70 + (3.11 − 3.3)2 · 65 + (5.09 − 3.3)2 · 55


= 105.90 + 2.35 + 176.23 = 284.48 .

La devianza totale è data da:

DT = (1 − 3.3)2 · 65 + (3.5 − 3.3)2 · 75 + (6 − 3.3)2 · 50


= 343.85 + 3.00 + 364.50 = 711.35 .

Il rapporto di correlazione di [Link] è di conseguenza dato da:

2 DF
η(Y /X) =
DT
284.48
= = 0.3999 .
711.35
Il valore dell’indice informa che la variabilità fra le medie parziali rappresenta il
39.99% della variabilità totale. L’indice è pari al 39.99% del suo massimo valore
assumibile (corrispondente al caso di massima connessione) e di conseguenza vi è un
contenuto grado di dipendenza in media del carattere Y dal carattere X .
Svolgimento punto b) Tra i caratteri in considerazione non vi è indipendenza distrib-
utiva in quanto Y non è indipendente in media da X.
STATISTICA esercizi svolti su:
INTERPOLAZIONE PONDERATA,
REGRESSIONE E CORRELAZIONE

1
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2

1 INTERPOLAZIONE PONDERATA, REGRESSIONE E


CORRELAZIONE

1.1 Esercizi
1. La seguente tabella riporta i dati relativi al numero Y di pezzi prodotti ed al numero
X di addetti di 108 imprese di un certo settore economico:
Y 10 15 20
X Totale
0⊢⊣4 12 12 0 24
5⊢⊣11 12 12 24 48
12⊢⊣30 0 36 0 36
Totale 24 60 24 108

a) Stabilire se esiste indipendenza in media di Y da X ed in caso di risposta negativa


valutare il grado di dipendenza in media utilizzando un indice adeguato;
b) valutare il grado di correlazione lineare tra X e Y ;
c) calcolare i parametri della retta a minimi quadrati di Y in funzione di X;
d) con riferimento alla retta ottenuta al punto precedente si calcoli da devianza
spiegata e si scomponga opportunamente la devianza totale;
e) si valuti la bontà di adattamento della retta individuata.

Svolgimento

a) Per stabilire se esiste indipendenza in media del carattere Y dal carattere X, è


necessario calcolare le medie parziali di Y .

10 · 12 + 15 · 12 + 20 · 0
ȳ1 = M1 (Y |X ∈ [0, 4]) =
24
300
= = 12.5.
24

10 · 12 + 15 · 12 + 20 · 24
ȳ2 = M1 (Y |X ∈ [5, 11]) =
48
780
= = 16.25.
48

10 · 0 + 15 · 36 + 20 · 0
ȳ3 = M1 (Y |X ∈ [12, 30]) =
36
540
= = 15.
36
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 3

Calcoliamo ora anche la media totale del carattere Y :


10 · 24 + 15 · 60 + 20 · 24
ȳ = M1 (Y ) =
108
1620
= = 15.
108
Poichè non si ha che
ȳ1 = ȳ2 = ȳ3 = ȳ
possiamo concludere che non c’è indipendenza in media del carattere Y dal
carattere X.

Calcoliamo la varianza di Y :

var(Y ) = σT2 OT = M1 (Y 2 ) − [M1 (Y )]2


100 · 24 + 225 · 60 + 400 · 24
= − (15)2
108
25500
= − 225
108
= 236.1̄ − 225 = 11.1̄

e considerando i gruppi determinati dalle modalità del carattere X, calcoliamo


la varianza fra i gruppi (fra le medie parziali):
r
1 X
σF2 = (ȳi − ȳ)2 · ni·
N i=1
3
1 X
= (ȳi − ȳ)2 · ni·
108 i=1
1
= · [(12.5 − 15)2 · 24 + (16.25 − 15)2 · 48 + (15 − 15)2 · 36]
108
= 2.083̄.

Possiamo a questo punto calcolare il rapporto di correlazione:

2 σF2 2.083̄
η(Y /X) = = = 0.1875
σT2 11.1̄
e concludere che la varianza fra i gruppi (fra le medie parziali) è il 18.75% della
varianza totale.
2
Ricordando che l’indice η(Y /X) è sempre compreso tra 0 e 1, possiamo concludere
che in questo caso, la dipendenza in media di Y da X è debole.
b) Per calcolare il coefficiente di correlazione lineare, è necessario calcolare lo scarto
quadratico medio di Y : √
σ(Y ) = 11.1̄ = 3.3̄;
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 4

la media aritmetica di X:
r
1 X c 2 · 24 + 8 · 48 + 21 · 36
M1 (X) = x̄ = xi · ni· = = 11;
N i=1 108

la varianza di X:
σ 2 (X) = M1 (X 2 ) − [M1 (X)]2
3
1 X c 2
= (x ) · ni· − (x̄)2
108 i=1 i
4 · 24 + 64 · 48 + 441 · 36
= − (11)2
108
1188
= − 121
108
= 55.3̄
da cui si ottiene lo scarto quadratico medio di X:

σX = 55.3̄ = 7.4386.

Non ci rimane che calcolare la covarianza tra X e Y . É importante sottoli-


neare che, avendo a disposizione una tabella a doppia entrata, il calcolo della
covarianza tra X e Y deve tenere conto delle frequenze congiunte nij :
r c
1 XX
cov(X, Y ) = (xi − x̄)(yj − ȳ)nij (metodo diretto)
N i=1 j=1
r c
1 XX
= xi yj nij − x̄ȳ (metodo indiretto).
N i=1 j=1

Per facilitare il calcolo, completiamo la seguente tabella nel seguente modo:


nella cella (i, j) inseriamo il valore ottenuto moltiplicando la i-esima modalità
di X per la j-esima modalità di Y per la frequenza congiunta corrispondente
nij :
Y 10 15 20
X
2 · 10 · 12 = 2 · 15 · 12 = 2 · 20 · 0 =
2
240 360 0
8 · 10 · 12 = 8 · 15 · 12 = 8 · 20 · 24 =
8
960 1440 3840
21 · 10 · 0 = 21 · 15 · 36 = 21 · 20 · 0 =
21
0 11340 0
18180
r X
X c
= xi yj nij
i=1 j=1
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 5

Possiamo calcolare quindi la covarianza tra X e Y :


r c
1 XX
cov(X, Y ) = xi yj nij − x̄ȳ
n i=1 j=1
1
= · 18180 − 11 · 15
108
= 3.3̄

e il coefficiente di correlazione lineare tra X e Y :


cov(X, Y ) 3.3̄
r(X, Y ) = = = 0.1344.
σX σY 7.4386 · 3.3̄

Ricordando che il coefficiente di correlazione r è sempre compreso tra −1 e 1,


possiamo affermare che tra i caratteri X e Y esiste una debole correlazione
lineare positiva.
c) Calcoliamo ora i parametri della retta a minimi quadrati (retta di regressione).
Ricordiamo che ciò significa determinare i parametri della retta interpolante fra
i punti noti (xci ; ȳi ) [i = 1, 2, 3] aventi come coordinate i valori centrali delle
classi in cui è suddiviso X e le corrispondenti medie parziali di Y .
Tale interpolazione è però un’interpolazione ponderata: ciò significa che ciascun
punto (xci ; ȳi ) va considerato avente frequenza pari alla numerosità del gruppo
corrispondente (ni· ).
Per maggiore chiarezza, esplicitiamo che in questo caso la nuvola di punti è co-
stituita dai punti (2; 12.5), (8; 16.25), (21; 15) rispettivamente con frequenze pari
a 24, 48, 36.

Impostiamo il sistema:

cod(Ȳi , X)
 α̂1 =


dev(X)


α̂0 = ȳ − α̂1 · x̄.

Calcoliamo per prima cosa la codevianza tra le medie parziali di Y e X:


3
X
cod(Ȳi , X) = (ȳi − ȳ)(xi − x̄) · ni·
i=1
= (12.5 − 15)(2 − 11)24 + (16.25 − 15)(8 − 11)48 + (15 − 15)(21 − 11)36
= 540 − 180 + 0 = 360

e poi la devianza di X:

dev(X) = σ 2 (X) · N = 55.3̄ · 108 = 5976.


1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 6

Se ora sostituiamo nel sistema, otteniamo


360

 α̂1 =

5976

α̂0 = 15 − α̂1 · 11

cioè 
 α̂1 = 0.0602

α̂0 = 14.3378.

La retta di regressione ha perciò equazione:

Ŷ = 14.3378 + 0.0602 · X.

Interpretiamo i parametri della retta di regressione:


– α0 = 14.3378 significa che (in teoria) un’ impresa con 0 addetti ha una
produzione media pari a 14.3378 pezzi. Notiamo che in questo caso il valore
di α0 è poco significativo (in quanto non ha senso valutare il numero di
pezzi prodotti da un’impresa con 0 addetti);
– α1 = 0.0602 significa che all’aumentare di un addetto, il numero medio di
pezzi prodotti aumenta di 0.0602 unità.

In figura (1) vediamo rappresentata graficamente la retta di regressione e la nu-


vola dei punti con le corrispondenti frequenze.

Y
20 24 Y=14.3378+0.0602X

y2 y3
15 12 12
36
12.5 y1
10 12 12

0 2 5 8 10 15 20 25 30 X

Fig. 1: Grafico della retta di regressione Ŷ = 14.3378 + 0.0602 · X.

É importante notare che se a questo punto, si determinano i parametri della ret-


ta interpolante la nuvola di punti costituita dalle coppie (xi ; yj ) [i, j = 1, 2, 3],
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 7

tenendo ovviamente in considerazione le frequenze congiunte nij , si ottiene la


stessa retta di regressione individuata precedentemente. Per verificarlo, è neces-
sario seguire il seguente procedimento.

Per calcolare i parametri della retta interpolante la nuvola di punti costituita


dalle coppie (xi ; yj )
Ŷ = α̂0 + α̂1 · X
è necessario impostare il seguente sistema:

cov(X, Y )
 α̂1 =


var(X)


α̂0 = ȳ − α̂1 · x̄

da cui, utilizzando le quantità precedentemente ricavate, otteniamo che


3.3̄

 α̂1 =

55.3̄


α̂0 = 15 − α̂1 · 11

cioè 
 α̂1 = 0.0602

α̂0 = 14.3378

La retta interpolante la nuvola di punti costituita dalle coppie (xi ; yj ) ha perciò


equazione:
Ŷ = 14.3378 + 0.0602 · X
e coincide con la retta di regressione già individuata.
d) Per calcolare la devianza spiegata e la devianza residua, sono necessari i valori
ŷi , ovvero i valori previsti della retta di regressione in corrispondenza dei valori
centrali delle classi di X:

ŷ1 = 14.3378 + 0.0602 · x1 = 14.3378 + 0.0602 · 2 = 14.4582

ŷ2 = 14.3378 + 0.0602 · x2 = 14.3378 + 0.0602 · 8 = 14.8194


ŷ3 = 14.3378 + 0.0602 · x3 = 14.3378 + 0.0602 · 21 = 15.602.
Per calcolare la devianza spiegata completiamo ora la seguente tabella.
xi ȳi ŷi ŷi − ȳ ni· (ŷi − ȳ)2 ni·
2 12.5 14.4582 -0.5418 24 7.0451
8 16.5 14.8194 -0.1806 48 1.5656
21 15 15.602 0.602 36 13.0465
108 21.6572
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 8

Si ha quindi che la devianza spiegata (dalla retta) è:


3
X
DS = (ŷi − ȳ)2 ni· = 21.6572.
i=1

Si calcola ora la devianza totale:

DT = σT2 (Y ) · N
= 11.1̄ · 108 = 1200.

Per calcolare invece la devianza residua, si completa la seguente tabella in cui


abbiamo inserito nella cella (i, j) la quantità (yj − ŷi )2 nij :

Y 10 15 20
X
(10 − 14.4582)2 · 12 = (15 − 14.4582)2 · 12 = (20 − 14.4582)2 · 0 =
2
238.506 3.522 0
(10 − 14.8194)2 · 12 = (15 − 14.8194)2 · 12 = (20 − 14.8194)2 · 24 =
8
278.7192 0.3912 644.1264
(10 − 15.602)2 · 0 = (15 − 15.602)2 · 36 = (20 − 15.602)2 · 0 =
21
0 13.0464 0

A titolo esemplificativo, riportiamo i calcoli effettuati per completare la cella


centrale della prima colonna (corrispondente a i = 2 e j = 1).
Il valore contenuto nella cella (2,1) è stato calcolato nel seguente modo: indivi-
duato il valore centrale della seconda classe (i = 2) del carattere X, x2 = 8, si è
sottratto il valore previsto ŷ2 dalla retta di regressione in corrispondenza di tale
valore dall’effettivo primo (j = 1) valore assunto da Y , y1 = 10:

y1 − ŷ2 = 10 − 14.8194 = −4.8194.

Il valore trovato è stato poi elevato al quadrato e moltiplicato per la frequenza


n21 :
(y1 − ŷ2 )2 · n21 = (−4.8194)2 · 12 = 278.7192.
I valori contenuti nelle altre celle sono stati calcolati in modo analogo.

Sommando tutti i valori contenuti nelle celle della precedente tabella, otteniamo
la devianza residua:
3 X
X 3
DR = (yj − ŷi )2 nij = 1178.3112.
i=1 j=1

Verifichiamo perciò la scomposizione:


1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 9

1178.3112 + 21.6572 = 1199.97 (∼


= 1200)

DEVIANZA + DEVIANZA = DEVIANZA


RESIDUA SPIEGATA TOTALE
d) Per valutare la bontà di adattamento della retta di regressione, calcoliamo
l’indice di determinazione delle medie parziali, rapportando la devianza spiegata
alla devianza fra i gruppi:
DS 21.6572
Id∗2 = = = 0.0962
DF 225
dal momento che

DF = σF2 (Y ) · 108 = 2.083̄ · 108 = 225.

Il valore di Id∗2 indica che la retta di regressione non rappresenta in maniera


soddisfacente le medie parziali, visto che la varianza spiegata è pari al 9.62%
della varianza fra le medie.

Passiamo a calcolare l’indice di determinazione


DS 21.6572
Id2 = = = 0.018.
DT 1200
Il valore di Id2 indica che la retta di regressione spiega solo l’1.8% della variabilità
totale del carattere Y .

Entrambi i valori degli indici Id∗2 e Id2 ci permettono di concludere che la bontà
di adattamento della retta di regressione alla situazione analizzata è bassissima.

2. Si consideri la seguente tabella che riporta la distribuzione bivariata delle variabili X


e Y:
X -1 0 1
Y Totale
0 5 5 0 10
1 10 40 0 50
4 0 25 15 40
Totale 15 70 15 100

a) valutare il grado di dipendenza in media di Y da X;


b) calcolare i parametri della retta interpolante che spiega Y come funzione di X;
c) si calcolino opportuni indici dell’ordine di grandezza dei residui di interpolazione
rispetto alla retta individuata al punto precedente;
d) analizzare con un opportuno indice quanta parte della devianza totale è spiegata
dall’interpolante lineare;
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 10

e) valutare il grado di correlazione lineare tra X e Y e commentare.

Svolgimento

a) Per prima cosa, calcoliamo le medie parziali del carattere Y :

0 · 5 + 1 · 10 + 4 · 0
ȳ1 = M1 (Y |X = −1) =
15
10
= = 0.6̄
15

0 · 5 + 1 · 40 + 4 · 25
ȳ2 = M1 (Y |X = 0) =
70
140
= =2
70

0 · 0 + 1 · 0 + 4 · 15
ȳ3 = M1 (Y |X = 1) =
15
60
= = 4.
15
Calcoliamo ora anche la media totale del carattere Y :
0 · 10 + 1 · 50 + 4 · 40
ȳ = M1 (Y ) =
100
210
= = 2.1.
100
Poichè non si ha che
ȳ1 = ȳ2 = ȳ3 = ȳ
possiamo concludere che non c’è indipendenza in media del carattere Y dal
carattere X.

Calcoliamo la varianza di Y :

var(Y ) = σT2 OT = M1 (Y 2 ) − [M1 (Y )]2


02 · 10 + 12 · 50 + 42 · 40
= − (2.1)2
100
690
= − 4.41
100
= 6.9 − 4.41 = 2.49
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 11

e considerando i gruppi determinati dalle modalità del carattere X, calcoliamo


la varianza fra i gruppi (fra le medie parziali):
c
1 X
σF2 = (ȳj − ȳ)2 · n·j
N j=1
3
1 X
= (ȳj − ȳ)2 · n·j
100 j=1
1
= · [(0.6̄ − 2.1)2 · 15 + (2 − 2.1)2 · 70 + (4 − 2.1)2 · 15]
100
85.6̄
= = 0.856̄.
100
Si può a questo punto calcolare il rapporto di correlazione:

2 σF2 0.856̄
η(Y /X) = 2 = = 0.344
σT 2.49
osservando che la varianza fra i gruppi (fra le medie parziali) rappresenta il
34.4% della varianza totale.
2
Ricordando che l’indice η(Y /X) è sempre compreso tra 0 e 1, possiamo concludere
che esiste una bassa dipendenza in media di Y da X.
b) Si determinano ora i parametri α̂0 e α̂1 della retta interpolante

Ŷ = α̂0 + α̂1 · X

con 
cov(X, Ȳj )
 α̂1 =


var(X)


α̂0 = ȳ − α̂1 · x̄

dove si è indicato con Ȳj il carattere che assume valori pari alle medie parziali
di Y con frequenze pari alle numerosità dei gruppi.
Si calcola la media aritmetica di X:
−1 · 15 + 0 · 70 + 1 · 15
M1 (X) = x̄ = =0
100
e la varianza di X:

σ 2 (X) = M1 (X 2 ) − [M1 (X)]2


3
1 X
= (xj )2 · n·j − (x̄)2
100 j=1
(−1)2 · 15 + 02 · 70 + 12 · 15
= − (0)2
100
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 12

30
= −0
100
= 0.3

e si completa la tabella

xj ȳj n·j xj ȳj n·j


−1 0.6̄ 15 −9.9̄
0 2 70 0
1 4 15 60
100 50

Calcolando quindi la covarianza tra X e le medie parziali di Y , si ha:

3
1 X
cov(X, Ȳj ) = xj ȳj n·j − x̄ȳ
N j=1
1
= · 50 − 2.1 · 0
100
= 0.5.

Sostituendo nel sistema, si ottiene


0.5

 α̂1 =

0.3

α̂0 = 2.1 − α̂1 · 0

da cui 
 α̂1 = 1.6̄

α̂0 = 2.1.

L’equazione della retta di regressione è pertanto:

Ŷ = 2.1 + 1.6̄ · X.

In figura (2) è riportata la rappresentazione grafica della retta di regressione e


la nuvola dei punti con la corrispondente frequenza.
Interpretiamo i parametri della retta di regressione:
– α0 = 2.1 significa che la retta di regressione prevede per la variabile Y , il
valore medio 2.1, in corrispondenza del valore 0 della variabile X;
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 13

Y
y3 15
4 25

Y=2.1+1.6X

2 y2

10 1 40
y1 0.6
5 5
-1 0 1 X
Fig. 2: Grafico della retta di regressione Ŷ = 2.1 + 1.6̄ · X.

– α1 = 1.6̄ significa che la retta prevede, attuando un incremento unitario


della variabile X, un aumento medio del valore della variabile Y di 1.6̄.

c) Per valutare l’ordine di grandezza dei residui di interpolazione, completiamo la


seguente tabella:
xj ȳj ŷj n·j |ȳj − ŷj | |ȳj − ŷj |n·j |ȳj − ŷj |2 |ȳj − ŷj |2 n·j
-1 0.6̄ 0.43̄ 15 0.23̄ 3.5 0.054 0.81
0 2 2.1 70 0.1 7 0.01 0.7
1 4 3.76̄ 15 0.23̄ 3.5 0.054 0.81
100 14 2.32
e calcoliamo la media aritmetica dei moduli dei residui:
3
1 X
A∗1 = |ȳj − ŷj |n·j
N j=1
1
= · 14 = 0.14.
100
Tale valore indica che mediamente i valori previsti dalla retta di regressione si
discostano dalle medie parziali di 0.14.
Possiamo anche calcolare la media quadratica dei residui:
v
u 3
u1 X
A2 =
∗ t |ȳj − ŷj |2 n·j
N j=1
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 14


r
1
= · 2.32 = 0.0232 = 0.152
100

e interpretare il valore ottenuto nel seguente modo: mediamente (in media


quadratica) i valori previsti dalla retta di regressione si discostano dalle me-
die parziali di 0.152.

d) Per valutare quanta parte della varianza totale è spiegata dalla retta inter-
polante, bisogna calcolare l’indice di determinazione :

σS2
Id2 = .
σT2

Calcoliamo perciò la varianza spiegata: per far ciò, completiamo la tabella


seguente, ricordando che ȳ = 2.1.
xj ŷj n·j (ŷj − ȳ)2 (ŷj − ȳ)2 n·j
-1 0.43̄ 15 2.7̄ 41.6̄
0 2.1 70 0 0
1 3.76̄ 15 2.7̄ 41.6̄
100 83.3
Abbiamo perciò che la varianza spiegata è
3
1 X 83.3̄
σS2 = (ŷj − ȳ)2 n·j = = 0.83̄.
100 j=1 100

Ricordando che var(Y ) = σT2 OT = 2.49, ricaviamo l’indice di determinazione

0.83̄
Id2 = = 0.335.
2.49
Tale valore indica che la retta di regressione spiega il 33.5% della variabilità
totale di Y .
Se però calcoliamo l’indice Id∗2 , otteniamo

σS2 0.83̄
Id∗2 = 2
= = 0.973.
σF 0.856̄

Tale valore indica che la retta di regressione spiega il 97.3% della variabilità fra
le medie parziali di Y .

Confrontando i valori dei due indici Id2 e Id∗2 , possiamo concludere che il modello
Ŷ = 2.1 + 1.6̄ · X spiega bene la variabilità fra le medie parziali, ma non la
variabilità totale, perchè la varianza nei gruppi è elevata.
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 15

d) Per valutare il grado di correlazione lineare tra X e Y , calcoliamo il coefficiente


di correlazione lineare:
cov(X, Y )
r(X, Y ) = .
σ(X)σ(Y )
Ricordando che
cov(X, Y ) = cov(X, Ȳj ) = 0.5,
σ 2 (X) = 0.3,
σ 2 (Y ) = 2.49,
si ottiene
0.5
r(X, Y ) = √ √ = 0.5785.
0.3 2.49
Dal valore ottenuto concludiamo che tra il carattere X e il carattere Y c’è una
media correlazione lineare positiva.

3. La seguente tabella riporta i dati (in migliaia) relativi agli occupati con doppio lavoro
classificati in base alle ore settimanali di lavoro impiegate nella attività principale
(carattere X) e nelle attività secondarie (carattere Y ):

X 5–15 16–25 26–40 41–50


Y Totale
0–10 4 7 133 58 202
11–20 5 15 66 21 107 .
21–30 12 11 11 4 38
31–40 20 2 2 1 25
Totale 41 35 212 84 372

a) Esiste indipendenza distributiva? In caso di risposta negativa costruire la tabella


delle frequenze congiunte in modo che i caratteri X e Y risultino indipendenti
in distribuzione.
b) Calcolare e commentare le contingenze assolute.
c) Calcolare un indice che misuri il grado di connessione tra i due caratteri.
d) Esiste indipendenza in media di Y da X? In caso di risposta negativa si valuti
il grado di dipendenza in media.
e) Calcolare i parametri della retta interpolante a minimi quadrati che si ritiene
più opportuna dato il significato dei caratteri e tracciarne il grafico.
f) Dopo aver calcolato la varianza spiegata, scomporre opportunamente la varianza
totale.
g) Valutare con un opportuno indice la bontà di adattamento della retta individ-
uata al punto e).
h) Calcolare ed interpretare il coefficiente di correlazione lineare tra X e Y .
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 16

Svolgimento

a) Se esiste indipendenza distributiva tra X e Y , sappiamo che deve valere la


relazione
ni· · n·j
nij = per i = 1, 2, 3, 4; per j = 1, 2, 3, 4.
N
Verifichiamo se vale tale relazione per i = 1 e j = 1:
n1· · n·1 202 · 41
= = 22.26
N 372
e
n11 = 4.
Poichè 22.26 6= 4, possiamo concludere che non c’è indipendenza distributiva.
Costruiamo perciò la tabella delle frequenze teoriche n̂ij in caso di indipendenza
distributiva.
X 5–15 16–25 26–40 41–50
Y Totale
0–10 22.26 19 115.12 45.61 202
11–20 11.79 10.07 60.98 24.16 107
21–30 4.19 3.57 21.66 8.58 38
31–40 2.76 2.35 14.25 5.65 25
Totale 41 35 212 84 372

b) Costruiamo la tabella delle contingenze assolute Cij = nij − n̂ij :

X 5–15 16–25 26–40 41–50


Y Totale
0–10 -18.26 -12 17.88 12.39 0
11–20 -6.79 4.93 5.02 -3.16 0
21–30 7.81 7.43 -10.66 -4.58 0
31–40 17.24 -0.35 -12.25 4.65 0
Totale 0 0 0 0 0
Il valore delle contingenze assolute appena calcolate fornisce le seguenti infor-
mazioni:
• C11 = −18.26: la frequenza congiunta effettiva associata alle classi “5 − 15”
del carattere X e “0 − 10” del carattere Y , risulta essere minore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “5 − 15” del
carattere X e “0 − 10” del carattere Y vi è repulsione in quanto la frequenza
congiunta che si è osservata è inferiore a quella che si sarebbe dovuta osser-
vare se tra i due caratteri ci fosse stata indipendenza distributiva;

• C12 = −12: la frequenza congiunta effettiva associata alle classi “16 − 25”
del carattere X e “0 − 10” del carattere Y , risulta essere minore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “16 − 25” del
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 17

carattere X e “0 − 10” del carattere Y vi è repulsione in quanto la frequenza


congiunta che si è osservata è inferiore a quella che si sarebbe dovuta osser-
vare se tra i due caratteri ci fosse stata indipendenza distributiva;

• C13 = 17.88: la frequenza congiunta effettiva associata alle classi “26 − 40”
del carattere X e “0 − 10” del carattere Y , risulta essere maggiore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “26 − 40” del
carattere X e “0 − 10” del carattere Y vi è attrazione in quanto la frequen-
za congiunta che si è osservata è superiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;

• C14 = 12.39: la frequenza congiunta effettiva associata alle classi “41 − 50”
del carattere X e “0 − 10” del carattere Y , risulta essere maggiore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “41 − 50” del
carattere X e “0 − 10” del carattere Y vi è attrazione in quanto la frequen-
za congiunta che si è osservata è superiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;

• C21 = −6.79: la frequenza congiunta effettiva associata alle classi “5 − 15”


del carattere X e “11 − 20” del carattere Y , risulta essere minore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “5 − 15” del
carattere X e “11 − 20” del carattere Y vi è repulsione in quanto la frequen-
za congiunta che si è osservata è inferiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;

• C22 = 4.93: la frequenza congiunta effettiva associata alle classi “16 − 25”
del carattere X e “11 − 20” del carattere Y , risulta essere maggiore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “16 − 25” del
carattere X e “11 − 20” del carattere Y vi è attrazione in quanto la frequen-
za congiunta che si è osservata è superiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;

• C23 = 5.02: la frequenza congiunta effettiva associata alle classi “26 − 40”
del carattere X e “11 − 20” del carattere Y , risulta essere maggiore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “26 − 40” del
carattere X e “11 − 20” del carattere Y vi è attrazione in quanto la frequen-
za congiunta che si è osservata è superiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;

• C24 = −3.16: la frequenza congiunta effettiva associata alle classi “41 − 50”
del carattere X e “11 − 20” del carattere Y , risulta essere minore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “41 − 50” del
carattere X e “11 − 20” del carattere Y vi è repulsione in quanto la frequen-
za congiunta che si è osservata è inferiore a quella che si sarebbe dovuta
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 18

osservare se tra i due caratteri ci fosse stata indipendenza distributiva;

• C31 = 7.81: la frequenza congiunta effettiva associata alle classi “5 − 15” del
carattere X e “21 − 30” del carattere Y , risulta essere maggiore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “5 − 15” del
carattere X e “21 − 30” del carattere Y vi è attrazione in quanto la frequen-
za congiunta che si è osservata è superiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;

• C32 = 7.43: la frequenza congiunta effettiva associata alle classi “16 − 25”
del carattere X e “21 − 30” del carattere Y , risulta essere maggiore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “16 − 25” del
carattere X e “21 − 30” del carattere Y vi è attrazione in quanto la frequen-
za congiunta che si è osservata è superiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;

• C33 = −10.66: la frequenza congiunta effettiva associata alle classi “26−40”


del carattere X e “21 − 30” del carattere Y , risulta essere minore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “26 − 40” del
carattere X e “21 − 30” del carattere Y vi è repulsione in quanto la frequen-
za congiunta che si è osservata è inferiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;

• C34 = −4.58: la frequenza congiunta effettiva associata alle classi “41 − 50


del carattere X e “21 − 30” del carattere Y , risulta essere minore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “41 − 50” del
carattere X e “21 − 30” del carattere Y vi è repulsione in quanto la frequen-
za congiunta che si è osservata è inferiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;

• C41 = 17.24: la frequenza congiunta effettiva associata alle classi “5 − 15”


del carattere X e “31 − 40” del carattere Y , risulta essere maggiore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “5 − 15” del
carattere X e “31 − 40” del carattere Y vi è attrazione in quanto la frequen-
za congiunta che si è osservata è superiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;

• C42 = −0.35: la frequenza congiunta effettiva associata alle classi “16 − 25”
del carattere X e “31 − 40” del carattere Y , risulta essere minore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “16 − 25” del
carattere X e “31 − 40” del carattere Y vi è repulsione in quanto la frequen-
za congiunta che si è osservata è inferiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 19

• C43 = −12.25: la frequenza congiunta effettiva associata alle classi “26−40”


del carattere X e “31 − 40” del carattere Y , risulta essere minore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “26 − 40” del
carattere X e “31 − 40” del carattere Y vi è repulsione in quanto la frequen-
za congiunta che si è osservata è inferiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva;

• C44 = −4.65: la frequenza congiunta effettiva associata alle classi “41 − 50”
del carattere X e “31 − 40” del carattere Y , risulta essere minore di quella
teorica in ipotesi di indipendenza distributiva. Tra le classi “41 − 50” del
carattere X e “31 − 40” del carattere Y vi è repulsione in quanto la frequen-
za congiunta che si è osservata è inferiore a quella che si sarebbe dovuta
osservare se tra i due caratteri ci fosse stata indipendenza distributiva.

c) Calcoliamo un indice che misuri il grado di connessione. Scegliamo l’indice


di connessione quadratico di Pearson: troviamo quindi la media quadratica
ponderata delle contingenze relative (ρij ), con pesi pari alle frequenze teoriche
(n̂ij )
v
u1 r X c
u X
M2 (|ρ|) = t ρ2 · n̂ij
N i=1 j=1 ij
v
u1 r X c
(nij − n̂ij )2
u X
= t · n̂ij
N i=1 j=1 n̂2ij
v
u1 r X c
(nij − n̂ij )2
u X
= t
N i=1 j=1 n̂ij
v
u1 r X c
Cij2
u X
= t
N i=1 j=1 n̂ij

Per completare i conti, si completa la seguente tabella in cui inseriamo nella


Cij2
cella (i, j) la quantità :
n̂ij

X 5–15 16–25 26–40 41–50


Y
0–10 14.98 7.58 2.78 3.37
11–20 3.91 2.41 0.41 0.41
21–30 14.56 15.46 5.25 2.44
31–40 107.69 0.05 10.53 3.82
195.65
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 20

Si ha quindi
v
u1 r X c
Cij2
u X r
1
M2 (|ρ|) = t = · 195.65 = 0.53.
N i=1 j=1 n̂ij 372

Il valore appena trovato informa che, in media quadratica, le frequenze effettive


differiscono da quelle teoriche del 53% del valore di quest’ultime.

Per valutare il grado di connessione tra i caratteri X e Y è necessario calcolare


un indice di connessione normalizzato. Calcoliamo perciò l’indice
M2 (|ρ|)
C= 1
(k − 1) 2
dove k è il minimo tra il numero di modalità del carattere X e il numero di
modalità del carattere Y .
Nel nostro caso, k = 4, quindi:
0.53 0.53
C= = √ = 0.30.
1
(4 − 1) 2 3
Il valore ottenuto ci informa che l’indice quadratico di connessione di Pearson
(M2 (|ρ|)) è pari al 30% del suo massimo valore (che corrisponde al caso di mas-
sima connessione).
Possiamo pertanto affermare che tra i due caratteri X e Y vi è un basso grado
di connessione.

d) Per valutare se c’è indipendenza in media di Y da X, calcoliamo le medie parziali


di Y , utilizzando i valori centrali delle classi:

5 · 4 + 15.5 · 5 + 25.5 · 12 + 35.5 · 20


ȳ1 = M1 (Y |X ∈ [5, 15]) = = 27.16
41
5 · 7 + 15.5 · 15 + 25.5 · 11 + 35.5 · 2
ȳ2 = M1 (Y |X ∈ [16, 25]) = = 17.69
35
5 · 133 + 15.5 · 66 + 25.5 · 11 + 35.5 · 2
ȳ3 = M1 (Y |X ∈ [26, 40]) = = 9.62
212
5 · 58 + 15.5 · 21 + 25.5 · 4 + 35.5 · 1
ȳ4 = M1 (Y |X ∈ [41, 50]) = = 8.96.
84
Calcoliamo ora anche la media totale del carattere Y :
5 · 202 + 15.5 · 107 + 25.5 · 38 + 35.5 · 25
ȳ = M1 (Y ) = = 12.16.
372
Poichè non si ha che
ȳ1 = ȳ2 = ȳ3 = ȳ4 = ȳ
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 21

possiamo concludere che non c’è indipendenza in media del carattere Y dal
carattere X.

Calcoliamo la varianza di Y :

var(Y ) = σT2 OT = M1 (Y 2 ) − [M1 (Y )]2


52 · 202 + 15.52 · 107 + 25.52 · 38 + 35.5 · 25
= − (12.16)2
372
86972.5
= − 147.85
372
= 233.80 − 147.85 = 85.93.

e la varianza fra i gruppi (fra le medie parziali):


c
1 X
σF2 = (ȳj − ȳ)2 · n·j
N j=1
4
1 X
= (ȳj − ȳ)2 · n·j
372 j=1
1
= · [(27.16 − 12.16)2 · 41 + (17.69 − 12.16)2 · 35
372
+(9.62 − 12.16)2 · 212 + (8.96 − 12.16)2 · 84]
12551.28
= = 33.74.
372
Possiamo a questo punto calcolare il rapporto di correlazione:

2 σF2 33.74
η(Y /X) = 2
= = 0.392
σT 85.93
ed osservare che la varianza fra i gruppi (fra le medie parziali) è il 39.2% della
varianza totale.
2
Ricordando che l’indice η(Y /X) è sempre compreso tra 0 e 1, possiamo concludere
che esiste una bassa dipendenza in media di Y da X.
e) Determiniamo i parametri della retta di regressione

Ŷ = α0 + α1 · X

in modo da ricavare il numero di ore destinate alle attività secondarie in fun-


zione delle ore dedicate all’attività principale.

Calcoliamo la media aritmetica di X:


c
1 X c
M1 (X) = x̄ = x · n·j
N j=1 j
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 22

10 · 41 + 20.5 · 35 + 33 · 212 + 45.5 · 84


=
372
= 32.11

e la varianza di X:

σ 2 (X) = M1 (X 2 ) − [M1 (X)]2


4
1 X c 2
= (x ) · n·j − (x̄)2
372 j=1 j
(10)2 · 41 + (20.5)2 · 35 + (33)2 · 212 + (45.5)2 · 84
= − (32.11)2
372
423577.75
= − 1031.0521
372
= 107.5

Avendo già calcolato le medie parziali di Y e completiamo la seguente tabella.

xcj ȳj n·j xj ȳj n·j


10 27.16 41 11135.6
20.5 17.69 35 12692.575
33 9.62 212 67301.52
45.5 8.96 84 34245.12
125374.815

e calcoliamo la covarianza tra X e le medie parziali di Y (che sappiamo coincidere


con cov(X, Y )):
4
1 X
cov(X, Ȳj ) = cov(X, Y ) = xj ȳj n·j − x̄ȳ
N j=1
1
= · 125374.815 − (32.11 · 12.16)
372
= −53.42.

A questo punto possiamo risolvere il sistema



cov(X, Y )
 α̂1 =


var(X)


α̂0 = ȳ − α̂1 · x̄

sostituendo i valori:
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 23

−53.42

 α̂1 =

107.5

α̂0 = 12.16 − α̂1 · 32.11

e otteniamo 
 α̂1 = −0.50

α̂0 = 28.22.

L’equazione della retta di regressione è pertanto

Ŷ = 28.22 − 0.5 · X.

Interpretiamo i parametri della retta di regressione:

• α0 = 28.22 significa che la retta di regressione prevede per la variabile Y , il


valore medio 28.22, in corrispondenza del valore 0 per la variabile X;
• α1 = 0.5 significa che all’incremento unitario della variabile X, il valore medio
della variabile Y aumenta di 0.5.

Il grafico della retta è riportato in figura (3).

Y
28
Y=28.22-0.5X
20
15 (X,Y)
10

0 10 20 30 X
Fig. 3: Grafico della retta di regressione Ŷ = 28.22 − 0.5 · X.
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 24

f) Per calcolare la devianza spiegata e la devianza residua, sono necessari i valori ŷj ,
ovvero i valori previsti della retta di regressione in corrispondenza dei valori centrali
delle classi di X: calcoliamoli.

ŷ1 = 28.22 − 0.5 · xc1 = 28.22 − 0.5 · 10 = 23.22

ŷ2 = 28.22 − 0.5 · xc2 = 28.22 − 0.5 · 20.5 = 17.97


ŷ3 = 28.22 − 0.5 · xc3 = 28.22 − 0.5 · 33 = 11.72
ŷ4 = 28.22 − 0.5 · xc4 = 28.22 − 0.5 · 45.5 = 5.47.

Per calcolare la varianza spiegata, completiamo la seguente tabella.

xcj ŷj n·j (ŷj − ȳ)2 n·j


10 23.22 41 5015.27
20.5 17.97 35 1181.46
33 11.72 212 41.04
45.5 5.47 84 3759.51
9997.28

Quindi la varianza spiegata è:


4
1 X
σS2 = · (ŷj − ȳ)2 n·j = 26.87.
372 j=1

Calcoliamo ora la varianza residua, completando la seguente tabella in cui andiamo


a calcolare nella cella (i, j) la quantità (yi − ŷj )2 nij .

xcj 10 20.5 33 45.5


yic
(5 − 23.22)2 · 4 (5 − 17.97)2 · 7 (5 − 11.72)2 · 133 (5 − 5.47)2 · 58
5
= 1327.87 = 1177.55 = 6006.07 = 12.81
(15.5 − 23.22)2 · 5 (15.5 − 17.97)2 · 15 (15.5 − 11.72)2 · 66 (15.5 − 5.47)2 · 21
15.5
= 297.99 = 91.51 = 943.03 = 2112.62
(25.5 − 23.22)2 · 12 (25.5 − 17.97)2 · 11 (25.5 − 11.72)2 · 11 (25.5 − 5.47)2 · 4
25.5
= 62.38 = 623.71 = 2088.77 = 1604.8
(35.5 − 23.22)2 · 20 (35.5 − 17.97)2 · 2 (35.5 − 11.72)2 · 2 (35.5 − 5.47)2 · 1
35.5
= 3015.97 = 614.6 = 1130.98 = 901.8

Facendo la media di tutti i valori, otteniamo la varianza residua:


4 4
1 XX 22012.46
σR2 = (yi − ŷj )2 nij = = 59.17.
372 i=1 j=1 372
1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 25

É quindi verificata la scomposizione:

59.17 + 26.87 = 86.04 (∼


= 85.93)

DEVIANZA + DEVIANZA = DEVIANZA


RESIDUA SPIEGATA TOTALE

g) Valutiamo la bontà di adattamento della retta di regressione, calcolando l’indice di


determinazione:
DS 26.87
Id2 = = = 0.31.
DT 85.93
Il 31% della variabilità totale del carattere Y è spiegato dalla retta di regressione:
abbiamo quindi una scarsa bontà di adattamento.

h) Calcoliamo il coefficiente di correlazione lineare:

cov(X, Y ) −53.42
r(X, Y )) p p =√ √ = −0.55.
var(X) var(Y ) 107.5 85.93

Dal valore del coefficiente di correlazione lineare, possiamo dedurre che esiste una
discreta correlazione lineare negativa tra i due caratteri.

Potrebbero piacerti anche