Sei sulla pagina 1di 179

UNIVERSITÀ DEGLI STUDI DI PARMA

DIPARTIMENTO DI INGEGNERIA E ARCHITETTURA

Eserciziario di Statistica e
Analisi dei Dati
Giorgia Casella e Piero Ganugi

Anno Accademico 2017/2018

1
Avvertenza:
gli studenti che devono sostenere la prima parte “Statistica” non sono tenuti a
preparare i seguenti argomenti affrontati nell’eserciziario:
- le distribuzioni doppie, le variabili casuali, la mistura (capitolo 7);
- l’analisi della varianza (capitolo 8);
- la regressione lineare multivariata (parte del capitolo 9);
- le distanze (capitolo 10);
- l’analisi discriminante (capitolo 11);
- le componenti principali (capitolo 12).

2
Sommario
1. La distribuzione di una variabile statistica ........................................................................................... 7
Esercizio 1.1 – Rappresentazione grafica di una distribuzione con carattere di cella ............................. 7
Esercizio 1.2 – Rappresentazione grafica di una distribuzione con carattere discreto .......................... 10
Esercizio 1.3 – Rappresentazione grafica di una distribuzione con carattere qualitativo sconnesso .... 11
Esercizio 1.4 – Costruzione di una distribuzione da una successione di valori..................................... 12
Esercizio 1.5 – Costruzione di una distribuzione da una successione di valori..................................... 13
Esercizio 1.6 – Rappresentazione grafica di una distribuzione e della sua cumulata ............................ 14
Esercizio 1.7 – Rappresentazione grafica di una distribuzione e della sua cumulata relativa ............... 16
Esercizio 1.8 – Da una funzione di ripartizione ad una distribuzione di densità................................... 18
Esercizio 1.9 – Proprietà di una funzione di ripartizione ...................................................................... 19
Esercizio 1.10 – Proprietà di una distribuzione di densità....................................................................... 20
2. Le medie ................................................................................................................................................. 21
Esercizio 2.1 – Media aritmetica ........................................................................................................... 21
Esercizio 2.2 – Media aritmetica ........................................................................................................... 22
Esercizio 2.3 - Mediana ......................................................................................................................... 23
Esercizio 2.4 – Media geometrica ......................................................................................................... 24
Esercizio 2.5 – Media armonica ............................................................................................................ 26
Esercizio 2.6 – Media geometrica ......................................................................................................... 27
Esercizio 2.7 – Media di una distribuzione statistica ............................................................................ 28
Esercizio 2.8 – Media di una variabile statistica ................................................................................... 29
Esercizio 2.9 – Media di una variabile statistica ................................................................................... 30
Esercizio 2.10 – Media quadratica .......................................................................................................... 31
Esercizio 2.11 – Media geometrica ......................................................................................................... 32
Esercizio 2.12 – Media di quarto ordine.................................................................................................. 33
Esercizio 2.13 – Medie di potenze .......................................................................................................... 34
Esercizio 2.14 – Media, mediana e moda di una variabile statistica ....................................................... 36
Esercizio 2.15 – Media e mediana di una variabile statistica .................................................................. 37
3. La variabilità .......................................................................................................................................... 39
Esercizio 3.1 – Scomposizione devianza............................................................................................... 39
Esercizio 3.2 – Scostamento assoluto dalla media e dalla mediana ...................................................... 41
Esercizio 3.3 – Proprietà della varianza ................................................................................................ 42
Esercizio 3.4 – Variabilità relativa ........................................................................................................ 44
Esercizio 3.5 – Proprietà pitagorica della varianza ............................................................................... 45
Esercizio 3.6 – Varianza di una variabile statistica ............................................................................... 46
Esercizio 3.7 – Media e varianza di una variabile statistica .................................................................. 47
Esercizio 3.8 – Varianza di variabile statistica ...................................................................................... 48
4. Le variabili casuali ................................................................................................................................ 49
3
Esercizio 4.1 – Tabulazione di una variabile casuale a partire dallo spazio degli eventi ...................... 49
Esercizio 4.2 – Varianza della distribuzione bernoulliana .................................................................... 52
Esercizio 4.3 – Approssimazione alla distribuzione normale e distribuzione binomiale ...................... 53
Esercizio 4.4 – Distribuzione normale .................................................................................................. 55
Esercizio 4.5 – Distribuzione chi quadro............................................................................................... 56
Esercizio 4.6 – Distribuzione t di Student ............................................................................................. 57
Esercizio 4.7 – Condizioni per avere una variabile casuale .................................................................. 58
Esercizio 4.8 – Una variabile casuale .................................................................................................... 59
5. Le distribuzioni campionarie ................................................................................................................ 61
Esercizio 5.1 – Distribuzione della media aritmetica campionaria, mediana campionaria e semisomma
campionaria del primo e ultimo estratto ...................................................................................................... 61
Esercizio 5.2 – Distribuzione della proporzione campionaria ............................................................... 64
Esercizio 5.3 – Distribuzioni campionarie della varianza e della varianza corretta .............................. 65
Esercizio 5.4 – Popolazione binomiale e normale ................................................................................. 67
Esercizio 5.5 – Distribuzione della media campionaria ........................................................................ 68
Esercizio 5.6 – Distribuzione della media campionaria di campioni estratti da una popolazione normale
......................................................................................................................................... 70
Esercizio 5.7 – Distribuzione della media campionaria di campioni estratti da una popolazione
esponenziale........................................................................................................................................ 71
6. La stima intervallare ............................................................................................................................. 72
Esercizio 6.1 – Intervalli di confidenza per la media ............................................................................ 72
Esercizio 6.2 – Intervalli di confidenza per la media ............................................................................ 73
Esercizio 6.3 – Intervalli di confidenza per la percentuale campionaria ............................................... 74
Esercizio 6.4 – Verifica dell’ipotesi funzionale: il caso di una distribuzione di Poisson ...................... 75
Esercizio 6.5 – Verifica dell’ipotesi funzionale: il caso di una distribuzione normale ......................... 76
7. Le distribuzioni doppie, le somme di variabili casuali, la mistura .................................................... 78
Esercizio 7.1 – Una distribuzione doppia discreta ................................................................................ 79
Esercizio 7.2 – Una distribuzione doppia discreta ................................................................................ 81
Esercizio 7.3 – Covarianza .................................................................................................................... 83
Esercizio 7.4 – Indipendenza ................................................................................................................. 84
Esercizio 7.5 – Covarianza zero e indipendenza ................................................................................... 85
Esercizio 7.6 – Costruzione di una distribuzione doppia e delle rispettive distribuzioni marginali
partendo dall’espressione analitica ..................................................................................................... 88
Esercizio 7.7 – Costruzione di una distribuzione marginale partendo da una distribuzione doppia ..... 90
Esercizio 7.8 – Somma di variabili casuali............................................................................................ 91
Esercizio 7.9 – Somma di variabili casuali............................................................................................ 94
Esercizio 7.10 – Lancio di due dadi ........................................................................................................ 95
Esercizio 7.11 – Mistura di distribuzioni ................................................................................................ 98
Esercizio 7.12 – Somma di due distribuzioni: un caso aziendale .......................................................... 100
4
8. L’analisi della varianza ....................................................................................................................... 101
Esercizio 8.1 – Analisi della varianza ad un solo fattore..................................................................... 101
Esercizio 8.2 – Analisi della varianza ad un solo fattore..................................................................... 104
Esercizio 8.3 – Analisi della varianza ad un fattore e contrasti ........................................................... 107
(a) – Analisi della varianza ............................................................................................................. 107
(b) – Contrasti ................................................................................................................................. 109
Esercizio 8.4 – Analisi della varianza a due fattori ............................................................................. 113
Esercizio 8.5 – Analisi della varianza a due fattori ............................................................................. 118
(a) – Analisi della varianza ............................................................................................................. 118
(b) – Intervalli di confidenza ........................................................................................................... 122
Esercizio 8.6 – Analisi della varianza a due fattori ............................................................................. 124
9. La regressione ...................................................................................................................................... 129
Esercizio 9.1 – Metodo dei minimi quadrati ....................................................................................... 129
Esercizio 9.2 – Metodo dei minimi quadrati ....................................................................................... 131
Esercizio 9.3 – Coefficiente di correlazione lineare ............................................................................ 132
Esercizio 9.4 – Coefficiente di correlazione lineare ............................................................................ 133
Esercizio 9.5 – La regressione con un modello lineare e una sola variabile esplicativa ..................... 135
(a) Covarianza, varianza e stime dei parametri ............................................................................... 136
(b) Analisi della varianza ................................................................................................................ 137
(c) La stima intervallare e la verifica delle ipotesi sulle stime dei parametri del modello .............. 139
Esercizio 9.6 – Regressione lineare multivariata – Approccio matriciale ........................................... 142
(a) Stime dei parametri .................................................................................................................... 142
(b) La stima intervallare e la verifica delle ipotesi dei parametri del modello ................................ 145
Esercizio 9.7 – Regressione lineare bivariata – Approccio matriciale ................................................ 146
(a) Stime dei parametri .................................................................................................................... 146
(b) La stima intervallare e verifica delle ipotesi dei parametri del modello .................................... 148
Esercizio 9.8 –Ortogonalità dei residui ............................................................................................... 150
Esercizio 9.9 – Coefficiente di correlazione e regressione .................................................................. 152
Esercizio 9.10 – Coefficiente di correlazione ........................................................................................ 153
Esercizio 9.11 – Dipendenza perfetta tra x e y, ma covarianza uguale a zero ....................................... 155
10. Le distanze ............................................................................................................................................ 156
Esercizio 10.1 – Distanze di Minkowski ............................................................................................... 156
Esercizio 10.2 – Distanza euclidea ........................................................................................................ 158
Esercizio 10.3 – Distanza di Mahalanobis............................................................................................. 160
Esercizio 10.4 – Distanze dal centroide................................................................................................. 163
Esercizio 10.5 – Indici di similarità ....................................................................................................... 166
11. L’analisi discriminante........................................................................................................................ 167
Esercizio 11.1 – Analisi discriminante di Fisher ................................................................................... 167
5
Esercizio 11.2 – Analisi discriminante con distanza di Mahalanobis ................................................... 171
Esercizio 11.3 – Analisi discriminante con la distanza di Mahalanobis................................................ 174
12. Le componenti principali .................................................................................................................... 177
Esercizio 12.1 – Componenti principali ................................................................................................ 177

6
1. La distribuzione di una variabile statistica

Esercizio 1.1 – Rappresentazione grafica di una distribuzione con carattere di cella

Si costruisca la rappresentazione grafica della distribuzione di densità assoluta dei percettori di


reddito, secondo la classe di reddito su base mensile, fornita nella tabella. Sempre sulla base della
stessa, si fornisca successivamente, la rappresentazione grafica della stessa distribuzione utilizzando
però le densità relative.

classi migliaia frequenze


di €) assolute
-4 - -2 31
-2 - 0 154
0 - 1,38 5578
1,38 - 3 3243
3 - 4 2000
4 - 5 1618
5 - 6 941
6 - 7,5 669
7,5 - 11 583
11 - 15 211
15 - 19 94

Soluzione
Poiché disponiamo di una carattere di cella andiamo a calcolare le ampiezze delle classi e le frequenze
relative. Quest’ultime sono ottenute dividendo le frequenze per la somma delle frequenze (15.122).
Calcoliamo anche:
- le densità assolute dividendo le frequenze assolute per l’ampiezza della classe;
- le densità relative dividendo le frequenze relative per l’ampiezza della classe.
I risultati ottenuti sono mostrati nella tabella sottostante.

7
classi migliaia frequenze ampiezza di frequenze densità densità
di €) assolute classe relative assoluta relative
-4 - -2 31 2 0,2% 15,5 0,001025
-2 - 0 154 2 1,0% 77 0,005092
0 - 1,38 5578 1,38 36,9% 4042,029 0,267295
1,38 - 3 3243 1,62 21,4% 2001,852 0,13238
3 - 4 2000 1 13,2% 2000 0,132258
4 - 5 1618 1 10,7% 1618 0,106996
5 - 6 941 1 6,2% 941 0,062227
6 - 7,5 669 1,5 4,4% 446 0,029493
7,5 - 11 583 3,5 3,9% 166,5714 0,011015
11 - 15 211 4 1,4% 52,75 0,003488
15 - 19 94 4 0,6% 23,5 0,001554
15122

Ora andiamo a rappresentare graficamente le distribuzioni delle densità assolute e relative, rispettivamente
grafico sopra e sotto, riportando in ordinata le densità assolute o le densità relative.

8
9
Esercizio 1.2 – Rappresentazione grafica di una distribuzione con carattere discreto

Si costruisca la rappresentazione grafica della distribuzione delle abitazioni secondo il numero di


stanze fornita nella tabella:

Frequenze Numero
Numero di
assolute complessivo
stanze
(migliaia) stanze (migliaia)
1 7 7
2 75 150
3 213 639
4 346 1384
5 190 950

Soluzione
In questo caso disponiamo di una carattere discreto.
Si può rappresentare questa distribuzione riportando in ordinata le frequenze oppure le frequenze relative.

10
Esercizio 1.3 – Rappresentazione grafica di una distribuzione con carattere qualitativo
sconnesso

Si costruisca la rappresentazione grafica della distribuzione degli occupati, secondo il settore di


attività economica fornita nella tabella.

LOMBARDIA
Sesttori di attività valori
valori %
economica assoluti
Agricoltura 141 3,9
Industria 1828 50,3
Altre attività 1668 45,8

Totale 3637 100


Si chiarisca, inoltre, se la figura ottenuta sia rappresentata da istogrammi.

Soluzione
La rappresentazione grafica della distribuzione è mostrata nella figura sottostante e palesa il numero degli
occupati secondo il settore di impiego.

È opportuno aver chiaro che i rettangoli corrispondenti dei tre settori di attività economica non sono
istogrammi. Quello che infatti è rilevante in questa figura è soltanto l’altezza. L’area non ha alcun
significato, mentre nell’istogramma l’area corrisponde al totale delle frequenze (frequenze relative).

11
Esercizio 1.4 – Costruzione di una distribuzione da una successione di valori

La successione fornita nella tabella sotto riportata rappresenta il peso in chilogrammi di altrettanti
vasi di porcellana.

Peso (kg) vasi porcellana


10,4 12,7 13,5 14 15,7
10,8 12,2 13,2 14,5 15,4
10,4 12,6 13 14 15,9
10,6 12,1 13,5 14,8 15,6
10,1 12,9 13,9 14 15,4
11,1 12,7 13,3 14,6 15,7
11,4 12,3 13,7 14,1 15,3
11,9 12,6 13 14,9 15,3
12,5 12,8 13,8 14,2 15,9
12,2 12,9 14,6 14,6 15,7

Si costruisca la distribuzione degli stessi vasi, secondo ancora il peso, adottando classi di ampiezza 1 e
successivamente di ampiezza 2.

Soluzione
Se suddividiamo i pesi in classi, rispettivamente di ampiezza 1 e 2, otteniamo le due distribuzioni di
frequenza denotate nella tabella sotto:

Classi di Classi di
frequenze frequenze
ampiezza 1 ampiezza 2
10-11 5 10-12 8
11-12 3 12-14 21
12-13 12 14-16 21
13-14 9
14-15 11
15-16 10
50 50

Se volessimo fornire una rappresentazione grafica di queste due distribuzioni sappiamo che trattandosi di una
variabile di cella dovremmo mettere in ordinata la densità e in ascissa la variabile x. Se però, anziché la
densità, mettessimo in ordinata le frequenze la rappresentazione della distribuzione avrebbe la stessa forma
poiché le celle hanno in questi due casi la stessa ampiezza.

12
Esercizio 1.5 – Costruzione di una distribuzione da una successione di valori

Si hanno 50 casse, ognuna delle quali con 100 tazze da caffè prodotte in Cina. Per ognuna delle casse,
viene conteggiato il numero di tazze rotte durante il trasporto in nave, come riportato in tabella.

Tazze rotte per cassa


2 4 3 0 2
0 1 3 1 2
1 1 2 2 1
3 2 1 2 3
2 3 3 2 1
2 3 3 0 1
0 1 1 1 5
2 2 1 0 0
3 2 5 1 4
0 2 1 0 1

Si costruisca la distribuzione delle casse, secondo il numero delle tazze rotte.

Soluzione
Rappresentiamo la distribuzione delle 50 casse secondo il numero di tazze rotte.

Numero tazze
Numero casse
rotte
0 8
1 15
2 14
3 9
4 2
5 2
Totale 50

13
Esercizio 1.6 – Rappresentazione grafica di una distribuzione e della sua cumulata

Si costruisca la rappresentazione grafica della distribuzione delle frequenze assolute e cumulate per la
distribuzione fornita in tabella.

xi ni
1 2
3 3
5 7
10 8
12 5
25

Soluzione
Andiamo ad aggiungere alla tabella la colonna con le frequenze cumulate Ni .

xi ni Ni
1 2 2
3 3 5
5 7 12
10 8 20
12 5 25
25

Coi i dati riportati in quest’ultima tabella possiamo rappresentare le distribuzioni delle frequenze assolute
(grafico sopra) e cumulate assolute (grafico sotto).

14
15
Esercizio 1.7 – Rappresentazione grafica di una distribuzione e della sua cumulata
relativa

Si costruisca la rappresentazione grafica della distribuzione di densità relativa e della funzione di


ripartizione delle aziende agricole, secondo la superficie misurata in ettari.

Frequenze
Superficie N. Densità Frequenze
relative
(ettari) aziende assolute relative (%)
cumulate (%)
0-0,5 524040 1048080 16,08 16,08
0,5-1 510900 1021800 15,68 31,76
1-2 644730 644730 19,78 51,54
2-3 371080 371080 11,39 62,93
3-5 417870 208935 12,82 75,75
5-10 400790 80158 12,3 88,05
10-20 218210 21821 6,7 94,75
20-30 67280 6728 2,06 96,81
30-50 49360 2468 1,51 98,32
50-100 31140 623 0,96 99,28
100 e oltre 23510 26 0,72 100

Soluzione
Nella figura che segue riportiamo la rappresentazione grafica della distribuzione di densità assoluta.

Sotto, invece, raffiguriamo la funzione di ripartizione della aziende agricole per classi di superficie.

16
Entrambi i grafici sono stati limitati alle superfici inferiori a 20 ettari per una migliore leggibilità degli stessi.

17
Esercizio 1.8 – Da una funzione di ripartizione ad una distribuzione di densità

Si abbia la seguente 𝐅(𝐱), funzione di ripartizione:


𝟑
𝐅(𝐱) = 𝐱 [𝟐 − ( ) 𝐱] 𝟎<𝐱<𝟐
𝟒

- si ottenga la corrispondente distribuzione di densità;


- si verifichi se la funzione ottenuta è veramente una distribuzione di densità.

Soluzione
La distribuzione di densità si ottiene derivando la funzione di ripartizione:

d 3 3 3
f(x) = (2x − x 2 ) = 2 − 2 ∗ x = 2 − x (0 < x < 2)
dx 4 4 2

Si può provare che la nostra f(x) è effettivamente una densità di frequenze relativa. Infatti

- per 0 < x < 2 f(x) ≥ 0


2
2 2 3 3 x2 3 4
- ∫0 f(x) dx = ∫0 (2 − 2 x) dx = 2|x|20 − 2 | 2 | = 4 − 2 ∗ 2 = 1
0

18
Esercizio 1.9 – Proprietà di una funzione di ripartizione

𝐞𝐱
Si accerti se la 𝐟(𝐱) = (𝟏+𝐞 𝐱 )
possa essere considerata una funzione di ripartizione.

Soluzione
La f (x) è un funzione di ripartizione perché rispetta tutte le condizioni per essere tale, ovvero:
- è definita per qualunque valore di x;
- è compresa tra 0 e 1;
la sua derivata è ex ⁄[1 + ex ]2, che è sempre positiva e mai decrescente;
- il lim f(x) = 1 e lim f(x) = 0.
x→+∞ x→−∞

19
Esercizio 1.10 – Proprietà di una distribuzione di densità

Data la funzione

𝐟(𝐱) = 𝟎 𝐱 < −𝐚 𝐞 𝐱 > +𝐚


{
𝐟(𝐱) = 𝐚𝟐 − 𝐱 𝟐 − 𝐚 ≤ 𝐱 ≤ +𝐚

determinare il valore di a in modo tale che la stessa 𝐟(𝐱) sia una distribuzione di densità.

Soluzione
Per rispondere al quesito, si pone l’integrale della distribuzione uguale a 1, ossia
x1
∫ f(x) dx = 1
x0

+a
∫ (a2 − x 2 ) dx = 1
−a
+a
2
x3
|a x − | = 1
3 −a

a3 a3
a3 − − (−a3 + ) = 1
3 3

2a3
2a3 − =1
3

3 3
a = √ = 0,91
4

20
2. Le medie

Esercizio 2.1 – Media aritmetica

Si consideri la seguente distribuzione di famiglie secondo il numero di componenti

Componenti 1 2 3 4 Totale
N. di famiglie 10 10 50 30 100

- Si può dire che il numero medio di componenti per famiglia è uguale a tre?
- È corretto affermare che ogni individuo ha in media altri due componenti nella sua famiglia?

Soluzione
Il risultato del primo quesito è immediato, in quanto si tratta di applicare la formula di calcolo della media
aritmetica per dati non raggruppati in classi

∑ki=1 xi ni
M=
∑ki=1 ni

che nel caso in questione fornisce


1 1 300
M= {(1 ∗ 10) + (2 ∗ 10) + (3 ∗ 50) + (4 ∗ 30)} = {10 + 20 + 150 + 120} = =3
100 100 100

Nel secondo quesito, la popolazione non è costituita dalle famiglie, ma è costituita dagli individui. È utile
quindi costruire la distribuzione degli individui con carattere “il numero degli altri componenti”. Possiamo
anche chiamare questa la distribuzione degli individui per numero di altri componenti.

Altri componenti 0 1 2 3 Totale


N. di individui 10 20 150 120 300

Di questa distribuzione possiamo ora calcolare la media. Poiché la media aritmetica M risulta uguale a 2,26,
possiamo affermare che ogni individuo ha in media altri 2,26 componenti nella sua famiglia.

21
Esercizio 2.2 – Media aritmetica

Una azienda ha 550 dipendenti di cui 50 sono dirigenti, 100 impiegati e 400 operai. L’età media dei
dirigenti è 51 anni, quella degli impiegati è 39 anni e quella degli operai è 42 anni. Qual è l’età media
dei dipendenti in complesso?

Soluzione
Per risolvere l’esercizio bisogna applicare la proprietà associativa della media aritmetica

na x̅a + nb x̅b + nc x̅c 50 ∗ 51 + 100 ∗ 39 + 400 ∗ 42


M= = = 42,27
na + nb + nc 550

22
Esercizio 2.3 – Mediana

Nella seguente tabella sono riportati i giudizi conseguiti ad un esame attitudinale da un gruppo di
individui

giudizio frequenze
sufficiente 4
buono 3
ottimo 8

Si determini una media opportuna dei giudizi.

Soluzione
Il giudizio conseguito ad un esame è un carattere qualitativo, ma ordinabile. L’indice di posizione opportuno
N+1
è quindi la mediana. Poiché N = 15 è dispari, la posizione mediana è individuata da 2
= 8. Dalla
distribuzione di frequenza cumulata, riportata nella tabella seguente,

giudizio cumulate
sufficiente 4
buono 7
ottimo 15

è immediato constatare che l’ottava unità statistica si trova in corrispondenza della modalità ottimo. Sulla
tabella dei giudizi può essere determinata anche la moda. Anche in questo caso il risultato è la modalità
ottimo in quanto è la modalità cui corrisponde la frequenza più alta (8) della distribuzione.

23
Esercizio 2.4 – Media geometrica

Data la variabile statistica


xi: 1 2 4 6
ni: 2 3 2 1

si determini il valore c che rende minima la quantità


𝟐
∑ 𝐧𝐢 (𝐥𝐨𝐠(𝐱𝐢 ) − 𝐥𝐨𝐠(𝐜))
𝐢

dove 𝐥𝐨𝐠(𝐱𝐢 ) è il logaritmo in base 10.

Soluzione
Poniamo yi = log(xi ) e log(c) = γ, la funzione

∑ ni (yi − γ)2
i

è minima quando γ è la media aritmetica degli yi ,

∑i yi ni
γ=
∑i n i
ovvero
∑i log(xi )ni
log(c) =
∑i n i

Sappiamo che il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi dei termini,
quindi c è pari alla media geometrica della distribuzione di frequenza

1⁄
k N
n
c = (∏ xi i )
i

Per il calcolo della media geometrica conviene lavorare sui logaritmi.


Lavorando con i logaritmi otteniamo

log(xi ): 0 0,30 0,60 0,78


24
ni : 2 3 2 1

∑ki log(xi )ni 2,88


log(c) = = = 0,36
∑ki ni 8
ovvero c = Mg = 2,29

25
Esercizio 2.5 – Media armonica

Posto di aver osservato le seguenti determinazioni del carattere x


xi: 1/2 1 3/2 5/2

si determini il valore di c che rende minima la quantità

𝟏 𝟏 𝟐
∑( − )
𝐱𝐢 𝐜
𝐢

Soluzione
Posto 1⁄xi = zi e 1⁄𝑐 = γ , la funzione

∑(zi − γ)2
i

è minima quando γ è la media aritmetica degli zi ,

1
∑i zi ∑i
1 xi 4
γ= ovvero = ovvero c= 1
4 c 4 ∑i
xi

ovvero c è la media armonica degli xi , per cui

4 4
c= = = 0,984
2 2 4,06
2+1+3+
5

26
Esercizio 2.6 – Media geometrica

Un capitale è stato investito (con capitalizzazione annua degli interessi via via maturati) alle seguenti
condizioni:
- i primi due anni al tasso del 15%;
- il terzo anno al tasso del 25%;
- il quarto anno al tasso del 5,8%.
Si determini il tasso medio cui è stato investito questo capitale.

Soluzione

Utilizzando la condizione di equivalenza della media geometrica abbiamo:


(1 + 0,15) ∗ (1 + 0,15) ∗ (1 + 0,25) ∗ (1 + 0,058) = (1 + r̅ )4
1⁄
[(1,15) ∗ (1,15) ∗ (1,25) ∗ (1,058)] 4 = (1 + r̅ )
1⁄
[(1,15) ∗ (1,15) ∗ (1,25) ∗ (1,058)] 4 − 1 = r̅
4
√1,152 ∗ 1,25 ∗ 1,058 − 1 = 0,15 = 15%

27
Esercizio 2.7 – Media di una distribuzione statistica

Data la distribuzione 𝐟(𝐱) = 𝐚𝐱 con 𝐱: [𝟎; 𝟏]

- si determini “a” in modo che la stessa funzione sia una distribuzione statistica;
- si determini successivamente la media di questa distribuzione.

Soluzione
Per rispondere al primo quesito, dobbiamo porre l’integrale della distribuzione uguale a 1, ovvero
x1
∫ f(x) dx = 1
x0

1
∫ ax dx = 1
0
1
x2
a| | = 1
2 0

1
a ∗ [ − 0] = 1
2
a=2

Per soddisfare invece la seconda domanda del testo dobbiamo calcolare l’integrale della distribuzione
moltiplicata per x, ossia
x1 1
∫ f(x) ∗ x dx = ∫ ax ∗ x dx
x0 0

1
x3 1 1
a | | = a ∗ [ − 0] = a
3 0 3 3

Andiamo a sostituire il risultato del primo quesito a questa espressione e otteniamo la media:
1 2
μ= a=
3 3

28
Esercizio 2.8 – Media di una variabile statistica

Si determini, mostrando gli opportuni passaggi, la media della distribuzione rettangolare.

Soluzione
Dati due numeri reali a e b, con a < b, si dice che la variabile aleatoria ha distribuzione uniforme
(rettangolare) con parametri a e b se la sua densità di probabilità è
1
f(x) = {b − a a≤x≤b
0 altrimenti

Quindi,
x1 b
1
∫ x ∗ f(x) dx = ∫ x ∗ dx
x0 a b−a

b
x2 a+b
=| | =
2(b − a) a 2

29
Esercizio 2.9 – Media di una variabile statistica

Sia assegnata una variabile statistica x con densità data da

𝐂(𝟒𝐱 − 𝟐𝐱 𝟐 ) 𝟎<𝐱<𝟐
{
𝟎 𝐚𝐥𝐭𝐫𝐢𝐦𝐞𝐧𝐭𝐢

- quanto vale C?
- calcolare la media della distribuzione;
- calcolare l’ammontare di frequenze relative per 𝐱 > 𝟏.

Soluzione
Siccome f è una densità, possiamo porre:
2
1 = C ∫ (4x − 2x 2 ) dx =
0
x=2
2x 3 8
= C |2x 2 − | =C∗
3 x=0 3
3
Da cui C = 8

Passiamo a calcolare la media:


x1 2 2 2
3 3
∫ f(x) ∗ x dx = ∫ c(4x − 2x 2 )x dx = ∫ ∗ (4x − 2x 2 ) ∗ x dx = ∫ ∗ (4x 2 − 2x 3 ) dx
x0 0 0 8 0 8

2
3 4x 3 2 4 3 32 3 8
∗| − x | = ∗ [ − 8] = ∗ = 1
8 3 4 0 8 3 8 3

Ora che conosciamo completamente f, l’ammontare di frequenza relativa per x > 1 può essere trovata senza
difficoltà, ossia:

3 2 1
∫ f(x)dx = ∫ (4x − 2x 2 )dx =
1 8 1 2

30
Esercizio 2.10 – Media quadratica

Si vogliono scambiare due monete d’argento aventi rispettivamente raggio pari a cm 1,50 e cm 3,00,
con altre due monete aventi ugual raggio.
Si determini il raggio delle due nuove monete d’argento supponendo l’equivalenza dei valori
scambiati.

Soluzione
In questo specifico caso dello scambio delle due monete dobbiamo porre la condizione che la somma delle
superfici delle due monete sia uguale alla somma delle superfici di due monete uguali.
Si risolve quindi questo problema impostando la condizione di equivalenza per la media quadratica.

(1,50)2 π + (3,00)2 π = R2 π + R2 π = 2πR2

e quindi

(1,50)2 + (3,00)2
R=√ = 2,30 cm circa
2

31
Esercizio 2.11 – Media geometrica

Si consideri un capitale di Lit. C impiegato in regime di capitalizzazione composta per 8 anni ai


seguenti tassi variabili:

Tasso
Anni
variabile
1° anno 0,050
2° anno 0,055
3° anno 0,050
4° anno 0,058
5° anno 0,060
6° anno 0,059
7° anno 0,061
8° anno 0,062

Determinare il taso medio d’impiego del capitale C.

Soluzione
Si risolve il problema impostando la condizione di equivalenza della media geometrica:
C ∗ (1 + 0,050) ∗ (1 + 0,055) ∗ (1 + 0,050) ∗ (1 + 0,058) + (1 + 0,060) ∗ (1 + 0,059) ∗ (1 + 0,061)
∗ (1 + 0,062) = C ∗ (1 + i̅)8

da cui il fattore di capitalizzazione (1 + i̅)


8
(1 + i̅) = √1,050 ∗ 1,055 ∗ 1,050 ∗ 1,058 ∗ 1,060 ∗ 1,059 ∗ 1,061 ∗ 1,062
8
√1,050 ∗ 1,055 ∗ 1,050 ∗ 1,058 ∗ 1,060 ∗ 1,059 ∗ 1,061 ∗ 1,062 − 1 = i̅ = 0,057 = 5,7%

32
Esercizio 2.12 – Media di quarto ordine

Per certi tipi di animali è noto che, con buona approssimazione, l’estensione della pelle S può ottenersi
mediante la formula

𝐒 = 𝐤 ∗ 𝐱𝟒 ∗ 𝐲𝟔
dove 𝐱 è il peso vivo (chilogrammi), 𝐲 è la lunghezza del tronco (centimetri), mentre 𝐤 è la costante, che
differisce in base al tipo di animale.
Dato un gruppo di 𝐧 animali di uno stesso tipo, i cui pesi sono rispettivamente 𝐱𝟏 , … , 𝐱𝐧 e le lunghezze
𝐲𝟏 , … , 𝐲𝐧, determinare il peso medio.

Soluzione
Il peso medio cercato, x̅, deve essere tale che sostituito ai pesi effettivi degli n capi lasci immutata la somma
complessiva delle estensioni delle n pelli.
Si risolve quindi questo problema impostando la condizione di equivalenza per la media di quarto ordine:

n n n

k ∑ xi4 yi6 = k ∑ x̅ 4 yi6 = kx̅ ∑ yi6


4

i=1 i=1 i=1

e quindi

∑ni=1 xi4 yi6


4
x̅ = √ n 6
∑i=1 yi

che è una media di potenza di quarto ordine ponderata con i pesi yi6 .

33
Esercizio 2.13 – Medie di potenze

Data la seguente variabile statistica

N. persone per N.
abitazione abitazioni
xi fi
1 7
2 17
3 20
4 18
5 15
6 10
7 6
8 4
9 2
10 1
100

calcolare le medie di potenze 𝐌𝐤 per ogni 𝟏 ≤ 𝐤 ≤ 𝟏𝟐 mostrando che 𝐌𝟏 < 𝐌𝟐 < 𝐌𝟑 < ⋯ < 𝐌𝟏𝟐 .

Soluzione
Per calcolare le varie medie si dovrà utilizzare l’espressione analitica della funzione di medie potenziate.

k ∑ xik fi
Mk = √ (k = 1,2, … ,12)
∑ fi

Otteniamo, pertanto

1 ∑ x1i fi 410
M1 = √ = = 4,10
∑ fi 100

2 ∑ x2f 2090
i
M2 = √ i = √ = 4,572
∑ fi 100

∑ xi3 fi 3 12434
3
M3 = √ =√ = 4,991
∑ fi 100

∑ xi4 fi 4 82754
4
M4 = √ =√ = 5,363
∑ fi 100

34
5∑ xi5 fi 5 598490
M5 = √ =√ = 5,694
∑ fi 100

6∑ xi6 fi 6 4607690
M6 = √ =√ = 5,988
∑ fi 100

7 ∑ x7f 7 37207874
i
M7 = √ i = √ = 6,249
∑ fi 100

8 ∑ x8f 8 311761874
i
M8 = √ i = √ = 6,482
∑ fi 100

9 ∑ x9f 9 2689028330
i
M9 = √ i = √ = 6,691
∑ fi 100

10 ∑ x10
i fi
10 23734606490
M10 = √ = √ = 6,879
∑ fi 100

11 ∑ x11
i fi
11 213425285714
M11 = √ = √ = 7,049
∑ fi 100

12 ∑ x12
i fi
12 1948527324194
M12 = √ = √ = 7,202
∑ fi 100

35
Esercizio 2.14 – Media, mediana e moda di una variabile statistica

Si ha la funzione di ripartizione 𝐅(𝐱) che assume i seguenti valori:

𝟎 𝐱<𝟎
𝐱𝟐
𝟎≤𝐱<𝟏
𝟐
𝐱𝟐
𝟐𝐱 − −𝟏 𝟏≤𝐱<𝟐
𝟐
{ 𝟏 𝐱≥𝟐

Si calcolino media, mediana e moda.

Soluzione
Per determinare la mediana occorrerà risolvere l’equazione F(x) = 0,5.
Si vede immediatamente che

12
F(1) = 2 ∗ 1 − − 1 = 0,5
2
e quindi il valore mediano è 1.

Per determinare il valore modale occorre ricercare il valore in cui la densità è massima.
La funzione di densità della variabile, ottenuta derivando la funzione di ripartizione, risulta essere:

f(x) = 0 x<0
f(x) = x 0≤x<1
f(x) = 2 − x 1≤x<2
f(x) = 0 x≥2

e quindi il valore modale è 1.


Poiché la densità risulta essere simmetrica all’asse passante per x = 1, la media coincide con tale valore.
In conclusione, mediana, moda e media coincidono e sono uguali a 1.

36
Esercizio 2.15 – Media e mediana di una variabile statistica

Si abbia la variabile statistica che assume i seguenti valori:

𝟎 𝐱<𝟎 𝐞 𝐱≥𝟑
{ 𝟐 𝟐
− 𝐱 𝟎≤𝐱<𝟑
𝟑 𝟗

Si calcolino media e mediana.

Soluzione
Per calcolare la mediana è prima necessario ottenere la funzione di ripartizione della variabile stessa, che si
ottiene integrando la medesima variabile.

F(x) = 0 x<0ex≥3
2 1
F(x) = x − x 2 0≤x<3
3 9

Per determinare la mediana occorre risolvere l’equazione F(x) = 0,5.


2 1 1
x − x2 =
3 9 2
1 2 1
− x2 + x − = 0
9 3 2

Risolviamo l’equazione di secondo grado ottenendo:

2 4 1 1 2 2
− 3 ± √9 − 4 (− 9) (− 2) − 3 ± √9
x= = =
1 2
2 ∗ (− 9) −9

x1 = 0,88
x2 = 5,12

La mediana risulta quindi essere uguale a 0,88.

La rappresentazione grafica della variabile statistica è:

37
Per calcolare la media, utilizziamo la formula già usata in precedenza, ovvero,
x1 3 3
2 2 2 x2 2 x3 1 2
∫ f(x) ∗ x dx = ∫ x − x 2 dx = | − | = ∗9− ∗ 27 = 1
x0 0 3 9 32 93 0 3 27

In conclusione, la mediana risulta essere 0,88 e la media 1.

38
3. La variabilità

Esercizio 3.1 – Scomposizione devianza

Si effettui la scomposizione della devianza (tra gruppi e nei gruppi) per la seguente distribuzione

Modalità 2 3 4 6 10
Frequenze 1 1 1 1 1

considerando i due gruppi:

GRUPPO 1 GRUPPO 2
Modalità 2 6 10 Modalità 3 4
Frequenze 1 1 1 Frequenze 1 1

Soluzione
La media della distribuzione risulta essere
M = (2 ∗ 1 + 3 ∗ 1 + 4 ∗ 1 + 6 ∗ 1 + 10 ∗ 1)⁄(1 + 1 + 1 + 1 + 1) = 5
La devianza totale, SSTOT = (2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (6 − 5)2 + (10 − 5)2 = 40

Ora andiamo ad analizzare la devianza nei gruppi, SSW.


La media del gruppo 1 risulta essere M1 = (2 ∗ 1 + 6 ∗ 1 + 10 ∗ 1)⁄3 = 6.

La devianza nel gruppo 1, SSW1 = (2 − 6)2 + (6 − 6)2 + (10 − 6)2 = 32.


Facciamo lo stesso procedimento per il “gruppo 2”, dove la media M2 vale 3,50 ottenendo la devianza SSW2
uguale a 0,5.
Pertanto la devianza nei gruppi risulta essere la somma della singole devianze nei gruppi, ovvero
SSW = 32,00 + 0,50 = 32,50

La devianza tra i gruppi, SSB, risulta invece essere:

SSB = (6 − 5)2 ∗ 3 + (3,5 − 5)2 ∗ 2 = 7,5


È importante osservare che la devianza tra i gruppi è la somma pesata con la numerosità del gruppo dei
quadrati degli scarti tra la media di ciascun gruppo e la media generale.
Con questo esempio abbiamo verificato che vale la relazione

39
SSTOT = SSW + SSB = 32,5 + 7,5 = 40,00

40
Esercizio 3.2 – Scostamento assoluto dalla media e dalla mediana

Sulla base della distribuzione riportata in tabella, si metta in evidenza che lo scostamento semplice
della mediana è minore o uguale allo scostamento semplice medio della media aritmetica, ossia: 𝑺𝑴𝒆 ≤
𝑺𝑴 .

Modalità 1 2 3 4 5 6
Frequenze 1780 3024 3660 2830 1604 608

Soluzione
La media della distribuzione risulta essere M =
(1 ∗ 1780 + 2 ∗ 3024 + 3 ∗ 3660 + 4 ∗ 2830 + 5 ∗ 1604 + 6 ∗ 608)⁄(1780 + 3024 + 3660 + 2830 + 1604 + 608)

= 3,09.

Andiamo a calcolare lo scostamento semplice medio della media aritmetica, ovvero:


|1 − 3,09| ∗ 1780 + |2 − 3,09| ∗ 3024 + |3 − 3,09| ∗ 3660
+|4 − 3,09| ∗ 2830 + |5 − 3,09| ∗ 1604 +
|6 − 3,09| ∗ 608
SM = = 1,09
1780 + 3024 + 3660 + 2830 + 1604 + 608

Il valore della mediana, Me , risulta essere 3, in quanto la numerosità del campione esaminato è 13.506.
Ordinando quindi i valori per modalità crescente, interessano quei valori che occupano le posizioni centrali,
13506 13506
date da = 6.753esima e, la stessa più uno + 1 = 6.754esima.
2 2

Le due modalità corrispondenti a queste due posizioni sono entrambe 3. La mediana è quindi 3.

Andiamo a calcolare lo scostamento semplice della mediana, ovvero:

|1 − 3,0| ∗ 1780 + |2 − 3,0| ∗ 3024 + |3 − 3,0| ∗ 3660


+|4 − 3,0| ∗ 2830 + |5 − 3,0| ∗ 1604 +
|6 − 3,0| ∗ 608
SMe = = 1,07
1780 + 3024 + 3660 + 2830 + 1604 + 608

Concludendo, è verificata la condizione


1,09 = SM > SMe = 1,07

41
Esercizio 3.3 – Proprietà della varianza

Data la distribuzione riportata in tabella, si costruisca la distribuzione degli scarti dalla media e
successivamente la distribuzione degli stessi scarti, ma standardizzati.

Modalità 1 3 9
Frequenze 3 10 1

Sulla base della distribuzione data e delle due successive distribuzioni prodotte si verifichi che:

𝐯𝐚𝐫𝐚𝐱+𝐛 = 𝐚𝟐 𝐯𝐚𝐫𝐱

Soluzione
(1 ∗ 3 + 3 ∗ 10 + 9 ∗ 1)
La media della distribuzione risulta essere M = ⁄(3 + 10 + 1) = 3,00

Possiamo ora considerare la distribuzione degli scarti dalla media, ovvero

Modalità -2 0 6
Frequenze 3 10 1

dove le modalità sono ottenute facendo la differenza tra quelle date e la media ottenuta.
Questa distribuzione ha media pari a zero e scarto quadratico medio uguale a quello della distribuzione
iniziale.

Possiamo infine considerare gli scarti standardizzati:


X−M
Z=
σ
in cui ciascun scarto dalla media è diviso per lo scarto quadratico medio della distribuzione iniziale, che
coincide con lo scarto quadratico medio degli scarti.

(−2)2 ∗ 3 + 02 ∗ 10 + 62 ∗ 1
σ=√ = 1,8516
3 + 10 + 1

Pertanto la distribuzione della variabile standardizzata risulta essere la seguente:

Modalità -1,08015 0 3,240441


Frequenze 3 10 1

42
dove,
X − M 1,00 − 3,00
= = −1,08015
σ 1,8516
X − M 3,00 − 3,00
= =0
σ 1,8516
X − M 9,00 − 3,00
= = 3,2404
σ 1,8516

La distribuzione standardizzata ha media uguale a


−1,08015 ∗ 3 + 0 ∗ 10 + 3,240441 ∗ 1
M= =0
3 + 10 + 1
(−1,08−0)2 ∗3+(0−0)2 ∗10+(3,24−0)2 ∗1
e varianza uguale a = 1,00.
14

Si osservi che se ogni modalità della distribuzione viene moltiplicata per una costante a diversa da zero e alla
stessa modalità si aggiunge una costante b, la varianza viene soltanto moltiplicata per a2 , ossia:

σ2ax+b = a2 σ2x

dove σ2x è la varianza della distribuzione x, e σ2ax+b è la varianza della variabile ax ma anche della variabile
ax+b. Infatti:
∑(axi + b − aM − b)2 ∗ ni a2 ∑(xi − M)2 ∗ ni
σ2ax+b = =
N N

43
Esercizio 3.4 – Variabilità relativa

Una popolazione di adulti ha un peso medio di 75 chilogrammi mentre una di neonati ha peso medio
3,2 chilogrammi.
Sapendo che lo scarto quadratico medio degli adulti è di 4 kg e di 0,6 kg per i neonati, si può affermare
che la variabilità dei pesi degli adulti è superiore a quella dei neonati?

Soluzione
Per apprezzare se una differenza di scostamento di 4 kg su ogni singolo peso di 75 kg è maggiore o minore di
una differenza di scostamento di 0,6 kg su 4 kg si possono confrontare gli scarti relativizzati alle medie.

Dato che si ha:


4⁄ = 0,053 e 0,6⁄
75 3,2 = 0,1875

Si può concludere che la variabilità relativa dei pesi degli adulti è inferiore a quella dei neonati.

44
Esercizio 3.5 – Proprietà pitagorica della varianza

Data la distribuzione

xi 1 4 6 7
ni 15 25 40 20

si verifichi la proprietà pitagorica della varianza.

Soluzione
1∗15+4∗25+6∗40+7∗20 495
La media della distribuzione risulta essere M(x) = 15+25+40+20
= 100 = 4,95.

Calcoliamo la varianza ovvero:


2
2
∑(xi − M(x)) ∗ ni (1 − 4,95)2 ∗ 15 + (4 − 4,95)2 ∗ 25 + (6 − 4,95)2 ∗ 40 + (7 − 4,95)2 ∗ 20
σ = =
n 100
234,0375 + 22,5625 + 44,10 + 84,05
= = 3,8475
100

La proprietà pitagorica della varianza, da verificare, è la seguente:

σ2 = M(x 2 ) − [M(x)]2
Ossia che la varianza è uguale alla differenza tra il quadrato della media quadratica e il quadrato della media
aritmetica.

Andiamo a verificare se la relazione fornisce lo stesso risultato ottenuto prima (3,8475).

2)
∑ xi2 ∗ ni 1 ∗ 15 + 16 ∗ 25 + 36 ∗ 40 + 49 ∗ 20 2835
M(x = = = = 28,35
n 100 100

Quindi,

σ2 = M(x 2 ) − [M(x)]2 = 28,35 − 4,952 = 3,8475

45
Esercizio 3.6 – Varianza di una variabile statistica

Data la distribuzione rettangolare


𝟏
𝐟(𝐱) = 𝐜𝐨𝐧 𝟎<𝐱<𝐤
𝐤

si calcoli la varianza utilizzando la proprietà pitagorica della stessa varianza.

Soluzione
Come abbiamo già mostrato nell’esercizio 2.8, la media aritmetica della distribuzione rettangolare è data da
a+b
.
2

k
1 1 1 x2 k
Infatti ∫ x ∗ dx = ∫ x ∗ dx = | | =2
k k k 2 0

Andiamo a calcolarci M(x 2 ).

k k k
2) 2
dx 1 x 3
2
k2
M(x = ∫ x f(x) dx = ∫ x = | | =
0 0 k k 3 0 3

Abbiamo, quindi

k2 k 2 k2
σ2 (x) = M(x 2 ) − [M(x)]2 = −( ) =
3 2 12

46
Esercizio 3.7 – Media e varianza di una variabile statistica

Data la funzione
𝟐
𝐟(𝐱) = 𝐜𝐨𝐧 𝐱>𝟏
𝐱𝟑

verificare che essa rappresenta una variabile statistica e calcolarne la media e la varianza.

Soluzione
Siccome questa f(x) per x > 1 non è mai negativa, per verificare che la funzione sia una variabile statistica

dobbiamo provare soltanto che tenga la relazione ∫1 f(x)dx = 1.
∞ ∞ ∞
2 1 x −2
∫ 3 dx = 2 ∫ 3 dx = 2 | | =1
1 x 1 x −2 1

Ora passiamo a calcolare la media della nostra variabile statistica:


∞ ∞ ∞ ∞
2 1 x −1
∫ x ∗ f(x) dx = ∫ x ∗ 3 dx = 2 ∫ 2 dx = 2 | | =2
1 1 x 1 x −1 1

Concludiamo andando a calcolare la varianza della distribuzione come differenza tra M(x 2 ) e [M(x)]2 .
Poiché però
∞ ∞ ∞
2 1
M(x 2 ) = ∫ x 2 f(x) dx = ∫ x 2 3
dx = 2 ∫ dx = 2|log 𝑥|1∞ = non esiste
1 1 x 1 x
la varianza della distribuzione non esiste.

47
Esercizio 3.8 – Varianza di variabile statistica

Data la funzione
𝟐 ∗ (𝐱 − 𝟏) 𝐜𝐨𝐧 𝟏 < 𝐱 < 𝟐
- si verifichi che è una variabile statistica;
- si calcoli la varianza utilizzando la proprietà pitagorica.

Soluzione
2
Per verificare che la funzione sia una variabile statistica si deve provare che tenga la relazione ∫−1 f(x)dx =
1.
2 2 2
x2
∫ 2 ∗ (x − 1)dx = 2 ∫ x − 1 dx = 2 | − x| = 1
1 1 2 1

Dopo di che si calcola la media della funzione:


2 2 2 2
2
x3 x2 5
M(x) = ∫ x ∗ f(x)dx = ∫ x ∗ 2 ∗ (x − 1) dx = 2 ∫ x − x dx = 2 | − | =
1 1 1 3 2 1 3

Si conclude andando a calcolare la varianza della funzione.

Si calcola M(x 2 ).
2 2 2 2
x4 x3 17
M(x 2 ) = ∫ x 2 f(x) dx = ∫ x 2 2 ∗ (x − 1) dx = 2 ∫ x 3 − x 2 dx = 2 | − | =
1 1 1 4 3 1 6

Di conseguenza, la varianza risulta essere

17 5 2 1
σ2 (x) = M(x 2 ) − [M(x)]2 = −( ) =
6 3 18

48
4. Le variabili casuali

Esercizio 4.1 – Tabulazione di una variabile casuale a partire dallo spazio degli eventi

Si lanciano tre monete truccate allo stesso modo con probabilità di testa pari a 0,25. Si tabuli e si
fornisca la rappresentazione grafica della distribuzione del numero di teste con i seguenti approcci:
- costruendo lo spazio degli eventi;
- utilizzando un opportuno modello teorico.

Soluzione
Lo spazio degli eventi composti del lancio di tre monete è indicato nella tabella (T rappresenta l’evento
elementare Testa e C l’evento elementare Croce).

Numero
Moneta 1 Moneta 2 Moneta 3
di T
C C C 0
C C T 1
C T C 1
C T T 2
T C C 1
T C T 2
T T C 2
T T T 3

Sappiamo dal testo dell’esercizio che la probabilità dell’evento elementare testa ossia P(T) è uguale a 0,25,
quindi P(C) = 1 − 0,25 = 0,75.
Il calcolo delle probabilità associate agli eventi composti sfrutta l’indipendenza delle tre prove elementari
componenti lo stesso evento composto di interesse.
Riportiamo ora le probabilità degli 8 eventi composti:

Numero Probabilità eventi


Moneta 1 Moneta 2 Moneta 3
di T composti
C C C 0 0,75*0,75*0,75=0,422
C C T 1 0,75*0,75*0,25=0,141
C T C 1 0,75*0,25*0,75=0,141
C T T 2 0,75*0,25*0,25=0,047
T C C 1 0,25*0,75*0,75=0,141
T C T 2 0,25*0,75*0,25=0,047
T T C 2 0,25*0,25*0,75=0,047
T T T 3 0,25*0,25*0,25=0,016
1,00

49
Possiamo ora osservare che la somma delle probabilità degli 8 eventi composti è pari a 1.
Siamo ora in grado di calcolare la probabilità totale che escano zero teste – in questo caso uguali a quella di
un solo evento composto, la probabilità totale che esca una sola testa – in questo caso la somma delle
probabilità di tre eventi composti – e così via.

X (Numero
P (X)
di teste)
0 0,42
1 0,14*3=0,42
2 0,047*3=0,14
3 0,02

Quindi la rappresentazione grafica risulta essere la seguente:

Si può arrivare allo stesso risultato utilizzando la distribuzione binomiale.


L’espressione analitica del modello binomiale è la seguente:
n
f(x) = ( ) px (1 − p)n−x
x
dove n corrisponde al numero delle monete lanciate che è quindi sempre uguale a tre ed x è la modalità della
variabile: 0, 1, 2, 3.

Quindi:
3 3!
P(0) = ( ) 0,250 (0,75)3−0 = 0,250 (0,75)3−0 = 0,42
0 0! (3 − 0)!

50
3 3!
P(1) = ( ) 0,251 (0,75)3−1 = 0,251 (0,75)3−1 = 0,42
1 1! (3 − 1)!
3 3!
P(2) = ( ) 0,252 (0,75)3−2 = 0,252 (0,75)3−2 = 0,14
2 2! (3 − 2)!
3 3!
P(3) = ( ) 0,253 (0,75)3−3 = 0,253 (0,75)3−3 = 0,02
3 3! (3 − 3)!

Come si può facilmente notare le probabilità ottenute sono identiche sia partendo dallo spazio degli eventi
che utilizzando il modello teorico.

51
Esercizio 4.2 – Varianza della distribuzione bernoulliana

Si dimostri che la varianza della distribuzione del lancio di una moneta è massima per probabilità pari
a 0,50.

Soluzione
Il modello a cui si adatta l’esperimento “lancio di una moneta” è la distribuzione bernoulliana.
La varianza, in questo modello, assume la seguente formula:

σ2 = p ∗ (1 − p)
che può essere considerata una funzione in p.

Derivando rispetto a p otteniamo


(1 − p) + (−1)p = 0

1−p−p =0
1
p=
2

52
Esercizio 4.3 – Approssimazione alla distribuzione normale e distribuzione binomiale

Data la variabile casuale binomiale con n=10 e p=0,5, come può essere il caso di 10 figli, 10 monete,
ecc., si determini la probabilità di avere un numero di successi minore o uguale a 4.
Si utilizzino due approcci:
- il modello binomiale e l’approssimazione normale;
- si chiarisca il differenziale percentuale tra i due approcci.

Soluzione
La funzione del modello binomiale è la seguente:
n
f(x) = ( ) px (1 − p)n−x
x
Dobbiamo calcolare le probabilità per tutti gli eventi che abbiano numero di successi uguale o inferiore a 4,
ovvero
P(x < 4) = P(0) + P(1) + P(2) + P(3) + P(4)

Quindi,
10 10!
P(0) = ( ) 0,50 (1 − 0,5)10−0 = 0,50 (1 − 0,5)10−0 = 9,765625 ∗ 10−4
0 0! (10 − 0)!
10 10!
P(1) = ( ) 0,51 (1 − 0,5)10−1 = 0,51 (1 − 0,5)10−1 = 9,765625 ∗ 10−3
1 1! (10 − 1)!
10 10!
P(2) = ( ) 0,52 (1 − 0,5)10−2 = 0,52 (1 − 0,5)10−2 = 0,043945312
2 2! (10 − 2)!
10 10!
P(3) = ( ) 0,53 (1 − 0,5)10−3 = 0,53 (1 − 0,5)10−3 = 0,1171875
3 3! (10 − 3)!
10 10!
P(4) = ( ) 0,54 (1 − 0,5)10−4 = 0,54 (1 − 0,5)10−4 = 0,205078125
4 4! (10 − 4)!

Quindi,
P(x ≤ 4) = P(0) + P(1) + P(2) + P(3) + P(4) = 0,376953124.
La probabilità, con approccio binomiale, risulta essere 37,7%.

L’approssimazione normale è la seguente:

Y~N(μ = np, σ2 = np(1 − p))

53
Andiamo a calcolare:

μ = np = 10 ∗ 0,5 = 5,00
σ2 = np(1 − p) = 10 ∗ 0,5 ∗ 0,5 = 2,50

Quindi si otterrà, utilizzando la tavola della distribuzione normale standardizzata,


4−μ 4−5
P(Y ≤ 4) = P [Z ≤ ] = P [Z ≤ ] = P(Z ≤ −0,63) =
σ √2,5

= F(−0,63) = 1 − F(−0,63) = 1 − 0,73565 = 0,26435


La probabilità, con approssimazione normale, risulta essere 26,4%.

Il differenziale percentuale tra i due approcci è di ben il 42%.


Si osservi che con n=10, l’approssimazione alla normale risulta insoddisfacente, nonostante sia p=0,5.

54
Esercizio 4.4 – Distribuzione normale

Supponiamo che l’altezza di una popolazione di persone sia una v.c. 𝐱~𝐍(𝛍 = 𝟏𝟕𝟎, 𝛔𝟐 = 𝟏𝟎𝟎),

- calcolare la probabilità di trovare un individuo con altezza compresa tra 150 e 160;
- determinare quell’altezza al di sopra della quale si trova, con grande probabilità, il 5% degli
individui.

Soluzione
Utilizzando la tavola della distribuzione normale, si ottiene la probabilità di trovare un individuo con altezza
compreso tra 150 e 160:
150 − μ 160 − μ
P(150 ≤ x ≤ 160) = P ( ≤Z≤ )
σ σ
160 − 170 150 − 170
= F( ) − F( ) = F(−1) − F(−2)
10 10
= F(2) − F(1) = 0,97725 − 0,84134 = 0,13591

Per determinare l’altezza al di sopra della quale si trova il 5% degli individui, si indica con x ′ , il valore
incognito richiesto.
Dato che deve essere,
x′ − μ
P(X ≥ x ′ ) = P (Z ≥ z ′ = ) = 0,05
σ

con la tavola della normale, occorre trovare il valore z ′ per il quale risulta P(Z ≤ z ′ ) = 0,095.
Questo valore è
x′ − μ
z′ = = 1,65
σ
da cui
x ′ = μ + 1,65σ = 170 + (1,65) ∗ (10) = 186,50

55
Esercizio 4.5 – Distribuzione chi quadro

Sia 𝐱 una variabile casuale che ha distribuzione chi quadro con r gradi di libertà.
Si determinino le seguenti probabilità:
- 𝐏(𝐱 ≤ 𝟔, 𝟑𝟎𝟒) 𝐩𝐞𝐫 𝐫 = 𝟏𝟐
- 𝐏(𝟏, 𝟔𝟏𝟎 ≤ 𝐱 ≤ 𝟏𝟏, 𝟎𝟕𝟎) 𝐩𝐞𝐫 𝐫=𝟓
- 𝐏(𝟗, 𝟐𝟔𝟎 ≤ 𝐱 ≤ 𝟑𝟓, 𝟏𝟕𝟐) 𝐩𝐞𝐫 𝐫 = 𝟐𝟑

Soluzione
Utilizzando la tavola della distribuzione chi quadro, si possono risolvere i tre quesiti:
per r = 12, P(x ≤ 6,304) = 1 − P(x > 6,304) = 1 − 0,9 = 0,1

per r = 5, P(1,610 ≤ x ≤ 11,070) = P(x ≥ 1,610) − P(x > 11,070) = 0,90 − 0,05 = 0,85

per r = 23, P(9,260 ≤ x ≤ 35,172) = P(x ≥ 9,260) − P(x > 35,172) = 0,995 − 0,05 = 0,945

56
Esercizio 4.6 – Distribuzione t di Student

Sia x una variabile casuale che ha distribuzione t di Student con r gradi di libertà. Supponendo che
sia:
- 𝐫 = 𝟏𝟎, si determinino le probabilità 𝐏(𝐱 ≥ 𝟐, 𝟐𝟐𝟖), 𝐏(𝐱 ≤ 𝟐, 𝟐𝟐𝟖), 𝐏(|𝐱| ≥ 𝟐, 𝟐𝟐𝟖);
- 𝐫 = 𝟏𝟓, si determini la probabilità 𝐏(−𝟏, 𝟕𝟓𝟑 ≤ 𝐱 ≤ 𝟐, 𝟔𝟎𝟐);
- 𝐫 = 𝟏𝟖, si determini la probabilità 𝐏(−𝟏, 𝟑𝟑𝟎 ≤ 𝐱 ≤ 𝟐, 𝟓𝟓𝟐).

Soluzione
Utilizzando la tavola della distribuzione di t di Student, si possono determinare le probabilità richieste.

P(x ≥ 2,228) = 0,025;


P(x ≤ 2,228) = 1 − P(x ≥ 2,228) = 1 − 0,025 = 0,975;

P(|x| ≥ 2,228) = P(x ≥ 2,228) + P(x ≤ −2,228) = 2P(x ≥ 2,228) = 0,050

P(−1,753 ≤ x ≤ 2,602) = P(x ≥ −1,753) − P(x ≥ 2,602) =


= 1 − P(x ≥ 1,753) − P(x ≥ 2,602) =
= 1 − 0,05 − 0,01 = 0,94

P(−1,330 ≤ x ≤ 2,552) = P(x ≥ −1,330) − P(x ≥ 2,552) =


= 1 − P(x ≥ 1,330) − P(x ≥ 2,552) =
= 1 − 0,1 − 0,01 = 0,89

57
Esercizio 4.7 – Condizioni per avere una variabile casuale

Sia data la variabile casuale continua definita dalla seguente funzione di densità

𝐟(𝐱) = 𝐤𝐱 𝟑 , 𝟎 ≤ 𝐱 ≤ 𝟏𝟎
Si determini:
- il valore di k che caratterizza la 𝐟(𝐱) come funzione di densità di probabilità;
- la probabilità che la variabile casuale sia compresa nell’intervallo (𝟓; 𝟖).

Soluzione
Affinché f(x) sia una funzione di densità di probabilità deve valere le condizione kx 3 ≥ 0 ed, inoltre,
l’integrale della funzione deve essere 1, ovvero
10
∫ kx 3 dx = 1
0
10
x4
k| | = 1
4 0

104
k =1
4
1
k=
2500

La probabilità cercata è data da


8 8
x3 1 x4
P(5 < X < 8) = ∫ dx = | | = 0,3471
5 2500 2500 4 5

58
Esercizio 4.8 – Una variabile casuale

Data la distribuzione
𝟎, 𝐱 < 𝟏𝟑𝟏𝟓
𝟎, 𝟎𝟎𝟎𝟏(𝐱 − 𝟏𝟑𝟏𝟓), 𝟏𝟑𝟏𝟓 ≤ 𝐱 ≤ 𝟏𝟒𝟏𝟓
{
𝟎, 𝟎𝟎𝟎𝟏(𝟏𝟓𝟏𝟓 − 𝐱), 𝟏𝟒𝟏𝟓 ≤ 𝐱 ≤ 𝟏𝟓𝟏𝟓
𝟎, 𝐱 > 𝟏𝟓𝟏𝟓
- si rappresenti graficamente la funzione di densità;
- si verifichi che la funzione data è effettivamente una funzione di densità;
- si calcolino 𝐏(𝐱 ≤ 𝟏𝟑𝟓𝟎) e 𝐏(𝐱 ≥ 𝟏𝟒𝟑𝟎).

Soluzione
La rappresentazione grafica della distribuzione di densità viene mostrata sotto:

Per verificare che f(x) è una funzione di densità, basta appurare che ∫ f(x) dx = 1.
Ovvero,
1415 1515
10−4 ∫ (x − 1315) dx + 10−4 ∫ (1515 − x) dx =
1315 1415
1415 1515
−4
x2 x2
10 [| − 1315x| + |1515x − | ]=1
2 1315
2 1415

Si può evitare il passaggio dell’integrale, notando dalla figura che l’area sotto la curva f(x) è pari ad 1.
Dopo di che si possono calcolare le probabilità richieste:
59
1350
P(X ≤ 1350) = 10−4 ∫ (x − 1315) dx
1315
1350
x2
10−4 | − 1315x| = 0,06
2 1315

P(X ≥ 1430) = 1 − P(X < 1430) =


1415 1430
10−4 [∫ (x − 1315) dx + ∫ (1515 − x) dx] =
1315 1415

1415 1430
−4
x2 x2
10 [| − 1315x| + |1515x − | ] = 0,64
2 1315
2 1415

60
5. Le distribuzioni campionarie

Esercizio 5.1 – Distribuzione della media aritmetica campionaria, mediana


campionaria e semisomma campionaria del primo e ultimo estratto

Data una piccola popolazione composta dalle 4 unità statistiche:

0 1 1 3

- sulla base di campioni di ordine 3 si costruiscano le distribuzioni campionarie della media


aritmetica, della mediana, della semisomma del primo ed ultimo estratto;
- si chiarisca quale delle seguenti tre statistiche è da considerarsi uno stimatore corretto della
media della popolazione.

Soluzione
L’universo dei campioni di unità è formato da 64 elementi (43 ) che si traduce in questo modo:

1 0 0 0 17 1 0 0
2 0 0 1 18 1 0 1
3 0 0 1 19 1 0 1
4 0 0 3 20 1 0 3
5 0 1 0 21 1 1 0
6 0 1 1 22 1 1 1
7 0 1 1 23 1 1 1
8 0 1 3 24 1 1 3
9 0 1 0 25 1 1 0
10 0 1 1 26 1 1 1
11 0 1 1 27 1 1 1
12 0 1 3 28 1 1 3
13 0 3 0 29 1 3 0
14 0 3 1 30 1 3 1
15 0 3 1 31 1 3 1
16 0 3 3 32 1 3 3

33 1 0 0 49 3 0 0
34 1 0 1 50 3 0 1
35 1 0 1 51 3 0 1
36 1 0 3 52 3 0 3
37 1 1 0 53 3 1 0
38 1 1 1 54 3 1 1
39 1 1 1 55 3 1 1
40 1 1 3 56 3 1 3
41 1 1 0 57 3 1 0
42 1 1 1 58 3 1 1
43 1 1 1 59 3 1 1
44 1 1 3 60 3 1 3
45 1 3 0 61 3 3 0
46 1 3 1 62 3 3 1
47 1 3 1 63 3 3 1
48 1 3 3 64 3 3 3
61
La distribuzione campionaria della media ̅
X = ∑i xi ⁄n risulta

̅ ̅
0,00 1/64
0,33 6/64
0,67 12/64
1,00 11/64
1,33 12/64
1,67 12/64
2,00 3/64
2,33 6/64
3,00 1/64
1

Per la determinazione di g(X ̅) è sufficiente contare quanti sono i campioni che danno luogo allo stesso
risultato. Nell’universo dei campioni ce n’è solo 1 su 64 che ha media pari a 0 ed è il campione (0,0,0); ce ne
sono 6 su 64 che hanno media pari a 0,33 e così via.
̅ si ricava che E(X
Dalla distribuzione campionaria di X ̅) = ∑ X̅i ∗ g(X̅i ) = 1,25.

La distribuzione campionaria della mediana ̅


X e risulta

Per tutto l’universo dei campioni si modifica l’ordine in modo che gli elementi del campione siano in ordine
crescente. Dopo di che si individua la mediana per ogni campione. Infine, è sufficiente contare quanti
campioni danno origine allo stesso risultato. Nell’universo dei campioni ce ne sono 10 su 64 che hanno
mediana pari a 0, e così via.
̅ e si ricava che E(X
Dalla distribuzione campionaria di X ̅̅̅e ) = 1,1563.

La distribuzione campionaria della semisomma del primo ed ultimo elemento estratto


x1 + x3
̅
Xc =
2
risulta

62
̅ ̅

0 4/64
0,5 16/64
1 16/64
1,5 8/64
2 16/64
3 4/64
1

Per l’intero universo dei campioni, si fa la “media” del primo ed ultimo elemento del singolo campione.
Dopo di che è sufficiente contare quanti campioni danno origine allo stesso risultato. Nell’universo dei
campioni ce ne sono 4 su 64 che hanno semisomma del primo ed ultimo termine pari a 0, e così via. Dalla
distribuzione campionaria della semisomma del primo ed ultimo elemento, si ricava che E(X ̅ c ) = 1,25.

̅eX
Le due distribuzioni campionarie di X ̅ c hanno un valore atteso che coincide con la media della
̅
popolazione ed è diverso da quello di X e , risultando
̅ c ) = 1,25 = E(X) ≠ E(X
E(X) = E(X ̅ e ) = 1,1563

Ciò significa che, calcolando sui campioni dell’universo dei campioni di determinazioni di un certo ordine le
due costanti caratteristiche media e semisomma del primo e ultimo elemento estratto, si ottiene mediamente
un valore che coincide con la popolazione, mentre ciò non avviene calcolando la mediana.

63
Esercizio 5.2 – Distribuzione della proporzione campionaria

Della stessa popolazione presentata nell’esercizio precedente:


𝐦
- si costruisca la distribuzione campionaria della proporzione 𝒑 = , indicando con m il numero
𝐧
di unità che nel singolo campione presentano la modalità 0, per campioni di ordine 3;
- si verifichi che la stessa statistica sia uno stimatore corretto.

Soluzione
Indicando con m la variabile casuale che rappresenta il numero di unità che in ciascun dei 64 campioni (di
ordine n=3) presentano la modalità 0, la distribuzione campionaria della proporzione p risulta:

0 27/64
1/3 27/64
2/3 9/64
1 1/64
1

e da essa si ricava che E(p) = 1/4.


La media della distribuzione campionaria della proporzione di elementi che nello spazio dei campioni (e
quindi il valore atteso) posseggono una certa caratteristica (presentano la determinazione 0 nel nostro
esempio) è pari alla proporzione di unità che nella popolazione presentano quella stessa caratteristica P,
risultando
1
E(p) = =P
4

Ciò significa che, calcolando sui campioni dell’universo dei campioni di determinazioni di un certo ordine la
proporzione di unità che posseggono una determinata caratteristica, si ottiene mediamente un valore che
coincide con l’analoga proporzione nella popolazione.

64
Esercizio 5.3 – Distribuzioni campionarie della varianza e della varianza corretta

Ancora sulla base della medesima popolazione dell’esercizio 5.1 e utilizzando campioni di ordine 3, si
costruisca la distribuzione della varianza campionaria e della varianza campionaria corretta.

Soluzione
La varianza della popolazione dell’esercizio 5.1 risulta
(0 − 1,25)2 + (1 − 1,25)2 + (1 − 1,25)2 + (3 − 1,25)2 1,5625 + 0,0625 + 0,0625 + 3,0625 4,75
= =
4 4 4
= 1,1875

La distribuzione della varianza campionaria


∑i(X i − ̅
X)2
S2 =
n
risulta essere
2 2

0 10/64
2/9 18/64
8/9 18/64
14/9 12/64
2 6/64
1

e da essa si ricava che E(S 2 ) = 0,79167 che non coincide con la varianza della popolazione dell’esercizio
5.1 che è uguale a 1,1875.

Se però si fosse calcolata la statistica campionaria della varianza corretta


∑i(X i − ̅
X)2
S̃ 2 =
n−1
si sarebbe ottenuta la distribuzione campionaria

65
dalla quale si ricava E(S̃ 2 ) = 1,1875 che coincide con il valore della varianza della popolazione da cui sono
stati formati i 64 campioni.

66
Esercizio 5.4 – Popolazione binomiale e normale

Alle elezioni amministrative del maggio 2014, i voti ottenuti da un partito nel Comune di Firenze sono
stati pari al 40%. Si determini la probabilità che, estraendo con ripetizione un campione di 1000
elettori, almeno il 38% di questi abbia votatolo stesso partito.

Soluzione
La probabilità cercata può essere calcolata come
n 1000
m n 1000
P ( ≥ 0,38) = ∑ ( ) 0,4m (1 − 0,4)n−m = ∑ ( ) 0,4380 (1 − 0,4)1000−380
n m 380
m=380 m=380

Il calcolo è evidentemente lungo e laborioso dal momento che si dovrebbe calcolare la probabilità che nel
campione ci siano 380 a favore di quel partito, poi 381, 382… fino a 1.000 su 1.000.
m
Tuttavia, poiché per n che tende all’infinito la variabile casuale n
tende ad una distribuzione normale
N(μ = p, σ2 = p(1 − p)/n), quando si ha un campione sufficientemente grande, ed il nostro lo è, si può
approssimare la distribuzione bernoulliana con la corrispondente normale.

Usando la tavola della normale, è quindi possibile calcolare la probabilità cercata, che risulta

0,38 − 0,40
P Z≥ = P(Z ≥ −1,29) = 0,90147
√(0,4) ∗ (0,6)
[ 1000 ]

Si faccia attenzione al fatto che in questo esercizio non si richiede di stimare la proporzione della
popolazione, che è data, ma di calcolare la probabilità che nel campione si verifichi una percentuale di
almeno il 38% a favore di un determinato partito.

67
Esercizio 5.5 – Distribuzione della media campionaria

Data la popolazione nella quale il carattere X assume le modalità:

X: -1 3 1 5

- si costruisca la distribuzione campionaria della media aritmetica per campioni casuali di


numerosità n=2 estratti con ripetizione;
- si determini quindi la probabilità di ottenere una media campionaria compresa tra 2 e 4 inclusi.

Soluzione
In generale, il numero di possibili campioni con ripetizione di dimensione n estraibili da una data popolazione
è N n , dove N è il numero di modalità che il carattere X può assumere nella popolazione.

In questo caso, pertanto, i campioni sono 42 = 16.


Pertanto, considerando tutti i 16 possibili campioni, possiamo costruire la seguente tabella:

1 2 ̅
-1 -1 -1
-1 3 1
-1 1 0
-1 5 2
3 -1 1
3 3 3
3 1 2
3 5 4
1 -1 0
1 3 2
1 1 1
1 5 3
5 -1 2
5 3 4
5 1 3
5 5 5

dove ̅ indica la media campionaria.


Dalla tabella precedente si ricava facilmente la distribuzione della media campionaria, riportata nella tabella
seguente:
̅ -1 0 1 2 3 4 5
̅ 1/16 2/16 3/16 4/16 3/16 2/16 1/16

con ∑ f( ̅ ) = 1.
Poiché conosciamo la distribuzione campionaria, siamo ora in grado di calcolare la probabilità d’interesse,

68
4 3 2 9
P(2 ≤ ̅ ≤ 4) = + + = = 0,5625
16 16 16 16

69
Esercizio 5.6 – Distribuzione della media campionaria di campioni estratti da una
popolazione normale

Data una variabile casuale x normale con mediana 𝐌𝐞 = 𝟏𝟎 e terzo quartile 𝐐𝟑 = 𝟏𝟓, determinare la
probabilità che un campione di 2 osservazioni indipendenti abbia media inferiore o uguale a 11.

Soluzione
Poiché x segue una distribuzione normale, risulta μ = Me . Inoltre, per definizione, il terzo quartile è quel
valore che lascia alla sua sinistra il 75% della distribuzione. Pertanto si ha
Q3 − μ
P(X ≤ Q 3 ) = P (Z ≤ ) = 0,75
σ
dove con Z è indicata la variabile casuale normale standardizzata, Z~N(0,1).
Utilizzando la tavola della normale, si legge che il valore Z che lascia alla sua sinistra il 75% (0,75) della
distribuzione è 0,68. Pertanto, si ottiene
Q 3 − μ 15 − 10
= = 0,68
σ σ
σ = 7,3529
̅ segue una distribuzione
Si ha dunque X~N(10, σ = 7,352), il che implica che la media campionaria X
7,3529
normale con media pari a 10 e deviazione standard σx̅ = . La probabilità che un campione di due
√2
osservazioni indipendenti abbia media inferiore o uguale a 11 è data allora da

11 − 10
̅ ≤ 11) = P (Z ≤
P(X ) = P(Z ≤ 0,1923) = 0,57535
7,3529
√2

70
Esercizio 5.7 – Distribuzione della media campionaria di campioni estratti da una
popolazione esponenziale

La durata, in mesi, di una batteria per computer ha una distribuzione esponenziale con un parametro
𝛌 = 𝟎, 𝟎𝟒. Si determini la probabilità che la media campionaria sia maggiore di 18,55 mesi, per 𝐧 =
𝟓𝟎.

Soluzione
σ2
Sappiamo che la media campionaria si distribuisce con x̅ = μ e varianza .
n

1 σ2 1
La media x̅ è uguale alla media della popolazione, λ = 25, la varianza è 50 = 50λ2 = 12,50

e, pertanto
P(x̅ > 18,55) = P(Z > −1,82) = 0,9656

71
6. La stima intervallare

Esercizio 6.1 – Intervalli di confidenza per la media

Da una partita di confezioni di farina è stato prelevato un campione di 12 pezzi i cui pesi netti effettivi,
in chilogrammi, sono:

0,498 0,489 0,503 0,493 0,491 0,499


0,512 0,5004 0,483 0,506 0,51 0,509

Supponendo che il peso netto effettivo ha una distribuzione normale, si determinino gli intervalli di
confidenza al 95% e al 99% per la media della popolazione.

Soluzione
Andiamo a calcolare la media stimata, x̅, ovvero
∑ xi 5,9934
x̅ = = = 0,49945
n 12

e la varianza stimata, S̃, ovvero


∑(xi − x̅)2 0,00091153
S̃ = = = 8,3 ∗ 10−5 = 0,000083
n−1 11

Essendo la varianza incognita e normale la popolazione da cui è stato estratto il campione, l’intervallo di
confidenza per la media richiede l’uso della distribuzione t di Student con 11 gradi di libertà.
Quindi, al livello del 95%, risulta

√s̃ √s̃ √0,000083 √0,000083


x̅ − t 0,025 ≤ μ ≤ x̅ + t 0,025 = 0,49945 − 2,201 ≤ μ ≤ 0,49945 + 2,201
√n √n √12 √12
0,49945 − 2,201 ∗ 2,63 ∗ 10−3 ≤ μ ≤ 0,49945 + 2,201 ∗ 2,63 ∗ 10−3
0,4937 ≤ μ ≤ 0,505

Al livello 99% occorre invece considerare t 0,005 = 3,106, e l’intervallo risulta

√s̃ √s̃ √0,000083 √0,000083


x̅ − t 0,005 ≤ μ ≤ x̅ + t 0,005 = 0,49945 − 3,106 ≤ μ ≤ 0,49945 + 3,106
√n √n √12 √12
0,49945 − 3,106 ∗ 2,63 ∗ 10−3 ≤ μ ≤ 0,49945 + 3,106 ∗ 2,63 ∗ 10−3
0,491 ≤ μ ≤ 0,508

72
Esercizio 6.2 – Intervalli di confidenza per la media

Da un campione di 373 bambini di una scuola elementare è stata tratta la seguente distribuzione
secondo l’ampiezza della famiglia di provenienza.

Ampiezza 2 3 4 5-6 7-8 Totale


Frequenza 7 54 181 122 9 373

Si costruisca l’intervallo di confidenza al 95% per la dimensione media della famiglia nella
popolazione.

Soluzione
I dati campionari sono
∑ xi ∗ fi 2 ∗ 7 + 3 ∗ 54 + 4 ∗ 181 + 5,5 ∗ 122 + 7,5 ∗ 9
x̅ = = = 4,39
∑ fi 373
∑(xi − x̅)2 ∗ fi (2 − 4,39)2 ∗ 7 + ⋯ + (7,5 − 4,39)2 ∗ 9
S̃ = = = 1,10
n−1 372

In questo caso non sappiamo se la popolazione da cui è stato estratto il campione è normale. Il campione
però è molto numeroso e quindi la distribuzione della media campionaria è normale.

Quindi, l’intervallo di confidenza al livello 95%, con 372 gradi di libertà, risulta essere:

√s̃ √s̃ √1,1 √1,1


x̅ − z0,025 ≤ μ ≤ x̅ + z0,025 = 4,39 − 1,96 ≤ μ ≤ 4,39 + 1,96
√n √n √373 √373
4,39 − 1,96 ∗ 0,054 ≤ μ ≤ 4,39 + 1,96 ∗ 0,054
4,28 ≤ μ ≤ 4,50

73
Esercizio 6.3 – Intervalli di confidenza per la percentuale campionaria

In un campione casuale di 500 abbonati ad internet si è accertato che il 20% utilizza il servizio della
filodiffusione. Si costruiscano gli intervalli di confidenza per la percentuale nella popolazione ai livelli
del 95% e 98%.

Soluzione
Chiamando P la percentuale della popolazione stimata e p la percentuale del campione, abbiamo

p = 0,2 e, quindi, al livello del 95%, con 499 gradi di libertà, si avrà il seguente intervallo di confidenza:

p ∗ (1 − p) p ∗ (1 − p) 0,16 0,16
p − z0,025 √ ≤ P ≤ p + z0,025 √ = 0,2 − 1,96√ ≤ P ≤ 0,2 + 1,96√
n n 500 500

0,2 − 1,96 ∗ 0,018 ≤ P ≤ 0,2 + 1,96 ∗ 0,018


0,165 ≤ P ≤ 0,235

Al livello del 98%, invece, si avrà questo intervallo di confidenza:

p ∗ (1 − p) p ∗ (1 − p) 0,16 0,16
p − z0,01 √ ≤ P ≤ p + z0,01 √ = 0,2 − 2,33√ ≤ P ≤ 0,2 + 2,33√
n n 500 500

0,2 − 2,33 ∗ 0,018 ≤ P ≤ 0,2 + 2,33 ∗ 0,018


0,158 ≤ P ≤ 0,242

74
Esercizio 6.4 – Verifica dell’ipotesi funzionale: il caso di una distribuzione di Poisson

Il numero di incidenti per settimana in un dato tratto di autostrada segue la legge di Poisson con
parametro λ=0,4. Da una rilevazione condotta per 65 settimane si è rilevata la seguente distribuzione

N. di Frequenza Frequenza
incidenti osservata attesa
(x) (ni ) (npi0)
0 48 43,57
1 15 17,43
2 2 3,49
3o+ - 0,51
Totale 65 65

Si verifichi l’ipotesi che la variabile X segua la distribuzione di Poisson.

Soluzione
Dobbiamo formulare l’ipotesi HO nel caso del Poisson con parametro λ=0,4:

e−0,4
HO : p(x) = (0,4)x , x = 0,1,2, …
x!
Prima di passare al calcolo di X 2 è opportuno aggregare le ultime due classi in cui npi0 < 5.
Si ha, allora
2
2
(48 − 43,57)2 (15 − 17,43)2 (2 − (3,49 + 0,51))
X = + + = 1,78
43,57 17,43 (3,49 + 0,51)

2
Posto α = 0,05, cui corrisponde X 0,05;2 = 5,99 (i gradi di libertà sono 2, ossia pari al numero della modalità,
nel nostro caso 3, meno il numero dei parametri del modello, nel nostro caso 1), si trova che X 2 = 1,78 <
2
5,99 = X 0,05;2 . Perciò l’ipotesi nulla non va rifiutata: il campione osservato non si discosta
significativamente dal modello ipotizzato per la popolazione.

75
Esercizio 6.5 – Verifica dell’ipotesi funzionale: il caso di una distribuzione normale

La distribuzione del peso di un prodotto sia normale con media 𝛍 = 𝟏𝟕𝟒 e varianza 𝛔𝟐 = 𝟏𝟔.

- Si tabuli la distribuzione del peso assumendo le seguenti classi: fino a 165; 165-170; 170-175;
175-180; 180 e oltre;
- Successivamente, costruendo un campione di 400 unità della stessa popolazione, si sono
ottenute le seguenti frequenze per le stesse classi:

Si verifichi con un 𝛂 = 𝟎, 𝟎𝟏 l’ipotesi che la distribuzione campionaria ottenuta sia ancora


normale.

Soluzione
Per rispondere al primo quesito standardizziamo 165, 165 – 170 e i successivi valori e andiamo a calcolare le
frequenze relative con la tavola della normale standardizzata.

Per la prima classe:


165−174
4
= −2,25

0,012 = Φ(−2,25)
Quindi, la frequenza relativa a sinistra di 165 è 1,22%.

Mentre, per la seconda classe:


170−174
4
= −1,00 0,1587 = Φ(−1,00)
165−174
4
= −2,25 0,012 = Φ(−2,25)

Φ(−1,00) − Φ(−2,25) = 0,1587 − 0,012 = 0,147


La frequenza relativa a sinistra di 170 (non inferiore a 165) è 1,47%.

Sulla base delle informazioni fornite, quindi, è stata costruita la distribuzione:

76
Classe di statura fino a 165 165-170 170-175 175-180 180 e oltre Totale
Frequenza relativa 0,012 0,147 0,44 0,334 0,067 1

Per rispondere al secondo quesito costruiamo la statistica X 2 che sappiamo essere distribuita come una X 2:
(7 − 4,8)2 (51 − 58,8)2 (28 − 26,8)2
X2 = + + ⋯+ = 3,9
4,8 58,8 26,8
2
Posto α = 0,01, cui corrisponde una soglia X 0,01;4 = 13,28 (i gradi di libertà sono 5-1=4), si trova che X 2 =
2
3,9 < 13,28 = X 0,01;4 . Perciò l’ipotesi nulla non va rifiutata: il campione osservato si conforma alla
popolazione, ovvero non differisce significativamente da essa.

77
7. Le distribuzioni doppie, le somme di variabili casuali, la mistura

Nel caso generale di una variabile statistica bivariata definita su modalità discrete di x e di z, la
rappresentazione grafica deve essere riferita a 3 assi ortogonali e assumerà quindi la configurazione a pali,
come riportato nella figura sottostante. La lunghezza di ciascun palo sarà proporzionale alla corrispondente
frequenza.

Quando i due caratteri x e z sono entrambi continui e se ne conoscono i valori numerici bisogna suddividerli
in classi, ottenendo così una tavola a doppia entrata come rappresentato nella figura sotto riportata. In questo
caso, in corrispondenza di ogni rettangolo si innalza un parallelepipedo la cui altezza rappresenta la densità,
e il cui volume rappresenta l’ammontare di frequenze o frequenze relative appartenenti alla stessa area xz. Si
ottiene in questo modo un solido costituito da parallelepipedi contigui, la cui rappresentazione grafica, che si
chiama stereogramma, è indicata nella figura sotto:

78
Esercizio 7.1 – Una distribuzione doppia discreta

Data la tabella:

X
Z x1 x2 x3 Totale

z1 3 4 13 20

z2 1 3 8 12

z3 1 5 12 18

Totale 5 12 33 50

- si spieghi il significato del valore 4, nel corpo della tabella;


- si costruiscano le distribuzioni condizionate;
- si costruiscano le distribuzioni marginali.

Soluzione
Si hanno due caratteri X e Z in testata e fiancata.
Nel corpo della tabella troviamo le frequenze congiunte (3; 4; 13; 1; 3; 8; 1; 5; 12).
Ai margini della tabella troviamo le frequenze marginali di X (5; 12; 33) e di Z (20; 12;18).
In questa tabella apparentemente elementare in realtà vi sono dei concetti estremamente pesanti:
a) distribuzione congiunta: relazione di x e di z con le frequenze congiunte. Ad esempio, qual è il
significato della frequenza congiunta=4? Vi sono 4 casi su 50 che hanno modalità x2 e z1.
b) distribuzione marginale: se analizziamo quella di x, si riferisce solamente al carattere x
indipendentemente da z. Non vi è alcun vincolo.

Si passa dalle frequenze assolute a quelle relative, come riportato nella tabella sottostante:

X
Z x1' x2' x3'

z1' 3/50 4/50 13/50 20/50

z2' 1/50 3/50 8/50 12/50

z3' 1/50 5/50 12/50 18/50

5/50 12/50 33/50 1

79
È necessario notare che quando si lavora con le frequenze relative il totale delle frequenze risulta sempre 1.
Riportiamo in seguito la definizione di distribuzione condizionata: si fissa una relazione tra modalità di X e
di Z e un vettore di frequenza. Data una modalità di X, per esempio x2, si osservano le frequenze per ogni
modalità di Z. Oppure, data una modalità di Z, per esempio z3, si osservano le frequenze per ogni modalità di
X.

Ora si costruiscono le condizionate, in particolare le condizionate di x dato z (tabella sopra) e viceversa


(tabella sotto).

x1 x2 x3

z1 3/20 4/20 13/20 1

z2 1/12 3/12 8/12 1

z3 1/18 5/18 12/18 1

x1 x2 x3

z1 3/5 4/12 13/33

z2 1/5 3/12 8/33

z3 1/5 5/12 12/33

1 1 1

Infine, si costruiscono le distribuzioni marginali:

Modalità Frequenza Frequenza Modalità Frequenza Frequenza


X assoluta relativa Z assoluta relativa
x1 5 5/50 z1 20 20/50
x2 12 12/50 z2 12 12/50
x3 33 33/50 z3 18 18/50

80
Esercizio 7.2 – Una distribuzione doppia discreta

Si consideri l’esperimento che consiste nel lanciare una moneta tre volte, a cui corrispondono due
variabili casuali:
1. X: numero di teste (T)
2. Z: numero delle variazioni nella sequenza

- Si costruisca la distribuzione doppia 𝐘 = 𝐟(𝐱, 𝐳);


- si calcoli la probabilità che si verifichino 2 teste.

Soluzione
In corrispondenza dello spazio degli eventi riportato nella prima colonna della tabella, si ha, nella seconda
colonna, la modalità “numero di teste” e la modalità “numero delle variazioni” nella terza colonna.

Spazio Valori di X = Valori di Z =


campionario numero di teste numero variazioni
TTT 3 0
TTC 2 1
TCT 2 2
TCC 1 1
CTT 2 1
CTC 1 2
CCT 1 1
CCC 0 0

Le frequenze congiunte della distribuzione f(x, z) vengono calcolate conteggiando quante volte su 8 si
verificano, nella stessa sequenza, una particolare modalità di X e una particolare modalità di Z.
Per esempio, nell’esercizio riportato, P(x=1, z=1)= 2/8, P(x=1, z=2)= 1/8, e così via.
Le probabilità delle diverse coppie di valori (x,z) indicate nella tabella sopra, possono essere sistemate come
nella tabella riportata in seguito, dove si mettono in relazione le coppie di variabili (x,z) con i livelli di
probabilità.

81
X
Z 0 1 2 3 Totale

0 1/8 0 0 1/8 2/8

1 0 2/8 2/8 0 4/8

2 0 1/8 1/8 0 2/8

Totale 1/8 3/8 3/8 1/8 1

Si ha così una distribuzione doppia di probabilità che può essere descritta da una funzione a due variabili, la
funzione di probabilità congiunta.

Ora si vuole determinare la probabilità che x=2 nella distribuzione sopra riportata. Si ha

p1 (2) = p(2,0) + p(2,1) + p(2,2) = 0 + 2⁄8 + 1⁄8 = 3⁄8

che è il valore della probabilità della distribuzione marginale di X in corrispondenza della modalità x=2.
Nella tabella sottostante, viene riportata la colonna con x=2 evidenziata, in modo da rendere più
comprensibile al lettore il passaggio appena trattato.

X
Z 0 1 2 3 Totale

0 1/8 0 0 1/8 2/8

1 0 2/8 2/8 0 4/8

2 0 1/8 1/8 0 2/8

Totale 1/8 3/8 3/8 1/8 1

82
Esercizio 7.3 – Covarianza

Data la seguente successione

1 8
2 12
3 22
4 28
5 30
15 100

si calcoli la covarianza.

Soluzione
Si inizia calcolando la media di x (x̅) e quella di y (y̅).
∑ xi 15
x̅ = = = 3,00
n 5
∑ yi 100
y̅ = = = 20,00
n 5

Si procede calcolando la cov(xy).

∑(xi − x̅) ∗ (yi − y̅) (1 − 3) ∗ (8 − 20) + ⋯ + (5 − 3) ∗ (30 − 20) 60


cov(xy) = = = = 12,00
n 5 5

83
Esercizio 7.4 – Indipendenza

Data la tabella che riporta la distribuzione doppia di voto di laurea/genere, si modifichi la stessa
tabella in modo che genere e voto siano tra loro indipendenti. Si lascino immutate le frequenze
marginali.

Votazione
Genere fino a 87 88-98 99-109 110
Maschi 29 112 151 95 387
Femmine 3 44 83 61 191
32 156 234 156 578

Soluzione
Per trovare fi∗ , ossia la frequenza congiunta teorica che rende indipendenti tra loro, genere e voto, occorre
moltiplicare le frequenze marginali per poi dividerle per il valore totale delle frequenze.
Numericamente,
fi∗ = 32 ∗ 387⁄578 = 21,43 fi∗ = 32 ∗ 191⁄578 = 10,57

fi∗ = 156 ∗ 387⁄578 = 104,45 fi∗ = 156 ∗ 191⁄578 = 51,55

fi∗ = 234 ∗ 387⁄578 = 158,67 fi∗ = 234 ∗ 191⁄578 = 77,33

fi∗ = 156 ∗ 387⁄578 = 104,45 fi∗ = 156 ∗ 191⁄578 = 51,55

Tabuliamo i valori ottenuti:

Votazione
Genere fino a 87 88-98 99-109 110
Maschi 21,43 104,45 158,67 104,45
Femmine 10,57 51,55 73,33 51,55

Lo scarto tra frequenza effettiva e frequenza teorica è la contingenza. Nel caso del “maschio laureato fino a
87”:
contingenza = fi − fi∗ = 29 − 21,43 = 7,57

84
Esercizio 7.5 – Covarianza zero e indipendenza

Sulla base delle due tabelle riportate sotto, si verifichi che la covarianza nulla non è condizione
sufficiente per avere indipendenza.

Tabella 1

1 2 3

2 3 9 18 30

Z 4 2 6 12 20

6 5 15 30 50

10 30 60 100

Tabella 2

X
0 1 2 3

1 1/8 0 0 1/8 2/8

Z 2 0 1/8 1/8 0 2/8

3 0 2/8 2/8 0 4/8

1/8 3/8 3/8 1/8 1

Soluzione
Sappiamo che la covarianza si ottiene con le seguenti formule:

̅) ∗ (zi − Z̅) ∗ fxz se le frequenze congiunte sono relative


cov = ∑(xi − X

̅ )∗(zi −Z
∑(xi −X ̅)∗fxz
cov = ∑ fxz
se le frequenze congiunte sono assolute

Quindi per la tabella 1 calcoliamo le medie delle distribuzioni marginale di X e di Z.


1 ∗ 10 + 2 ∗ 30 + 3 ∗ 60
̅=
X = 2,5
100
85
2 ∗ 30 + 4 ∗ 20 + 6 ∗ 50
Z̅ = = 4,4
100
Il punto che ha come coordinate le due medie appena calcolate rappresenta il baricentro della distribuzione
doppia.

Ora possiamo calcolare la covarianza tra X e Z:

cov(X, Z) = [(1 − 2,5) ∗ (2 − 4,4) ∗ 3 + (2 − 2,5) ∗ (2 − 4,4) ∗ 9 + (3 − 2,5) ∗ (2 − 4,4) ∗ 18


+ (1 − 2,5) ∗ (4 − 4,4) ∗ 2 + (2 − 2,5) ∗ (4 − 4,4) ∗ 6 + (3 − 2,5) ∗ (4 − 4,4) ∗ 12
+ (1 − 2,5) ∗ (6 − 4,4) ∗ 15 + (3 − 2,5) ∗ (6 − 4,4) ∗ 30]/100 = 0

Dopo di che, dobbiamo verificare che ci sia indipendenza:


10 ∗ 30
f11 = = 3,00 = 3,00
100
30∗30
f12 = 100
= 9,00 = 9,00 ecc…

Se svolgiamo i calcoli per ciascuna frequenza congiunta si può notare che in questo caso la covarianza nulla
sia accompagnata all’indipendenza delle due variabili.

Ora andiamo ad analizzare un caso in cui si ha covarianza uguale a zero ma non si ha invece indipendenza,
ovvero la tabella 2.

Per calcolare la covarianza utilizziamo la formula dell’esempio precedente, quindi dobbiamo andare a
calcolare le medie delle marginali di X e di Z.
1 3 3
0 ∗ + 1 ∗ + 2 ∗ + 3 ∗ 1/8
̅=
X 8 8 8 = 1,5
1
2 2 4
1∗8+2∗8+3∗8
Z̅ = = 2,25
1
Il punto che ha come coordinate le due medie appena calcolate rappresenta il baricentro della distribuzione
doppia.

Proseguiamo calcolando la covarianza:


1 2
cov(X, Z) = (0 − 1,5) ∗ (1 − 2,25) ∗ + (1 − 1,5) ∗ (1 − 2,25) ∗ 0 + ⋯ + (2 − 1,5) ∗ (3 − 2,25) ∗
8 8
+ (3 − 1,5) ∗ (3 − 2,25) ∗ 0 = 0

86
Verifichiamo se c’è o meno indipendenza moltiplicando in modo ordinato le marginali di X per le marginali
di Z: 1⁄8 ∗ 2⁄8; 3⁄8 ∗ 2⁄8; 3⁄8 ∗ 4⁄8 e così via. Se infatti c’è indipendenza questi prodotti devono
coincidere con le effettive frequenze congiunte.
1/8 ∗ 2/8
f11 = ≠ 1/8
1
3/8 ∗ 2/8
f22 = ≠ 1/8
1
e così via.

Già dal primo termine si capisce che non vi è indipendenza, quindi abbiamo provato che avere la covarianza
uguale a zero non comporta necessariamente l’indipendenza.

87
Esercizio 7.6 – Costruzione di una distribuzione doppia e delle rispettive distribuzioni
marginali partendo dall’espressione analitica

Sia data la distribuzione doppia


𝟏
𝐟(𝐱, 𝐳) = 𝟑𝟐 ∗ (𝐱 𝟐 + 𝐳 𝟐 ) con x: 0, 1, 2, 3

z: 0, 1

- si costruisca la tabella a doppia entrata nel cui corpo ci siano le frequenze congiunte;
- si costruiscano poi le distribuzioni marginali.

Soluzione
Ricaviamo le frequenze congiunte grazie all’utilizzo dell’espressione analitica, ovvero:
1
f(0,0) = ∗ (02 + 02 ) = 0
32
1 1
f(0,1) = ∗ (02 + 12 ) =
32 32
e così via per tutte le combinazioni possibili fino all’ottenimento della tabella a doppia entrata completa,
riportata sotto.

Z
X 0 1
0 0 1/32 1/32
1 1/32 2/32 3/32
2 4/32 5/32 9/32
3 9/32 10/32 19/32
14/32 18/32 1

Per ottenere l’espressione analitica della marginale di X dobbiamo tener presente che nel continuo avremmo
dovuto integrare la f(x, z)rispetto a z. Poiché siamo nel discreto dobbiamo sommare f(x, 0) a f(x, 1) dove 0
ed 1 sono i valori che può assumere Z.
Una volta ottenuta l’espressione analitica della marginale di X che è
1
f(x) = ∗ (x 2 + z 2 ) z: 0, 1
32

1
= ∗ [(x 2 + 02 ) + (x 2 + 12 )]
32
1
= ∗ (2x 2 + 1)
32

88
sostituiamo alla X i suoi valori x: 0, 1, 2, 3
1
f(0) = ∗ (2 ∗ 02 + 1) = 1/32
32
1
f(1) = ∗ (2 ∗ 12 + 1) = 3/32
32
1
f(2) = ∗ (2 ∗ 22 + 1) = 9/32
32
1
f(3) = ∗ (2 ∗ 32 + 1) = 19/32
32

Per trovare le marginali di Z facciamo variare il valore di X:


1
f(z) = 32 ∗ (x 2 + z 2 ) x: 0, 1, 2, 3

1
= ∗ [(02 + z 2 ) + (12 + z 2 ) + (22 + z 2 ) + (32 + z 2 )]
32
1
= ∗ (14 + 4z 2 )
32

Sostituiamo alla Z i suoi valori z: 0, 1


1
f(0) = ∗ (14 + 4 ∗ 02 ) = 14/32
32
1
f(1) = ∗ (14 + 4 ∗ 12 ) = 18/32
32

89
Esercizio 7.7 – Costruzione di una distribuzione marginale partendo da una
distribuzione doppia

Data la distribuzione congiunta


𝐟(𝐱, 𝐳) = 𝐱 + 𝐳 (𝟎 < 𝐱 < 𝟏; 𝟎 < 𝐳 < 𝟏)

si forniscano:
- le distribuzioni marginali;
- le medie delle stesse marginali.

Soluzione
Se vogliamo costruire l’espressione analitica della marginale di X dobbiamo integrare rispetto a Z:
1 1
z2 1
∫ (x + z) dz = [x + ] =x+
0 2 0 2

Se vogliamo costruire l’espressione analitica della marginale di Z dobbiamo integrare rispetto a X:


1 1
x2 1
∫ (x + z) dx = [ + z] = + z
0 2 0
2

Calcoliamo ora le medie delle marginali:


1 1 1
1 x3 x2 7
Mx = ∫ x ∗ f(x) dx = ∫ x ∗ (x + ) dx = | − | =
0 0 2 3 2 0 12

1 1 1
1 z3 z2 7
Mz = ∫ z ∗ f(z) dy = ∫ z ∗ (z + ) dz = | − | =
0 0 2 3 2 0 12

90
Esercizio 7.8 – Somma di variabili casuali

Si abbiano 2 monete da 1€ non truccate, di cui una spagnola (X) e l’altra italiana (Z).
Si costruiscano, rispetto al numero di teste:
- la distribuzione doppia 𝐟(𝐱, 𝐳);
- la distribuzione della variabile W, somma di X e Z;
- si fornisca la rappresentazione grafica delle due marginali, della distribuzione doppia, della
somma delle due variabili X e Z.

Soluzione
Le marginali di ciascuna distribuzione sono fornite dalla distribuzione bernoulliana di ciascuna variabile:

X f(x) Z f(z)
0 1/2 0 1/2
1 1/2 1 1/2

Riportiamo le due distribuzioni come marginali nella tabella:

X
0 1
0 1/2
Z 1 1/2
1/2 1/2

Siccome le due monete sono indipendenti, le frequenze congiunte sono uguali al prodotto delle marginali.

X
0 1
0 1/4 1/4 1/2
Z 1 1/4 1/4 1/2
1/2 1/2

Le marginali

91
La doppia:

Ora costruiamo la distribuzione della variabile W rispetto al numero di teste:

W fi
0+0 1/4
0+1 1/4
1+0 1/4
1+1 1/4

ovvero:

92
Graficamente:

93
Esercizio 7.9 – Somma di variabili casuali

Due operazioni devono essere eseguite dallo stesso studente.


X: minuti per completare la operazione 1 con 𝛍𝐱 = 𝟐𝟎 e 𝛔𝐱 = 𝟓
Z: minuti per completare la operazione 2 con 𝛍𝐳 = 𝟑𝟎 e 𝛔𝐳 = 𝟖
X e Z sono distribuite normalmente e sono indipendenti tra loro.

- Quali sono la media e la deviazione standard del tempo necessario – che chiamiamo W – per
completare entrambe le operazioni?
- Qual è la distribuzione di W?

Soluzione
L’esercizio chiede di calcolare la media e la deviazione standard (radice quadrata della varianza) di una
somma di variabili, in particolare di W=X+Z.

μw = μx + μz = 20 + 30 = 50

Siccome X e Z sono indipendenti, la loro covarianza è uguale a 0, quindi:

σ2w = σ2x + σ2z + 2cov(x, z) = 52 + 82 + 0 = 25 + 64 + 0 = 89

La deviazione standard, quindi, sarà: σw = √89 = 9,43


Poiché entrambi le distribuzioni sono normali ed indipendenti, la loro somma sarà una distribuzione normale
con media 50 e varianza 89, ovvero W~N(50; 89).

94
Esercizio 7.10 – Lancio di due dadi

Si abbia il seguente esperimento:


si lanciano due dadi, uno nero (X) e uno bianco (Z). Si forniscano:
- le distribuzioni univariate delle facce del dado nero e anche del dado bianco;
- la distribuzione doppia delle facce dei due dadi;
- la distribuzione della somma delle facce dei due dadi.

Soluzione
Il lancio di un dado è una variabile rettangolare discreta e quindi le distribuzioni del dado nero e del dado
bianco sono:
Tabella 1 Tabella 3

xi f'i Zi f'i
1 1/6 1 1/6
2 1/6 2 1/6
3 1/6 3 1/6
4 1/6 4 1/6
5 1/6 5 1/6
6 1/6 6 1/6

Ora si pensi all’esperimento composto che consiste nel lanciare due dadi, il bianco e il nero.
Si associ ad ogni coppia delle facce la rispettiva probabilità che è nel corpo della tabella. Siccome le due
distribuzioni sono indipendenti, la probabilità congiunta è uguale al prodotto delle rispettive marginali.

95
Tabella 3

X
1 2 3 4 5 6
1 1/36 1/36 1/36 1/36 1/36 1/36 1/6
2 1/36 1/36 1/36 1/36 1/36 1/36 1/6
3 1/36 1/36 1/36 1/36 1/36 1/36 1/6
Z
4 1/36 1/36 1/36 1/36 1/36 1/36 1/6
5 1/36 1/36 1/36 1/36 1/36 1/36 1/6
6 1/36 1/36 1/36 1/36 1/36 1/36 1/6
1/6 1/6 1/6 1/6 1/6 1/6

Ora andiamo a fare tre operazioni:


- effettuiamo la somma ordinata delle facce: 1+1, 1+2, 1+3,…; 2+1, 2+2,…; …; 6+1, 6+2,…, 6+6;
- associamo ad ogni somma le rispettive probabilità;
- infine effettuiamo il conteggio della somma delle probabilità che corrisponde ad ogni somma: al
valore 2 corrisponde 1/36, al valore 3 – che otteniamo 2 volte – corrisponde invece 1/36+1/36 e
quindi 2/36 e così via, ottenendo la tabella 4.
Tabella 4

È agevole vedere che ad avere probabilità più basse sono la somma 1+1=2 e 6+6=12, entrambe con una sola
frequenza. Il valore modale (quello con probabilità più alto) risulta W= 7.
Come nel caso di un singolo dado, andiamo a presentare la funzione di probabilità della variabile casuale
associata alla somma dei punti nel lancio di due dadi:

96
97
Esercizio 7.11 – Mistura di distribuzioni

Abbiamo tre marche di macchine, A, B, C per le quali sono stati rilevati il numero di guasti. La
frequenza totale dei guasti è stata di 100 per la macchina A, di 40 per la macchina B, di 60 per la
macchina C. Le distribuzioni di frequenza relativa di ciascuna macchina per numero di guasti viene
riportata nella tabella sottostante.

X = numero di frequenza macchina frequenza macchina frequenza macchina


guasti A B C
0 0,05 0,225 0,55
1 0,15 0,325 0,333
2 0,22 0,25 0,1
3 0,23 0,125 0,017
4 0,17 0,075 0
5 0,11 0 0
6 0,05 0 0
7 0,02 0 0

Totale 1 1 1

Si costruisca la distribuzione delle tre macchine complessivamente considerate, ancora per numero di
guasti, ossia la mistura delle tre distribuzioni.

Soluzione
Dobbiamo ricordare che in questo caso, a differenza del precedente, non si chiede di sommare tre
distribuzioni che si riferiscono a tre fenomeni o aspetti diversi. In questo caso ciascuna distribuzione si
riferisce al medesimo aspetto X.
Dobbiamo quindi associare alla modalità X la frequenza corrispondente alle 3 macchine. Questa frequenza è
ottenuta come media ponderata delle tre frequenze. I pesi sono rappresentati dal numero delle frequenze
assolute di ciascuna distribuzione.

f0A ∗ NA + f0B ∗ NB + f0C ∗ NC 0,005 ∗ 100 + 0,225 ∗ 40 + 0,55 ∗ 60 42,50


f0′ = = = = 0,21
NA + NB + NC 100 + 40 + 60 200

f1A ∗ NA + f1B ∗ NB + f1C ∗ NC 0,15 ∗ 100 + 0,325 ∗ 40 + 0,33 ∗ 60 47,80


f1′ = = = = 0,24
NA + NB + NC 100 + 40 + 60 200

f2A ∗ NA + f2B ∗ NB + f2C ∗ NC 0,22 ∗ 100 + 0,25 ∗ 40 + 0,10 ∗ 60 38,00


f2′ = = = = 0,19
NA + NB + NC 100 + 40 + 60 200

98
f3A ∗ NA + f3B ∗ NB + f3C ∗ NC 0,23 ∗ 100 + 0,125 ∗ 40 + 0,017 ∗ 60 29,02
f3′ = = = = 0,15
NA + NB + NC 100 + 40 + 60 200

f4A ∗ NA + f4B ∗ NB + f4C ∗ NC 0,17 ∗ 100 + 0,075 ∗ 40 + 0,00 ∗ 60 20


f4′ = = = = 0,10
NA + NB + NC 100 + 40 + 60 200

f5A ∗ NA + f5B ∗ NB + f5C ∗ NC 0,11 ∗ 100 + 0,00 ∗ 40 + 0,00 ∗ 60 11


f5′ = = = = 0,06
NA + NB + NC 100 + 40 + 60 200

f6A ∗ NA + f6B ∗ NB + f6C ∗ NC 0,05 ∗ 100 + 0,00 ∗ 40 + 0,00 ∗ 60 5


f6′ = = = = 0,03
NA + NB + NC 100 + 40 + 60 200

f7A ∗ NA + f7B ∗ NB + f7C ∗ NC 0,02 ∗ 100 + 0,00 ∗ 40 + 0,00 ∗ 60 2


f7′ = = = = 0,01
NA + NB + NC 100 + 40 + 60 200

99
Esercizio 7.12 – Somma di due distribuzioni: un caso aziendale

Si deve produrre un manufatto per il quale sono necessari x ore di lavoro e z chilogrammi di materia
prima.
Si hanno le seguenti informazioni:
- Media di x = 0,2;
- Media di z = 1,5;
- Varianza di x = 0,02;
- Varianza di z = 0,25;
- Covarianza (x,z) = 0,006;
- Costo orario del lavoro = 20€/ora;
- Costo al chilo della materia prima = 4€/kg.
Calcolare la media e la varianza del costo del manufatto, W.

Soluzione
La distribuzione del costo del manufatto è data da W = 20x + 4z

La media risulterà essere


M(W) = 20 ∗ M(x) + 4 ∗ M(z) = 20 ∗ 0,2 + 4 ∗ 1,5 = 4 + 6 = 10,00

La varianza della distribuzione costo del manufatto risulterà

var(W) = a2 var(x) + b2 var(z) + 2 ∗ a ∗ b ∗ cov(xz) = 202 ∗ 0,02 + 42 ∗ 0,25 + 2 ∗ 20 ∗ 4 ∗ 0,006


= 12,96

100
8. L’analisi della varianza

Esercizio 8.1 – Analisi della varianza ad un solo fattore

Nella tabella sottostante vengono presentati i risultati di 30 prove di resistenza alla tensione (in kg/cm2)
effettuate su tipologie di gomma prodotte con cinque diversi processi. Le prove riguardano 6 esemplari
per ogni processo.

Processo
1 2 3 4 5
177 116 170 181 177
172 179 156 190 186
137 182 188 210 199
196 143 212 173 202
145 156 164 172 204
168 174 184 187 198

- Si vuole stabilire se la resistenza alla tensione della gomma sia la stessa nei diversi processi;
- si accerti mediante una stima intervallare con un intervallo di fiducia del 95% se la differenza
tra il 1° e il 5° processo è diversa significativamente.

Soluzione
Andiamo ad utilizzare il seguente modello:
xij = μ + hj + εij

i cui stimatori sono:

μ=̿
X
̅j − X
hj = X ̿

Per rispondere al primo quesito, l’ipotesi nulla da verificare è che la media dei singoli gruppi di risposte,
corrispondenti alle cinque tipologie, siano uguali.

Dall’elaborazione dei dati si ricava:


(∑ X )
̅̅̅
X1 = N ij = (177 + 172 + 137 + 196 + 145 + 168)⁄6 = 165,83 dove Nj indica la numerosità del
j
singolo processo j, in questo caso il processo 1. Si ragiona allo stesso modo per tutti e 5 i processi produttivi
̅ j ):
(r=5) e si ottengono i seguenti risultati (X
̅̅̅
X1 = 165,83
101
̅̅̅
X 2 = 158,33
̅̅̅
X 3 = 179,00
̅̅̅
X 4 = 185,50
̅̅̅
X 5 = 194,33
̿ con la
Avendo i gruppi uguale numerosità, si può calcolare la media generale di tutte le osservazioni X
seguente formula:
̅ j ) (165,83 + 158,33 + 179,00 + 185,50 + 194,33)
(∑ X ij ) (∑ X
̿
X= = = = 176,60
N r 5
dove N indica la numerosità totale del nostro campione (in questo esempio 30), mentre r indica il numero di
processi j (in questo caso 5).
Ora dobbiamo calcolare la devianza nei gruppi, denominata SSW(within) o SSE (dovuta all’errore) e la
devianza tra i gruppi, denominata SSB(between) o SSF(dovuta al fattore sperimentale).
In particolare,
2
SSW = ∑ ∑(X ij − ̅
Xj)
i j
= (177 − 165,83)2 + ⋯ + (168 − 165,83)2 + (116 − 158,33)2 + ⋯ + (174 − 158,33)2
+ (170 − 179)2 + ⋯ + (184 − 179)2 + (181 − 185,50)2 + ⋯ + (187 − 185,50)2
+ (177 − 194,33)2 + ⋯ + (198 − 194,33)2 = 9177,00

2
SSB = ∑(X̅j − ̿
X ) Nj
i
= [(165,83 − 176,60)2 + (158,33 − 176,60)2 + (179,00 − 176,60)2
+ (185,50 − 176,60)2 + (194,33 − 176,60)2 ] ∗ Nj = 849,03 ∗ 6 = 5094,20

Per calcolare le varianze dobbiamo risolvere le divisioni che hanno per numeratore la devianza e per
denominatore i rispettivi gradi di libertà.
In particolare,
SSW 9177,00
VAR W = = = 367,08
N−r 30 − 5

SSB 5094,20
VAR B = = = 1273,55
r−1 5−1

Il test appropriato per la verifica delle ipotesi è costituito dal rapporto


SSB⁄
VAR B r − 1 = 1273,55 = 3,47
F= =
VAR W SSW⁄ 367,08
N−r

102
0,05
La F4;25 = 2,76 si è ottenuta con α=0,05 ed i seguenti gradi i libertà:

numeratore = r-1 = 5-1 = 4


denominatore = N-r = 30-5 = 25
0,05
Poiché F = 3,47 > F4;25 = 2,76, l’ipotesi nulla viene pertanto rifiutata.

Per rispondere al secondo quesito calcoliamo i limiti di confidenza.


I limiti di confidenza al 95% per la differenza μ1 − μ5 sono:

1 1 1 1
̅1 − ̅
(X X 5 ) ± t α⁄2 ∗ √VAR W ∗ ( + ) = (165,83 − 194,33) ± 2,06 ∗ √367,08 ∗ ( + )
N1 N5 6 6
= −28,50 ± 2,06 ∗ 11,06 = −28,50 ± 22,79
dove t α⁄2 indica la distribuzione t di Student con α/2= 0,025 e N-r gradi di libertà (30-5).

Quindi, i limiti di confidenza risultano essere i seguenti: -51,29 e -5,71.


Poiché questo intervallo non contiene lo zero rifiutiamo l’ipotesi.

103
Esercizio 8.2 – Analisi della varianza ad un solo fattore

Un ricercatore agrario intende analizzare il rendimento della coltura della barbabietola da zucchero in
relazione a quattro differenti fertilizzanti, A, B, C e D, di cui l’ultimo già utilizzato in passato.
Nella tabella seguente sono riportati i rendimenti osservati per ciascun fertilizzante in 7 appezzamenti
di terreno – situati nella stessa area – simili per caratteristiche di suolo e di giacitura.

Fertilizzante
A B C D
472,3 470 520,2 475,4
465,7 480,5 501,4 481,2
410,5 502,9 488,7 452,8
464,1 462,5 462,5 442,7
502,8 487,8 473,3 398,6
475,1 479,2 504,2 479,1
472,6 468,9 493,6 465,9

Si verifichi l’ipotesi nulla che i fertilizzanti abbiano uguale efficacia, ossia che le medie dei 4 gruppi,
corrispondenti ai 4 fertilizzanti, siano uguali tra loro:
𝑯𝟎 : 𝝁𝑨 = 𝝁𝑩 = 𝝁𝑪 = 𝝁𝑫

Soluzione

Andiamo ad utilizzare il seguente modello:


xij = μ + hj + εij

i cui stimatori sono:


̿
μ=X
̅j − X
hj = X ̿

Dall’elaborazione dei dati si ricava:


̅̅̅
X1 = (∑ X ij )⁄Nj = (472,3 + 465,7 + 410,5 + 464,1 + 502,8 + 475,1 + 472,6)⁄7 = 466,16 dove Nj
indica il numero di appezzamenti di terreno utilizzati per testare la rispettiva tipologia di fertilizzante. Si
̅ j ):
ragiona allo stesso modo per tutte e 4 le tipologie di fertilizzanti (r=4) e si ottengono i seguenti risultati (X
̅̅̅
X1 = 466,16
̅̅̅
X 2 = 478,83
̅̅̅
X 3 = 491,99
̅̅̅
X 4 = 456,53
104
Avendo i gruppi uguale numerosità la media generale è

(∑ X ij ) (∑ ̅
X j ) (466,16 + 478,83 + 491,99 + 456,53)
̿=
X = = = 473,38
N r 4
dove N indica la numerosità totale del nostro campione (in questo esempio 28), mentre r indica il numero di
fertilizzanti testati (in questo caso 4).

Ora calcoliamo la devianza nei gruppi, denominata SSW(within) o SSE (dovuta all’errore) e la devianza tra i
gruppi, denominata SSB(between) o SSF(dovuta al fattore sperimentale). Nella tabella sotto riportata si
sviluppa l’analisi dell’anova ad un fattore a livello teorico:

Fonte di Gradi di
variabilità
Devianza
libertà
Varianza F0 F della soglia

Tra i
SSB r-1 SSB/r-1 (SSB/r-1)/(SSW/N-r)
gruppi
Nei
con r-1 e N-r gradi di F0,05 (r-1);(N-4)
SSW N-r SSw/N-r libertà
gruppi
Totale SST N-1

In particolare,
2
̅j)
SSW = ∑ ∑(X ij − X
i j
= (472,30 − 466,16)2 + ⋯ + (472,60 − 466,16)2 + (470,00 − 478,83)2 + ⋯
+ (468,90 − 478,83)2 + (520,20 − 491,99)2 + ⋯ + (493,60 − 491,99)2
+ (475,40 − 456,53)2 + ⋯ + (465,90 − 456,53)2 = 13098,85

2
SSB = ∑(X̅j − X
̿ ) Nj
i
= [(466,16 − 473,38)2 + (478,83 − 473,38)2 + (491,99 − 473,38)2
+ (456,53 − 473,38)2 ] ∗ Nj = 712,00 ∗ 7 = 4984,00

Per calcolare le varianze, dobbiamo risolvere le divisioni che hanno per numeratore la devianza e per
denominatore i rispettivi gradi di libertà.
In particolare,
VAR W = SSW⁄N − r = 13098,85⁄(28 − 4) = 545,79

SSB 4984,00
VAR B = = = 1661,33
r−1 4−1
105
Il test appropriato per la verifica delle ipotesi è costituito dal rapporto
SSB⁄
VAR B r − 1 = 1661,33 = 3,04
F= =
VAR W SS W⁄ 545,79
N−r

Riassumendo i risultati ottenuti si ottiene la seguente tabella:

Fonte di Gradi di
Devianza Varianza F F di soglia
variabilità libertà
Tra i
4984 3 1661.33
gruppi
0,05
Nei 3.04 3,24 = 3,01
13098.85 24 545.79
gruppi
Totale 18082.85 27

0,05
La F3;24 = 3,01 si è ottenuta con α=0,05 ed i seguenti gradi i libertà:

numeratore = r-1 = 4-1 = 3


denominatore = N-r = 28-4 = 24
0,05
Poiché F = 3,04 > F3;24 = 3,01, l’ipotesi nulla viene rifiutata.

106
Esercizio 8.3 – Analisi della varianza ad un fattore e contrasti

Per valutare la potenza di 4 sostanze cardiache viene programmato il seguente esperimento di


laboratorio. Ogni sostanza opportunamente diluita viene somministrata a 10 cavie, e viene rilevata la
dose alla quale interviene la morte. I risultati dell’esperimento vengono presentati nella tabella che
segue.

Sostanza
1 2 3 4
28 17 17 18
26 25 16 20
29 24 21 25
25 19 22 24
19 28 23 16
26 21 18 20
26 20 20 20
23 25 17 17
28 19 25 19
29 24 21 17

a) Si verifichi mediante l’analisi della varianza l’ipotesi di uguaglianza delle medie delle quattro
popolazioni, assumendo un intervallo di confidenza del 95%;
b) si confrontino a due a due le medie dei quattro campioni utilizzando i contrasti ricorrendo
esclusivamente alla t di Student ed assumendo lo stesso intervallo di confidenza.

(a) – Analisi della varianza

Andiamo ad utilizzare il seguente modello:


xij = μ + hj + εij

i cui stimatori sono:


̿
μ=X

hj = ̅
Xj − ̿
X

Dall’elaborazione dei dati si ricava:


̅̅̅
X1 = (∑ X ij )⁄Nj = (28 + 26 + ⋯ + 28 + 29)⁄10 = 25,90 dove Nj indica il numero delle cavie utilizzate
per testare la sostanza 1. Si ragiona allo stesso modo per tutte e 4 le tipologie di sostanze (r=4) e si ottengono
̅ j ):
i seguenti risultati (X
̅̅̅
X1 = 25,90
̅̅̅
X 2 = 22,20

107
̅̅̅
X 3 = 20,00
̅̅̅
X 4 = 19,60

Avendo i gruppi di uguale numerosità la media generale è

(∑ X ij ) (∑ ̅
X j ) (25,90 + 22,20 + 20,00 + 19,60)
̿=
X = = = 21,93
N r 4
dove N indica la numerosità totale del nostro campione (in questo esempio 40), mentre r indica il numero di
sostanze testate (in questo caso 4).

Calcoliamo ora la devianza nei gruppi, denominata SSW(within) o SSE (dovuta all’errore) e la devianza tra i
gruppi, denominata SSB(between) o SSF(dovuta al fattore sperimentale).

In particolare,
2
̅ j ) = (28 − 25,90)2 + ⋯ + (17 − 19,60)2 = 350,90
SSW = ∑ ∑(X ij − X
i j

2
̅j − ̿
SSB = ∑(X X ) Nj
i
= [(25,90 − 21,93)2 + (22,20 − 21,93)2 + (20,00 − 21,93)2 + (19,60 − 21,93)2 ] ∗ Nj
= 24,99 ∗ 10 = 249,90

Per calcolare le varianze, dobbiamo risolvere le divisioni che hanno per numeratore la devianza e per
denominatore i rispettivi gradi di libertà.

In particolare,
SSW 350,90
VAR W = = = 9,75
N − r 40 − 4

SSB 249,90
VAR B = = = 83,30
r−1 4−1

Il test appropriato per la verifica delle ipotesi è costituito dal rapporto


VAR B 83,30
F= = = 8,54
VAR W 9,75

Riassumiamo i risultati ottenuti nella tabella sotto:

108
Fonte di Gradi di
Devianza Varianza F F di soglia
variabilità libertà
Nei
350,9 36 9,75
gruppi
0,05
Tra i 8,54 3,36 = 2,87
249,875 3 83,3
gruppi
Totale 600,775 39

0,05
La F3;36 = 2,87 si è ottenuta con α=0,05 ed i seguenti gradi i libertà:

numeratore = r-1 = 4-1 = 3


denominatore = N-r = 40-4 = 36
0,05
Poiché F = 8,54 > F3;36 = 2,87, l’ipotesi nulla viene rifiutata.

(b) – Contrasti

Per il confronto tra la media della prima sostanza con la media della seconda sostanza il contrasto L è il
seguente:

L = ∑ k i ∗ μi = 1 μ1 − 1 μ2

dove k1 = 1 e k 2 = −1, ovvero ∑ k i = 0

Si considera lo stimatore corretto di L dato da:

L̃ = ∑(k i ∗ ̅
X j ) = 1 ∗ 25,90 + (−1) ∗ 22,20 = 3,70

con varianza stimata del contrasto

k 2i 1 1
var(L̃) = varW ∗ ∑ = 9,75 ∗ ( + ) = 1,95
ni 10 10

Disponendo della stima del contrasto e della sua varianza possiamo testare l’ipotesi che lo stesso contrasto
sia uguale a zero ossia che la differenza tra le due medie non sia significativamente diversa. Assumendo
α=0,05, ossia un livello di affidabilità del 95%, il valore della soglia critica sarà il valore della t di Student in
corrispondenza di N-r gradi di libertà ossia di (40-4) che è pari a 2,04. I valori 2,04 e -2,04 delimitano,
rispettivamente alla loro destra e alla loro sinistra, un’area del 2,5%.

L̃ − L 3,70
= = 2,66
1,39
√var(L̃)

109
Standardizzando la differenza tra le due medie otteniamo 2,66 che è un valore maggiore del valore critico
2,04.
Possiamo quindi concludere che la differenza tra le due medie risulta essere significativa.

Per il confronto tra la media della prima sostanza con la media della terza il contrasto L è il seguente:

L = ∑ k i ∗ μi = 1 μ1 − 1 μ3

dove k1 = 1 e k 3 = −1, ovvero ∑ k i = 0

Si considera lo stimatore corretto di L dato da:

L̃ = ∑(k i ∗ X
̅ j ) = 1 ∗ 25,90 + (−1) ∗ 20,00 = 5,90

con varianza stimata del contrasto

k 2i 1 1
var(L̃) = varW ∗ ∑ = 9,75 ∗ ( + ) = 1,95
ni 10 10

L̃ − L 5,90
= = 4,24
1,39
√var(L̃)

Standardizzando la differenza tra le due medie otteniamo 4,24 che è un valore maggiore del valore critico
2,04.
Possiamo quindi concludere che la differenza tra le due medie risulta essere significativa.

Per il confronto tra la media della prima sostanza con la media della quarta il contrasto L è il seguente:

L = ∑ k i ∗ μi = 1 μ1 − 1 μ4

dove k1 = 1 e k 4 = −1, ovvero ∑ k i = 0

Si considera lo stimatore corretto di L dato da:

L̃ = ∑(k i ∗ X
̅ j ) = 1 ∗ 25,90 + (−1) ∗ 19,60 = 6,30

con varianza stimata del contrasto

k 2i 1 1
var(L̃) = varW ∗ ∑ = 9,75 ∗ ( + ) = 1,95
ni 10 10
110
L̃ − L 6,30
= = 4,53
1,39
√var(L̃)

Standardizzando la differenza tra le due medie otteniamo 4,53 che è un valore maggiore del valore critico
2,04.
Possiamo quindi concludere che la differenza tra le due medie risulta essere significativa.

Per il confronto tra la media della seconda sostanza con la media della terza il contrasto L è il seguente:

L = ∑ k i ∗ μi = 1 μ2 − 1 μ3

dove k 2 = 1 e k 3 = −1, ovvero ∑ k i = 0

Si considera lo stimatore corretto di L dato da:

L̃ = ∑(k i ∗ X
̅ j ) = 1 ∗ 22,20 + (−1) ∗ 20,00 = 2,20

con varianza stimata del contrasto

k 2i 1 1
var(L̃) = varW ∗ ∑ = 9,75 ∗ ( + ) = 1,95
ni 10 10

L̃ − L 2,20
= = 1,58
1,39
√var(L̃)

Standardizzando la differenza tra le due medie otteniamo 1,58 che è un valore minore del valore critico 2,04.
Possiamo quindi concludere che la differenza tra le due medie risulta essere non significativa.

Per il confronto tra la media della seconda sostanza con la media della quarta il contrasto L è il seguente:
Il contrasto L è il seguente:

L = ∑ k i ∗ μi = 1 μ2 − 1 μ4

dove k 2 = 1 e k 4 = −1, ovvero ∑ k i = 0

Si considera lo stimatore corretto di L dato da:

L̃ = ∑(k i ∗ X
̅ j ) = 1 ∗ 22,20 + (−1) ∗ 19,60 = 2,60

111
con varianza stimata del contrasto

k 2i 1 1
var(L̃) = varW ∗ ∑ = 9,75 ∗ ( + ) = 1,95
ni 10 10

L̃ − L 2,60
= = 1,87
1,39
√var(L̃)

Standardizzando la differenza tra le due medie otteniamo 1,87 che è un valore minore del valore critico 2,04.
Possiamo quindi concludere che la differenza tra le due medie risulta essere non significativa.

Confrontando ora la differenza fra le medie della terza sostanza con la quarta il contrasto L è il seguente:

L = ∑ k i ∗ μi = 1 μ3 − 1 μ4

dove k 3 = 1 e k 4 = −1, ovvero ∑ k i = 0

Si considera lo stimatore corretto di L dato da:

L̃ = ∑(k i ∗ ̅
X j ) = 1 ∗ 20,00 + (−1) ∗ 19,60 = 0,40

con varianza stimata del contrasto

k 2i 1 1
var(L̃) = varW ∗ ∑ = 9,75 ∗ ( + ) = 1,95
ni 10 10

L̃ − L 0,40
= = 0,29
1,39
√var(L̃)

Standardizzando la differenza tra i due contrasti otteniamo 0,29 che è un valore minore del valore critico
2,04.
Possiamo quindi concludere che la differenza tra le due medie risulta essere non significativa.

112
Esercizio 8.4 – Analisi della varianza a due fattori

La società Nervi produce coloranti per tingere tessuti di cotone.


Un cliente fa il seguente reclamo:
- il restringimento del tessuto è stato del 4% anziché dell’1% come atteso. La causa sarebbe
appunto il colorante prodotto dalla Nervi.
La Nervi allora imbastisce il seguente esperimento:
- considera tessuti con restringimento “tipico”, ossia quello atteso in base alle caratteristiche del
tessuto. Le caratteristiche del tessuto sono di 5 livelli (A-B-C-D-E);
- considera poi 5 lotti di tessuto (1-2-3-4-5) diversi sui quali è stato utilizzato lo stesso colorante:
il lotto 1 prodotto nel periodo in cui il cliente non si è lamentato; i lotti 2-3-4 prodotti nel
periodo durante il quale il cliente si è lamentato; il lotto 5 della produzione corrente.
I dati sono riportati nella tabella sotto riportata:

A B C D E

0,7 1,05 2,10 3,15 3,20


1
0,7 1,35 2,25 3,15 3,20
0,7 1,10 2,10 3,15 3,20
2
0,7 1,05 2,10 3,20 3,20
0,5 1,40 2,25 2,55 3,20
3
0,7 1,40 2,75 2,80 3,85
0,7 1,40 2,25 2,80 3,60
4
0,7 1,10 2,60 2,80 3,50
0,7 1,50 2,30 2,50 4,20
5
0,7 1,40 2,10 2,50 4,20

Mediante l’analisi della varianza si verifichi se l’esperimento possa essere usato a favore dell’impresa
produttrice o del cliente. Si consideri prima un livello di significatività del 1% e poi del 5%.

Soluzione
Andiamo ad utilizzare il seguente modello a due fattori con interazione:
xij = μ + hj + wi + γij + εij

i cui stimatori sono:

μ=̿
X

hj = ̅
Xj − ̿
X

wi = ̅
Xi − ̿
X
113
̅ ij − X
γij = X ̅j − X
̅i + X
̿

Per calcolare le varianze del modello andiamo a calcolare:


̅
X j : media della colonna j (A, B, C, D, E)
̅
X i: media della riga i (1, 2, 3, 4, 5)
̅ ij: media dei gruppi (1 A, 2 A, 3 A, 4 A, 5 A, 1 B, 2 B, 3 B, 4 B, 5 B, 1 C, 2 C, 3 C, 4 C, 5 C, 1 D, 2 D, 3 D,
X
4 D, 5 D, 1 E, 2 E, 3 E, 4 E, 5 E)
̿
X: media generale

Per facilitare la comprensione dei calcoli, si riporta la tabella con inserite le medie delle colonne (azzurre), le
medie delle righe (arancioni) e le medie dei gruppi (grigie).

A B C D E

0,7 1,05 2,1 3,15 3,2


1 2,085
0,7 1,35 2,25 3,15 3,2
medie 0,7 1,2 2,175 3,15 3,2
0,7 1,1 2,1 3,15 3,2
2 2,05
0,7 1,05 2,1 3,2 3,2
medie 0,7 1,075 2,1 3,175 3,2
0,5 1,4 2,25 2,55 3,2
3 2,14
0,7 1,4 2,75 2,8 3,85
medie 0,6 1,4 2,5 2,675 3,525
0,7 1,4 2,25 2,8 3,6
4 2,145
0,7 1,1 2,6 2,8 3,5
medie 0,7 1,25 2,425 2,8 3,55
0,7 1,5 2,3 2,5 4,2
5 2,21
0,7 1,4 2,1 2,5 4,2
medie 0,7 1,45 2,2 2,5 4,2
0,68 1,275 2,28 2,86 3,535

Avendo i gruppi la medesima numerosità, la media generale è:


̅ j ) (∑ ̅
(∑ X ij ) (∑ X X i ) (0,68 + 1,275 + 2,28 + 2,86 + 3,535)
̿
X= = = = = 2,126
N r c 5
Dove “N” indica la numerosità del mio campione, “r” le righe e “c” le colonne.

Calcoliamo la devianza residua, denominata SSW, la devianza tra i gruppi, sia di riga che di colonna e la
devianza di interazione. La devianza tra i gruppi di riga è denominata SSBr (between di riga), mentre quella

114
di colonna è denominata SSBc (between di colonna). La devianza di interazione, invece, è denominata SSINT.
La tabella riporta a livello teorico l’analisi della varianza a due fattori con interazione:

Fonte di
Devianza Gradi di libertà Varianza F F di soglia
variabilità

Tra i gruppi (SSBr/r-1)


di riga
SSBr r-1 SSBr/r-1
(SSW/r*c*(n-1))
F0,05 (r-1);(r*c*(n-1))
Tra i gruppi (SSBc/c-1)
di colonna
SSBc c-1 SSBc/c-1
(SSW/r*c*(n-1))
F0,05 (c-1);(r*c*(n-1))
SSINT/((r-1)*(c-1))
Interazione SSINT (r-1)*(c-1) SSINT/((r-1)*(c-1)) F0,05 (r-1)*(c-1);(r*c*(n-1))
(SSW/r*c*(n-1))

Residua SSW r*c*(n-1) SSW/r*c*(n-1)


Totale SST r*c*n-1

In particolare,
2
SSW = ∑ ∑(X ij − ̅
X ij ) = (0,7 − 0,7)2 + ⋯ + (4,2 − 4,2)2 = 0,5825
i j

2
SSBc = n ∗ r ∗ ∑(X̅j − X
̿)
i
=2∗5
∗ [(0,68 − 2,126)2 + (1,275 − 2,126)2 + (2,28 − 2,126)2 + (2,86 − 2,126)2
+ (3,535 − 2,126)2 ] = 53,6287
2
SSBr = n ∗ c ∗ ∑(X̅i − ̿
X)
i
=2∗5
∗ [(2,085 − 2,126)2 + (2,05 − 2,126)2 + (2,14 − 2,126)2 + (2,145 − 2,126)2
+ (2,21 − 2,126)2 ] = 0,1507

2
̅̅̅ij̅ − X
SSINT = n ∗ ∑(X ̅i − X
̅j + X
̿)
i
= 2 ∗ [(0,7 − 2,085 − 0,68 + 2,126)2 + … + (4,2 − 2,21 − 3,535 + 2,126)2 ] = 2,3243

Per calcolare la varianza, dobbiamo risolvere le divisioni che hanno per numeratore la devianza e per
denominatore i rispettivi gradi di libertà.
In particolare,
VAR W = 0,5825⁄5 ∗ 5 ∗ (2 − 1) = 0,0233 che è la varianza residua
115
VAR Bc = 53,6287⁄(5 − 1) = 13,407 che è la varianza tra le colonne e, quindi, tra i tessuti

VAR Br = 0,1507⁄(5 − 1) = 0,0376 che è la varianza tra le righe e, quindi, tra i lotti di coloranti

VAR INT = 2,3243⁄[(5 − 1) ∗ (5 − 1)] = 0,1453 che è la varianza di interazione

Il test appropriato per la verifica delle ipotesi è costituito dal rapporto


SSBc
VAR Bc c−1 13,407
F= = = = 575,41
VAR W SSW 0,0233
r ∗ c ∗ (n − 1)

SSBr
VAR Br r−1 0,0376
F= = = = 1,61
VAR W SSW 0,0233
r ∗ c ∗ (n − 1)

SSINT
VAR INT (r − 1) ∗ (c − 1) 0,1453
F= = = = 6,24
VAR W SSW 0,0233
r ∗ c ∗ (n − 1)

Riassumiamo i risultati ottenuti nella tabella sottostante:

Fonte di
Devianza Gradi di libertà Varianza F F di soglia
variabilità
Tra i gruppi 0,05
0,1507 4 0,0376 1,61 4,25 = 4,18
di riga
Tra i gruppi 0,05
53,6287 4 13,407 575,41 4,25 = 4,18
di colonna
Interazione 2,3243 16 0,1453 6,24
Residua 0,5825 25 0,0233

Andiamo a testare l’esperimento effettuato dall’azienda Nervi.

La soglia critica per i test dei tessuti e dei coloranti, con significatività dell’1% è 4,18. I gradi di libertà sono
c-1 = r-1 = 5-1 = 4 e per il denominatore (r*c*(n-1)) = 5*5*(2-1) = 25.

0,01
Poiché F = 575,41 > F4;25 = 4,18, la differenza tra i tessuti è significativa.

116
0,01
Poiché F = 1,61 < F4;25 = 4,18, il lotto del colorante non ha impatto significativo.

Si può dunque concludere che, prendendo la F all’ 1% di significatività, l’impatto significativo è soltanto del
tipo di tessuto e non del lotto, quindi, la contestazione del cliente risulta essere infondata.

Se si fosse preso invece un livello di significatività più elevato, per esempio del 5%, avremmo un valore
0,05
critico F4;25 = 2,76. Anche con questo livello di significatività più elevato il tipo di lotto non sarebbe
0,05
risultato significativo, infatti F = 1,61 < F4;25 = 2,76.

117
Esercizio 8.5 – Analisi della varianza a due fattori

La direzione di un’azienda ha eseguito uno studio per accertare gli effetti che il turno di lavoro e la
linea di produzione possano avere sul tempo necessario per un’operazione di assemblaggio di parti.
Per l’analisi è stato scelto, per ogni combinazione del turno di lavoro con la linea di produzione, un
campione di 5 osservazioni ed i risultati, in numero di parti assemblate per minuto, sono riportati nella
sottostante tabella.

Linea
1 2 3 4
26 43 40 44
33 34 34 45
1 37 31 33 51
40 36 33 49
27 38 20 43
T 34 25 39 41
u 37 43 35 50
r 2 33 32 38 49
n 28 33 25 39
o 35 30 33 50
21 21 34 28
27 21 28 33
3 14 31 21 33
23 21 28 23
30 27 18 35

a) Si conduca l’analisi della varianza con il modello a due fattori ed interazione, verificando
l’ipotesi di interesse al livello del 5%. Si vuole quindi accertare se la linea, il turno e
l’interazione linea/turno abbiano un effetto significativo sul tempo necessario per
un’operazione di assemblaggio;
b) si determinino gli intervalli di confidenza per le medie nei tre turni con una confidenza del
99%.

Soluzione

(a) – Analisi della varianza

Andiamo ad utilizzare il seguente modello:


xij = μ + hj + wi + γij + εij

i cui stimatori sono:

μ=̿
X
̅j − X
hj = X ̿

118
̅i − X
wi = X ̿

γij = ̅
X ij − ̅
Xj − ̅
Xi + ̿
X

Per calcolare le varianze del modello calcoliamo:


̅
X j : media della colonna j (linea 1, 2, 3, 4)
̅
X i: media della riga i (turno 1, 2, 3)
̅ ij: media del gruppo (1 1, 1 2, 1 3, 2 1, 2 2, 2 3, 3 1, 3 2, 3 3, 4 1, 4 2, 4 3, 4 4)
X

̿: media generale
X

Per facilitare la comprensione dei calcoli, si riporta la tabella con inserite le medie delle colonne (azzurre), le
medie delle righe (arancioni) e le medie dei gruppi (grigie).

Linea
1 2 3 4
26 43 40 44
33 34 34 45
1 37 31 33 51 36,85
40 36 33 49
27 38 20 43
medie 32,6 36,4 32 46,4
T 34 25 39 41
u 37 43 35 50
r 2 33 32 38 49 36,45
n 28 33 25 39
o 35 30 33 50
medie 33,4 32,6 34 45,8
21 21 34 28
27 21 28 33
3 14 31 21 33 25,85
23 21 28 23
30 27 18 35
medie 23 24,2 25,8 30,4
29,67 31,07 30,60 40,87

Calcoliamo anche la media generale nel seguente modo:


̅ j ) (∑ X
(∑ X ij ) (∑ X ̅ i ) (29,67 + 31,07 + 30,60 + 40,87)
̿
X= = = = = 33,05
N r c 4
Dove “N” indica la numerosità del mio campione, “r” le righe e “c” le colonne.

119
Calcoliamo la devianza residua, denominata SSW, la devianza tra i gruppi, sia di riga che di colonna e la
devianza di interazione. La devianza tra i gruppi di riga è denominata SSBr (between di riga), mentre quella
di colonna è denominata SSBc (between di colonna). La devianza di interazione, invece, è denominata SSINT.

In particolare,
2
̅ ij ) = (26 − 32,6)2 + ⋯ + (35 − 30,4)2 = 1439,60
SSW = ∑ ∑(X ij − X
i j

2
SSBc = n ∗ r ∗ ∑(X̅j − ̿
X)
i
=5∗3
∗ [(29,67 − 33,05)2 + (31,07 − 33,05)2 + (30,60 − 33,05)2 + (40,87 − 33,05)2 ]
= 1237,25

2
SSBr = n ∗ c ∗ ∑(X̅i − X
̿) = 5 ∗ 4 ∗ [(36,85 − 33,05)2 + (36,45 − 33,05)2 + (25,85 − 33,05)2 ]
i
= 1556,80

2
̅̅̅ij̅ − ̅
SSINT = n ∗ ∑(X Xi − ̅
Xj + ̿
X)
i
= 5 ∗ [(32,6 − 36,85 − 29,67 + 33,05)2 + ⋯ + (30,4 − 25,85 − 40,87 + 33,05)2 ]
= 173,20

Per calcolare le varianze, dobbiamo risolvere le divisioni che hanno per numeratore la devianza e per
denominatore i rispettivi gradi di libertà.

In particolare,
SSW 1439,60
VAR W = = = 29,99
r ∗ c ∗ (n − 1) 3 ∗ 4 ∗ (5 − 1)

SSBc 1237,25
VAR Bc = = = 412,42
c−1 4−1

SSBr 1556,80
VAR Br = = = 778,40
r−1 3−1

120
SSINT 173,20
VAR INT = = = 28,87
(r − 1) ∗ (c − 1) (3 − 1) ∗ (4 − 1)

Il test appropriato per la verifica delle ipotesi è costituito dal rapporto


SSBc
VAR Bc c−1 412,42
F= = = = 13,75
VAR W SSW 29,99
r ∗ c ∗ (n − 1)

SSBr
VAR Br r−1 778,40
F= = = = 25,96
VAR W SSW 29,99
r ∗ c ∗ (n − 1)

SSINT
VAR INT (r − 1) ∗ (c − 1) 28,87
F= = = = 0,96
VAR W SSW 29,99
r ∗ c ∗ (n − 1)

Andiamo a riassumere i risultati ottenuti nella tabella sottostante:

Fonte di Gradi di
Devianza Varianza F F di soglia
variabilità libertà
Tra i gruppi 0,05
1556,8 2 778,4 25,96 2,48 = 3,15
di riga
Tra i gruppi 0,05
1237,25 3 412,42 13,75 3,48 = 2,76
di colonna
0,05
Interazione 173,2 6 28,87 0,96 6,48 = 2,25
Residua 1439,6 48 29,99

Andiamo a testare se la linea, il turno e l’interazione linea/turno abbiano un effetto significativo sul tempo
necessario per un’operazione di assemblaggio.

0,05
La soglia per la linea produttiva (colonna), con significatività 5%, è F3;48 = 2,76.

Questa soglia è ottenuta con α=0,05 ed i seguenti gradi di libertà:


numeratore = c-1 = 4-1 = 3
denominatore = (r*c*(n-1)) = 3*4*(5-1)= 48
0,05
Poiché F = 13,75 > F3;48 = 2,76, la linea produttiva ha impatto significativo.

0,05
La soglia per il turno (riga), con significatività 5%, è F2;48 = 3,15.
121
La soglia è ottenuta con α=0,05 ed i seguenti gradi di libertà:
numeratore = r-1 = 3-1 = 2
denominatore = (r*c*(n-1)) = 3*4*(5-1)= 48
0,05
Poiché F = 25,96 > F2;48 = 3,15, il turno ha impatto significativo.

0,05
Per l’interazione linea con turno, con significatività 5%, la soglia è F6;48 = 2,25.

La soglia è ottenuta con α=0,05 ed i seguenti gradi di libertà:


numeratore = (r-1)*(c-1) = 2*3 = 6
denominatore = (r*c*(n-1)) = 3*4*(5-1)= 48

0,05
Poiché F = 0,96 < F6;48 = 2,25, l’interazione non ha impatto significativo.

Concludendo, risultano significativi sia gli effetti del fattore “linea” che quelli del fattore “turno”, mentre
l’interazione è da ritenersi trascurabile.

(b) – Intervalli di confidenza

Dal procedimento per la risoluzione del quesito a) siamo giunti a questi valori:
̿ = 33,05
μ=X
̅
X1 = 36,85
̅ 2 = 36,45
X
̅
X 3 = 25,85

Calcoliamo l’intervallo di confidenza per le medie nei tre turni con significatività del 99%.
Dobbiamo, prima, calcolare la varianza nei gruppi ad un fattore:
2
SSW = ∑ ∑(X ij − ̅
X j ) = (26 − 36,85)2 + ⋯ + (35 − 25,85)2 = 2850,05
i j

Quindi
SSW 2850,05
VAR W = = = 50,00
N−r 60 − 3

122
I limiti di confidenza al 99% per ̅
X1 sono:

SS 1 1
̅1 ± t α⁄ ∗ √ E ∗ = 36,85 ±∗ 2,665√50,00 ∗
X = 36,85 ± 2,665 ∗ 1,58 = 36,85 ± 4,00
2 N − r n1 20

dove t α⁄2 indica la distribuzione t di Student con α/2= 0,005 e N-r gradi di libertà (60-3).

L’intervallo di confidenza per la media del turno 1 risulta essere il seguente: [32,85; 40,85].

̅ 2 sono:
Continuando, i limiti di confidenza al 99% per X

SS 1 1
̅ 2 ± t α⁄ ∗ √ E ∗
X = 36,45 ±∗ 2,665 √50,00 ∗ = 36,45 ± 2,665 ∗ 1,58 = 36,45 ± 4,00
2 N − r n2 20

dove t α⁄2 indica la distribuzione t di Student con α/2= 0,005 e N-r gradi di libertà (60-3).

L’ intervallo di confidenza per la media del turno 2 risulta essere il seguente: [32,45; 40,45].

̅ 3 sono:
Infine, i limiti di confidenza al 99% per X

SSE 1 1
̅
X 3 ± t α⁄2 ∗ √ ∗ = 25,85 ±∗ 2,665√50,00 ∗ = 25,85 ± 2,665 ∗ 1,58 = 25,85 ± 4,00
N − r n3 20

dove t α⁄2 indica la distribuzione t di Student con α/2= 0,005 e N-r gradi di libertà (60-3).

L’intervallo di confidenza per la media del turno 3 risulta essere il seguente: [21,85; 29,85].

Poiché l’intervallo di X̅ 2 è pressoché coincidente all’intervallo di X


̅1, possiamo dedurne una differenza non
significativa tra le due medie.

123
Esercizio 8.6 – Analisi della varianza a due fattori

I dati della tabella seguente si riferiscono ai diametri di tre specie di pino (A, B e C) osservati in
quattro posizioni diverse del tronco.

Posizione
Specie
1 2 3 4
58,4 63,5 53,3 35,6
38,1 50,8 43,2 43,2
A 66 53,3 40,6 48,3
33 40,6 61 50,8
53,3 45,7 68,6 61
71,1 76,2 48,3 43,2
55,9 66 61 53,3
B 63,5 66 48,3 45,7
48,3 50,8 63,5 66
66 71,1 73,7 58,4
45,7 38,1 58,4 45,7
25,4 53,3 63,5 30,5
C 30,5 55,9 48,3 58,4
55,9 35,6 33 55,9
33 30,5 55,9 48,3

Si verifichi l’ipotesi nulla che i fattori specie e posizione abbiano uguale diametro con un livello di
significatività dell’1%.

Soluzione
Andiamo ad utilizzare il seguente modello:
xij = μ + hj + wi + γij + εij

i cui stimatori sono:


̿
μ=X

hj = ̅
Xj − ̿
X

̅i − X
wi = X ̿

γij = ̅
X ij − ̅
Xj − ̅
Xi + ̿
X

Per calcolare le varianze del modello calcoliamo:


̅
X j : media della colonna j (posizione 1, 2, 3, 4)
̅
X i: media della riga i (specie A, B, C)

124
̅
X ij: media del gruppo (1 A, 1 B, 1 C, 2 A, 2 B, 2 C, 3 A, 3 B, 3 C, 4 A, 4 B, 4 C)

̿: media generale
X

Per facilitare la comprensione dei calcoli, si riporta la tabella con inserite le medie delle colonne (azzurre), le
medie delle righe (arancioni) e le medie dei gruppi (grigie).

Posizione
1 2 3 4
58,4 63,5 53,3 35,6
38,1 50,8 43,2 43,2
A 66 53,3 40,6 48,3 50,42
33 40,6 61 50,8
53,3 45,7 68,6 61
Medie 49,76 50,78 53,34 47,78
S 71,1 76,2 48,3 43,2
p 55,9 66 61 53,3
e B 63,5 66 48,3 45,7 59,82
c 48,3 50,8 63,5 66
i 66 71,1 73,7 58,4
e Medie 60,96 66,02 58,96 53,32
45,7 38,1 58,4 45,7
25,4 53,3 63,5 30,5
C 30,5 55,9 48,3 58,4 45,09
55,9 35,6 33 55,9
33 30,5 55,9 48,3
Medie 38,1 42,68 51,82 47,76
49,61 53,16 54,71 49,62

Calcoliamo anche la media generale:

(∑ X ij ) (∑ ̅
X j ) (∑ ̅
X i ) (49,61 + 53,16 + 54,71 + 49,62)
̿
X= = = = = 51,77
N r c 4
Dove “N” indica la numerosità del mio campione, “r” le righe e “c” le colonne.

Calcoliamo la devianza residua, denominata SSW, la devianza tra i gruppi, sia di riga che di colonna e la
devianza di interazione. La devianza tra i gruppi di riga è denominata SSBr (between di riga), mentre quella
di colonna è denominata SSBc (between di colonna). La devianza di interazione, invece, è denominata SSINT.

In particolare,
2
SSW = ∑ ∑(X ij − ̅
X ij ) = (58,40 − 49,76)2 + ⋯ + (48,30 − 47,76)2 = 5645,07
i j

125
2
SSBc = n ∗ r ∗ ∑(X̅j − ̿
X)
i
=5∗3
∗ [(49,61 − 51,77)2 + (53,16 − 51,77)2 + (54,71 − 51,77)2 + (49,62 − 51,77)2 ]
= 297,88

2
SSBr = n ∗ c ∗ ∑(X̅i − X
̿) = 5 ∗ 4 ∗ [(50,42 − 51,77)2 + (59,82 − 51,77)2 + (45,09 − 51,77)2 ]
i
= 2223,61

2
̅̅̅ij̅ − ̅
SSINT = n ∗ ∑(X Xi − ̅
Xj + ̿
X)
i
= 5 ∗ [(49,76 − 50,42 − 49,61 + 51,77)2 + ⋯ + (47,76 − 45,09 − 49,62 + 51,77)2 ]
= 731,52
dove appunto:
- r=3 il numero dei livelli di riga;
- c=4 il numero dei livelli di colonna;
- n=5 la numerosità dei gruppi.

Per calcolare le varianze, dobbiamo risolvere le divisioni che hanno per numeratore la devianza e per
denominatore i rispettivi gradi di libertà.

In particolare,
SSW 5645,07
VAR W = = = 117,61
r ∗ c ∗ (n − 1) 3 ∗ 4 ∗ (5 − 1)

SSBc 297,88
VAR Bc = = = 99,29
c−1 4−1

SSBr 2223,61
VAR Br = = = 1111,80
r−1 3−1

SSINT 731,52
VAR INT = = = 121,92
(r − 1) ∗ (c − 1) (3 − 1) ∗ (4 − 1)

Il test appropriato per la verifica delle ipotesi è costituito dal rapporto


SSBc
VAR Bc c−1 99,29
F= = = = 0,84
VAR W SSW 117,61
r ∗ c ∗ (n − 1)
126
SSBr
VAR Br r−1 1111,80
F= = = = 9,45
VAR W SSW 117,61
r ∗ c ∗ (n − 1)

SSINT
VAR INT (r − 1) ∗ (c − 1) 121,92
F= = = = 1,04
VAR W SSW 117,61
r ∗ c ∗ (n − 1)

Riassumiamo i risultati ottenuti nella tabella sotto riportata:

Fonte di Gradi di
Devianza Varianza F F di soglia
variabilità libertà
Tra i gruppi di 0,01
2223,61 2 1111,8 9,45 2,48 = 5,15
riga
Tra i gruppi di 0,01
297,88 3 99,29 0,84 3,48 = 4,30
colonna
0,01
Interazione 731,52 6 121,92 1,04 6,48 = 3,25
Residua 5645,07 48 117,61

Andiamo a testare se la posizione del tronco, la specie di pino e l’interazione posizione/specie abbiano un
effetto significativo sul diametro del tronco stesso.

0,01
La soglia per la posizione (colonna), con significatività 1%, è F3;48 = 4,30.

La soglia è ottenuta con α=0,01 ed i seguenti gradi di libertà:


numeratore = c-1 = 4-1 = 3
denominatore = (r*c*(n-1)) = 3*4*(5-1)= 48
0,01
Poiché F = 0,84 < F3;48 = 4,30, la posizione non ha impatto significativo.

0,01
Per la specie (riga), con significatività 1% la soglia è F2;48 = 5,15.

La soglia è ottenuta con α=0,01 ed i seguenti gradi di libertà:


numeratore = r-1 = 3-1 = 2
denominatore = (r*c*(n-1)) = 3*4*(5-1)= 48
0,01
Poiché F = 9,45 > F2;48 = 5,15, la specie ha impatto significativo.

127
0,01
Per l’interazione posizione con la specie, con significatività 1%, la soglia è F6;48 = 3,25.

La soglia è ottenuta con α=0,01 ed i seguenti gradi di libertà:


numeratore = (r-1)*(c-1) = 2*3 = 6
denominatore = (r*c*(n-1)) = 3*4*(5-1)= 48
0,01
Poiché F = 1,04 < F6;48 = 3,25, l’interazione non ha impatto significativo.

Concludendo, è immediato verificare che solo l’effetto del fattore “specie” è significativamente diverso da
zero (α=0,01).

128
9. La regressione

Esercizio 9.1 – Metodo dei minimi quadrati

Data la successione doppia


Xi: 1 2 3
Yi: 1 5 8

si interpoli, mediante il metodo dei minimi quadrati, il modello 𝐲 = 𝐚 + 𝐛𝐱 𝟐 .

Soluzione
La determinazione dei parametri a e b della funzione interpolatrice attraverso il metodo dei minimi quadrati
richiede che si minimizzi la funzione z = f (a, b) che è la somma di quadrati delle differenze tra gli y effettivi
e gli y stimati ossia:

3 3
2
mina,b ∑[yi − ŷi ]2 = mina,b ∑[yi − (a + bxi2 )]
i=1 i=1

Per risolvere il problema indicato bisogna determinare le soluzioni del sistema di due equazioni in due
incognite che si ottiene derivando la funzione Z sia rispetto ad a sia rispetto a b:

3 3 3
∂ 2 ∂ 2
∑[yi − (a + bxi2 )] = ∑ [yi − (a + bxi2 )] = ∑ −2[yi − (a + bxi2 )] =
∂a ∂a
i=1 i=1 i=1
3

−2 ∑[yi − (a + bxi2 )] = 0
i=1

3 3 3
∂ 2 ∂ 2
∑[yi − (a + bxi2 )] = ∑ [yi − (a + bxi2 )] = ∑ −2xi2 [yi − (a + bxi2 )] =
∂b ∂b
i=1 i=1 i=1
3

−2 ∑ xi2 [yi − (a + bxi2 )] = 0


i=1

Il sistema di equazioni normale è dato da

129
3

∑[yi − (a + bxi2 )] = 0
i=1
3

∑[yi − (a + bxi2 )] = 0
{ i=1

dal quale si ha

3 3

∑ yi − 3a + b ∑ xi2 = 0
i=1 i=1
3 3 3

∑ xi2 yi − a ∑ xi2 − b ∑ xi4 = 0


{ i=1 i=1 i=1

Tenendo conto dei dati del problema si ottiene:


14 − 3a − 14b = 0
{
93 − 14a − 98b = 0

da cui

â = 0,714 b̂ = 0,847

che permettono di individuare la funzione interpolante i dati osservati:

ŷi = 0,714 + 0,847xi2

130
Esercizio 9.2 – Metodo dei minimi quadrati

Data la successione doppia:


Xi: 2 4 5 5 8
Yi: 3 3 6 8 10
determinare il parametro b della funzione di regressione 𝐘 = 𝐛𝐗 mediante il metodo dei minimi
quadrati.

Soluzione
Il metodo dei minimi quadrati impone di minimizzare la funzione Z= f (b) ossia

5 5

Z = ∑[yi − ŷi ]2 = ∑[yi − bxi ]2


i=1 i=1

Per fare ciò bisogna determinare gli zeri della derivata prima di Z.

5 5
dZ
= ∑[yi − bxi ](−2xi ) = 2 ∑[yi xi − bxi2 ] = 0
db
i=1 i=1

dalla quale si ha:

∑5i=1 yi xi 168
b̂ = = = 1,25
∑5i=1 xi 2 134

131
Esercizio 9.3 – Coefficiente di correlazione lineare

Si abbia una successione di 10 osservazioni su due variabili standardizzate


𝐱𝐢∗ = (𝐱𝐢 − 𝛍𝐱 )⁄𝛔(𝐱) (𝐢 = 𝟏, 𝟐, … , 𝟏𝟎),

𝐲𝐢∗ = (𝐲𝐢 − 𝛍𝐲 )⁄𝛔(𝐲) (𝐢 = 𝟏, 𝟐, … , 𝟏𝟎)

Effettuando la regressione di 𝐲 ∗ su 𝐱 ∗ si è ottenuto un coefficiente di regressione lineare semplice


𝐛𝐲∗ 𝐱 ∗ = 𝟎, 𝟕.

Si calcoli il coefficiente di correlazione 𝐫𝐱𝐲.

Soluzione
Con variabili standardizzate, la varianza è uguale ad 1. Di conseguenza, il coefficiente di regressione si
riduce alla covarianza tra le due variabili e lo stesso accade al coefficiente di correlazione. Possiamo quindi
concludere che in questo caso by∗ x∗ = rxy .

10 10
cov(x ∗ , y ∗ ) 1 1
by∗ x∗ = 2 ∗
= cov(x ∗ , y ∗ ) = ∑(xi∗ − x̅ ∗ ) ∗ (yi∗ − y̅ ∗ ) = ∑ x∗y∗
σ (x ) 10 10
i=1 i=1

10 10
cov(x, y) ∑10
i=1[(xi − μx )(yi − μy )]/10 1 xi − μx yi − μy 1
rxy = = = ∑ [( )( )] = ∑ x ∗ y ∗ = by∗ x∗
σ(x)σ(y) σ(x)σ(y) 10 σ(x) σ(y) 10
i=1 i=1
= 0,7

132
Esercizio 9.4 – Coefficiente di correlazione lineare

Il coefficiente di correlazione lineare 𝐫𝐱𝐲 tra due variabili statistiche X e Y è uguale a 0,8. Siano date le
due trasformazioni lineari di X e Y
𝐙 = 𝟑 + 𝟎, 𝟓𝐗 𝐓 = 𝟏, 𝟐𝐘 − 𝟐
Determinare il coefficiente di correlazione lineare fra Z e T.

Soluzione
Dette ̅
X e var(X) la media e la varianza di X, ̅
Y e var(Y) la media e la varianza di Y per le proprietà della
media e della varianza si ha:

Z̅ = 3 + 0,5X
̅ var(Z) = (0,5)2 var(x)
̅ = −2 + 1,2Y
T ̅ var(T) = (1,2)2 var(y)

Per quanto riguarda la covarianza si ha:

∑ki=1 ∑hj=1(Zi − Z̅)(Tj − T


̅)
cov(Z, T) =
N

tenendo conto che:

Zi − Z̅ = [3 + 0,5Xi − (3 + 0,5X
̅)] = 0,5(Xi − ̅
X)
̅ = [−2 + 1,2Yj − (−2 + 1,2Y
Tj − T ̅)] = 1,2(Yj − ̅
Y)

si ha

∑ki=1 ∑hj=1(X i − X
̅)(Yj − Y
̅)
cov(Z, T) = 0,5 ∗ 1,2 ∗ = 0,6cov(x, y)
N

Determiniamo ora il coefficiente di correlazione lineare fra Z e T

cov(z, t)
rzt = =
√var(x)var(t)

133
0,6cov(x, y)
= =
√(0,5)2 var(x)(1,2)2 var(y)
0,6 cov(x, y)
= =
0,5 ∗ 1,2 √var(x)var(y)

= rxy = 0,8

134
Esercizio 9.5 – La regressione con un modello lineare e una sola variabile esplicativa

Nella tabella sono riportate le ore di lavoro e la produzione di un campione di 30 operai.

Operaio Ore di lavoro Produzione Operaio Ore di lavoro Produzione


(i) (x) (Y) (i) (x) (Y)

1 39 144 16 48 130
2 47 220 17 45 135
3 45 138 18 17 114
4 47 145 19 20 116
5 65 162 20 19 124
6 46 142 21 36 136
7 67 170 22 50 142
8 42 124 23 39 120
9 67 158 24 21 120
10 56 154 25 44 160
11 64 162 26 53 158
12 56 150 27 63 144
13 59 140 28 29 130
14 34 110 29 25 125
15 42 128 30 69 175

- Si valuti l’impatto delle ore di lavoro sulla produzione. Si stimino i parametri del modello 𝐲𝐢 =
𝐀 + 𝐁𝐱𝐢 + 𝐞𝐢 con il metodo dei minimi quadrati;
- si faccia l’anova sulle stime ottenute;
- si verifichi, mediante la costruzione di intervalli di confidenza, l’ipotesi 𝐇𝟎 : 𝐁 = 𝟎 e 𝐇𝟎 : 𝐀 = 𝟎.

Soluzione
Il modello ha 3 parametri:
A,
B,
σ2 .

Gli stimatori (di minimi quadrati) dei 3 parametri sono rispettivamente:


a, ottenuto con il metodo dei minimi quadrati,
b, ottenuto con il metodo dei minimi quadrati
̂i )
∑(yi −y 2
S̃ 2 = n−k , con k=2, ossia il numero di parametri della retta di regressione.

135
(a) Covarianza, varianza e stime dei parametri

Grazie ad alcuni calcoli elementari si ricava:


∑ xi = 1.354,00 ∑ yi = 4.276,00 x̅ = 45,13 y̅ = 142,53

∑ xi2 = 67.894,00 ∑ xi yi = 199.576,00

Calcoliamo la varianza di x e di y, ricordando che Sx e Sy indicano rispettivamente la devianza delle variabili


x e y.

Sx ∑(xi − x̅)2 (39 − 45,13)2 + ⋯ + (69 − 45,13)2 6783,47


var(x) = = = = = 226,12
n n 30 30

Sy ∑(yi − y̅)2 (144 − 142,53)2 + ⋯ + (175 − 142,53)2 14787,47


var(y) = = = = = 492,92
n n 30 30

Calcoliamo poi la covarianza tra x e y, andando a computare il prodotto degli scarti di x e y,


∑(xi − x̅) ∗ (yi − y̅), per poi dividerlo per la numerosità del campione, in questo caso 30.

∑(xi − x̅) ∗ (yi − y̅) Sxy


cov(xy) = =
n n
(39 − 45,13) ∗ (144 − 142,53) + ⋯ + (69 − 45,13) ∗ (175 − 142,53) 6.585,87
= =
30 30
= 219,53

Arrivati a questo punto calcoliamo le stime:


cov(xy) 219,53
b= = = 0,97
var(x) 226,16
a = y̅ − bx̅ = 142,53 − 0,97 ∗ 45,13 = 98,75

La retta stimata è dunque:

ŷ = a + bx = 98,75 + 0,97

̂i )2
∑(yi −y
Avendo ottenuto la retta stimata, possiamo procedere a calcolare S̃ 2 = , computando prima gli y
n−k
stimati (riportati nella tabella sottostante).

136
x y ̅ ̂ ei

39,00 144,00 142,53 136,58 7,42


47,00 220,00 142,53 144,34 75,66
45,00 138,00 142,53 142,40 -4,40
47,00 145,00 142,53 144,34 0,66
65,00 162,00 142,53 161,80 0,20
46,00 142,00 142,53 143,37 -1,37
67,00 170,00 142,53 163,74 6,26
42,00 124,00 142,53 139,49 -15,49
67,00 158,00 142,53 163,74 -5,74
56,00 154,00 142,53 153,07 0,93
64,00 162,00 142,53 160,83 1,17
56,00 150,00 142,53 153,07 -3,07
59,00 140,00 142,53 155,98 -15,98
34,00 110,00 142,53 131,73 -21,73
42,00 128,00 142,53 139,49 -11,49
48,00 130,00 142,53 145,31 -15,31
45,00 135,00 142,53 142,40 -7,40
17,00 114,00 142,53 115,24 -1,24
20,00 116,00 142,53 118,15 -2,15
19,00 124,00 142,53 117,18 6,82
36,00 136,00 142,53 133,67 2,33
50,00 142,00 142,53 147,25 -5,25
39,00 120,00 142,53 136,58 -16,58
21,00 120,00 142,53 119,12 0,88
44,00 160,00 142,53 141,43 18,57
53,00 158,00 142,53 150,16 7,84
63,00 144,00 142,53 159,86 -15,86
29,00 130,00 142,53 126,88 3,12
25,00 125,00 142,53 123,00 2,00
69,00 175,00 142,53 165,68 9,32

Avendo calcolato tutti gli y stimati, calcoliamo la stima della varianza:


∑(yi − ŷi )2 (144,00 − 136,58)2 + ⋯ + (175,00 − 165,68)2 8.383,45
S̃ 2 = = = = 299,77
n−k 30 − 2 28

(b) Analisi della varianza

Ora ci interessa calcolare SSR e SSE, rispettivamente la devianza del modello di regressione e la devianza
residua.

̂i )2 , dove il cappelletto sta ad indicare “Y stimati”


SSE = ∑(Yi − Y
2
̂i − Y
SSR = ∑(Y ̅) , dove Y
̅ indica la media degli y effettivi

Nella tabella sottostante si riportano i risultati ottenuti, dettagliando i passaggi con i quali si è potuto
raggiungerli.

137
x y ̅ ̂
39,00 144,00 142,53 136,58 55,06 2,15
47,00 220,00 142,53 144,34 5724,44 6001,08
45,00 138,00 142,53 142,40 19,36 20,55
47,00 145,00 142,53 144,34 0,44 6,08
65,00 162,00 142,53 161,80 0,04 378,95
46,00 142,00 142,53 143,37 1,88 0,28
67,00 170,00 142,53 163,74 39,19 754,42
42,00 124,00 142,53 139,49 239,94 343,48
67,00 158,00 142,53 163,74 32,95 239,22
56,00 154,00 142,53 153,07 0,86 131,48
64,00 162,00 142,53 160,83 1,37 378,95
56,00 150,00 142,53 153,07 9,42 55,75
59,00 140,00 142,53 155,98 255,36 6,42
34,00 110,00 142,53 131,73 472,19 1058,42
42,00 128,00 142,53 139,49 132,02 211,22
48,00 130,00 142,53 145,31 234,40 157,08
45,00 135,00 142,53 142,40 54,76 56,75
17,00 114,00 142,53 115,24 1,54 814,15
20,00 116,00 142,53 118,15 4,62 704,02
19,00 124,00 142,53 117,18 46,51 343,48
36,00 136,00 142,53 133,67 5,43 42,68
50,00 142,00 142,53 147,25 27,56 0,28
39,00 120,00 142,53 136,58 274,90 507,75
21,00 120,00 142,53 119,12 0,77 507,75
44,00 160,00 142,53 141,43 344,84 305,08
53,00 158,00 142,53 150,16 61,47 239,22
63,00 144,00 142,53 159,86 251,54 2,15
29,00 130,00 142,53 126,88 9,73 157,08
25,00 125,00 142,53 123,00 4,00 307,42
69,00 175,00 142,53 165,68 86,86 1054,08
8393,45 14787,47

2
̂i ) = 8.393,45
SSE = ∑(Yi − Y

2
̂i − ̅
SSR = ∑(Y Y) = 14.787,47

Il procedimento è generalmente compendiato in una tabella come quella riportata sotto:

Media della
Fonte di Somma dei Gradi di
somma dei F F di soglia
variabilità quadrati libertà
quadrati

Regressione 1 ⁄1 ⁄
1
F0,01 (1);(n-k)
Errore n-k ⁄( − )
⁄( − )

138
Riprendendo l’esercizio proposto, si costruisce la tabella sopra riportata in forma numerica:

Somma Media della


Fonte di Gradi di
dei somma dei F F di soglia
variabilità libertà
quadrati quadrati

Regressione 14787,47 1 14787,47 𝟎,𝟎𝟏


49,33 𝟏,𝟐𝟖 = 𝟕, 𝟔𝟒
Errore 8393,45 28 299,77
Totale 23180,92

0,01
Poiché F = 49,33 > F1,28 = 7,64, si deve concludere che il modello scelto spiega una parte rilevante della
variabilità.

(c) La stima intervallare e la verifica delle ipotesi sulle stime dei parametri del modello

Ricordiamo che per stimare la significatività delle stime è necessario aver ben chiaro le loro distribuzioni.
Qui sotto, per comodità, le riportiamo:
1 x̅
a~N(A; σ2 ( + ))
n ∑(xi − x̅)2

σ2
b~N(B; )
∑(xi − x̅)2

̂i )2
∑(yi −y
dove S̃ 2 =
n−k

1 (x0 − x̅)2
E(Y0 ⁄x0 ) = a + bx0 ± t α⁄2 ∗ √S̃ 2 ∗ [ + ]
n Sx

1 (x − x̅)2
̂n+1 ± t α⁄ ∗ √S̃ 2 ∗ [1 + + n+1
E(Yn+1 ) = Y ]
2 n Sx

I limiti di confidenza (estremi dell’intervallo di confidenza) per b al 95% sono:

1 1
b ± t α⁄2 ∗ √S̃ 2 ∗ = 0,97 ± 2,048 ∗ √299,77 ∗
Sx 6.783,47

139
In definitiva, per b, il limite di confidenza inferiore è 0,54 mentre quello superiore è 1,40.

In modo analogo, si trova che i limiti di confidenza al 95% per a sono:

1 x̅ 2 1 45,132
a ± t α⁄2 ∗ √S̃ 2 ∗ [ + ] = 98,75 ± 2,048 ∗ √299,77 ∗ [ + ]
n Sx 30 6.783,47

e quindi 78,27 e 119,23.

I limiti di confidenza per E(Y0 ⁄x0 ) sono, invece,

1 (x0 − 45,13)2
= 98,75 + 0,97x0 ± 2,048 ∗ √299,77 ∗ [ + ]
30 6.783,47

Ponendo, ad esempio, x0 = x̅ = 45,13 , si ottiene 136,06 come limite inferiore e 149,00 come limite
superiore.

Infine, posto xn+1 = 50 , l’intervallo di previsione per Yn+1 è dato da:

1 (xn+1 − x̅)2
̂n+1 ± t α⁄ ∗ √S̃ 2 ∗ [1 +
Y + ]
2 n Sx

dove,
̂n+1 = a + b ∗ xn+1 = 98,75 + 0,97 ∗ 50 = 147,25
Y
quindi l’intervallo di previsione diventa:

1 (50 − 45,13)2
147,25 ± 2,048 ∗ √299,77 ∗ [1 + + ]
30 6.783,47

e quindi (111,14 ; 183,36).

Si voglia ora verificare l’ipotesi H0 : B = 0 scegliendo però questa volta un α molto più piccolo, ossia
dell’1%. Posto α=0,01, da cui t 0,005 = 2,763, si ha
b 0,97
t= = = 4,61
1 1
√S̃ 2 ∗ √299,77 ∗
Sx 6783,47

Poiché t = 4,61 > t 0,005


28 = 2,763, l’ipotesi nulla va rifiutata.

140
Similmente, si verifica l’ipotesi H0 : A = 0.
a 98,75
t= = = 9,88
̅̅̅̅2
(x) 1 (45,13)2
1 √299,77 ∗ ( +
√S̃ 2 ∗ ( + 30 6.783,47)
n Sx )

Essendo t = 9,88 > t 0,005


28 = 2,763 anch’essa va rifiutata.

141
Esercizio 9.6 – Regressione lineare multivariata – Approccio matriciale

Nella tabella seguente vengono riportati dati generici per effettuare la regressione lineare multipla.

Y x1 x2

100 100 100


106 104 99
107 106 110
120 111 126
110 111 113
116 115 103
123 120 102
133 124 103
137 126 98

- Si stimino i parametri del modello con il metodo dei minimi quadrati mediante il modello 𝐘 =
𝐀 + 𝐁𝐱𝟏 + 𝐂𝐱𝟐 ;
- si faccia l’anova sulle stime ottenute;
- si verifichi, mediante la costruzione di intervalli di confidenza, l’ipotesi 𝐇𝟎 : 𝐁 = 𝟎.

Soluzione

(a) Stime dei parametri

In questo esercizio utilizziamo l’approccio matriciale e la formula da applicare per la risoluzione è:


−1
β̂ = (X T X) X T Y

Scrivendo in forma matriciale i dati dell’esercizio, otteniamo:


100 1 100 100
106 1 104 99
107 1 106 110
120 1 111 126
Y = 110 X= 1 111 113
116 1 115 103
123 1 120 102
133 1 124 103
[137] [1 126 98 ]9x3

1 1 1 1 1 1 1 1 1
X T = [100 104 106 111 111 115 120 124 126]
100 99 110 126 113 103 102 103 98 3x9

Eseguiamo ora la moltiplicazione X T X:

142
9 1017 954
T
X X = [1017 115571 107690]
954 107690 101772 3x3
Calcoliamo ora il determinante di quest’ultima matrice:

det X T X = 9 ∗ 164755712 − 1017 ∗ 765864 + 954 ∗ (−734004) = 3677904

−1
Ora si deve calcolare l’inversa di X T X, ovvero (X T X) .

44,80 −0,21 −0,2


T −1
(X X) = [−0,21 0,002 0,0003]
−0,20 0,0003 0,002 3x3

−1
Tornando alla formula iniziale, β̂ = (X T X) X T Y, si deve moltiplicare la matrice calcolata per la trasposta di
X e per Y.

Procediamo al calcolo:
100
106
107
44,80 −0,21 −0,2 1 1 1 1 1 1 1 1 1 120
[−0,21 0,002 0,0003] ∗ [100 104 106 111 111 115 120 124 126] ∗ 110 =
−0,20 0,0003 0,002 100 99 110 126 113 103 102 103 98 116
123
133
[137]

a −49,34
e otteniamo il seguente vettore β̂ = [b] = [ 1,36 ] che ha componenti le stime di A, B e C.
c 0,11

Il modello di regressione stimato è dunque


̂ = −49,34 + 1,36x1 + 0,11x2.
Y

Ora ci interessa calcolare SSE e SSR , rispettivamente la variabilità residua e la variabilità spiegata dal
modello di regressione.
Usiamo le seguenti formule:

2
̂i ) , dove il cappelletto sta ad indicare “Y stimati”
SSE = ∑(Yi − Y
2
̂i − ̅
SSR = ∑(Y Y) .

143
Nella tabella sottostante si riportano i risultati ottenuti, dettagliando i passaggi con i quali li si è potuti
raggiungere.

𝟐
x1 x2 Y ̅ ̂ −̂ −̅ 𝟐

100 100 100 116,89 98,47 2,34 285,23


104 99 106 116,89 103,81 4,78 118,57
106 110 107 116,89 107,79 0,63 97,79
111 126 120 116,89 116,44 12,69 9,68
111 113 110 116,89 114,96 24,58 47,46
115 103 116 116,89 119,28 10,73 0,79
120 102 123 116,89 125,98 8,90 37,35
124 103 133 116,89 131,55 2,09 259,57
126 98 137 116,89 133,71 10,80 404,46
77,54 1260,89

dove, SSE = 77,54 e SSR = 1.260,89

Il procedimento è, generalmente, compendiato in una tabella come quella riportata sotto:

Media della
Fonte di Somma dei Gradi di
somma dei F F di soglia
variabilità quadrati libertà
quadrati

Regressione 2 ⁄ ⁄
2 2
F0,01 (2);(n-k)
Errore n-k ⁄( − )
⁄( − )

con k=3, ossia il numero di parametri della retta di regressione.

Riprendendo l’esercizio proposto, si costruisce la tabella sopra riportata in forma numerica:

Media
Somma della
Fonte di Gradi di
dei somma F F di soglia
variabilità libertà
quadrati dei
quadrati
Regressione 1260,89 2 630,4444 𝟎,𝟎𝟏
= 𝟏𝟎, 𝟗𝟐𝟓
48,78 𝟐,𝟔
Errore 77,54 6 12,92
Totale 1338,43

0,01
Poiché F = 48,78 > F2,6 = 10,925, si deve concludere che il modello spiega a sufficienza la variabilità.
144
(b) La stima intervallare e la verifica delle ipotesi dei parametri del modello

Si voglia, ora, verificare l’ipotesi:

H0 : B = 0
contro l’alternativa
H1 : B ≠ 0
Allora si ha
b 1,36
t= = = 8,5
0,16
√ SSE ∗ c22
n−k
−1
dove c22 sta ad indicare il valore sulla diagonale principale della matrice inversa (X T X) , ovvero 0,002.

Ciascun elemento della diagonale della stessa matrice rappresenta il reciproco della devianza della variabile
esplicativa.

Quindi, si desume che b è significativamente diverso da zero, essendo t = 8,5 > t 0,005
6 = 3,707.

145
Esercizio 9.7 – Regressione lineare bivariata – Approccio matriciale

In un esperimento compiuto impiegando quantità diverse di fertilizzante (X) in sette zone, si sono
ottenute differenti raccolti di frumento (Y), come riportato nella tabella sottostante.

FERTILIZZANTE FRUMENTO
ZONE
UTILIZZATO RACCOLTO

1 100 40
2 200 50
3 300 50
4 400 70
5 500 65
6 600 65
7 700 80
- Si stimino i parametri del modello con il metodo dei minimi quadrati mediante il modello 𝐘 =
𝐀 + 𝐁𝐱;
- si verifichi, mediante la costruzione di intervalli di confidenza, l’ipotesi 𝐇𝟎 : 𝐁 = 𝟎 e 𝐇𝟎 : 𝐀 = 𝟎.

Soluzione

(a) Stime dei parametri

Utilizziamo come nel caso precedente un approccio matriciale in accordo al quale il nostro modello può
essere scritto come:

min Z = ∑ ei 2 = eT ∗ e = (y − xB)T ∗ (y − xB)

da cui si ricava:

−1
β̂ = (X T X) X T Y

Scrivendo in forma matriciale i dati dell’esercizio, otteniamo:

146
40 1 100
50 1 200
50 1 300
1 1 1 1 1 1 1
Y = 70 X= 1 400 XT = [ ]
100 200 300 400 500 600 700 2x7
65 1 500
65 1 600
[80] [1 700]7x2

Eseguiamo ora, la moltiplicazione X T X:


7 2800
X TX = [ ]
2800 1400000 2x2

Calcoliamo il determinante di quest’ultima matrice:

det(X T X) = 7 ∗ 1400000 − 2800 ∗ 2800 = 1960000

−1
Ora si deve calcolare l’inversa di X T X, ovvero (X T X) .

−1 1 1400000 −2800 1 1400000 −2800


(X T X) = T
∗[ ] = ∗[ ]
det (X X) −2800 7 2x2 1960000 −2800 7
0,714 −1,428E − 3
=[ ]
−1,428E − 3 3,571E − 6 2x2

−1
Tornando alla formula iniziale, β̂ = (X T X) X T Y, si deve moltiplicare la matrice calcolata per la trasposta di
X e per Y, ovvero
40
50
50
0,714 −1,428E − 3 1 1 1 1 1 1 1
[ ]∗ [ ] ∗ 70 =
−1,428E − 3 3,571E − 6 100 200 300 400 500 600 700
65
65
[80]
a 36,429
e otteniamo il seguente vettore β̂ = [ ] = [ ] che ha componenti le stime di A e B.
b 0,059

Il modello di regressione stimato è dunque


̂ = 36,429 + 0,059x1 .
Y

yi yi
Ora ci interessa stimare la varianza delle distribuzioni condizionate , ,… .
xo xi

147
Usiamo la seguente formula:
2
̂i ) , dove il cappelletto sta ad indicare “Y stimati” ed otteniamo i seguenti valori:
SSE = ∑(Yi − Y

Y ̂ Y- 𝐲̂

40 42,32 -2,32 5,39


50 48,21 1,79 3,19
50 54,11 -4,11 16,87
70 60,00 10,00 100,00
65 65,89 -0,89 0,80
65 71,79 -6,79 46,05
80 77,68 2,32 5,39
SSE = 177,68

Quindi,
∑(yi − ŷi )2 177,68
S̃ 2 = = = 35,54
n−k 5

(b) La stima intervallare e verifica delle ipotesi dei parametri del modello

I limiti di confidenza per b al 95% sono:

1 1
b ± t α⁄2 ∗ √S̃ 2 ∗ = 0,059 ± 2,571 ∗ √35,54 ∗
Sx 280000

dove

Sx = ∑(xi − x̅)2 = (100 − 400)2 + ⋯ + (700 − 400)2 = 280000,00

In definitiva, per b al 95%, il limite di confidenza inferiore è 0,03 , mentre quello superiore è 0,09.

Si voglia ora verificare l’ipotesi H0 : B = 0 scegliendo un intervallo al 99% ossia α=0,01, si ha


b 0,059
t= = = 5,24
1 1
√S̃ 2 ∗ √35,54 ∗
Sx 280000

Poiché t = 5,24 > t 0,005


5 = 4,032 l’ipotesi nulla va rifiutata.

148
Similmente, si verifica l’ipotesi H0 : A = 0.
a 36,43
t= = = 7,23
1 (400)2
1 ̅̅̅̅
(x)2 √35,54 ∗ ( +
√S̃ 2 ∗ ( + 7 280000)
n Sx )

Essendo t = 7,23 > t 0,005


5 = 4,032 anch’essa va rifiutata.

149
Esercizio 9.8 –Ortogonalità dei residui

Utilizzando la seguente successione doppia

X Y
1 1
3 5
5 2

si metta in evidenza l’ortogonalità dei residui con il metodo dei minimi quadrati, utilizzando il
seguente modello: 𝐘𝐢 = 𝐀 + 𝐁𝐗 𝐢 + 𝐞𝐢 .

Soluzione
Per verificare l’ortogonalità dei residui dobbiamo calcolare la varianza di x e covarianza tra x e y. Dopo di
che si possono ricavare a e b per poter andare a calcolare i residui.
Per calcolare la varianza e la covarianza appena menzionate abbiamo la necessità di conoscere le medie di x
e y, rispettivamente x̅ e y̅.
∑ xi 1 + 3 + 5
x̅ = = = 3,00
n 3
∑ yi 1 + 5 + 2
y̅ = = = 2,67
n 3
Quindi,
∑(xi − x̅)2 (1 − 3)2 + (3 − 3)2 + (5 − 3)2
var x = = = 2,67
n 3
∑(xi − x̅) ∗ (yi − y̅) (1 − 3) ∗ (1 − 2,67) + ⋯ + (5 − 3) ∗ (2 − 2,67)
cov xy = = = 0,67
n 3

Disponendo ora della varianza e covarianza, calcoliamo b e a .


cov xy 0,67
b= = = 0,25
var x 2,67
a = y̅ − bx̅ = 2,67 − 0,25 ∗ 3,00 = 1,92

Per ottenere i residui, occorre conoscere le y stimate, che andiamo a calcolare sotto:

ŷ1 = a + bx1 = 1,92 + 0,25 ∗ 1 = 2,17


ŷ2 = a + bx2 = 1,92 + 0,25 ∗ 3 = 2,67
ŷ3 = a + bx3 = 1,92 + 0,25 ∗ 5 = 3,17

150
Conoscendo le ŷ, calcoliamo i residui:

e1 = y1 − ŷ1 = 1 − 2,17 = −1,17


e2 = y2 − ŷ2 = 5 − 2,67 = 2,33
e3 = y3 − ŷ3 = 2 − 3,17 = −1,17

Per appurare l’ortogonalità dei residui, devono essere verificate le seguenti proprietà:

∑ ei = 0

∑ ei ∗ x i = 0

∑ ei ∗ ŷi = 0

Andiamo quindi a vedere che sono verificate:

∑ ei = −1,17 + 2,33 − 1,17 = −0,001~0

∑ ei ∗ xi = −1,17 ∗ 1 + 2,33 ∗ 3 − 1,17 ∗ 5 = −0,03~0

∑ ei ∗ ŷi = −1,17 ∗ 2,17 + 2,33 ∗ 2,67 − 1,17 ∗ 3,17 = −0,03~0

Essendo verificate le tre proprietà dell’ortogonalità dei residui, si può concludere che i residui sono
ortogonali.

151
Esercizio 9.9 – Coefficiente di correlazione e regressione

Di un collettivo di bambini di cui si conoscono peso (ettogrammi) e altezza (centimetri) si spieghi perché:

- r, il coefficiente di correlazione lineare, sia un numero puro;


- b, coefficiente di regressione lineare completo, non lo sia.

Soluzione
Il coefficiente di correlazione è un numero puro, ossia adimensionale, in quanto la covarianza ha dimensioni
pari al prodotto della dimensione di X per quella di Y e i due scarti quadratici medi hanno proprio questa
dimensione. Così, se si misura la relazione lineare tra peso (in ettogrammi) e statura (in cm) di una
popolazione di bambini, si ha che la dimensione della covarianza è espressa in ettogrammi * centimetri.
Poiché σx ha dimensione di ettogrammi e σy quella di cm, si ha:
ettogrammi ∗ centimetri
dimensione r = =1
ettogrammi ∗ centimetri
quindi è un numero puro.

Il coefficiente di regressione di Y a X ha la dimensione di Y divisa quella di X, ovvero:


ettogrammi
dimensione b =
centimetri
quindi non è un numero puro.

152
Esercizio 9.10 – Coefficiente di correlazione

In grafici ortogonali X-Y si collochino delle unità statistiche in modo che:


- in alcuni di questi, r sia pari a 0;
- in uno di questi r sia pari a 1;
- in uno di questi r sia pari a -1.

Soluzione

153
Concludendo:
- r assume valore 0 quando al variare di una variabile l’altra rimane costante;
- r assume valore prossimo allo 0 quando la nuvola di punti si dispone dentro un cerchio
- r assume valore +1 quando i punti sono tutti allineati su una retta positivamente inclinata;
- r assume valore -1 quando i punti sono tutti allineati su una retta negativamente inclinata.

154
Esercizio 9.11 – Dipendenza perfetta tra x e y, ma covarianza uguale a zero

Sulla base della tabella

X Y
-2 6
-1 3
1 3
2 6

dove y e x sono tra loro in relazione esatta in base alla funzione:

𝐘 = 𝐗𝟐 + 𝟐
Si spieghi come possa aversi che r (coefficiente di correlazione) sia pari a zero. Costruire l’esempio.

Soluzione
Andiamo a calcolare le medie di x e y, rispettivamente x̅ e y̅.
∑ xi −2 − 1 + 1 + 2
x̅ = = = 0,00
n 4
∑ yi 6 + 3 + 3 + 6
y̅ = = = 4,50
n 4

Siccome,
∑(xi − x̅) ∗ (yi − y̅) (−2) ∗ (6 − 4,50) + ⋯ + (2) ∗ (6 − 4,50)
cov xy = = = 0,00
n 4

il coefficiente di correlazione risulta essere pari a 0.

Infatti, la X e la Y sono incorrelate, ma non indipendenti in quanto legate dalla relazione


Y = X 2 + 2.

155
10. Le distanze

Esercizio 10.1 – Distanze di Minkowski

Si calcolino le distanze di Minkowski di ordine 1, 2 e 3 tra il punto 𝐀 (𝟐; 𝟐) e il punto 𝐁 (𝟒; 𝟒).
Si verifichino, sulla base di questo esempio, tre specifiche proprietà della distanze di Minkowski.

Soluzione
L’espressione per il calcolo delle distanze di Minkowski è la seguente:
1
p k
k
d = (∑|xis − xjs | )
s=1

Andiamo ora ad inserire i nostri dati:

dk=1 = |2 − 4| + |2 − 4| = 4 distanza di Manhattan

dk=2 = √|2 − 4|2 + |2 − 4|2 = √8 = 2√2 distanza Euclidea


3
dk=3 = √|2 − 4|3 + |2 − 4|3 = 2,52 distanza di Minkowski di ordine 3

Andiamo ora a verificare le proprietà:


- Le distanze di Minkowski non variano per traslazione: aggiungendo k alle coordinate, la distanza
non cambia.

Scegliamo k=10
X ′ = X + 10 Y ′ = Y + 10

I nuovi punti sono i seguenti:


A (12; 12)
B (14; 14)

Le “nuove” distanze risultano essere le seguenti


dk=1 = |12 − 14| + |12 − 14| = 4 distanza di Manhattan

dk=2 = √|12 − 14|2 + |12 − 14|2 = √8 = 2√2 distanza Euclidea


3
dk=3 = √|12 − 14|3 + |12 − 14|3 = 2,52 distanza di Minkowski di ordine 3

che sono tutte uguali alle originarie prima della traslazione.


156
- Le distanze di Minkowski variano per trasformazioni omogenee: moltiplicando k alle coordinate, la
distanza cambia.

Prendiamo k=3
X′ = 3 ∗ X Y′ = 3 ∗ Y

I nuovi punti sono i seguenti:


A (6; 6)
B (12; 12)

Le “nuove” distanze risultano essere le seguenti

dk=1 = |6 − 12| + |6 − 12| = 12 distanza di Manhattan

dk=2 = √|6 − 12|2 + |6 − 12|2 = 6√2 distanza Euclidea


3
dk=3 = √|6 − 12|3 + |6 − 12|3 = 7,56 distanza di Minkowski di ordine 3

che sono tutte diverse dalle distanze prodotte sulla base di dati non trasformati.

- Le distanze di Minkowski sono invarianti per rotazione.

Per effettuare la rotazione consideriamo la matrice ortogonale

cosρ −senρ
M = [senρ cosρ ]

π
Quindi, considerando ρ =
2

0 −1
M=[ ]
1 0

Andiamo a calcolare le coordinate dei nuovi punti:

0 −1 2 −2
A′ = [ ]∗[ ] =[ ]
1 0 2 2

0 −1 4 −4
B′ = [ ]∗[ ] = [ ]
1 0 4 4

Le “nuove” distanze risultano essere le seguenti


dk=1 = |−2 + 4| + |2 − 4| = 4 distanza di Manhattan

dk=2 = √|−2 + 4|2 + |−2 − 4|2 = 2√2 distanza Euclidea


3
dk=3 = √|−2 + 4|3 + |−2 − 4|3 = 2,52 distanza di Minkowski di ordine 3
che sono tutte e tre uguali a quelle originarie.

157
Esercizio 10.2 – Distanza euclidea

Nello spazio 𝐑𝟑 si hanno due punti A=(1;2;3) e B=(2;4;-1).

- Si verifichi che M è una matrice ortogonale;


- sulla base della matrice M sotto riportata si mostri una proprietà della distanza euclidea.

𝟎, 𝟔𝟗𝟖 𝟎, 𝟎𝟐𝟓 𝟎, 𝟕𝟏𝟔


𝐌 = (−𝟎, 𝟑𝟗𝟏 𝟎, 𝟖𝟓 𝟎, 𝟑𝟓𝟐 )
𝟎, 𝟔 𝟎, 𝟓𝟐𝟔 −𝟎, 𝟔𝟎𝟑

Soluzione
Per risolvere il primo quesito si deve verificare l’ortogonalità della matrice M, ovvero si deve provare la
relazione M ∗ M T = matrice identità, ossia
0,698 0,025 0,716 0,698 −0,391 0,6 1 0,00036 0,00020
(−0,391 0,85 0,352 ) ∗ (0,025 0,85 0,526 ) = (0,00036 1 0,00024)
0,6 0,526 −0,603 0,716 0,352 −0,603 0,00020 0,00024 1
Si può concludere quindi che la matrice Mè ortogonale.

Per rispondere al secondo quesito calcoliamo la distanza euclidea, ovvero la distanza di Minkowski di ordine
2.
1
p 2
2
d = (∑|xis − xjs | )
s=1

dk=2 = √|1 − 2|2 + |2 − 4|2 + |3 + 1|2 = √21 = 4,583 distanza Euclidea

Le proprietà della distanza euclidea sono le seguenti:


- non varia per traslazione;
- varia per trasformazioni omogenee;
- cresce all’aumentare del numero di variabili;
- non varia per rotazione.

Con la matrice M, che abbiamo dimostrato essere ortogonale, possiamo provare l’ultima proprietà della
distanza euclidea, ovvero che quest’ultima rimane invariante per rotazione.
Per effettuare la rotazione moltiplichiamo la matrice ortogonale M per i vettori delle coordinare di A e B.

158
0,698 0,025 0,716 1 2,896

A = (−0,391 0,85 0,352 ) ∗ [2] = [ 2,365 ]
0,6 0,526 −0,603 3 −0,157

0,698 0,025 0,716 2 0,78


′ 2,266
B = (−0,391 0,85 0,352 ) ∗ [ 4 ] = [ ]
0,6 0,526 −0,603 −1 3,907

Avendo trovato i nuovi punti, calcoliamo la distanza euclidea tra A′ e B ′ :

dk=2 = √|2,896 − 0,78|2 + |2,365 − 2,266|2 + |−0,157 − 3,907|2 = √21 = 4,58


che è uguale alla distanza tra A e B.

159
Esercizio 10.3 – Distanza di Mahalanobis

Si fissi una circonferenza con centro C(0;0) con raggio pari a 4. Si inscriva nella stessa circonferenza
un quadrato con vertici nei punti Q(4;0), R(0;4), S(-4;0), T(0;-4).
Si calcoli la distanza di Manhattan dal C a P e da C a Q dove il punto P rappresenta il punto di
intersezione tra la retta Y=X ed il lato, posto nel primo quadrante, del quadrato inscritto nella
circonferenza.
Considerando successivamente il collettivo di unità Q, R, S e T si calcolino la distanza euclidea e di
Mahalanobis tra i punti Q e T.

Soluzione
Nella figura viene rappresentata la circonferenza con raggio uguale a 4 con inserito un quadrato.

̅̅̅̅ + ̅̅̅̅
La distanza di Manhattan tra C e P è CH HP.

Però abbiamo che il triangolo RĈQ è isoscele in quanto ha come cateti il raggio.
̂ Q è simile al triangolo RĈQ e quindi anche questo secondo triangolo è isoscele.
Il triangolo PH

Poiché però ̅̅̅̅ ̅̅̅̅ in quanto cateti di un triangolo isoscele abbiamo che CH
PH = HQ ̅̅̅̅ + HP ̅̅̅̅ + HQ
̅̅̅̅ = CH ̅̅̅̅ = raggio.

Se prendiamo un secondo punto sul lato del quadrato per esempio P′ , abbiamo che la distanza di Manhattan
̅̅̅̅̅′ + ̅̅̅̅̅̅
tra C e P è CH H′ P′.

160
̂′ Q possiamo concludere che CH
Essendo però il triangolo RĈQ simile anche al triangolo P′ 𝐻 ̅̅̅̅̅′ + ̅̅̅̅̅̅
H′ P′ è
̅̅̅̅̅′ + ̅̅̅̅̅
uguale a CH H ′ Q = raggio.
Lungo il lato del quadrato la distanza tra ciascun punto sul quadrato e il centro C è sempre uguale al raggio.

Le coordinate dei vertici della circonferenza, come suggerito dal testo dell’esercizio, sono:

X Y
Q 4 0
R 4 0
S -4 0
T 0 -4

Dobbiamo calcolare la distanza euclidea tra Q e T, ovvero


1
p 2
2
d = (∑|xis − xjs | )
s=1

dk=2 = √|0 + 4,00|2 + |4 − 0|2 = √32 = 5,66

Successivamente, calcoliamo la distanza di Mahalanobis sempre tra Q e T. Dobbiamo quindi calcolare la


matrice varcov e la sua inversa.

−1
var(x) cov(xy) (x − x2 )
√[(x1 − x2 ) ∗ (y1 − y2 )] ∗ [ ] ∗[ 1 ]
cov(yx) var(y) (y1 − y2 )

I punti tra i quali si calcola la distanza sono appunto:

x1 = 0 y1 = −4 T = (0; −4)
x2 = 4 y2 = 0 Q = (4; 0)

Calcoliamo le varianze e la covarianza per poter risolvere l’espressione sopra:


(4−0)2 +(0−0)2 +(−4−0)2 +(0−0)2 4+0−4+0
var(x) = 4
=8 dove x̅ = 4
=0

(0−0)2 +(4−0)2 +(0−0)2 +(−4−0)2 0+4+0−4


var(y) = 4
=8 dove y̅ = 4
=0

161
(4 − 0) ∗ (0 − 0) + (0 − 0) ∗ (4 − 0) + (−4 − 0) ∗ (0 − 0) + (0 − 0) ∗ (−4 − 0) 0
cov(x, y) = = =0
4 4

Quindi,
var(x) cov(xy) 8 0
[ ]=[ ]
cov(yx) var(y) 0 8

Ora calcoliamo l’inversa di questa matrice, ovvero:

8 0 1 8 0 1 0,125 0
[ ]∗ =[ ]∗ =[ ]
0 8 det 0 8 64 0 0,125

Infine, calcoliamo la distanza di Mahalanobis:

0,125 0 4 4
√[4 4] ∗ [ ] ∗ [ ] = √[0,5 0,5] ∗ [ ] = 2,00
0 0,125 4 4

162
Esercizio 10.4 – Distanze dal centroide

Data la seguente successione doppia

X Y
1 2 5000
2 2,5 8500
3 4 6000
4 3,5 5500
5 3 7000

- calcolare il centroide µ;
- usando la distanza euclidea, ordinare le osservazioni dalla più vicina alla più lontana dal
centroide;
- ripetere il quesito precedente utilizzando la distanza di Mahalanobis. L’ordine rimane lo
stesso?

Soluzione
Il centroide µ ha per coordinate le medie delle osservazioni, ovvero
∑ xi 2 + 2,5 + 4 + 3,5 + 3
μx = = = 3,00
n 5
∑ yi 5000 + 8500 + 6000 + 5500 + 7000
μy = = = 6400,00
n 5
μ = (3,00; 6400,00)

Per rispondere al secondo quesito calcoliamo le singole distanze euclidee tramite l’espressione generale
1
p 2
2
d = (∑|xis − xjs | )
s=1

d1,μ = √|2 − 3,00|2 + |5000 − 6400,00|2 = 1400,00

d2,μ = √|2,5 − 3,00|2 + |8500 − 6400,00|2 = 2100,00

d3,μ = √|4 − 3,00|2 + |6000 − 6400,00|2 = 400,00

d4,μ = √|3,5 − 3,00|2 + |5500 − 6400,00|2 = 900,00

d5,μ = √|3 − 3,00|2 + |7000 − 6400,00|2 = 600,00

163
In ordine crescente abbiamo le seguenti distanze:
d3,μ, d5,μ, d4,μ, d1,μ, d2,μ.

Per rispondere al terzo quesito calcoliamo le distanze di Mahalanobis tramite l’espressione generale

−1
var(x) cov(xy) (x − x2 )
√[(x1 − x2 ) ∗ (y1 − y2 )] ∗ [ ] ∗[ 1 ]
cov(yx) var(y) (y1 − y2 )

Calcoliamo le varianze e la covarianza:


(2 − 3)2 + (2,5 − 3)2 + (4 − 3)2 + (3,5 − 3)2 + (3 − 3)2
var(x) = = 0,5
5

(5000 − 6400)2 + (8500 − 6400)2 + (6000 − 6400)2 + (5500 − 6400)2


var(y) = = 1540000
5

(2 − 3) ∗ (5000 − 6400) + ⋯ + (3 − 3) ∗ (7000 − 6400)


cov(x, y) = = −100
5

Quindi,
var(x) cov(xy) 0,5 −100
[ ]=[ ]
cov(yx) var(y) −100 1540000

Calcoliamo ora l’inversa di questa matrice, ovvero:

1540000 100 1 1540000 100 1 2,03 0,00013


[ ]∗ =[ ]∗ =[ ]
100 0,5 det 100 0,5 760000 0,00013 0,00000065

Infine, calcoliamo le distanze di Mahalanobis:

2,03 0,00013 −1 −1
d1M = √[−1 −1400] ∗ [ ]∗[ ] = √[−2,212 −0,001] ∗ [ ] = 1,9
0,00013 0,00000065 −1400 −1400

2,03 0,00013 −0,5 −0,5


dM
2 = √[−0,5 2100] ∗ [ ]∗[ ] = √[−0,742 0,0013] ∗ [ ] = 1,76
0,00013 0,00000065 2100 2100

2,03 0,00013 1 1
dM
3 = √[1 −400] ∗ [ ]∗[ ] = √[1,978 −0,00013] ∗ [ ] = 1,42
0,00013 0,00000065 −400 −400

2,03 0,00013 0,5 0,5


dM
4 = √[0,5 −900] ∗ [0,00013 0,00000065] ∗ [ ] = √[0,898 −0,00052] ∗ [ ] = 0,96
−900 −900
164
2,03 0,00013 0 0
d1M = √[0 600] ∗ [ ]∗[ ] = √[0,078 0,00039] ∗ [ ] = 0,48
0,00013 0,00000065 600 600
L’ordine delle distanze calcolate con la distanza di Mahalanobis risulta quindi, d5,μ , d4,μ d3,μ, d2,μ , d1,μ.

Come si nota, l’ordinamento delle distanze cambia al variare della distanza utilizzata.

165
Esercizio 10.5 – Indici di similarità

La tabella riportata si riferisce alle caratteristiche di 6 tipi di lasagne presentate ad un concorso


culinario. I giudici potranno esprimere i propri giudizi annotando la presenza o l’assenza della
caratteristica in valutazione.
Lasagne Cottura Sapore Qualità Consistenza Presentazione
1 Lasagne alla bolognese 1 1 1 1 1
2 Lasagne al pesto 1 1 1 1 0
3 Lasagne agli asparagi 0 1 0 1 0
4 Lasagne alla zucca 1 1 0 1 0
5 Lasagne al salmone 0 0 0 0 0
6 Lasagne alla ricotta 0 0 0 1 0

Per la coppia di lasagne al pesto ed agli asparagi calcolare:


- l’indice di similarità di Russel e Rao;
- indice di Sokal e Michener.

Soluzione
Le 5 variabili in tabella sono dicotomiche, con modalità:
presenza = 1
assenza = 0

L’indice di similarità di Russel e Rao è uguale al rapporto tra compresenza e il numero totale delle variabili
considerate. Poiché i due tipi di lasagne hanno per due variabili punteggio pari a 1 – sapore e consistenza –,
l’indice di Russel e Rao è uguale a 2/5.

L’indice di Sokal e Michener ha invece al numeratore non soltanto il numero delle variabili per le quali le
due unità hanno entrambe punteggio 1 – come è il caso dell’indice di Russel e Rao – ma anche il numero
delle variabili per le quali le due unità hanno entrambe punteggio zero. L’indice in questione è pertanto 3/5

166
11. L’analisi discriminante

Esercizio 11.1 – Analisi discriminante di Fisher

Si hanno tre gruppi, le cui unità statistiche sono osservate rispetto a due variabili X e Y nella matrice
dei dati A.

x y
34 9
32 10
30 10
36 12
35 13
34 14
32 16
40 13
38 14
41 15
38 16
42 14

- Mediante la discriminante di Fisher, si forniscano le due funzioni discriminanti;


- Utilizzando la prima funzione discriminante si decida a quale dei tre gruppi appartengano le
due unità statistiche:
𝐀 = (𝟐𝟕, 𝟏𝟔)
𝐁 = (𝟑𝟔, 𝟏𝟓).

Soluzione
Calcoliamo i 4 centroidi, tre dei gruppi e uno generale.
34 + 32 + 30
C1x = = 32,00
3
9 + 10 + 10
C1y = = 9,667
3
36 + 35 + 34 + 32
C2x = = 34,25
4
12 + 13 + 14 + 16
C2y = = 13,75
4
40 + 38 + 41 + 38 + 42
C3x = = 39,80
5
13 + 14 + 15 + 16 + 14
C3y = = 14,40
5
34 + ⋯ + 30 + 36 + ⋯ + 32 + 40 + ⋯ + 42
Cx = = 36,00
12

167
9 + ⋯ + 10 + 12 + ⋯ + 16 + 13 + ⋯ + 14
Cy = = 13,00
12

Quindi i centroidi dei 3 gruppi sono:


C1 = (32; 9,667) C2 = (34,25; 13,75) C3 = (39,80; 14,40)
Mentre il centroide generale:
C = (36; 13)

Per risolvere la discriminante di Fisher, dobbiamo calcolare le matrici di devianze tra i gruppi e nei gruppi.
Calcoliamo la matrice B delle devianze tra i gruppi:
32 − 36 34,25 − 36
B=[ ] ∗ [32 − 36 9,667 − 13] ∗ 3 + [ ] ∗ [34,25 − 36 13,75 − 13] ∗ 4
9,667 − 13 13,75 − 13
39,80 − 36 132,45 61,35
+[ ] ∗ [39,80 − 36 14,40 − 13] ∗ 5 = [ ]
14,40 − 13 61,35 45,38

La matrice à delle devianze nei gruppi può essere ottenuta considerando la matrice degli scarti delle
rispettive medie di gruppo.
34 − 32 9 − 9,667 2 −0,667
32 − 32 10 − 9,667 0 0,333
30 − 32 10 − 9,667 −2 0,333
36 − 34,25 12 − 13,75 1,75 −1,75
35 − 34,25 13 − 13,75 0,75 −0,75
̃ = 34 − 34,25
A
14 − 13,75
=
−0,25 0,25
32 − 34,25 16 − 13,75 −2,25 2,25
40 − 39,80 13 − 14,40 0,20 −1,40
38 − 39,80 14 − 14,40 −1,80 −0,40
41 − 39,80 15 − 14,40 1,20 0,60
38 − 39,80 16 − 14,40 −1,80 1,60
[42 − 39,80 14 − 14,40] [ 2,20 −0,40 ]

̃T ∗ A
Facciamo dunque il prodotto A ̃=W

168
W
2 0 −2 1,75 0,75 −0,25 −2,25 0,20 −1,80 1,20 −1,80 2,20
=[ ]
−0,667 0,333 0,333 −1,75 −0,75 0,25 2,25 −1,40 −0,40 0,60 1,60 −0,40
2 −0,667
0 0,333
−2 0,333
1,75 −1,75
0,75 −0,75
−0,25 0,25 29,55 −13,35
∗ =[ ]
−2,25 2,25 −13,35 14,62
0,20 −1,40
−1,80 −0,40
1,20 0,60
−1,80 1,60
[ 2,20 −0,40 ]
Ora calcoliamo l’inversa della matrice W.

29,55 −13,35 −1 0,0576 0,0526


W −1 = [ ] =[ ]
−13,35 14,62 0,0526 0,1165

Il passaggio successivo è il prodotto W −1 ∗ B


0,0576 0,0526 132,45 61,35 10,86 5,92
W −1 ∗ B = [ ]∗[ ]=[ ]
0,0526 0,1165 61,35 45,38 14,12 8,51

Possiamo ora costruire gli autovalori della matrice prodotto e quindi i rispettivi autovettori corrispondenti.
Dobbiamo porre la seguente condizione:

det[(W −1 ∗ B) − λI] = 0

Ovvero,
10,86 5,92 1 0
det [ ]− λ[ ]=0
14,12 8,51 0 1
10,86 − λ 5,92
det [ ]=0
14,12 8,51 − λ
(10,86 − λ) ∗ (8,51 − λ) − 5,92 ∗ 14,12 = 0

92,45 − 10,86λ − 8,514λ + λ2 − 83,603 = 0

λ2 − 19,373λ + 8,847 = 0
Risolvendo l’equazione di secondo grado si ottengono i seguenti autovalori:
λ1 = 18,91 e λ2 = 0,47

Quindi, per l’autovalore 1, otteniamo:


10,86 − λ 5,92 10,86 − 18,91 5,92 −8,05 5,92
[ ]=[ ]=[ ]
14,12 8,51 − λ 14,12 8,51 − 18,91 14,12 −10,40
169
−8,05 5,92 −8,05 5,92 V
[ ] ∗ a1 = [ ] ∗ [ 1]
14,12 −10,40 14,12 −10,40 V2
−8,05V1 + 5,92V2 = 0
14,12V1 − 10,40V2 = 0
Aggiungendo poi, il vincolo, aT ∗ a = 1 otteniamo il seguente sistema in tre equazioni:

−8,05V1 + 5,92V2 = 0
{14,12V1 − 10,40V2 = 0
V12 + V22 = 1

Risolvendo il sistema otteniamo il seguente autovettore:


0,8053
v1 = ( )
0,5928

Ragioniamo allo stesso modo prendendo l’autovalore 2 per ottenere il seguente autovettore:
−0,4952
v2 = ( )
0,8688

Avendo ottenuto i due autovettori, formuliamo le due funzioni discriminanti:

Z1 = 0,8053x + 0,5928y
Z2 = −0,4952x + 0,8688y

Andiamo quindi ad utilizzare la prima funzione discriminante per allocare le due unità statistiche:

ZA = 0,8053 ∗ 27 + 0,5928 ∗ 16 = 31,23


ZB = 0,8053 ∗ 36 + 0,5928 ∗ 15 = 37,88

Infine calcoliamo lo “score” dei tre centroidi:

Z1 = 0,8053 ∗ 32 + 0,5928 ∗ 9,667 = 31,50


Z2 = 0,8053 ∗ 34,25 + 0,5928 ∗ 13,75 = 35,75
Z3 = 0,8053 ∗ 39,80 + 0,5928 ∗ 14,40 = 40,59

Possiamo quindi concludere che A deve essere inclusa nel I° gruppo mentre B nel II° gruppo.

170
Esercizio 11.2 – Analisi discriminante con distanza di Mahalanobis

Mediante l’analisi discriminante con la distanza di Mahalanobis stabilire se l’osservazione 𝒂 = (𝟑, 𝟕)


appartiene al primo o al secondo gruppo.

X Y
1 1 2
G 2 7
R
3 3
U
P 3 1
P 2 4
O 5 1
2
G 4 6
R
2 5
U
P 4 4
P
O 6 7

Soluzione
Data Z = C1 μx + C2 μy i parametri incogniti sono C1 e C2 , ovvero

(C1 , C2 ) = (μ1 − μ2 ) ∗ S −1
Andiamo, quindi a calcolare:
∑ x1i 1+2+3+3+2+5
μ1x = = = 2,66
n1 6

y ∑ yi1 2 + 7 + 3 + 1 + 4 + 1
μ1 = = = 3,00
n1 6

∑ xi2 4 + 2 + 4 + 6
μx2 = = = 4,00
n2 4

y ∑ yi2 6 + 5 + 4 + 7
μ2 = = = 5,50
n2 4

Quindi,
μ1 = (2,66; 3) e μ2 = (4; 5,50)

Sappiamo, inoltre che

171
var(x) cov(xy)
S=( )
cov(yx) var(y)
Per calcolare le varianze e la covarianza, prima si calcola la media di X e Y generale, ovvero considerando
entrambi i gruppi:
∑ xi 1 + 2 + ⋯ + 4 + 6
x̅ = = = 3,20
n 10
∑ yi 2 + 7 + ⋯ + 4 + 7
y̅ = = = 4,00
n 10

Quindi,
(1 − 3,20)2 + ⋯ + (6 − 3,20)2
var(x) = = 2,16
10
(2 − 4,00)2 + ⋯ + (7 − 4,00)2
var(y) = = 4,60
10
(1 − 3,20) ∗ (2 − 4,00) + ⋯ + (6 − 3,20) ∗ (7 − 4,00)
cov(xy) = = 0,50
10

var(x) cov(xy) 2,16 0,50


S=( )=( )
cov(yx) var(y) 0,50 4,60

Dobbiamo calcolare l’inversa di questa matrice, ovvero:

4,60 −0,50 1 4,60 −0,50 1 0,47 −0,05


S −1 = [ ]∗ =[ ]∗ =[ ]
−0,50 2,16 det −0,50 2,16 9,686 −0,05 0,22

Otteniamo infine,
0,47 −0,05
(C1 , C2 ) = (μ2 − μ1 ) ∗ S −1 = (1,34 2,50) ∗ [ ] = (0,5048 0,483)
−0,05 0,22
Si è utilizzato (μ2 − μ1 ) in quanto μ2 > μ1 .

Per classificare le osservazioni dobbiamo calcolare lo “score” di μ1 e μ2 :

Z̅1 = 0,5048 ∗ 2,66 + 0,483 ∗ 3,00 = 2,80

Z̅2 = 0,5048 ∗ 4,00 + 0,483 ∗ 5,50 = 4,70

̅̅̅
Z2 + ̅̅̅
Z1 2,80 + 4,70
Z̿ = = = 3,75
2 2

L’osservazione a = (3, 7) ha il seguente score:


172
Z = 0,5048 ∗ 3,00 + 0,483 ∗ 7,00 = 4,89

Quindi, essendo maggiore di Z̿ = 3,75 l’osservazione in questione l’assegniamo al II gruppo. Mentre, se


fosse stato minore l’avremmo assegnata al primo gruppo.

173
Esercizio 11.3 – Analisi discriminante con la distanza di Mahalanobis

La seguente tabella contiene i dati riguardanti il numero di figli e il numero di vani dell’abitazione di
10 coppie che hanno chiesto agevolazioni per l’affitto:

Numero di Numero
figli di vani
A
A 2 3 g
e
B 3 4 v
o C
C 2 2 l o
a n
D 4 5 z c
i e
E 3 2 o s
n s
F 1 2 e a

A N
G 1 4 g o
e n
v
o C
H 2 4 l o
a n
z c
I 1 3 i e
o s
n s
L 1 5 e a

- Si stabiliscano i centroidi dei due gruppi “concessa/non concessa”;


- Si stabilisca per mezzo della distanza euclidea se l’agevolazione deve essere concessa alle due
seguenti coppie:
Numero di Numero
figli di vani
M 2 5
N 3 3
- Si ripeta l’esercizio con la distanza di Mahalanobis.

Soluzione
Esplicitiamo le variabili nel seguente modo:
x = numero di figli
y = numero di vani
C1 = agevolazione concessa
C2 = agevolazione non concessa

Quindi,

174
2+3+2+4+3+1
C1x = = 2,50
6
3+4+2+5+2+2
C1y = = 3,00
6
1+2+1+1
C2x = = 1,25
4
4+4+3+5
C2y = = 4,00
4

Quindi,
C1 = (2,50; 3,00) e C2 = (1,25; 4,00)

Per rispondere al secondo quesito c’è da calcolare le singole distanze euclidee tra i punti da “verificare” e i
centroidi dei due gruppi, tramite l’espressione generale:
1
p 2
2
d = (∑|xis − xjs | )
s=1

Quindi,

dM,C1 = √|2 − 2,50|2 + |5 − 3,00|2 = 2,06

dM,C2 = √|2 − 1,25|2 + |5 − 4,00|2 = 1,25

dN,C1 = √|3 − 2,50|2 + |3 − 3,00|2 = 0,50

dN,C2 = √|3 − 1,25|2 + |3 − 4,00|2 = 2,016

Quindi, M appartiene al gruppo dell’agevolazione non concessa dato che è più vicino (distanza minore) al
centroide del gruppo 2.
Mentre, N appartiene al gruppo dell’agevolazione concessa dato che è più vicino (distanza minore) al
centroide del gruppo 1.

Per rispondere al terzo quesito c’è da calcolare le distanze di Mahalanobis tramite l’espressione generale

−1
var(x) cov(xy) (x − x2 )
√[(x1 − x2 ) ∗ (y1 − y2 )] ∗ [ ] ∗[ 1 ]
cov(yx) var(y) (y1 − y2 )

Dobbiamo andare a calcolare le varianza e la covarianza per poter risolvere l’espressione sopra:

175
(2 − 2)2 + ⋯ + (1 − 2)2
var(x) = = 1,00
10

(3 − 3,40)2 + ⋯ + (5 − 3,40)2
var(y) = = 1,24
10

(2 − 2) ∗ (3 − 3,40) + ⋯ + (1 − 2) ∗ (5 − 3,40)
cov(x, y) = = 0,20
10

Quindi,
var(x) cov(xy) 1 0,20
S=[ ]=[ ]
cov(yx) var(y) 0,20 1,24

Dobbiamo calcolare l’inversa di questa matrice, ovvero:

1,24 −0,20 1 1,24 −0,20 1 1,03 −0,16


[ ]∗ =[ ]∗ =[ ]
−0,20 1 det −0,20 1 1,2 −0,16 0,83

Quindi, andiamo a calcolare le distanze di Mahalanobis:

1,03 −0,16 −0,50


dM
M,C1 = √[−0,50 2] ∗ [−0,16 ]∗[ ] = 1,97
0,83 2
1,03 −0,16 0,75
dM
M,C2 = √[0,75 1] ∗ [ ]∗[ ] = 1,08
−0,16 0,83 1

1,03 −0,16 0,50


dM
N,C1 = √[0,50 0] ∗ [−0,16 ]∗[ ] = 0,507
0,83 0

1,03 −0,16 1,75


dM
N,C2 = √[1,75 −1] ∗ [−0,16 ]∗[ ] = 2,13
0,83 −1

Come nel caso della distanza euclidea, M appartiene al gruppo dell’agevolazione non concessa dato che è più
vicino (distanza minore) al centroide del gruppo 2.
N invece appartiene al gruppo dell’agevolazione concessa dato che è più vicino (distanza minore) al
centroide del gruppo 1.

176
12. Le componenti principali

Esercizio 12.1 – Componenti principali

Un’azienda alimentare esportatrice di primi piatti tipici italiani vuole condurre una valutazione
sintetica sulla “completezza” di un primo, ossia sulla sua capacità di essere piacevole al consumo, ma
allo stesso tempo anche di dare sazietà.
A tale scopo sottopone ad un suo assaggiatore particolarmente affidabile 10 tipi di lasagna su cui gli
viene chiesto:
- una valutazione sulla piacevolezza del piatto (variabile X) provata durante il suo consumo,
espressa in 60esimi;
- il senso di sazietà provato (variabile Y) una volta consumato l’intero piatto, espresso in
110esimi.

PIATTI X Y
1 60 110
2 54 100
3 36 99
4 40 95
5 36 88
6 58 105
7 44 100
8 42 102
9 42 90
10 55 108

Si costruisca la componente principale di “completezza” del piatto.

Soluzione
La media delle variabili x e y risultano essere
Mx = 46,70
My = 99,70

Lo scostamento quadratico medio di x risulta

(60 − 46,70)2 + ⋯ + (55 − 46,70)2


σx = √ = 9,14
10 − 1

Lo stesso procedimento vale per la variabile y, dove

177
(110 − 99,70)2 + ⋯ + (108 − 99,70)2
σy = √ = 7,17
10 − 1

Le varianze sono quindi:

var(x) = σx 2 = 9,142 = 83,567

var(y) = σy 2 = 7,172 = 51,344

La covarianza tra x e y è:
(60 − 46,70) ∗ (110 − 99,70) + ⋯ + (55 − 46,70) ∗ (108 − 99,70)
cov(x, y) = = 51,79
10 − 1

Quindi,
var(x) cov(xy) 83,567 51,79
S=[ ]=[ ]
cov(yx) var(y) 51,79 51,34

Dobbiamo porre la seguente condizione:


det[(S) − λI] = 0

Ovvero,
83,567 51,79 1 0
det [ ]− λ[ ]=0
51,79 51,34 0 1
83,567 − λ 51,79
det [ ]=0
51,79 51,34 − λ
(83,567 − λ) ∗ (51,34 − λ) − 51,79 ∗ 51,79 = 0

λ2 − 134,91λ + 1608,13 = 0

Risolvendo l’equazione di secondo grado si ottengono i seguenti autovalori:


λ1 = 121,69 e λ2 = 13,21

Quindi, per l’autovalore 1, otteniamo:


83,567 − λ 51,79 83,567 − 121,69 51,79 −38,123 51,79
[ ]=[ ]=[ ]
51,79 51,34 − λ 51,79 51,34 − 121,69 51,79 −70,35
−38,123 51,79 −38,123 51,79 V
[ ] ∗ a1 = [ ] ∗ [ 1]
51,79 −70,35 51,79 −70,35 V2

178
−38,123V1 + 51,79V2 = 0
51,79V1 − 70,35V2 = 0

Aggiungendo poi, il vincolo, aT ∗ a = 1 otteniamo il seguente sistema in tre equazioni:


−38,123V1 + 51,79V2 = 0
{ 51,79V1 − 70,35V2 = 0
V12 + V22 = 1

Risolvendo il sistema otteniamo il seguente autovettore:


0,805
v1 = ( )
0,593

La matrice à delle devianze nei gruppi può essere ottenuta considerando la matrice degli scarti delle
rispettive medie di gruppo.
60 − 46,70 110 − 99,70 13,3 10,3
54 − 46,70 100 − 99,70 7,3 0,3
36 − 46,70 99 − 99,70 −10,7 −0,7
40 − 46,70 95 − 99,70 −6,7 −4,7
̃ = 36 − 46,70
A
88 − 99,70
=
−10,7 −11,7
58 − 46,70 105 − 99,70 11,3 5,3
44 − 46,70 100 − 99,70 −2,7 0,3
42 − 46,70 102 − 99,70 −4,7 2,3
42 − 46,70 90 − 99,70 −4,7 −9,7
[55 − 46,70 108 − 99,70] [ 8,3 8,3 ]

̃ ∗ v1 che restituisce la componente principale.


Infine, calcoliamo il prodotto A
13,3 10,3 16,81
7,3 0,3 6,05
−10,7 −0,7 −9,03
−6,7 −4,7 −8,18
̃ = −10,7 −11,7 ∗ [0,805] = −15,55
A
11,3 5,3 0,593 12,24
−2,7 0,3 −2,00
−4,7 2,3 −2,42
−4,7 −9,7 −9,54
[ 8,3 8,3 ] [ 11,60 ]

179