Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Eserciziario di Statistica e
Analisi dei Dati
Giorgia Casella e Piero Ganugi
1
Avvertenza:
gli studenti che devono sostenere la prima parte “Statistica” non sono tenuti a
preparare i seguenti argomenti affrontati nell’eserciziario:
- le distribuzioni doppie, le variabili casuali, la mistura (capitolo 7);
- l’analisi della varianza (capitolo 8);
- la regressione lineare multivariata (parte del capitolo 9);
- le distanze (capitolo 10);
- l’analisi discriminante (capitolo 11);
- le componenti principali (capitolo 12).
2
Sommario
1. La distribuzione di una variabile statistica ........................................................................................... 7
Esercizio 1.1 – Rappresentazione grafica di una distribuzione con carattere di cella ............................. 7
Esercizio 1.2 – Rappresentazione grafica di una distribuzione con carattere discreto .......................... 10
Esercizio 1.3 – Rappresentazione grafica di una distribuzione con carattere qualitativo sconnesso .... 11
Esercizio 1.4 – Costruzione di una distribuzione da una successione di valori..................................... 12
Esercizio 1.5 – Costruzione di una distribuzione da una successione di valori..................................... 13
Esercizio 1.6 – Rappresentazione grafica di una distribuzione e della sua cumulata ............................ 14
Esercizio 1.7 – Rappresentazione grafica di una distribuzione e della sua cumulata relativa ............... 16
Esercizio 1.8 – Da una funzione di ripartizione ad una distribuzione di densità................................... 18
Esercizio 1.9 – Proprietà di una funzione di ripartizione ...................................................................... 19
Esercizio 1.10 – Proprietà di una distribuzione di densità....................................................................... 20
2. Le medie ................................................................................................................................................. 21
Esercizio 2.1 – Media aritmetica ........................................................................................................... 21
Esercizio 2.2 – Media aritmetica ........................................................................................................... 22
Esercizio 2.3 - Mediana ......................................................................................................................... 23
Esercizio 2.4 – Media geometrica ......................................................................................................... 24
Esercizio 2.5 – Media armonica ............................................................................................................ 26
Esercizio 2.6 – Media geometrica ......................................................................................................... 27
Esercizio 2.7 – Media di una distribuzione statistica ............................................................................ 28
Esercizio 2.8 – Media di una variabile statistica ................................................................................... 29
Esercizio 2.9 – Media di una variabile statistica ................................................................................... 30
Esercizio 2.10 – Media quadratica .......................................................................................................... 31
Esercizio 2.11 – Media geometrica ......................................................................................................... 32
Esercizio 2.12 – Media di quarto ordine.................................................................................................. 33
Esercizio 2.13 – Medie di potenze .......................................................................................................... 34
Esercizio 2.14 – Media, mediana e moda di una variabile statistica ....................................................... 36
Esercizio 2.15 – Media e mediana di una variabile statistica .................................................................. 37
3. La variabilità .......................................................................................................................................... 39
Esercizio 3.1 – Scomposizione devianza............................................................................................... 39
Esercizio 3.2 – Scostamento assoluto dalla media e dalla mediana ...................................................... 41
Esercizio 3.3 – Proprietà della varianza ................................................................................................ 42
Esercizio 3.4 – Variabilità relativa ........................................................................................................ 44
Esercizio 3.5 – Proprietà pitagorica della varianza ............................................................................... 45
Esercizio 3.6 – Varianza di una variabile statistica ............................................................................... 46
Esercizio 3.7 – Media e varianza di una variabile statistica .................................................................. 47
Esercizio 3.8 – Varianza di variabile statistica ...................................................................................... 48
4. Le variabili casuali ................................................................................................................................ 49
3
Esercizio 4.1 – Tabulazione di una variabile casuale a partire dallo spazio degli eventi ...................... 49
Esercizio 4.2 – Varianza della distribuzione bernoulliana .................................................................... 52
Esercizio 4.3 – Approssimazione alla distribuzione normale e distribuzione binomiale ...................... 53
Esercizio 4.4 – Distribuzione normale .................................................................................................. 55
Esercizio 4.5 – Distribuzione chi quadro............................................................................................... 56
Esercizio 4.6 – Distribuzione t di Student ............................................................................................. 57
Esercizio 4.7 – Condizioni per avere una variabile casuale .................................................................. 58
Esercizio 4.8 – Una variabile casuale .................................................................................................... 59
5. Le distribuzioni campionarie ................................................................................................................ 61
Esercizio 5.1 – Distribuzione della media aritmetica campionaria, mediana campionaria e semisomma
campionaria del primo e ultimo estratto ...................................................................................................... 61
Esercizio 5.2 – Distribuzione della proporzione campionaria ............................................................... 64
Esercizio 5.3 – Distribuzioni campionarie della varianza e della varianza corretta .............................. 65
Esercizio 5.4 – Popolazione binomiale e normale ................................................................................. 67
Esercizio 5.5 – Distribuzione della media campionaria ........................................................................ 68
Esercizio 5.6 – Distribuzione della media campionaria di campioni estratti da una popolazione normale
......................................................................................................................................... 70
Esercizio 5.7 – Distribuzione della media campionaria di campioni estratti da una popolazione
esponenziale........................................................................................................................................ 71
6. La stima intervallare ............................................................................................................................. 72
Esercizio 6.1 – Intervalli di confidenza per la media ............................................................................ 72
Esercizio 6.2 – Intervalli di confidenza per la media ............................................................................ 73
Esercizio 6.3 – Intervalli di confidenza per la percentuale campionaria ............................................... 74
Esercizio 6.4 – Verifica dell’ipotesi funzionale: il caso di una distribuzione di Poisson ...................... 75
Esercizio 6.5 – Verifica dell’ipotesi funzionale: il caso di una distribuzione normale ......................... 76
7. Le distribuzioni doppie, le somme di variabili casuali, la mistura .................................................... 78
Esercizio 7.1 – Una distribuzione doppia discreta ................................................................................ 79
Esercizio 7.2 – Una distribuzione doppia discreta ................................................................................ 81
Esercizio 7.3 – Covarianza .................................................................................................................... 83
Esercizio 7.4 – Indipendenza ................................................................................................................. 84
Esercizio 7.5 – Covarianza zero e indipendenza ................................................................................... 85
Esercizio 7.6 – Costruzione di una distribuzione doppia e delle rispettive distribuzioni marginali
partendo dall’espressione analitica ..................................................................................................... 88
Esercizio 7.7 – Costruzione di una distribuzione marginale partendo da una distribuzione doppia ..... 90
Esercizio 7.8 – Somma di variabili casuali............................................................................................ 91
Esercizio 7.9 – Somma di variabili casuali............................................................................................ 94
Esercizio 7.10 – Lancio di due dadi ........................................................................................................ 95
Esercizio 7.11 – Mistura di distribuzioni ................................................................................................ 98
Esercizio 7.12 – Somma di due distribuzioni: un caso aziendale .......................................................... 100
4
8. L’analisi della varianza ....................................................................................................................... 101
Esercizio 8.1 – Analisi della varianza ad un solo fattore..................................................................... 101
Esercizio 8.2 – Analisi della varianza ad un solo fattore..................................................................... 104
Esercizio 8.3 – Analisi della varianza ad un fattore e contrasti ........................................................... 107
(a) – Analisi della varianza ............................................................................................................. 107
(b) – Contrasti ................................................................................................................................. 109
Esercizio 8.4 – Analisi della varianza a due fattori ............................................................................. 113
Esercizio 8.5 – Analisi della varianza a due fattori ............................................................................. 118
(a) – Analisi della varianza ............................................................................................................. 118
(b) – Intervalli di confidenza ........................................................................................................... 122
Esercizio 8.6 – Analisi della varianza a due fattori ............................................................................. 124
9. La regressione ...................................................................................................................................... 129
Esercizio 9.1 – Metodo dei minimi quadrati ....................................................................................... 129
Esercizio 9.2 – Metodo dei minimi quadrati ....................................................................................... 131
Esercizio 9.3 – Coefficiente di correlazione lineare ............................................................................ 132
Esercizio 9.4 – Coefficiente di correlazione lineare ............................................................................ 133
Esercizio 9.5 – La regressione con un modello lineare e una sola variabile esplicativa ..................... 135
(a) Covarianza, varianza e stime dei parametri ............................................................................... 136
(b) Analisi della varianza ................................................................................................................ 137
(c) La stima intervallare e la verifica delle ipotesi sulle stime dei parametri del modello .............. 139
Esercizio 9.6 – Regressione lineare multivariata – Approccio matriciale ........................................... 142
(a) Stime dei parametri .................................................................................................................... 142
(b) La stima intervallare e la verifica delle ipotesi dei parametri del modello ................................ 145
Esercizio 9.7 – Regressione lineare bivariata – Approccio matriciale ................................................ 146
(a) Stime dei parametri .................................................................................................................... 146
(b) La stima intervallare e verifica delle ipotesi dei parametri del modello .................................... 148
Esercizio 9.8 –Ortogonalità dei residui ............................................................................................... 150
Esercizio 9.9 – Coefficiente di correlazione e regressione .................................................................. 152
Esercizio 9.10 – Coefficiente di correlazione ........................................................................................ 153
Esercizio 9.11 – Dipendenza perfetta tra x e y, ma covarianza uguale a zero ....................................... 155
10. Le distanze ............................................................................................................................................ 156
Esercizio 10.1 – Distanze di Minkowski ............................................................................................... 156
Esercizio 10.2 – Distanza euclidea ........................................................................................................ 158
Esercizio 10.3 – Distanza di Mahalanobis............................................................................................. 160
Esercizio 10.4 – Distanze dal centroide................................................................................................. 163
Esercizio 10.5 – Indici di similarità ....................................................................................................... 166
11. L’analisi discriminante........................................................................................................................ 167
Esercizio 11.1 – Analisi discriminante di Fisher ................................................................................... 167
5
Esercizio 11.2 – Analisi discriminante con distanza di Mahalanobis ................................................... 171
Esercizio 11.3 – Analisi discriminante con la distanza di Mahalanobis................................................ 174
12. Le componenti principali .................................................................................................................... 177
Esercizio 12.1 – Componenti principali ................................................................................................ 177
6
1. La distribuzione di una variabile statistica
Soluzione
Poiché disponiamo di una carattere di cella andiamo a calcolare le ampiezze delle classi e le frequenze
relative. Quest’ultime sono ottenute dividendo le frequenze per la somma delle frequenze (15.122).
Calcoliamo anche:
- le densità assolute dividendo le frequenze assolute per l’ampiezza della classe;
- le densità relative dividendo le frequenze relative per l’ampiezza della classe.
I risultati ottenuti sono mostrati nella tabella sottostante.
7
classi migliaia frequenze ampiezza di frequenze densità densità
di €) assolute classe relative assoluta relative
-4 - -2 31 2 0,2% 15,5 0,001025
-2 - 0 154 2 1,0% 77 0,005092
0 - 1,38 5578 1,38 36,9% 4042,029 0,267295
1,38 - 3 3243 1,62 21,4% 2001,852 0,13238
3 - 4 2000 1 13,2% 2000 0,132258
4 - 5 1618 1 10,7% 1618 0,106996
5 - 6 941 1 6,2% 941 0,062227
6 - 7,5 669 1,5 4,4% 446 0,029493
7,5 - 11 583 3,5 3,9% 166,5714 0,011015
11 - 15 211 4 1,4% 52,75 0,003488
15 - 19 94 4 0,6% 23,5 0,001554
15122
Ora andiamo a rappresentare graficamente le distribuzioni delle densità assolute e relative, rispettivamente
grafico sopra e sotto, riportando in ordinata le densità assolute o le densità relative.
8
9
Esercizio 1.2 – Rappresentazione grafica di una distribuzione con carattere discreto
Frequenze Numero
Numero di
assolute complessivo
stanze
(migliaia) stanze (migliaia)
1 7 7
2 75 150
3 213 639
4 346 1384
5 190 950
Soluzione
In questo caso disponiamo di una carattere discreto.
Si può rappresentare questa distribuzione riportando in ordinata le frequenze oppure le frequenze relative.
10
Esercizio 1.3 – Rappresentazione grafica di una distribuzione con carattere qualitativo
sconnesso
LOMBARDIA
Sesttori di attività valori
valori %
economica assoluti
Agricoltura 141 3,9
Industria 1828 50,3
Altre attività 1668 45,8
Soluzione
La rappresentazione grafica della distribuzione è mostrata nella figura sottostante e palesa il numero degli
occupati secondo il settore di impiego.
È opportuno aver chiaro che i rettangoli corrispondenti dei tre settori di attività economica non sono
istogrammi. Quello che infatti è rilevante in questa figura è soltanto l’altezza. L’area non ha alcun
significato, mentre nell’istogramma l’area corrisponde al totale delle frequenze (frequenze relative).
11
Esercizio 1.4 – Costruzione di una distribuzione da una successione di valori
La successione fornita nella tabella sotto riportata rappresenta il peso in chilogrammi di altrettanti
vasi di porcellana.
Si costruisca la distribuzione degli stessi vasi, secondo ancora il peso, adottando classi di ampiezza 1 e
successivamente di ampiezza 2.
Soluzione
Se suddividiamo i pesi in classi, rispettivamente di ampiezza 1 e 2, otteniamo le due distribuzioni di
frequenza denotate nella tabella sotto:
Classi di Classi di
frequenze frequenze
ampiezza 1 ampiezza 2
10-11 5 10-12 8
11-12 3 12-14 21
12-13 12 14-16 21
13-14 9
14-15 11
15-16 10
50 50
Se volessimo fornire una rappresentazione grafica di queste due distribuzioni sappiamo che trattandosi di una
variabile di cella dovremmo mettere in ordinata la densità e in ascissa la variabile x. Se però, anziché la
densità, mettessimo in ordinata le frequenze la rappresentazione della distribuzione avrebbe la stessa forma
poiché le celle hanno in questi due casi la stessa ampiezza.
12
Esercizio 1.5 – Costruzione di una distribuzione da una successione di valori
Si hanno 50 casse, ognuna delle quali con 100 tazze da caffè prodotte in Cina. Per ognuna delle casse,
viene conteggiato il numero di tazze rotte durante il trasporto in nave, come riportato in tabella.
Soluzione
Rappresentiamo la distribuzione delle 50 casse secondo il numero di tazze rotte.
Numero tazze
Numero casse
rotte
0 8
1 15
2 14
3 9
4 2
5 2
Totale 50
13
Esercizio 1.6 – Rappresentazione grafica di una distribuzione e della sua cumulata
Si costruisca la rappresentazione grafica della distribuzione delle frequenze assolute e cumulate per la
distribuzione fornita in tabella.
xi ni
1 2
3 3
5 7
10 8
12 5
25
Soluzione
Andiamo ad aggiungere alla tabella la colonna con le frequenze cumulate Ni .
xi ni Ni
1 2 2
3 3 5
5 7 12
10 8 20
12 5 25
25
Coi i dati riportati in quest’ultima tabella possiamo rappresentare le distribuzioni delle frequenze assolute
(grafico sopra) e cumulate assolute (grafico sotto).
14
15
Esercizio 1.7 – Rappresentazione grafica di una distribuzione e della sua cumulata
relativa
Frequenze
Superficie N. Densità Frequenze
relative
(ettari) aziende assolute relative (%)
cumulate (%)
0-0,5 524040 1048080 16,08 16,08
0,5-1 510900 1021800 15,68 31,76
1-2 644730 644730 19,78 51,54
2-3 371080 371080 11,39 62,93
3-5 417870 208935 12,82 75,75
5-10 400790 80158 12,3 88,05
10-20 218210 21821 6,7 94,75
20-30 67280 6728 2,06 96,81
30-50 49360 2468 1,51 98,32
50-100 31140 623 0,96 99,28
100 e oltre 23510 26 0,72 100
Soluzione
Nella figura che segue riportiamo la rappresentazione grafica della distribuzione di densità assoluta.
Sotto, invece, raffiguriamo la funzione di ripartizione della aziende agricole per classi di superficie.
16
Entrambi i grafici sono stati limitati alle superfici inferiori a 20 ettari per una migliore leggibilità degli stessi.
17
Esercizio 1.8 – Da una funzione di ripartizione ad una distribuzione di densità
Soluzione
La distribuzione di densità si ottiene derivando la funzione di ripartizione:
d 3 3 3
f(x) = (2x − x 2 ) = 2 − 2 ∗ x = 2 − x (0 < x < 2)
dx 4 4 2
Si può provare che la nostra f(x) è effettivamente una densità di frequenze relativa. Infatti
18
Esercizio 1.9 – Proprietà di una funzione di ripartizione
𝐞𝐱
Si accerti se la 𝐟(𝐱) = (𝟏+𝐞 𝐱 )
possa essere considerata una funzione di ripartizione.
Soluzione
La f (x) è un funzione di ripartizione perché rispetta tutte le condizioni per essere tale, ovvero:
- è definita per qualunque valore di x;
- è compresa tra 0 e 1;
la sua derivata è ex ⁄[1 + ex ]2, che è sempre positiva e mai decrescente;
- il lim f(x) = 1 e lim f(x) = 0.
x→+∞ x→−∞
19
Esercizio 1.10 – Proprietà di una distribuzione di densità
Data la funzione
determinare il valore di a in modo tale che la stessa 𝐟(𝐱) sia una distribuzione di densità.
Soluzione
Per rispondere al quesito, si pone l’integrale della distribuzione uguale a 1, ossia
x1
∫ f(x) dx = 1
x0
+a
∫ (a2 − x 2 ) dx = 1
−a
+a
2
x3
|a x − | = 1
3 −a
a3 a3
a3 − − (−a3 + ) = 1
3 3
2a3
2a3 − =1
3
3 3
a = √ = 0,91
4
20
2. Le medie
Componenti 1 2 3 4 Totale
N. di famiglie 10 10 50 30 100
- Si può dire che il numero medio di componenti per famiglia è uguale a tre?
- È corretto affermare che ogni individuo ha in media altri due componenti nella sua famiglia?
Soluzione
Il risultato del primo quesito è immediato, in quanto si tratta di applicare la formula di calcolo della media
aritmetica per dati non raggruppati in classi
∑ki=1 xi ni
M=
∑ki=1 ni
Nel secondo quesito, la popolazione non è costituita dalle famiglie, ma è costituita dagli individui. È utile
quindi costruire la distribuzione degli individui con carattere “il numero degli altri componenti”. Possiamo
anche chiamare questa la distribuzione degli individui per numero di altri componenti.
Di questa distribuzione possiamo ora calcolare la media. Poiché la media aritmetica M risulta uguale a 2,26,
possiamo affermare che ogni individuo ha in media altri 2,26 componenti nella sua famiglia.
21
Esercizio 2.2 – Media aritmetica
Una azienda ha 550 dipendenti di cui 50 sono dirigenti, 100 impiegati e 400 operai. L’età media dei
dirigenti è 51 anni, quella degli impiegati è 39 anni e quella degli operai è 42 anni. Qual è l’età media
dei dipendenti in complesso?
Soluzione
Per risolvere l’esercizio bisogna applicare la proprietà associativa della media aritmetica
22
Esercizio 2.3 – Mediana
Nella seguente tabella sono riportati i giudizi conseguiti ad un esame attitudinale da un gruppo di
individui
giudizio frequenze
sufficiente 4
buono 3
ottimo 8
Soluzione
Il giudizio conseguito ad un esame è un carattere qualitativo, ma ordinabile. L’indice di posizione opportuno
N+1
è quindi la mediana. Poiché N = 15 è dispari, la posizione mediana è individuata da 2
= 8. Dalla
distribuzione di frequenza cumulata, riportata nella tabella seguente,
giudizio cumulate
sufficiente 4
buono 7
ottimo 15
è immediato constatare che l’ottava unità statistica si trova in corrispondenza della modalità ottimo. Sulla
tabella dei giudizi può essere determinata anche la moda. Anche in questo caso il risultato è la modalità
ottimo in quanto è la modalità cui corrisponde la frequenza più alta (8) della distribuzione.
23
Esercizio 2.4 – Media geometrica
Soluzione
Poniamo yi = log(xi ) e log(c) = γ, la funzione
∑ ni (yi − γ)2
i
∑i yi ni
γ=
∑i n i
ovvero
∑i log(xi )ni
log(c) =
∑i n i
Sappiamo che il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi dei termini,
quindi c è pari alla media geometrica della distribuzione di frequenza
1⁄
k N
n
c = (∏ xi i )
i
25
Esercizio 2.5 – Media armonica
𝟏 𝟏 𝟐
∑( − )
𝐱𝐢 𝐜
𝐢
Soluzione
Posto 1⁄xi = zi e 1⁄𝑐 = γ , la funzione
∑(zi − γ)2
i
1
∑i zi ∑i
1 xi 4
γ= ovvero = ovvero c= 1
4 c 4 ∑i
xi
4 4
c= = = 0,984
2 2 4,06
2+1+3+
5
26
Esercizio 2.6 – Media geometrica
Un capitale è stato investito (con capitalizzazione annua degli interessi via via maturati) alle seguenti
condizioni:
- i primi due anni al tasso del 15%;
- il terzo anno al tasso del 25%;
- il quarto anno al tasso del 5,8%.
Si determini il tasso medio cui è stato investito questo capitale.
Soluzione
27
Esercizio 2.7 – Media di una distribuzione statistica
- si determini “a” in modo che la stessa funzione sia una distribuzione statistica;
- si determini successivamente la media di questa distribuzione.
Soluzione
Per rispondere al primo quesito, dobbiamo porre l’integrale della distribuzione uguale a 1, ovvero
x1
∫ f(x) dx = 1
x0
1
∫ ax dx = 1
0
1
x2
a| | = 1
2 0
1
a ∗ [ − 0] = 1
2
a=2
Per soddisfare invece la seconda domanda del testo dobbiamo calcolare l’integrale della distribuzione
moltiplicata per x, ossia
x1 1
∫ f(x) ∗ x dx = ∫ ax ∗ x dx
x0 0
1
x3 1 1
a | | = a ∗ [ − 0] = a
3 0 3 3
Andiamo a sostituire il risultato del primo quesito a questa espressione e otteniamo la media:
1 2
μ= a=
3 3
28
Esercizio 2.8 – Media di una variabile statistica
Soluzione
Dati due numeri reali a e b, con a < b, si dice che la variabile aleatoria ha distribuzione uniforme
(rettangolare) con parametri a e b se la sua densità di probabilità è
1
f(x) = {b − a a≤x≤b
0 altrimenti
Quindi,
x1 b
1
∫ x ∗ f(x) dx = ∫ x ∗ dx
x0 a b−a
b
x2 a+b
=| | =
2(b − a) a 2
29
Esercizio 2.9 – Media di una variabile statistica
𝐂(𝟒𝐱 − 𝟐𝐱 𝟐 ) 𝟎<𝐱<𝟐
{
𝟎 𝐚𝐥𝐭𝐫𝐢𝐦𝐞𝐧𝐭𝐢
- quanto vale C?
- calcolare la media della distribuzione;
- calcolare l’ammontare di frequenze relative per 𝐱 > 𝟏.
Soluzione
Siccome f è una densità, possiamo porre:
2
1 = C ∫ (4x − 2x 2 ) dx =
0
x=2
2x 3 8
= C |2x 2 − | =C∗
3 x=0 3
3
Da cui C = 8
2
3 4x 3 2 4 3 32 3 8
∗| − x | = ∗ [ − 8] = ∗ = 1
8 3 4 0 8 3 8 3
Ora che conosciamo completamente f, l’ammontare di frequenza relativa per x > 1 può essere trovata senza
difficoltà, ossia:
∞
3 2 1
∫ f(x)dx = ∫ (4x − 2x 2 )dx =
1 8 1 2
30
Esercizio 2.10 – Media quadratica
Si vogliono scambiare due monete d’argento aventi rispettivamente raggio pari a cm 1,50 e cm 3,00,
con altre due monete aventi ugual raggio.
Si determini il raggio delle due nuove monete d’argento supponendo l’equivalenza dei valori
scambiati.
Soluzione
In questo specifico caso dello scambio delle due monete dobbiamo porre la condizione che la somma delle
superfici delle due monete sia uguale alla somma delle superfici di due monete uguali.
Si risolve quindi questo problema impostando la condizione di equivalenza per la media quadratica.
e quindi
(1,50)2 + (3,00)2
R=√ = 2,30 cm circa
2
31
Esercizio 2.11 – Media geometrica
Tasso
Anni
variabile
1° anno 0,050
2° anno 0,055
3° anno 0,050
4° anno 0,058
5° anno 0,060
6° anno 0,059
7° anno 0,061
8° anno 0,062
Soluzione
Si risolve il problema impostando la condizione di equivalenza della media geometrica:
C ∗ (1 + 0,050) ∗ (1 + 0,055) ∗ (1 + 0,050) ∗ (1 + 0,058) + (1 + 0,060) ∗ (1 + 0,059) ∗ (1 + 0,061)
∗ (1 + 0,062) = C ∗ (1 + i̅)8
32
Esercizio 2.12 – Media di quarto ordine
Per certi tipi di animali è noto che, con buona approssimazione, l’estensione della pelle S può ottenersi
mediante la formula
𝐒 = 𝐤 ∗ 𝐱𝟒 ∗ 𝐲𝟔
dove 𝐱 è il peso vivo (chilogrammi), 𝐲 è la lunghezza del tronco (centimetri), mentre 𝐤 è la costante, che
differisce in base al tipo di animale.
Dato un gruppo di 𝐧 animali di uno stesso tipo, i cui pesi sono rispettivamente 𝐱𝟏 , … , 𝐱𝐧 e le lunghezze
𝐲𝟏 , … , 𝐲𝐧, determinare il peso medio.
Soluzione
Il peso medio cercato, x̅, deve essere tale che sostituito ai pesi effettivi degli n capi lasci immutata la somma
complessiva delle estensioni delle n pelli.
Si risolve quindi questo problema impostando la condizione di equivalenza per la media di quarto ordine:
n n n
e quindi
che è una media di potenza di quarto ordine ponderata con i pesi yi6 .
33
Esercizio 2.13 – Medie di potenze
N. persone per N.
abitazione abitazioni
xi fi
1 7
2 17
3 20
4 18
5 15
6 10
7 6
8 4
9 2
10 1
100
calcolare le medie di potenze 𝐌𝐤 per ogni 𝟏 ≤ 𝐤 ≤ 𝟏𝟐 mostrando che 𝐌𝟏 < 𝐌𝟐 < 𝐌𝟑 < ⋯ < 𝐌𝟏𝟐 .
Soluzione
Per calcolare le varie medie si dovrà utilizzare l’espressione analitica della funzione di medie potenziate.
k ∑ xik fi
Mk = √ (k = 1,2, … ,12)
∑ fi
Otteniamo, pertanto
1 ∑ x1i fi 410
M1 = √ = = 4,10
∑ fi 100
2 ∑ x2f 2090
i
M2 = √ i = √ = 4,572
∑ fi 100
∑ xi3 fi 3 12434
3
M3 = √ =√ = 4,991
∑ fi 100
∑ xi4 fi 4 82754
4
M4 = √ =√ = 5,363
∑ fi 100
34
5∑ xi5 fi 5 598490
M5 = √ =√ = 5,694
∑ fi 100
6∑ xi6 fi 6 4607690
M6 = √ =√ = 5,988
∑ fi 100
7 ∑ x7f 7 37207874
i
M7 = √ i = √ = 6,249
∑ fi 100
8 ∑ x8f 8 311761874
i
M8 = √ i = √ = 6,482
∑ fi 100
9 ∑ x9f 9 2689028330
i
M9 = √ i = √ = 6,691
∑ fi 100
10 ∑ x10
i fi
10 23734606490
M10 = √ = √ = 6,879
∑ fi 100
11 ∑ x11
i fi
11 213425285714
M11 = √ = √ = 7,049
∑ fi 100
12 ∑ x12
i fi
12 1948527324194
M12 = √ = √ = 7,202
∑ fi 100
35
Esercizio 2.14 – Media, mediana e moda di una variabile statistica
𝟎 𝐱<𝟎
𝐱𝟐
𝟎≤𝐱<𝟏
𝟐
𝐱𝟐
𝟐𝐱 − −𝟏 𝟏≤𝐱<𝟐
𝟐
{ 𝟏 𝐱≥𝟐
Soluzione
Per determinare la mediana occorrerà risolvere l’equazione F(x) = 0,5.
Si vede immediatamente che
12
F(1) = 2 ∗ 1 − − 1 = 0,5
2
e quindi il valore mediano è 1.
Per determinare il valore modale occorre ricercare il valore in cui la densità è massima.
La funzione di densità della variabile, ottenuta derivando la funzione di ripartizione, risulta essere:
f(x) = 0 x<0
f(x) = x 0≤x<1
f(x) = 2 − x 1≤x<2
f(x) = 0 x≥2
36
Esercizio 2.15 – Media e mediana di una variabile statistica
𝟎 𝐱<𝟎 𝐞 𝐱≥𝟑
{ 𝟐 𝟐
− 𝐱 𝟎≤𝐱<𝟑
𝟑 𝟗
Soluzione
Per calcolare la mediana è prima necessario ottenere la funzione di ripartizione della variabile stessa, che si
ottiene integrando la medesima variabile.
F(x) = 0 x<0ex≥3
2 1
F(x) = x − x 2 0≤x<3
3 9
2 4 1 1 2 2
− 3 ± √9 − 4 (− 9) (− 2) − 3 ± √9
x= = =
1 2
2 ∗ (− 9) −9
x1 = 0,88
x2 = 5,12
37
Per calcolare la media, utilizziamo la formula già usata in precedenza, ovvero,
x1 3 3
2 2 2 x2 2 x3 1 2
∫ f(x) ∗ x dx = ∫ x − x 2 dx = | − | = ∗9− ∗ 27 = 1
x0 0 3 9 32 93 0 3 27
38
3. La variabilità
Si effettui la scomposizione della devianza (tra gruppi e nei gruppi) per la seguente distribuzione
Modalità 2 3 4 6 10
Frequenze 1 1 1 1 1
GRUPPO 1 GRUPPO 2
Modalità 2 6 10 Modalità 3 4
Frequenze 1 1 1 Frequenze 1 1
Soluzione
La media della distribuzione risulta essere
M = (2 ∗ 1 + 3 ∗ 1 + 4 ∗ 1 + 6 ∗ 1 + 10 ∗ 1)⁄(1 + 1 + 1 + 1 + 1) = 5
La devianza totale, SSTOT = (2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (6 − 5)2 + (10 − 5)2 = 40
39
SSTOT = SSW + SSB = 32,5 + 7,5 = 40,00
40
Esercizio 3.2 – Scostamento assoluto dalla media e dalla mediana
Sulla base della distribuzione riportata in tabella, si metta in evidenza che lo scostamento semplice
della mediana è minore o uguale allo scostamento semplice medio della media aritmetica, ossia: 𝑺𝑴𝒆 ≤
𝑺𝑴 .
Modalità 1 2 3 4 5 6
Frequenze 1780 3024 3660 2830 1604 608
Soluzione
La media della distribuzione risulta essere M =
(1 ∗ 1780 + 2 ∗ 3024 + 3 ∗ 3660 + 4 ∗ 2830 + 5 ∗ 1604 + 6 ∗ 608)⁄(1780 + 3024 + 3660 + 2830 + 1604 + 608)
= 3,09.
Il valore della mediana, Me , risulta essere 3, in quanto la numerosità del campione esaminato è 13.506.
Ordinando quindi i valori per modalità crescente, interessano quei valori che occupano le posizioni centrali,
13506 13506
date da = 6.753esima e, la stessa più uno + 1 = 6.754esima.
2 2
Le due modalità corrispondenti a queste due posizioni sono entrambe 3. La mediana è quindi 3.
41
Esercizio 3.3 – Proprietà della varianza
Data la distribuzione riportata in tabella, si costruisca la distribuzione degli scarti dalla media e
successivamente la distribuzione degli stessi scarti, ma standardizzati.
Modalità 1 3 9
Frequenze 3 10 1
Sulla base della distribuzione data e delle due successive distribuzioni prodotte si verifichi che:
𝐯𝐚𝐫𝐚𝐱+𝐛 = 𝐚𝟐 𝐯𝐚𝐫𝐱
Soluzione
(1 ∗ 3 + 3 ∗ 10 + 9 ∗ 1)
La media della distribuzione risulta essere M = ⁄(3 + 10 + 1) = 3,00
Modalità -2 0 6
Frequenze 3 10 1
dove le modalità sono ottenute facendo la differenza tra quelle date e la media ottenuta.
Questa distribuzione ha media pari a zero e scarto quadratico medio uguale a quello della distribuzione
iniziale.
(−2)2 ∗ 3 + 02 ∗ 10 + 62 ∗ 1
σ=√ = 1,8516
3 + 10 + 1
42
dove,
X − M 1,00 − 3,00
= = −1,08015
σ 1,8516
X − M 3,00 − 3,00
= =0
σ 1,8516
X − M 9,00 − 3,00
= = 3,2404
σ 1,8516
Si osservi che se ogni modalità della distribuzione viene moltiplicata per una costante a diversa da zero e alla
stessa modalità si aggiunge una costante b, la varianza viene soltanto moltiplicata per a2 , ossia:
σ2ax+b = a2 σ2x
dove σ2x è la varianza della distribuzione x, e σ2ax+b è la varianza della variabile ax ma anche della variabile
ax+b. Infatti:
∑(axi + b − aM − b)2 ∗ ni a2 ∑(xi − M)2 ∗ ni
σ2ax+b = =
N N
43
Esercizio 3.4 – Variabilità relativa
Una popolazione di adulti ha un peso medio di 75 chilogrammi mentre una di neonati ha peso medio
3,2 chilogrammi.
Sapendo che lo scarto quadratico medio degli adulti è di 4 kg e di 0,6 kg per i neonati, si può affermare
che la variabilità dei pesi degli adulti è superiore a quella dei neonati?
Soluzione
Per apprezzare se una differenza di scostamento di 4 kg su ogni singolo peso di 75 kg è maggiore o minore di
una differenza di scostamento di 0,6 kg su 4 kg si possono confrontare gli scarti relativizzati alle medie.
Si può concludere che la variabilità relativa dei pesi degli adulti è inferiore a quella dei neonati.
44
Esercizio 3.5 – Proprietà pitagorica della varianza
Data la distribuzione
xi 1 4 6 7
ni 15 25 40 20
Soluzione
1∗15+4∗25+6∗40+7∗20 495
La media della distribuzione risulta essere M(x) = 15+25+40+20
= 100 = 4,95.
σ2 = M(x 2 ) − [M(x)]2
Ossia che la varianza è uguale alla differenza tra il quadrato della media quadratica e il quadrato della media
aritmetica.
2)
∑ xi2 ∗ ni 1 ∗ 15 + 16 ∗ 25 + 36 ∗ 40 + 49 ∗ 20 2835
M(x = = = = 28,35
n 100 100
Quindi,
45
Esercizio 3.6 – Varianza di una variabile statistica
Soluzione
Come abbiamo già mostrato nell’esercizio 2.8, la media aritmetica della distribuzione rettangolare è data da
a+b
.
2
k
1 1 1 x2 k
Infatti ∫ x ∗ dx = ∫ x ∗ dx = | | =2
k k k 2 0
k k k
2) 2
dx 1 x 3
2
k2
M(x = ∫ x f(x) dx = ∫ x = | | =
0 0 k k 3 0 3
Abbiamo, quindi
k2 k 2 k2
σ2 (x) = M(x 2 ) − [M(x)]2 = −( ) =
3 2 12
46
Esercizio 3.7 – Media e varianza di una variabile statistica
Data la funzione
𝟐
𝐟(𝐱) = 𝐜𝐨𝐧 𝐱>𝟏
𝐱𝟑
verificare che essa rappresenta una variabile statistica e calcolarne la media e la varianza.
Soluzione
Siccome questa f(x) per x > 1 non è mai negativa, per verificare che la funzione sia una variabile statistica
∞
dobbiamo provare soltanto che tenga la relazione ∫1 f(x)dx = 1.
∞ ∞ ∞
2 1 x −2
∫ 3 dx = 2 ∫ 3 dx = 2 | | =1
1 x 1 x −2 1
Concludiamo andando a calcolare la varianza della distribuzione come differenza tra M(x 2 ) e [M(x)]2 .
Poiché però
∞ ∞ ∞
2 1
M(x 2 ) = ∫ x 2 f(x) dx = ∫ x 2 3
dx = 2 ∫ dx = 2|log 𝑥|1∞ = non esiste
1 1 x 1 x
la varianza della distribuzione non esiste.
47
Esercizio 3.8 – Varianza di variabile statistica
Data la funzione
𝟐 ∗ (𝐱 − 𝟏) 𝐜𝐨𝐧 𝟏 < 𝐱 < 𝟐
- si verifichi che è una variabile statistica;
- si calcoli la varianza utilizzando la proprietà pitagorica.
Soluzione
2
Per verificare che la funzione sia una variabile statistica si deve provare che tenga la relazione ∫−1 f(x)dx =
1.
2 2 2
x2
∫ 2 ∗ (x − 1)dx = 2 ∫ x − 1 dx = 2 | − x| = 1
1 1 2 1
Si calcola M(x 2 ).
2 2 2 2
x4 x3 17
M(x 2 ) = ∫ x 2 f(x) dx = ∫ x 2 2 ∗ (x − 1) dx = 2 ∫ x 3 − x 2 dx = 2 | − | =
1 1 1 4 3 1 6
17 5 2 1
σ2 (x) = M(x 2 ) − [M(x)]2 = −( ) =
6 3 18
48
4. Le variabili casuali
Esercizio 4.1 – Tabulazione di una variabile casuale a partire dallo spazio degli eventi
Si lanciano tre monete truccate allo stesso modo con probabilità di testa pari a 0,25. Si tabuli e si
fornisca la rappresentazione grafica della distribuzione del numero di teste con i seguenti approcci:
- costruendo lo spazio degli eventi;
- utilizzando un opportuno modello teorico.
Soluzione
Lo spazio degli eventi composti del lancio di tre monete è indicato nella tabella (T rappresenta l’evento
elementare Testa e C l’evento elementare Croce).
Numero
Moneta 1 Moneta 2 Moneta 3
di T
C C C 0
C C T 1
C T C 1
C T T 2
T C C 1
T C T 2
T T C 2
T T T 3
Sappiamo dal testo dell’esercizio che la probabilità dell’evento elementare testa ossia P(T) è uguale a 0,25,
quindi P(C) = 1 − 0,25 = 0,75.
Il calcolo delle probabilità associate agli eventi composti sfrutta l’indipendenza delle tre prove elementari
componenti lo stesso evento composto di interesse.
Riportiamo ora le probabilità degli 8 eventi composti:
49
Possiamo ora osservare che la somma delle probabilità degli 8 eventi composti è pari a 1.
Siamo ora in grado di calcolare la probabilità totale che escano zero teste – in questo caso uguali a quella di
un solo evento composto, la probabilità totale che esca una sola testa – in questo caso la somma delle
probabilità di tre eventi composti – e così via.
X (Numero
P (X)
di teste)
0 0,42
1 0,14*3=0,42
2 0,047*3=0,14
3 0,02
Quindi:
3 3!
P(0) = ( ) 0,250 (0,75)3−0 = 0,250 (0,75)3−0 = 0,42
0 0! (3 − 0)!
50
3 3!
P(1) = ( ) 0,251 (0,75)3−1 = 0,251 (0,75)3−1 = 0,42
1 1! (3 − 1)!
3 3!
P(2) = ( ) 0,252 (0,75)3−2 = 0,252 (0,75)3−2 = 0,14
2 2! (3 − 2)!
3 3!
P(3) = ( ) 0,253 (0,75)3−3 = 0,253 (0,75)3−3 = 0,02
3 3! (3 − 3)!
Come si può facilmente notare le probabilità ottenute sono identiche sia partendo dallo spazio degli eventi
che utilizzando il modello teorico.
51
Esercizio 4.2 – Varianza della distribuzione bernoulliana
Si dimostri che la varianza della distribuzione del lancio di una moneta è massima per probabilità pari
a 0,50.
Soluzione
Il modello a cui si adatta l’esperimento “lancio di una moneta” è la distribuzione bernoulliana.
La varianza, in questo modello, assume la seguente formula:
σ2 = p ∗ (1 − p)
che può essere considerata una funzione in p.
1−p−p =0
1
p=
2
52
Esercizio 4.3 – Approssimazione alla distribuzione normale e distribuzione binomiale
Data la variabile casuale binomiale con n=10 e p=0,5, come può essere il caso di 10 figli, 10 monete,
ecc., si determini la probabilità di avere un numero di successi minore o uguale a 4.
Si utilizzino due approcci:
- il modello binomiale e l’approssimazione normale;
- si chiarisca il differenziale percentuale tra i due approcci.
Soluzione
La funzione del modello binomiale è la seguente:
n
f(x) = ( ) px (1 − p)n−x
x
Dobbiamo calcolare le probabilità per tutti gli eventi che abbiano numero di successi uguale o inferiore a 4,
ovvero
P(x < 4) = P(0) + P(1) + P(2) + P(3) + P(4)
Quindi,
10 10!
P(0) = ( ) 0,50 (1 − 0,5)10−0 = 0,50 (1 − 0,5)10−0 = 9,765625 ∗ 10−4
0 0! (10 − 0)!
10 10!
P(1) = ( ) 0,51 (1 − 0,5)10−1 = 0,51 (1 − 0,5)10−1 = 9,765625 ∗ 10−3
1 1! (10 − 1)!
10 10!
P(2) = ( ) 0,52 (1 − 0,5)10−2 = 0,52 (1 − 0,5)10−2 = 0,043945312
2 2! (10 − 2)!
10 10!
P(3) = ( ) 0,53 (1 − 0,5)10−3 = 0,53 (1 − 0,5)10−3 = 0,1171875
3 3! (10 − 3)!
10 10!
P(4) = ( ) 0,54 (1 − 0,5)10−4 = 0,54 (1 − 0,5)10−4 = 0,205078125
4 4! (10 − 4)!
Quindi,
P(x ≤ 4) = P(0) + P(1) + P(2) + P(3) + P(4) = 0,376953124.
La probabilità, con approccio binomiale, risulta essere 37,7%.
53
Andiamo a calcolare:
μ = np = 10 ∗ 0,5 = 5,00
σ2 = np(1 − p) = 10 ∗ 0,5 ∗ 0,5 = 2,50
54
Esercizio 4.4 – Distribuzione normale
Supponiamo che l’altezza di una popolazione di persone sia una v.c. 𝐱~𝐍(𝛍 = 𝟏𝟕𝟎, 𝛔𝟐 = 𝟏𝟎𝟎),
- calcolare la probabilità di trovare un individuo con altezza compresa tra 150 e 160;
- determinare quell’altezza al di sopra della quale si trova, con grande probabilità, il 5% degli
individui.
Soluzione
Utilizzando la tavola della distribuzione normale, si ottiene la probabilità di trovare un individuo con altezza
compreso tra 150 e 160:
150 − μ 160 − μ
P(150 ≤ x ≤ 160) = P ( ≤Z≤ )
σ σ
160 − 170 150 − 170
= F( ) − F( ) = F(−1) − F(−2)
10 10
= F(2) − F(1) = 0,97725 − 0,84134 = 0,13591
Per determinare l’altezza al di sopra della quale si trova il 5% degli individui, si indica con x ′ , il valore
incognito richiesto.
Dato che deve essere,
x′ − μ
P(X ≥ x ′ ) = P (Z ≥ z ′ = ) = 0,05
σ
con la tavola della normale, occorre trovare il valore z ′ per il quale risulta P(Z ≤ z ′ ) = 0,095.
Questo valore è
x′ − μ
z′ = = 1,65
σ
da cui
x ′ = μ + 1,65σ = 170 + (1,65) ∗ (10) = 186,50
55
Esercizio 4.5 – Distribuzione chi quadro
Sia 𝐱 una variabile casuale che ha distribuzione chi quadro con r gradi di libertà.
Si determinino le seguenti probabilità:
- 𝐏(𝐱 ≤ 𝟔, 𝟑𝟎𝟒) 𝐩𝐞𝐫 𝐫 = 𝟏𝟐
- 𝐏(𝟏, 𝟔𝟏𝟎 ≤ 𝐱 ≤ 𝟏𝟏, 𝟎𝟕𝟎) 𝐩𝐞𝐫 𝐫=𝟓
- 𝐏(𝟗, 𝟐𝟔𝟎 ≤ 𝐱 ≤ 𝟑𝟓, 𝟏𝟕𝟐) 𝐩𝐞𝐫 𝐫 = 𝟐𝟑
Soluzione
Utilizzando la tavola della distribuzione chi quadro, si possono risolvere i tre quesiti:
per r = 12, P(x ≤ 6,304) = 1 − P(x > 6,304) = 1 − 0,9 = 0,1
per r = 5, P(1,610 ≤ x ≤ 11,070) = P(x ≥ 1,610) − P(x > 11,070) = 0,90 − 0,05 = 0,85
per r = 23, P(9,260 ≤ x ≤ 35,172) = P(x ≥ 9,260) − P(x > 35,172) = 0,995 − 0,05 = 0,945
56
Esercizio 4.6 – Distribuzione t di Student
Sia x una variabile casuale che ha distribuzione t di Student con r gradi di libertà. Supponendo che
sia:
- 𝐫 = 𝟏𝟎, si determinino le probabilità 𝐏(𝐱 ≥ 𝟐, 𝟐𝟐𝟖), 𝐏(𝐱 ≤ 𝟐, 𝟐𝟐𝟖), 𝐏(|𝐱| ≥ 𝟐, 𝟐𝟐𝟖);
- 𝐫 = 𝟏𝟓, si determini la probabilità 𝐏(−𝟏, 𝟕𝟓𝟑 ≤ 𝐱 ≤ 𝟐, 𝟔𝟎𝟐);
- 𝐫 = 𝟏𝟖, si determini la probabilità 𝐏(−𝟏, 𝟑𝟑𝟎 ≤ 𝐱 ≤ 𝟐, 𝟓𝟓𝟐).
Soluzione
Utilizzando la tavola della distribuzione di t di Student, si possono determinare le probabilità richieste.
57
Esercizio 4.7 – Condizioni per avere una variabile casuale
Sia data la variabile casuale continua definita dalla seguente funzione di densità
𝐟(𝐱) = 𝐤𝐱 𝟑 , 𝟎 ≤ 𝐱 ≤ 𝟏𝟎
Si determini:
- il valore di k che caratterizza la 𝐟(𝐱) come funzione di densità di probabilità;
- la probabilità che la variabile casuale sia compresa nell’intervallo (𝟓; 𝟖).
Soluzione
Affinché f(x) sia una funzione di densità di probabilità deve valere le condizione kx 3 ≥ 0 ed, inoltre,
l’integrale della funzione deve essere 1, ovvero
10
∫ kx 3 dx = 1
0
10
x4
k| | = 1
4 0
104
k =1
4
1
k=
2500
58
Esercizio 4.8 – Una variabile casuale
Data la distribuzione
𝟎, 𝐱 < 𝟏𝟑𝟏𝟓
𝟎, 𝟎𝟎𝟎𝟏(𝐱 − 𝟏𝟑𝟏𝟓), 𝟏𝟑𝟏𝟓 ≤ 𝐱 ≤ 𝟏𝟒𝟏𝟓
{
𝟎, 𝟎𝟎𝟎𝟏(𝟏𝟓𝟏𝟓 − 𝐱), 𝟏𝟒𝟏𝟓 ≤ 𝐱 ≤ 𝟏𝟓𝟏𝟓
𝟎, 𝐱 > 𝟏𝟓𝟏𝟓
- si rappresenti graficamente la funzione di densità;
- si verifichi che la funzione data è effettivamente una funzione di densità;
- si calcolino 𝐏(𝐱 ≤ 𝟏𝟑𝟓𝟎) e 𝐏(𝐱 ≥ 𝟏𝟒𝟑𝟎).
Soluzione
La rappresentazione grafica della distribuzione di densità viene mostrata sotto:
Per verificare che f(x) è una funzione di densità, basta appurare che ∫ f(x) dx = 1.
Ovvero,
1415 1515
10−4 ∫ (x − 1315) dx + 10−4 ∫ (1515 − x) dx =
1315 1415
1415 1515
−4
x2 x2
10 [| − 1315x| + |1515x − | ]=1
2 1315
2 1415
Si può evitare il passaggio dell’integrale, notando dalla figura che l’area sotto la curva f(x) è pari ad 1.
Dopo di che si possono calcolare le probabilità richieste:
59
1350
P(X ≤ 1350) = 10−4 ∫ (x − 1315) dx
1315
1350
x2
10−4 | − 1315x| = 0,06
2 1315
1415 1430
−4
x2 x2
10 [| − 1315x| + |1515x − | ] = 0,64
2 1315
2 1415
60
5. Le distribuzioni campionarie
0 1 1 3
Soluzione
L’universo dei campioni di unità è formato da 64 elementi (43 ) che si traduce in questo modo:
1 0 0 0 17 1 0 0
2 0 0 1 18 1 0 1
3 0 0 1 19 1 0 1
4 0 0 3 20 1 0 3
5 0 1 0 21 1 1 0
6 0 1 1 22 1 1 1
7 0 1 1 23 1 1 1
8 0 1 3 24 1 1 3
9 0 1 0 25 1 1 0
10 0 1 1 26 1 1 1
11 0 1 1 27 1 1 1
12 0 1 3 28 1 1 3
13 0 3 0 29 1 3 0
14 0 3 1 30 1 3 1
15 0 3 1 31 1 3 1
16 0 3 3 32 1 3 3
33 1 0 0 49 3 0 0
34 1 0 1 50 3 0 1
35 1 0 1 51 3 0 1
36 1 0 3 52 3 0 3
37 1 1 0 53 3 1 0
38 1 1 1 54 3 1 1
39 1 1 1 55 3 1 1
40 1 1 3 56 3 1 3
41 1 1 0 57 3 1 0
42 1 1 1 58 3 1 1
43 1 1 1 59 3 1 1
44 1 1 3 60 3 1 3
45 1 3 0 61 3 3 0
46 1 3 1 62 3 3 1
47 1 3 1 63 3 3 1
48 1 3 3 64 3 3 3
61
La distribuzione campionaria della media ̅
X = ∑i xi ⁄n risulta
̅ ̅
0,00 1/64
0,33 6/64
0,67 12/64
1,00 11/64
1,33 12/64
1,67 12/64
2,00 3/64
2,33 6/64
3,00 1/64
1
Per la determinazione di g(X ̅) è sufficiente contare quanti sono i campioni che danno luogo allo stesso
risultato. Nell’universo dei campioni ce n’è solo 1 su 64 che ha media pari a 0 ed è il campione (0,0,0); ce ne
sono 6 su 64 che hanno media pari a 0,33 e così via.
̅ si ricava che E(X
Dalla distribuzione campionaria di X ̅) = ∑ X̅i ∗ g(X̅i ) = 1,25.
Per tutto l’universo dei campioni si modifica l’ordine in modo che gli elementi del campione siano in ordine
crescente. Dopo di che si individua la mediana per ogni campione. Infine, è sufficiente contare quanti
campioni danno origine allo stesso risultato. Nell’universo dei campioni ce ne sono 10 su 64 che hanno
mediana pari a 0, e così via.
̅ e si ricava che E(X
Dalla distribuzione campionaria di X ̅̅̅e ) = 1,1563.
62
̅ ̅
0 4/64
0,5 16/64
1 16/64
1,5 8/64
2 16/64
3 4/64
1
Per l’intero universo dei campioni, si fa la “media” del primo ed ultimo elemento del singolo campione.
Dopo di che è sufficiente contare quanti campioni danno origine allo stesso risultato. Nell’universo dei
campioni ce ne sono 4 su 64 che hanno semisomma del primo ed ultimo termine pari a 0, e così via. Dalla
distribuzione campionaria della semisomma del primo ed ultimo elemento, si ricava che E(X ̅ c ) = 1,25.
̅eX
Le due distribuzioni campionarie di X ̅ c hanno un valore atteso che coincide con la media della
̅
popolazione ed è diverso da quello di X e , risultando
̅ c ) = 1,25 = E(X) ≠ E(X
E(X) = E(X ̅ e ) = 1,1563
Ciò significa che, calcolando sui campioni dell’universo dei campioni di determinazioni di un certo ordine le
due costanti caratteristiche media e semisomma del primo e ultimo elemento estratto, si ottiene mediamente
un valore che coincide con la popolazione, mentre ciò non avviene calcolando la mediana.
63
Esercizio 5.2 – Distribuzione della proporzione campionaria
Soluzione
Indicando con m la variabile casuale che rappresenta il numero di unità che in ciascun dei 64 campioni (di
ordine n=3) presentano la modalità 0, la distribuzione campionaria della proporzione p risulta:
0 27/64
1/3 27/64
2/3 9/64
1 1/64
1
Ciò significa che, calcolando sui campioni dell’universo dei campioni di determinazioni di un certo ordine la
proporzione di unità che posseggono una determinata caratteristica, si ottiene mediamente un valore che
coincide con l’analoga proporzione nella popolazione.
64
Esercizio 5.3 – Distribuzioni campionarie della varianza e della varianza corretta
Ancora sulla base della medesima popolazione dell’esercizio 5.1 e utilizzando campioni di ordine 3, si
costruisca la distribuzione della varianza campionaria e della varianza campionaria corretta.
Soluzione
La varianza della popolazione dell’esercizio 5.1 risulta
(0 − 1,25)2 + (1 − 1,25)2 + (1 − 1,25)2 + (3 − 1,25)2 1,5625 + 0,0625 + 0,0625 + 3,0625 4,75
= =
4 4 4
= 1,1875
0 10/64
2/9 18/64
8/9 18/64
14/9 12/64
2 6/64
1
e da essa si ricava che E(S 2 ) = 0,79167 che non coincide con la varianza della popolazione dell’esercizio
5.1 che è uguale a 1,1875.
65
dalla quale si ricava E(S̃ 2 ) = 1,1875 che coincide con il valore della varianza della popolazione da cui sono
stati formati i 64 campioni.
66
Esercizio 5.4 – Popolazione binomiale e normale
Alle elezioni amministrative del maggio 2014, i voti ottenuti da un partito nel Comune di Firenze sono
stati pari al 40%. Si determini la probabilità che, estraendo con ripetizione un campione di 1000
elettori, almeno il 38% di questi abbia votatolo stesso partito.
Soluzione
La probabilità cercata può essere calcolata come
n 1000
m n 1000
P ( ≥ 0,38) = ∑ ( ) 0,4m (1 − 0,4)n−m = ∑ ( ) 0,4380 (1 − 0,4)1000−380
n m 380
m=380 m=380
Il calcolo è evidentemente lungo e laborioso dal momento che si dovrebbe calcolare la probabilità che nel
campione ci siano 380 a favore di quel partito, poi 381, 382… fino a 1.000 su 1.000.
m
Tuttavia, poiché per n che tende all’infinito la variabile casuale n
tende ad una distribuzione normale
N(μ = p, σ2 = p(1 − p)/n), quando si ha un campione sufficientemente grande, ed il nostro lo è, si può
approssimare la distribuzione bernoulliana con la corrispondente normale.
Usando la tavola della normale, è quindi possibile calcolare la probabilità cercata, che risulta
0,38 − 0,40
P Z≥ = P(Z ≥ −1,29) = 0,90147
√(0,4) ∗ (0,6)
[ 1000 ]
Si faccia attenzione al fatto che in questo esercizio non si richiede di stimare la proporzione della
popolazione, che è data, ma di calcolare la probabilità che nel campione si verifichi una percentuale di
almeno il 38% a favore di un determinato partito.
67
Esercizio 5.5 – Distribuzione della media campionaria
X: -1 3 1 5
Soluzione
In generale, il numero di possibili campioni con ripetizione di dimensione n estraibili da una data popolazione
è N n , dove N è il numero di modalità che il carattere X può assumere nella popolazione.
1 2 ̅
-1 -1 -1
-1 3 1
-1 1 0
-1 5 2
3 -1 1
3 3 3
3 1 2
3 5 4
1 -1 0
1 3 2
1 1 1
1 5 3
5 -1 2
5 3 4
5 1 3
5 5 5
con ∑ f( ̅ ) = 1.
Poiché conosciamo la distribuzione campionaria, siamo ora in grado di calcolare la probabilità d’interesse,
68
4 3 2 9
P(2 ≤ ̅ ≤ 4) = + + = = 0,5625
16 16 16 16
69
Esercizio 5.6 – Distribuzione della media campionaria di campioni estratti da una
popolazione normale
Data una variabile casuale x normale con mediana 𝐌𝐞 = 𝟏𝟎 e terzo quartile 𝐐𝟑 = 𝟏𝟓, determinare la
probabilità che un campione di 2 osservazioni indipendenti abbia media inferiore o uguale a 11.
Soluzione
Poiché x segue una distribuzione normale, risulta μ = Me . Inoltre, per definizione, il terzo quartile è quel
valore che lascia alla sua sinistra il 75% della distribuzione. Pertanto si ha
Q3 − μ
P(X ≤ Q 3 ) = P (Z ≤ ) = 0,75
σ
dove con Z è indicata la variabile casuale normale standardizzata, Z~N(0,1).
Utilizzando la tavola della normale, si legge che il valore Z che lascia alla sua sinistra il 75% (0,75) della
distribuzione è 0,68. Pertanto, si ottiene
Q 3 − μ 15 − 10
= = 0,68
σ σ
σ = 7,3529
̅ segue una distribuzione
Si ha dunque X~N(10, σ = 7,352), il che implica che la media campionaria X
7,3529
normale con media pari a 10 e deviazione standard σx̅ = . La probabilità che un campione di due
√2
osservazioni indipendenti abbia media inferiore o uguale a 11 è data allora da
11 − 10
̅ ≤ 11) = P (Z ≤
P(X ) = P(Z ≤ 0,1923) = 0,57535
7,3529
√2
70
Esercizio 5.7 – Distribuzione della media campionaria di campioni estratti da una
popolazione esponenziale
La durata, in mesi, di una batteria per computer ha una distribuzione esponenziale con un parametro
𝛌 = 𝟎, 𝟎𝟒. Si determini la probabilità che la media campionaria sia maggiore di 18,55 mesi, per 𝐧 =
𝟓𝟎.
Soluzione
σ2
Sappiamo che la media campionaria si distribuisce con x̅ = μ e varianza .
n
1 σ2 1
La media x̅ è uguale alla media della popolazione, λ = 25, la varianza è 50 = 50λ2 = 12,50
e, pertanto
P(x̅ > 18,55) = P(Z > −1,82) = 0,9656
71
6. La stima intervallare
Da una partita di confezioni di farina è stato prelevato un campione di 12 pezzi i cui pesi netti effettivi,
in chilogrammi, sono:
Supponendo che il peso netto effettivo ha una distribuzione normale, si determinino gli intervalli di
confidenza al 95% e al 99% per la media della popolazione.
Soluzione
Andiamo a calcolare la media stimata, x̅, ovvero
∑ xi 5,9934
x̅ = = = 0,49945
n 12
Essendo la varianza incognita e normale la popolazione da cui è stato estratto il campione, l’intervallo di
confidenza per la media richiede l’uso della distribuzione t di Student con 11 gradi di libertà.
Quindi, al livello del 95%, risulta
72
Esercizio 6.2 – Intervalli di confidenza per la media
Da un campione di 373 bambini di una scuola elementare è stata tratta la seguente distribuzione
secondo l’ampiezza della famiglia di provenienza.
Si costruisca l’intervallo di confidenza al 95% per la dimensione media della famiglia nella
popolazione.
Soluzione
I dati campionari sono
∑ xi ∗ fi 2 ∗ 7 + 3 ∗ 54 + 4 ∗ 181 + 5,5 ∗ 122 + 7,5 ∗ 9
x̅ = = = 4,39
∑ fi 373
∑(xi − x̅)2 ∗ fi (2 − 4,39)2 ∗ 7 + ⋯ + (7,5 − 4,39)2 ∗ 9
S̃ = = = 1,10
n−1 372
In questo caso non sappiamo se la popolazione da cui è stato estratto il campione è normale. Il campione
però è molto numeroso e quindi la distribuzione della media campionaria è normale.
Quindi, l’intervallo di confidenza al livello 95%, con 372 gradi di libertà, risulta essere:
73
Esercizio 6.3 – Intervalli di confidenza per la percentuale campionaria
In un campione casuale di 500 abbonati ad internet si è accertato che il 20% utilizza il servizio della
filodiffusione. Si costruiscano gli intervalli di confidenza per la percentuale nella popolazione ai livelli
del 95% e 98%.
Soluzione
Chiamando P la percentuale della popolazione stimata e p la percentuale del campione, abbiamo
p = 0,2 e, quindi, al livello del 95%, con 499 gradi di libertà, si avrà il seguente intervallo di confidenza:
p ∗ (1 − p) p ∗ (1 − p) 0,16 0,16
p − z0,025 √ ≤ P ≤ p + z0,025 √ = 0,2 − 1,96√ ≤ P ≤ 0,2 + 1,96√
n n 500 500
p ∗ (1 − p) p ∗ (1 − p) 0,16 0,16
p − z0,01 √ ≤ P ≤ p + z0,01 √ = 0,2 − 2,33√ ≤ P ≤ 0,2 + 2,33√
n n 500 500
74
Esercizio 6.4 – Verifica dell’ipotesi funzionale: il caso di una distribuzione di Poisson
Il numero di incidenti per settimana in un dato tratto di autostrada segue la legge di Poisson con
parametro λ=0,4. Da una rilevazione condotta per 65 settimane si è rilevata la seguente distribuzione
N. di Frequenza Frequenza
incidenti osservata attesa
(x) (ni ) (npi0)
0 48 43,57
1 15 17,43
2 2 3,49
3o+ - 0,51
Totale 65 65
Soluzione
Dobbiamo formulare l’ipotesi HO nel caso del Poisson con parametro λ=0,4:
e−0,4
HO : p(x) = (0,4)x , x = 0,1,2, …
x!
Prima di passare al calcolo di X 2 è opportuno aggregare le ultime due classi in cui npi0 < 5.
Si ha, allora
2
2
(48 − 43,57)2 (15 − 17,43)2 (2 − (3,49 + 0,51))
X = + + = 1,78
43,57 17,43 (3,49 + 0,51)
2
Posto α = 0,05, cui corrisponde X 0,05;2 = 5,99 (i gradi di libertà sono 2, ossia pari al numero della modalità,
nel nostro caso 3, meno il numero dei parametri del modello, nel nostro caso 1), si trova che X 2 = 1,78 <
2
5,99 = X 0,05;2 . Perciò l’ipotesi nulla non va rifiutata: il campione osservato non si discosta
significativamente dal modello ipotizzato per la popolazione.
75
Esercizio 6.5 – Verifica dell’ipotesi funzionale: il caso di una distribuzione normale
La distribuzione del peso di un prodotto sia normale con media 𝛍 = 𝟏𝟕𝟒 e varianza 𝛔𝟐 = 𝟏𝟔.
- Si tabuli la distribuzione del peso assumendo le seguenti classi: fino a 165; 165-170; 170-175;
175-180; 180 e oltre;
- Successivamente, costruendo un campione di 400 unità della stessa popolazione, si sono
ottenute le seguenti frequenze per le stesse classi:
Soluzione
Per rispondere al primo quesito standardizziamo 165, 165 – 170 e i successivi valori e andiamo a calcolare le
frequenze relative con la tavola della normale standardizzata.
0,012 = Φ(−2,25)
Quindi, la frequenza relativa a sinistra di 165 è 1,22%.
76
Classe di statura fino a 165 165-170 170-175 175-180 180 e oltre Totale
Frequenza relativa 0,012 0,147 0,44 0,334 0,067 1
Per rispondere al secondo quesito costruiamo la statistica X 2 che sappiamo essere distribuita come una X 2:
(7 − 4,8)2 (51 − 58,8)2 (28 − 26,8)2
X2 = + + ⋯+ = 3,9
4,8 58,8 26,8
2
Posto α = 0,01, cui corrisponde una soglia X 0,01;4 = 13,28 (i gradi di libertà sono 5-1=4), si trova che X 2 =
2
3,9 < 13,28 = X 0,01;4 . Perciò l’ipotesi nulla non va rifiutata: il campione osservato si conforma alla
popolazione, ovvero non differisce significativamente da essa.
77
7. Le distribuzioni doppie, le somme di variabili casuali, la mistura
Nel caso generale di una variabile statistica bivariata definita su modalità discrete di x e di z, la
rappresentazione grafica deve essere riferita a 3 assi ortogonali e assumerà quindi la configurazione a pali,
come riportato nella figura sottostante. La lunghezza di ciascun palo sarà proporzionale alla corrispondente
frequenza.
Quando i due caratteri x e z sono entrambi continui e se ne conoscono i valori numerici bisogna suddividerli
in classi, ottenendo così una tavola a doppia entrata come rappresentato nella figura sotto riportata. In questo
caso, in corrispondenza di ogni rettangolo si innalza un parallelepipedo la cui altezza rappresenta la densità,
e il cui volume rappresenta l’ammontare di frequenze o frequenze relative appartenenti alla stessa area xz. Si
ottiene in questo modo un solido costituito da parallelepipedi contigui, la cui rappresentazione grafica, che si
chiama stereogramma, è indicata nella figura sotto:
78
Esercizio 7.1 – Una distribuzione doppia discreta
Data la tabella:
X
Z x1 x2 x3 Totale
z1 3 4 13 20
z2 1 3 8 12
z3 1 5 12 18
Totale 5 12 33 50
Soluzione
Si hanno due caratteri X e Z in testata e fiancata.
Nel corpo della tabella troviamo le frequenze congiunte (3; 4; 13; 1; 3; 8; 1; 5; 12).
Ai margini della tabella troviamo le frequenze marginali di X (5; 12; 33) e di Z (20; 12;18).
In questa tabella apparentemente elementare in realtà vi sono dei concetti estremamente pesanti:
a) distribuzione congiunta: relazione di x e di z con le frequenze congiunte. Ad esempio, qual è il
significato della frequenza congiunta=4? Vi sono 4 casi su 50 che hanno modalità x2 e z1.
b) distribuzione marginale: se analizziamo quella di x, si riferisce solamente al carattere x
indipendentemente da z. Non vi è alcun vincolo.
Si passa dalle frequenze assolute a quelle relative, come riportato nella tabella sottostante:
X
Z x1' x2' x3'
79
È necessario notare che quando si lavora con le frequenze relative il totale delle frequenze risulta sempre 1.
Riportiamo in seguito la definizione di distribuzione condizionata: si fissa una relazione tra modalità di X e
di Z e un vettore di frequenza. Data una modalità di X, per esempio x2, si osservano le frequenze per ogni
modalità di Z. Oppure, data una modalità di Z, per esempio z3, si osservano le frequenze per ogni modalità di
X.
x1 x2 x3
x1 x2 x3
1 1 1
80
Esercizio 7.2 – Una distribuzione doppia discreta
Si consideri l’esperimento che consiste nel lanciare una moneta tre volte, a cui corrispondono due
variabili casuali:
1. X: numero di teste (T)
2. Z: numero delle variazioni nella sequenza
Soluzione
In corrispondenza dello spazio degli eventi riportato nella prima colonna della tabella, si ha, nella seconda
colonna, la modalità “numero di teste” e la modalità “numero delle variazioni” nella terza colonna.
Le frequenze congiunte della distribuzione f(x, z) vengono calcolate conteggiando quante volte su 8 si
verificano, nella stessa sequenza, una particolare modalità di X e una particolare modalità di Z.
Per esempio, nell’esercizio riportato, P(x=1, z=1)= 2/8, P(x=1, z=2)= 1/8, e così via.
Le probabilità delle diverse coppie di valori (x,z) indicate nella tabella sopra, possono essere sistemate come
nella tabella riportata in seguito, dove si mettono in relazione le coppie di variabili (x,z) con i livelli di
probabilità.
81
X
Z 0 1 2 3 Totale
Si ha così una distribuzione doppia di probabilità che può essere descritta da una funzione a due variabili, la
funzione di probabilità congiunta.
Ora si vuole determinare la probabilità che x=2 nella distribuzione sopra riportata. Si ha
che è il valore della probabilità della distribuzione marginale di X in corrispondenza della modalità x=2.
Nella tabella sottostante, viene riportata la colonna con x=2 evidenziata, in modo da rendere più
comprensibile al lettore il passaggio appena trattato.
X
Z 0 1 2 3 Totale
82
Esercizio 7.3 – Covarianza
1 8
2 12
3 22
4 28
5 30
15 100
si calcoli la covarianza.
Soluzione
Si inizia calcolando la media di x (x̅) e quella di y (y̅).
∑ xi 15
x̅ = = = 3,00
n 5
∑ yi 100
y̅ = = = 20,00
n 5
83
Esercizio 7.4 – Indipendenza
Data la tabella che riporta la distribuzione doppia di voto di laurea/genere, si modifichi la stessa
tabella in modo che genere e voto siano tra loro indipendenti. Si lascino immutate le frequenze
marginali.
Votazione
Genere fino a 87 88-98 99-109 110
Maschi 29 112 151 95 387
Femmine 3 44 83 61 191
32 156 234 156 578
Soluzione
Per trovare fi∗ , ossia la frequenza congiunta teorica che rende indipendenti tra loro, genere e voto, occorre
moltiplicare le frequenze marginali per poi dividerle per il valore totale delle frequenze.
Numericamente,
fi∗ = 32 ∗ 387⁄578 = 21,43 fi∗ = 32 ∗ 191⁄578 = 10,57
Votazione
Genere fino a 87 88-98 99-109 110
Maschi 21,43 104,45 158,67 104,45
Femmine 10,57 51,55 73,33 51,55
Lo scarto tra frequenza effettiva e frequenza teorica è la contingenza. Nel caso del “maschio laureato fino a
87”:
contingenza = fi − fi∗ = 29 − 21,43 = 7,57
84
Esercizio 7.5 – Covarianza zero e indipendenza
Sulla base delle due tabelle riportate sotto, si verifichi che la covarianza nulla non è condizione
sufficiente per avere indipendenza.
Tabella 1
1 2 3
2 3 9 18 30
Z 4 2 6 12 20
6 5 15 30 50
10 30 60 100
Tabella 2
X
0 1 2 3
Soluzione
Sappiamo che la covarianza si ottiene con le seguenti formule:
̅ )∗(zi −Z
∑(xi −X ̅)∗fxz
cov = ∑ fxz
se le frequenze congiunte sono assolute
Se svolgiamo i calcoli per ciascuna frequenza congiunta si può notare che in questo caso la covarianza nulla
sia accompagnata all’indipendenza delle due variabili.
Ora andiamo ad analizzare un caso in cui si ha covarianza uguale a zero ma non si ha invece indipendenza,
ovvero la tabella 2.
Per calcolare la covarianza utilizziamo la formula dell’esempio precedente, quindi dobbiamo andare a
calcolare le medie delle marginali di X e di Z.
1 3 3
0 ∗ + 1 ∗ + 2 ∗ + 3 ∗ 1/8
̅=
X 8 8 8 = 1,5
1
2 2 4
1∗8+2∗8+3∗8
Z̅ = = 2,25
1
Il punto che ha come coordinate le due medie appena calcolate rappresenta il baricentro della distribuzione
doppia.
86
Verifichiamo se c’è o meno indipendenza moltiplicando in modo ordinato le marginali di X per le marginali
di Z: 1⁄8 ∗ 2⁄8; 3⁄8 ∗ 2⁄8; 3⁄8 ∗ 4⁄8 e così via. Se infatti c’è indipendenza questi prodotti devono
coincidere con le effettive frequenze congiunte.
1/8 ∗ 2/8
f11 = ≠ 1/8
1
3/8 ∗ 2/8
f22 = ≠ 1/8
1
e così via.
Già dal primo termine si capisce che non vi è indipendenza, quindi abbiamo provato che avere la covarianza
uguale a zero non comporta necessariamente l’indipendenza.
87
Esercizio 7.6 – Costruzione di una distribuzione doppia e delle rispettive distribuzioni
marginali partendo dall’espressione analitica
z: 0, 1
- si costruisca la tabella a doppia entrata nel cui corpo ci siano le frequenze congiunte;
- si costruiscano poi le distribuzioni marginali.
Soluzione
Ricaviamo le frequenze congiunte grazie all’utilizzo dell’espressione analitica, ovvero:
1
f(0,0) = ∗ (02 + 02 ) = 0
32
1 1
f(0,1) = ∗ (02 + 12 ) =
32 32
e così via per tutte le combinazioni possibili fino all’ottenimento della tabella a doppia entrata completa,
riportata sotto.
Z
X 0 1
0 0 1/32 1/32
1 1/32 2/32 3/32
2 4/32 5/32 9/32
3 9/32 10/32 19/32
14/32 18/32 1
Per ottenere l’espressione analitica della marginale di X dobbiamo tener presente che nel continuo avremmo
dovuto integrare la f(x, z)rispetto a z. Poiché siamo nel discreto dobbiamo sommare f(x, 0) a f(x, 1) dove 0
ed 1 sono i valori che può assumere Z.
Una volta ottenuta l’espressione analitica della marginale di X che è
1
f(x) = ∗ (x 2 + z 2 ) z: 0, 1
32
1
= ∗ [(x 2 + 02 ) + (x 2 + 12 )]
32
1
= ∗ (2x 2 + 1)
32
88
sostituiamo alla X i suoi valori x: 0, 1, 2, 3
1
f(0) = ∗ (2 ∗ 02 + 1) = 1/32
32
1
f(1) = ∗ (2 ∗ 12 + 1) = 3/32
32
1
f(2) = ∗ (2 ∗ 22 + 1) = 9/32
32
1
f(3) = ∗ (2 ∗ 32 + 1) = 19/32
32
1
= ∗ [(02 + z 2 ) + (12 + z 2 ) + (22 + z 2 ) + (32 + z 2 )]
32
1
= ∗ (14 + 4z 2 )
32
89
Esercizio 7.7 – Costruzione di una distribuzione marginale partendo da una
distribuzione doppia
si forniscano:
- le distribuzioni marginali;
- le medie delle stesse marginali.
Soluzione
Se vogliamo costruire l’espressione analitica della marginale di X dobbiamo integrare rispetto a Z:
1 1
z2 1
∫ (x + z) dz = [x + ] =x+
0 2 0 2
1 1 1
1 z3 z2 7
Mz = ∫ z ∗ f(z) dy = ∫ z ∗ (z + ) dz = | − | =
0 0 2 3 2 0 12
90
Esercizio 7.8 – Somma di variabili casuali
Si abbiano 2 monete da 1€ non truccate, di cui una spagnola (X) e l’altra italiana (Z).
Si costruiscano, rispetto al numero di teste:
- la distribuzione doppia 𝐟(𝐱, 𝐳);
- la distribuzione della variabile W, somma di X e Z;
- si fornisca la rappresentazione grafica delle due marginali, della distribuzione doppia, della
somma delle due variabili X e Z.
Soluzione
Le marginali di ciascuna distribuzione sono fornite dalla distribuzione bernoulliana di ciascuna variabile:
X f(x) Z f(z)
0 1/2 0 1/2
1 1/2 1 1/2
X
0 1
0 1/2
Z 1 1/2
1/2 1/2
Siccome le due monete sono indipendenti, le frequenze congiunte sono uguali al prodotto delle marginali.
X
0 1
0 1/4 1/4 1/2
Z 1 1/4 1/4 1/2
1/2 1/2
Le marginali
91
La doppia:
W fi
0+0 1/4
0+1 1/4
1+0 1/4
1+1 1/4
ovvero:
92
Graficamente:
93
Esercizio 7.9 – Somma di variabili casuali
- Quali sono la media e la deviazione standard del tempo necessario – che chiamiamo W – per
completare entrambe le operazioni?
- Qual è la distribuzione di W?
Soluzione
L’esercizio chiede di calcolare la media e la deviazione standard (radice quadrata della varianza) di una
somma di variabili, in particolare di W=X+Z.
μw = μx + μz = 20 + 30 = 50
94
Esercizio 7.10 – Lancio di due dadi
Soluzione
Il lancio di un dado è una variabile rettangolare discreta e quindi le distribuzioni del dado nero e del dado
bianco sono:
Tabella 1 Tabella 3
xi f'i Zi f'i
1 1/6 1 1/6
2 1/6 2 1/6
3 1/6 3 1/6
4 1/6 4 1/6
5 1/6 5 1/6
6 1/6 6 1/6
Ora si pensi all’esperimento composto che consiste nel lanciare due dadi, il bianco e il nero.
Si associ ad ogni coppia delle facce la rispettiva probabilità che è nel corpo della tabella. Siccome le due
distribuzioni sono indipendenti, la probabilità congiunta è uguale al prodotto delle rispettive marginali.
95
Tabella 3
X
1 2 3 4 5 6
1 1/36 1/36 1/36 1/36 1/36 1/36 1/6
2 1/36 1/36 1/36 1/36 1/36 1/36 1/6
3 1/36 1/36 1/36 1/36 1/36 1/36 1/6
Z
4 1/36 1/36 1/36 1/36 1/36 1/36 1/6
5 1/36 1/36 1/36 1/36 1/36 1/36 1/6
6 1/36 1/36 1/36 1/36 1/36 1/36 1/6
1/6 1/6 1/6 1/6 1/6 1/6
È agevole vedere che ad avere probabilità più basse sono la somma 1+1=2 e 6+6=12, entrambe con una sola
frequenza. Il valore modale (quello con probabilità più alto) risulta W= 7.
Come nel caso di un singolo dado, andiamo a presentare la funzione di probabilità della variabile casuale
associata alla somma dei punti nel lancio di due dadi:
96
97
Esercizio 7.11 – Mistura di distribuzioni
Abbiamo tre marche di macchine, A, B, C per le quali sono stati rilevati il numero di guasti. La
frequenza totale dei guasti è stata di 100 per la macchina A, di 40 per la macchina B, di 60 per la
macchina C. Le distribuzioni di frequenza relativa di ciascuna macchina per numero di guasti viene
riportata nella tabella sottostante.
Totale 1 1 1
Si costruisca la distribuzione delle tre macchine complessivamente considerate, ancora per numero di
guasti, ossia la mistura delle tre distribuzioni.
Soluzione
Dobbiamo ricordare che in questo caso, a differenza del precedente, non si chiede di sommare tre
distribuzioni che si riferiscono a tre fenomeni o aspetti diversi. In questo caso ciascuna distribuzione si
riferisce al medesimo aspetto X.
Dobbiamo quindi associare alla modalità X la frequenza corrispondente alle 3 macchine. Questa frequenza è
ottenuta come media ponderata delle tre frequenze. I pesi sono rappresentati dal numero delle frequenze
assolute di ciascuna distribuzione.
98
f3A ∗ NA + f3B ∗ NB + f3C ∗ NC 0,23 ∗ 100 + 0,125 ∗ 40 + 0,017 ∗ 60 29,02
f3′ = = = = 0,15
NA + NB + NC 100 + 40 + 60 200
99
Esercizio 7.12 – Somma di due distribuzioni: un caso aziendale
Si deve produrre un manufatto per il quale sono necessari x ore di lavoro e z chilogrammi di materia
prima.
Si hanno le seguenti informazioni:
- Media di x = 0,2;
- Media di z = 1,5;
- Varianza di x = 0,02;
- Varianza di z = 0,25;
- Covarianza (x,z) = 0,006;
- Costo orario del lavoro = 20€/ora;
- Costo al chilo della materia prima = 4€/kg.
Calcolare la media e la varianza del costo del manufatto, W.
Soluzione
La distribuzione del costo del manufatto è data da W = 20x + 4z
100
8. L’analisi della varianza
Nella tabella sottostante vengono presentati i risultati di 30 prove di resistenza alla tensione (in kg/cm2)
effettuate su tipologie di gomma prodotte con cinque diversi processi. Le prove riguardano 6 esemplari
per ogni processo.
Processo
1 2 3 4 5
177 116 170 181 177
172 179 156 190 186
137 182 188 210 199
196 143 212 173 202
145 156 164 172 204
168 174 184 187 198
- Si vuole stabilire se la resistenza alla tensione della gomma sia la stessa nei diversi processi;
- si accerti mediante una stima intervallare con un intervallo di fiducia del 95% se la differenza
tra il 1° e il 5° processo è diversa significativamente.
Soluzione
Andiamo ad utilizzare il seguente modello:
xij = μ + hj + εij
μ=̿
X
̅j − X
hj = X ̿
Per rispondere al primo quesito, l’ipotesi nulla da verificare è che la media dei singoli gruppi di risposte,
corrispondenti alle cinque tipologie, siano uguali.
2
SSB = ∑(X̅j − ̿
X ) Nj
i
= [(165,83 − 176,60)2 + (158,33 − 176,60)2 + (179,00 − 176,60)2
+ (185,50 − 176,60)2 + (194,33 − 176,60)2 ] ∗ Nj = 849,03 ∗ 6 = 5094,20
Per calcolare le varianze dobbiamo risolvere le divisioni che hanno per numeratore la devianza e per
denominatore i rispettivi gradi di libertà.
In particolare,
SSW 9177,00
VAR W = = = 367,08
N−r 30 − 5
SSB 5094,20
VAR B = = = 1273,55
r−1 5−1
102
0,05
La F4;25 = 2,76 si è ottenuta con α=0,05 ed i seguenti gradi i libertà:
1 1 1 1
̅1 − ̅
(X X 5 ) ± t α⁄2 ∗ √VAR W ∗ ( + ) = (165,83 − 194,33) ± 2,06 ∗ √367,08 ∗ ( + )
N1 N5 6 6
= −28,50 ± 2,06 ∗ 11,06 = −28,50 ± 22,79
dove t α⁄2 indica la distribuzione t di Student con α/2= 0,025 e N-r gradi di libertà (30-5).
103
Esercizio 8.2 – Analisi della varianza ad un solo fattore
Un ricercatore agrario intende analizzare il rendimento della coltura della barbabietola da zucchero in
relazione a quattro differenti fertilizzanti, A, B, C e D, di cui l’ultimo già utilizzato in passato.
Nella tabella seguente sono riportati i rendimenti osservati per ciascun fertilizzante in 7 appezzamenti
di terreno – situati nella stessa area – simili per caratteristiche di suolo e di giacitura.
Fertilizzante
A B C D
472,3 470 520,2 475,4
465,7 480,5 501,4 481,2
410,5 502,9 488,7 452,8
464,1 462,5 462,5 442,7
502,8 487,8 473,3 398,6
475,1 479,2 504,2 479,1
472,6 468,9 493,6 465,9
Si verifichi l’ipotesi nulla che i fertilizzanti abbiano uguale efficacia, ossia che le medie dei 4 gruppi,
corrispondenti ai 4 fertilizzanti, siano uguali tra loro:
𝑯𝟎 : 𝝁𝑨 = 𝝁𝑩 = 𝝁𝑪 = 𝝁𝑫
Soluzione
(∑ X ij ) (∑ ̅
X j ) (466,16 + 478,83 + 491,99 + 456,53)
̿=
X = = = 473,38
N r 4
dove N indica la numerosità totale del nostro campione (in questo esempio 28), mentre r indica il numero di
fertilizzanti testati (in questo caso 4).
Ora calcoliamo la devianza nei gruppi, denominata SSW(within) o SSE (dovuta all’errore) e la devianza tra i
gruppi, denominata SSB(between) o SSF(dovuta al fattore sperimentale). Nella tabella sotto riportata si
sviluppa l’analisi dell’anova ad un fattore a livello teorico:
Fonte di Gradi di
variabilità
Devianza
libertà
Varianza F0 F della soglia
Tra i
SSB r-1 SSB/r-1 (SSB/r-1)/(SSW/N-r)
gruppi
Nei
con r-1 e N-r gradi di F0,05 (r-1);(N-4)
SSW N-r SSw/N-r libertà
gruppi
Totale SST N-1
In particolare,
2
̅j)
SSW = ∑ ∑(X ij − X
i j
= (472,30 − 466,16)2 + ⋯ + (472,60 − 466,16)2 + (470,00 − 478,83)2 + ⋯
+ (468,90 − 478,83)2 + (520,20 − 491,99)2 + ⋯ + (493,60 − 491,99)2
+ (475,40 − 456,53)2 + ⋯ + (465,90 − 456,53)2 = 13098,85
2
SSB = ∑(X̅j − X
̿ ) Nj
i
= [(466,16 − 473,38)2 + (478,83 − 473,38)2 + (491,99 − 473,38)2
+ (456,53 − 473,38)2 ] ∗ Nj = 712,00 ∗ 7 = 4984,00
Per calcolare le varianze, dobbiamo risolvere le divisioni che hanno per numeratore la devianza e per
denominatore i rispettivi gradi di libertà.
In particolare,
VAR W = SSW⁄N − r = 13098,85⁄(28 − 4) = 545,79
SSB 4984,00
VAR B = = = 1661,33
r−1 4−1
105
Il test appropriato per la verifica delle ipotesi è costituito dal rapporto
SSB⁄
VAR B r − 1 = 1661,33 = 3,04
F= =
VAR W SS W⁄ 545,79
N−r
Fonte di Gradi di
Devianza Varianza F F di soglia
variabilità libertà
Tra i
4984 3 1661.33
gruppi
0,05
Nei 3.04 3,24 = 3,01
13098.85 24 545.79
gruppi
Totale 18082.85 27
0,05
La F3;24 = 3,01 si è ottenuta con α=0,05 ed i seguenti gradi i libertà:
106
Esercizio 8.3 – Analisi della varianza ad un fattore e contrasti
Sostanza
1 2 3 4
28 17 17 18
26 25 16 20
29 24 21 25
25 19 22 24
19 28 23 16
26 21 18 20
26 20 20 20
23 25 17 17
28 19 25 19
29 24 21 17
a) Si verifichi mediante l’analisi della varianza l’ipotesi di uguaglianza delle medie delle quattro
popolazioni, assumendo un intervallo di confidenza del 95%;
b) si confrontino a due a due le medie dei quattro campioni utilizzando i contrasti ricorrendo
esclusivamente alla t di Student ed assumendo lo stesso intervallo di confidenza.
hj = ̅
Xj − ̿
X
107
̅̅̅
X 3 = 20,00
̅̅̅
X 4 = 19,60
(∑ X ij ) (∑ ̅
X j ) (25,90 + 22,20 + 20,00 + 19,60)
̿=
X = = = 21,93
N r 4
dove N indica la numerosità totale del nostro campione (in questo esempio 40), mentre r indica il numero di
sostanze testate (in questo caso 4).
Calcoliamo ora la devianza nei gruppi, denominata SSW(within) o SSE (dovuta all’errore) e la devianza tra i
gruppi, denominata SSB(between) o SSF(dovuta al fattore sperimentale).
In particolare,
2
̅ j ) = (28 − 25,90)2 + ⋯ + (17 − 19,60)2 = 350,90
SSW = ∑ ∑(X ij − X
i j
2
̅j − ̿
SSB = ∑(X X ) Nj
i
= [(25,90 − 21,93)2 + (22,20 − 21,93)2 + (20,00 − 21,93)2 + (19,60 − 21,93)2 ] ∗ Nj
= 24,99 ∗ 10 = 249,90
Per calcolare le varianze, dobbiamo risolvere le divisioni che hanno per numeratore la devianza e per
denominatore i rispettivi gradi di libertà.
In particolare,
SSW 350,90
VAR W = = = 9,75
N − r 40 − 4
SSB 249,90
VAR B = = = 83,30
r−1 4−1
108
Fonte di Gradi di
Devianza Varianza F F di soglia
variabilità libertà
Nei
350,9 36 9,75
gruppi
0,05
Tra i 8,54 3,36 = 2,87
249,875 3 83,3
gruppi
Totale 600,775 39
0,05
La F3;36 = 2,87 si è ottenuta con α=0,05 ed i seguenti gradi i libertà:
(b) – Contrasti
Per il confronto tra la media della prima sostanza con la media della seconda sostanza il contrasto L è il
seguente:
L = ∑ k i ∗ μi = 1 μ1 − 1 μ2
L̃ = ∑(k i ∗ ̅
X j ) = 1 ∗ 25,90 + (−1) ∗ 22,20 = 3,70
k 2i 1 1
var(L̃) = varW ∗ ∑ = 9,75 ∗ ( + ) = 1,95
ni 10 10
Disponendo della stima del contrasto e della sua varianza possiamo testare l’ipotesi che lo stesso contrasto
sia uguale a zero ossia che la differenza tra le due medie non sia significativamente diversa. Assumendo
α=0,05, ossia un livello di affidabilità del 95%, il valore della soglia critica sarà il valore della t di Student in
corrispondenza di N-r gradi di libertà ossia di (40-4) che è pari a 2,04. I valori 2,04 e -2,04 delimitano,
rispettivamente alla loro destra e alla loro sinistra, un’area del 2,5%.
L̃ − L 3,70
= = 2,66
1,39
√var(L̃)
109
Standardizzando la differenza tra le due medie otteniamo 2,66 che è un valore maggiore del valore critico
2,04.
Possiamo quindi concludere che la differenza tra le due medie risulta essere significativa.
Per il confronto tra la media della prima sostanza con la media della terza il contrasto L è il seguente:
L = ∑ k i ∗ μi = 1 μ1 − 1 μ3
L̃ = ∑(k i ∗ X
̅ j ) = 1 ∗ 25,90 + (−1) ∗ 20,00 = 5,90
k 2i 1 1
var(L̃) = varW ∗ ∑ = 9,75 ∗ ( + ) = 1,95
ni 10 10
L̃ − L 5,90
= = 4,24
1,39
√var(L̃)
Standardizzando la differenza tra le due medie otteniamo 4,24 che è un valore maggiore del valore critico
2,04.
Possiamo quindi concludere che la differenza tra le due medie risulta essere significativa.
Per il confronto tra la media della prima sostanza con la media della quarta il contrasto L è il seguente:
L = ∑ k i ∗ μi = 1 μ1 − 1 μ4
L̃ = ∑(k i ∗ X
̅ j ) = 1 ∗ 25,90 + (−1) ∗ 19,60 = 6,30
k 2i 1 1
var(L̃) = varW ∗ ∑ = 9,75 ∗ ( + ) = 1,95
ni 10 10
110
L̃ − L 6,30
= = 4,53
1,39
√var(L̃)
Standardizzando la differenza tra le due medie otteniamo 4,53 che è un valore maggiore del valore critico
2,04.
Possiamo quindi concludere che la differenza tra le due medie risulta essere significativa.
Per il confronto tra la media della seconda sostanza con la media della terza il contrasto L è il seguente:
L = ∑ k i ∗ μi = 1 μ2 − 1 μ3
L̃ = ∑(k i ∗ X
̅ j ) = 1 ∗ 22,20 + (−1) ∗ 20,00 = 2,20
k 2i 1 1
var(L̃) = varW ∗ ∑ = 9,75 ∗ ( + ) = 1,95
ni 10 10
L̃ − L 2,20
= = 1,58
1,39
√var(L̃)
Standardizzando la differenza tra le due medie otteniamo 1,58 che è un valore minore del valore critico 2,04.
Possiamo quindi concludere che la differenza tra le due medie risulta essere non significativa.
Per il confronto tra la media della seconda sostanza con la media della quarta il contrasto L è il seguente:
Il contrasto L è il seguente:
L = ∑ k i ∗ μi = 1 μ2 − 1 μ4
L̃ = ∑(k i ∗ X
̅ j ) = 1 ∗ 22,20 + (−1) ∗ 19,60 = 2,60
111
con varianza stimata del contrasto
k 2i 1 1
var(L̃) = varW ∗ ∑ = 9,75 ∗ ( + ) = 1,95
ni 10 10
L̃ − L 2,60
= = 1,87
1,39
√var(L̃)
Standardizzando la differenza tra le due medie otteniamo 1,87 che è un valore minore del valore critico 2,04.
Possiamo quindi concludere che la differenza tra le due medie risulta essere non significativa.
Confrontando ora la differenza fra le medie della terza sostanza con la quarta il contrasto L è il seguente:
L = ∑ k i ∗ μi = 1 μ3 − 1 μ4
L̃ = ∑(k i ∗ ̅
X j ) = 1 ∗ 20,00 + (−1) ∗ 19,60 = 0,40
k 2i 1 1
var(L̃) = varW ∗ ∑ = 9,75 ∗ ( + ) = 1,95
ni 10 10
L̃ − L 0,40
= = 0,29
1,39
√var(L̃)
Standardizzando la differenza tra i due contrasti otteniamo 0,29 che è un valore minore del valore critico
2,04.
Possiamo quindi concludere che la differenza tra le due medie risulta essere non significativa.
112
Esercizio 8.4 – Analisi della varianza a due fattori
A B C D E
Mediante l’analisi della varianza si verifichi se l’esperimento possa essere usato a favore dell’impresa
produttrice o del cliente. Si consideri prima un livello di significatività del 1% e poi del 5%.
Soluzione
Andiamo ad utilizzare il seguente modello a due fattori con interazione:
xij = μ + hj + wi + γij + εij
μ=̿
X
hj = ̅
Xj − ̿
X
wi = ̅
Xi − ̿
X
113
̅ ij − X
γij = X ̅j − X
̅i + X
̿
Per facilitare la comprensione dei calcoli, si riporta la tabella con inserite le medie delle colonne (azzurre), le
medie delle righe (arancioni) e le medie dei gruppi (grigie).
A B C D E
Calcoliamo la devianza residua, denominata SSW, la devianza tra i gruppi, sia di riga che di colonna e la
devianza di interazione. La devianza tra i gruppi di riga è denominata SSBr (between di riga), mentre quella
114
di colonna è denominata SSBc (between di colonna). La devianza di interazione, invece, è denominata SSINT.
La tabella riporta a livello teorico l’analisi della varianza a due fattori con interazione:
Fonte di
Devianza Gradi di libertà Varianza F F di soglia
variabilità
In particolare,
2
SSW = ∑ ∑(X ij − ̅
X ij ) = (0,7 − 0,7)2 + ⋯ + (4,2 − 4,2)2 = 0,5825
i j
2
SSBc = n ∗ r ∗ ∑(X̅j − X
̿)
i
=2∗5
∗ [(0,68 − 2,126)2 + (1,275 − 2,126)2 + (2,28 − 2,126)2 + (2,86 − 2,126)2
+ (3,535 − 2,126)2 ] = 53,6287
2
SSBr = n ∗ c ∗ ∑(X̅i − ̿
X)
i
=2∗5
∗ [(2,085 − 2,126)2 + (2,05 − 2,126)2 + (2,14 − 2,126)2 + (2,145 − 2,126)2
+ (2,21 − 2,126)2 ] = 0,1507
2
̅̅̅ij̅ − X
SSINT = n ∗ ∑(X ̅i − X
̅j + X
̿)
i
= 2 ∗ [(0,7 − 2,085 − 0,68 + 2,126)2 + … + (4,2 − 2,21 − 3,535 + 2,126)2 ] = 2,3243
Per calcolare la varianza, dobbiamo risolvere le divisioni che hanno per numeratore la devianza e per
denominatore i rispettivi gradi di libertà.
In particolare,
VAR W = 0,5825⁄5 ∗ 5 ∗ (2 − 1) = 0,0233 che è la varianza residua
115
VAR Bc = 53,6287⁄(5 − 1) = 13,407 che è la varianza tra le colonne e, quindi, tra i tessuti
VAR Br = 0,1507⁄(5 − 1) = 0,0376 che è la varianza tra le righe e, quindi, tra i lotti di coloranti
SSBr
VAR Br r−1 0,0376
F= = = = 1,61
VAR W SSW 0,0233
r ∗ c ∗ (n − 1)
SSINT
VAR INT (r − 1) ∗ (c − 1) 0,1453
F= = = = 6,24
VAR W SSW 0,0233
r ∗ c ∗ (n − 1)
Fonte di
Devianza Gradi di libertà Varianza F F di soglia
variabilità
Tra i gruppi 0,05
0,1507 4 0,0376 1,61 4,25 = 4,18
di riga
Tra i gruppi 0,05
53,6287 4 13,407 575,41 4,25 = 4,18
di colonna
Interazione 2,3243 16 0,1453 6,24
Residua 0,5825 25 0,0233
La soglia critica per i test dei tessuti e dei coloranti, con significatività dell’1% è 4,18. I gradi di libertà sono
c-1 = r-1 = 5-1 = 4 e per il denominatore (r*c*(n-1)) = 5*5*(2-1) = 25.
0,01
Poiché F = 575,41 > F4;25 = 4,18, la differenza tra i tessuti è significativa.
116
0,01
Poiché F = 1,61 < F4;25 = 4,18, il lotto del colorante non ha impatto significativo.
Si può dunque concludere che, prendendo la F all’ 1% di significatività, l’impatto significativo è soltanto del
tipo di tessuto e non del lotto, quindi, la contestazione del cliente risulta essere infondata.
Se si fosse preso invece un livello di significatività più elevato, per esempio del 5%, avremmo un valore
0,05
critico F4;25 = 2,76. Anche con questo livello di significatività più elevato il tipo di lotto non sarebbe
0,05
risultato significativo, infatti F = 1,61 < F4;25 = 2,76.
117
Esercizio 8.5 – Analisi della varianza a due fattori
La direzione di un’azienda ha eseguito uno studio per accertare gli effetti che il turno di lavoro e la
linea di produzione possano avere sul tempo necessario per un’operazione di assemblaggio di parti.
Per l’analisi è stato scelto, per ogni combinazione del turno di lavoro con la linea di produzione, un
campione di 5 osservazioni ed i risultati, in numero di parti assemblate per minuto, sono riportati nella
sottostante tabella.
Linea
1 2 3 4
26 43 40 44
33 34 34 45
1 37 31 33 51
40 36 33 49
27 38 20 43
T 34 25 39 41
u 37 43 35 50
r 2 33 32 38 49
n 28 33 25 39
o 35 30 33 50
21 21 34 28
27 21 28 33
3 14 31 21 33
23 21 28 23
30 27 18 35
a) Si conduca l’analisi della varianza con il modello a due fattori ed interazione, verificando
l’ipotesi di interesse al livello del 5%. Si vuole quindi accertare se la linea, il turno e
l’interazione linea/turno abbiano un effetto significativo sul tempo necessario per
un’operazione di assemblaggio;
b) si determinino gli intervalli di confidenza per le medie nei tre turni con una confidenza del
99%.
Soluzione
μ=̿
X
̅j − X
hj = X ̿
118
̅i − X
wi = X ̿
γij = ̅
X ij − ̅
Xj − ̅
Xi + ̿
X
̿: media generale
X
Per facilitare la comprensione dei calcoli, si riporta la tabella con inserite le medie delle colonne (azzurre), le
medie delle righe (arancioni) e le medie dei gruppi (grigie).
Linea
1 2 3 4
26 43 40 44
33 34 34 45
1 37 31 33 51 36,85
40 36 33 49
27 38 20 43
medie 32,6 36,4 32 46,4
T 34 25 39 41
u 37 43 35 50
r 2 33 32 38 49 36,45
n 28 33 25 39
o 35 30 33 50
medie 33,4 32,6 34 45,8
21 21 34 28
27 21 28 33
3 14 31 21 33 25,85
23 21 28 23
30 27 18 35
medie 23 24,2 25,8 30,4
29,67 31,07 30,60 40,87
119
Calcoliamo la devianza residua, denominata SSW, la devianza tra i gruppi, sia di riga che di colonna e la
devianza di interazione. La devianza tra i gruppi di riga è denominata SSBr (between di riga), mentre quella
di colonna è denominata SSBc (between di colonna). La devianza di interazione, invece, è denominata SSINT.
In particolare,
2
̅ ij ) = (26 − 32,6)2 + ⋯ + (35 − 30,4)2 = 1439,60
SSW = ∑ ∑(X ij − X
i j
2
SSBc = n ∗ r ∗ ∑(X̅j − ̿
X)
i
=5∗3
∗ [(29,67 − 33,05)2 + (31,07 − 33,05)2 + (30,60 − 33,05)2 + (40,87 − 33,05)2 ]
= 1237,25
2
SSBr = n ∗ c ∗ ∑(X̅i − X
̿) = 5 ∗ 4 ∗ [(36,85 − 33,05)2 + (36,45 − 33,05)2 + (25,85 − 33,05)2 ]
i
= 1556,80
2
̅̅̅ij̅ − ̅
SSINT = n ∗ ∑(X Xi − ̅
Xj + ̿
X)
i
= 5 ∗ [(32,6 − 36,85 − 29,67 + 33,05)2 + ⋯ + (30,4 − 25,85 − 40,87 + 33,05)2 ]
= 173,20
Per calcolare le varianze, dobbiamo risolvere le divisioni che hanno per numeratore la devianza e per
denominatore i rispettivi gradi di libertà.
In particolare,
SSW 1439,60
VAR W = = = 29,99
r ∗ c ∗ (n − 1) 3 ∗ 4 ∗ (5 − 1)
SSBc 1237,25
VAR Bc = = = 412,42
c−1 4−1
SSBr 1556,80
VAR Br = = = 778,40
r−1 3−1
120
SSINT 173,20
VAR INT = = = 28,87
(r − 1) ∗ (c − 1) (3 − 1) ∗ (4 − 1)
SSBr
VAR Br r−1 778,40
F= = = = 25,96
VAR W SSW 29,99
r ∗ c ∗ (n − 1)
SSINT
VAR INT (r − 1) ∗ (c − 1) 28,87
F= = = = 0,96
VAR W SSW 29,99
r ∗ c ∗ (n − 1)
Fonte di Gradi di
Devianza Varianza F F di soglia
variabilità libertà
Tra i gruppi 0,05
1556,8 2 778,4 25,96 2,48 = 3,15
di riga
Tra i gruppi 0,05
1237,25 3 412,42 13,75 3,48 = 2,76
di colonna
0,05
Interazione 173,2 6 28,87 0,96 6,48 = 2,25
Residua 1439,6 48 29,99
Andiamo a testare se la linea, il turno e l’interazione linea/turno abbiano un effetto significativo sul tempo
necessario per un’operazione di assemblaggio.
0,05
La soglia per la linea produttiva (colonna), con significatività 5%, è F3;48 = 2,76.
0,05
La soglia per il turno (riga), con significatività 5%, è F2;48 = 3,15.
121
La soglia è ottenuta con α=0,05 ed i seguenti gradi di libertà:
numeratore = r-1 = 3-1 = 2
denominatore = (r*c*(n-1)) = 3*4*(5-1)= 48
0,05
Poiché F = 25,96 > F2;48 = 3,15, il turno ha impatto significativo.
0,05
Per l’interazione linea con turno, con significatività 5%, la soglia è F6;48 = 2,25.
0,05
Poiché F = 0,96 < F6;48 = 2,25, l’interazione non ha impatto significativo.
Concludendo, risultano significativi sia gli effetti del fattore “linea” che quelli del fattore “turno”, mentre
l’interazione è da ritenersi trascurabile.
Dal procedimento per la risoluzione del quesito a) siamo giunti a questi valori:
̿ = 33,05
μ=X
̅
X1 = 36,85
̅ 2 = 36,45
X
̅
X 3 = 25,85
Calcoliamo l’intervallo di confidenza per le medie nei tre turni con significatività del 99%.
Dobbiamo, prima, calcolare la varianza nei gruppi ad un fattore:
2
SSW = ∑ ∑(X ij − ̅
X j ) = (26 − 36,85)2 + ⋯ + (35 − 25,85)2 = 2850,05
i j
Quindi
SSW 2850,05
VAR W = = = 50,00
N−r 60 − 3
122
I limiti di confidenza al 99% per ̅
X1 sono:
SS 1 1
̅1 ± t α⁄ ∗ √ E ∗ = 36,85 ±∗ 2,665√50,00 ∗
X = 36,85 ± 2,665 ∗ 1,58 = 36,85 ± 4,00
2 N − r n1 20
dove t α⁄2 indica la distribuzione t di Student con α/2= 0,005 e N-r gradi di libertà (60-3).
L’intervallo di confidenza per la media del turno 1 risulta essere il seguente: [32,85; 40,85].
̅ 2 sono:
Continuando, i limiti di confidenza al 99% per X
SS 1 1
̅ 2 ± t α⁄ ∗ √ E ∗
X = 36,45 ±∗ 2,665 √50,00 ∗ = 36,45 ± 2,665 ∗ 1,58 = 36,45 ± 4,00
2 N − r n2 20
dove t α⁄2 indica la distribuzione t di Student con α/2= 0,005 e N-r gradi di libertà (60-3).
L’ intervallo di confidenza per la media del turno 2 risulta essere il seguente: [32,45; 40,45].
̅ 3 sono:
Infine, i limiti di confidenza al 99% per X
SSE 1 1
̅
X 3 ± t α⁄2 ∗ √ ∗ = 25,85 ±∗ 2,665√50,00 ∗ = 25,85 ± 2,665 ∗ 1,58 = 25,85 ± 4,00
N − r n3 20
dove t α⁄2 indica la distribuzione t di Student con α/2= 0,005 e N-r gradi di libertà (60-3).
L’intervallo di confidenza per la media del turno 3 risulta essere il seguente: [21,85; 29,85].
123
Esercizio 8.6 – Analisi della varianza a due fattori
I dati della tabella seguente si riferiscono ai diametri di tre specie di pino (A, B e C) osservati in
quattro posizioni diverse del tronco.
Posizione
Specie
1 2 3 4
58,4 63,5 53,3 35,6
38,1 50,8 43,2 43,2
A 66 53,3 40,6 48,3
33 40,6 61 50,8
53,3 45,7 68,6 61
71,1 76,2 48,3 43,2
55,9 66 61 53,3
B 63,5 66 48,3 45,7
48,3 50,8 63,5 66
66 71,1 73,7 58,4
45,7 38,1 58,4 45,7
25,4 53,3 63,5 30,5
C 30,5 55,9 48,3 58,4
55,9 35,6 33 55,9
33 30,5 55,9 48,3
Si verifichi l’ipotesi nulla che i fattori specie e posizione abbiano uguale diametro con un livello di
significatività dell’1%.
Soluzione
Andiamo ad utilizzare il seguente modello:
xij = μ + hj + wi + γij + εij
hj = ̅
Xj − ̿
X
̅i − X
wi = X ̿
γij = ̅
X ij − ̅
Xj − ̅
Xi + ̿
X
124
̅
X ij: media del gruppo (1 A, 1 B, 1 C, 2 A, 2 B, 2 C, 3 A, 3 B, 3 C, 4 A, 4 B, 4 C)
̿: media generale
X
Per facilitare la comprensione dei calcoli, si riporta la tabella con inserite le medie delle colonne (azzurre), le
medie delle righe (arancioni) e le medie dei gruppi (grigie).
Posizione
1 2 3 4
58,4 63,5 53,3 35,6
38,1 50,8 43,2 43,2
A 66 53,3 40,6 48,3 50,42
33 40,6 61 50,8
53,3 45,7 68,6 61
Medie 49,76 50,78 53,34 47,78
S 71,1 76,2 48,3 43,2
p 55,9 66 61 53,3
e B 63,5 66 48,3 45,7 59,82
c 48,3 50,8 63,5 66
i 66 71,1 73,7 58,4
e Medie 60,96 66,02 58,96 53,32
45,7 38,1 58,4 45,7
25,4 53,3 63,5 30,5
C 30,5 55,9 48,3 58,4 45,09
55,9 35,6 33 55,9
33 30,5 55,9 48,3
Medie 38,1 42,68 51,82 47,76
49,61 53,16 54,71 49,62
(∑ X ij ) (∑ ̅
X j ) (∑ ̅
X i ) (49,61 + 53,16 + 54,71 + 49,62)
̿
X= = = = = 51,77
N r c 4
Dove “N” indica la numerosità del mio campione, “r” le righe e “c” le colonne.
Calcoliamo la devianza residua, denominata SSW, la devianza tra i gruppi, sia di riga che di colonna e la
devianza di interazione. La devianza tra i gruppi di riga è denominata SSBr (between di riga), mentre quella
di colonna è denominata SSBc (between di colonna). La devianza di interazione, invece, è denominata SSINT.
In particolare,
2
SSW = ∑ ∑(X ij − ̅
X ij ) = (58,40 − 49,76)2 + ⋯ + (48,30 − 47,76)2 = 5645,07
i j
125
2
SSBc = n ∗ r ∗ ∑(X̅j − ̿
X)
i
=5∗3
∗ [(49,61 − 51,77)2 + (53,16 − 51,77)2 + (54,71 − 51,77)2 + (49,62 − 51,77)2 ]
= 297,88
2
SSBr = n ∗ c ∗ ∑(X̅i − X
̿) = 5 ∗ 4 ∗ [(50,42 − 51,77)2 + (59,82 − 51,77)2 + (45,09 − 51,77)2 ]
i
= 2223,61
2
̅̅̅ij̅ − ̅
SSINT = n ∗ ∑(X Xi − ̅
Xj + ̿
X)
i
= 5 ∗ [(49,76 − 50,42 − 49,61 + 51,77)2 + ⋯ + (47,76 − 45,09 − 49,62 + 51,77)2 ]
= 731,52
dove appunto:
- r=3 il numero dei livelli di riga;
- c=4 il numero dei livelli di colonna;
- n=5 la numerosità dei gruppi.
Per calcolare le varianze, dobbiamo risolvere le divisioni che hanno per numeratore la devianza e per
denominatore i rispettivi gradi di libertà.
In particolare,
SSW 5645,07
VAR W = = = 117,61
r ∗ c ∗ (n − 1) 3 ∗ 4 ∗ (5 − 1)
SSBc 297,88
VAR Bc = = = 99,29
c−1 4−1
SSBr 2223,61
VAR Br = = = 1111,80
r−1 3−1
SSINT 731,52
VAR INT = = = 121,92
(r − 1) ∗ (c − 1) (3 − 1) ∗ (4 − 1)
SSINT
VAR INT (r − 1) ∗ (c − 1) 121,92
F= = = = 1,04
VAR W SSW 117,61
r ∗ c ∗ (n − 1)
Fonte di Gradi di
Devianza Varianza F F di soglia
variabilità libertà
Tra i gruppi di 0,01
2223,61 2 1111,8 9,45 2,48 = 5,15
riga
Tra i gruppi di 0,01
297,88 3 99,29 0,84 3,48 = 4,30
colonna
0,01
Interazione 731,52 6 121,92 1,04 6,48 = 3,25
Residua 5645,07 48 117,61
Andiamo a testare se la posizione del tronco, la specie di pino e l’interazione posizione/specie abbiano un
effetto significativo sul diametro del tronco stesso.
0,01
La soglia per la posizione (colonna), con significatività 1%, è F3;48 = 4,30.
0,01
Per la specie (riga), con significatività 1% la soglia è F2;48 = 5,15.
127
0,01
Per l’interazione posizione con la specie, con significatività 1%, la soglia è F6;48 = 3,25.
Concludendo, è immediato verificare che solo l’effetto del fattore “specie” è significativamente diverso da
zero (α=0,01).
128
9. La regressione
Soluzione
La determinazione dei parametri a e b della funzione interpolatrice attraverso il metodo dei minimi quadrati
richiede che si minimizzi la funzione z = f (a, b) che è la somma di quadrati delle differenze tra gli y effettivi
e gli y stimati ossia:
3 3
2
mina,b ∑[yi − ŷi ]2 = mina,b ∑[yi − (a + bxi2 )]
i=1 i=1
Per risolvere il problema indicato bisogna determinare le soluzioni del sistema di due equazioni in due
incognite che si ottiene derivando la funzione Z sia rispetto ad a sia rispetto a b:
3 3 3
∂ 2 ∂ 2
∑[yi − (a + bxi2 )] = ∑ [yi − (a + bxi2 )] = ∑ −2[yi − (a + bxi2 )] =
∂a ∂a
i=1 i=1 i=1
3
−2 ∑[yi − (a + bxi2 )] = 0
i=1
3 3 3
∂ 2 ∂ 2
∑[yi − (a + bxi2 )] = ∑ [yi − (a + bxi2 )] = ∑ −2xi2 [yi − (a + bxi2 )] =
∂b ∂b
i=1 i=1 i=1
3
129
3
∑[yi − (a + bxi2 )] = 0
i=1
3
∑[yi − (a + bxi2 )] = 0
{ i=1
dal quale si ha
3 3
∑ yi − 3a + b ∑ xi2 = 0
i=1 i=1
3 3 3
da cui
â = 0,714 b̂ = 0,847
130
Esercizio 9.2 – Metodo dei minimi quadrati
Soluzione
Il metodo dei minimi quadrati impone di minimizzare la funzione Z= f (b) ossia
5 5
Per fare ciò bisogna determinare gli zeri della derivata prima di Z.
5 5
dZ
= ∑[yi − bxi ](−2xi ) = 2 ∑[yi xi − bxi2 ] = 0
db
i=1 i=1
∑5i=1 yi xi 168
b̂ = = = 1,25
∑5i=1 xi 2 134
131
Esercizio 9.3 – Coefficiente di correlazione lineare
Soluzione
Con variabili standardizzate, la varianza è uguale ad 1. Di conseguenza, il coefficiente di regressione si
riduce alla covarianza tra le due variabili e lo stesso accade al coefficiente di correlazione. Possiamo quindi
concludere che in questo caso by∗ x∗ = rxy .
10 10
cov(x ∗ , y ∗ ) 1 1
by∗ x∗ = 2 ∗
= cov(x ∗ , y ∗ ) = ∑(xi∗ − x̅ ∗ ) ∗ (yi∗ − y̅ ∗ ) = ∑ x∗y∗
σ (x ) 10 10
i=1 i=1
10 10
cov(x, y) ∑10
i=1[(xi − μx )(yi − μy )]/10 1 xi − μx yi − μy 1
rxy = = = ∑ [( )( )] = ∑ x ∗ y ∗ = by∗ x∗
σ(x)σ(y) σ(x)σ(y) 10 σ(x) σ(y) 10
i=1 i=1
= 0,7
132
Esercizio 9.4 – Coefficiente di correlazione lineare
Il coefficiente di correlazione lineare 𝐫𝐱𝐲 tra due variabili statistiche X e Y è uguale a 0,8. Siano date le
due trasformazioni lineari di X e Y
𝐙 = 𝟑 + 𝟎, 𝟓𝐗 𝐓 = 𝟏, 𝟐𝐘 − 𝟐
Determinare il coefficiente di correlazione lineare fra Z e T.
Soluzione
Dette ̅
X e var(X) la media e la varianza di X, ̅
Y e var(Y) la media e la varianza di Y per le proprietà della
media e della varianza si ha:
Z̅ = 3 + 0,5X
̅ var(Z) = (0,5)2 var(x)
̅ = −2 + 1,2Y
T ̅ var(T) = (1,2)2 var(y)
Zi − Z̅ = [3 + 0,5Xi − (3 + 0,5X
̅)] = 0,5(Xi − ̅
X)
̅ = [−2 + 1,2Yj − (−2 + 1,2Y
Tj − T ̅)] = 1,2(Yj − ̅
Y)
si ha
∑ki=1 ∑hj=1(X i − X
̅)(Yj − Y
̅)
cov(Z, T) = 0,5 ∗ 1,2 ∗ = 0,6cov(x, y)
N
cov(z, t)
rzt = =
√var(x)var(t)
133
0,6cov(x, y)
= =
√(0,5)2 var(x)(1,2)2 var(y)
0,6 cov(x, y)
= =
0,5 ∗ 1,2 √var(x)var(y)
= rxy = 0,8
134
Esercizio 9.5 – La regressione con un modello lineare e una sola variabile esplicativa
1 39 144 16 48 130
2 47 220 17 45 135
3 45 138 18 17 114
4 47 145 19 20 116
5 65 162 20 19 124
6 46 142 21 36 136
7 67 170 22 50 142
8 42 124 23 39 120
9 67 158 24 21 120
10 56 154 25 44 160
11 64 162 26 53 158
12 56 150 27 63 144
13 59 140 28 29 130
14 34 110 29 25 125
15 42 128 30 69 175
- Si valuti l’impatto delle ore di lavoro sulla produzione. Si stimino i parametri del modello 𝐲𝐢 =
𝐀 + 𝐁𝐱𝐢 + 𝐞𝐢 con il metodo dei minimi quadrati;
- si faccia l’anova sulle stime ottenute;
- si verifichi, mediante la costruzione di intervalli di confidenza, l’ipotesi 𝐇𝟎 : 𝐁 = 𝟎 e 𝐇𝟎 : 𝐀 = 𝟎.
Soluzione
Il modello ha 3 parametri:
A,
B,
σ2 .
135
(a) Covarianza, varianza e stime dei parametri
ŷ = a + bx = 98,75 + 0,97
̂i )2
∑(yi −y
Avendo ottenuto la retta stimata, possiamo procedere a calcolare S̃ 2 = , computando prima gli y
n−k
stimati (riportati nella tabella sottostante).
136
x y ̅ ̂ ei
Ora ci interessa calcolare SSR e SSE, rispettivamente la devianza del modello di regressione e la devianza
residua.
Nella tabella sottostante si riportano i risultati ottenuti, dettagliando i passaggi con i quali si è potuto
raggiungerli.
137
x y ̅ ̂
39,00 144,00 142,53 136,58 55,06 2,15
47,00 220,00 142,53 144,34 5724,44 6001,08
45,00 138,00 142,53 142,40 19,36 20,55
47,00 145,00 142,53 144,34 0,44 6,08
65,00 162,00 142,53 161,80 0,04 378,95
46,00 142,00 142,53 143,37 1,88 0,28
67,00 170,00 142,53 163,74 39,19 754,42
42,00 124,00 142,53 139,49 239,94 343,48
67,00 158,00 142,53 163,74 32,95 239,22
56,00 154,00 142,53 153,07 0,86 131,48
64,00 162,00 142,53 160,83 1,37 378,95
56,00 150,00 142,53 153,07 9,42 55,75
59,00 140,00 142,53 155,98 255,36 6,42
34,00 110,00 142,53 131,73 472,19 1058,42
42,00 128,00 142,53 139,49 132,02 211,22
48,00 130,00 142,53 145,31 234,40 157,08
45,00 135,00 142,53 142,40 54,76 56,75
17,00 114,00 142,53 115,24 1,54 814,15
20,00 116,00 142,53 118,15 4,62 704,02
19,00 124,00 142,53 117,18 46,51 343,48
36,00 136,00 142,53 133,67 5,43 42,68
50,00 142,00 142,53 147,25 27,56 0,28
39,00 120,00 142,53 136,58 274,90 507,75
21,00 120,00 142,53 119,12 0,77 507,75
44,00 160,00 142,53 141,43 344,84 305,08
53,00 158,00 142,53 150,16 61,47 239,22
63,00 144,00 142,53 159,86 251,54 2,15
29,00 130,00 142,53 126,88 9,73 157,08
25,00 125,00 142,53 123,00 4,00 307,42
69,00 175,00 142,53 165,68 86,86 1054,08
8393,45 14787,47
2
̂i ) = 8.393,45
SSE = ∑(Yi − Y
2
̂i − ̅
SSR = ∑(Y Y) = 14.787,47
Media della
Fonte di Somma dei Gradi di
somma dei F F di soglia
variabilità quadrati libertà
quadrati
Regressione 1 ⁄1 ⁄
1
F0,01 (1);(n-k)
Errore n-k ⁄( − )
⁄( − )
138
Riprendendo l’esercizio proposto, si costruisce la tabella sopra riportata in forma numerica:
0,01
Poiché F = 49,33 > F1,28 = 7,64, si deve concludere che il modello scelto spiega una parte rilevante della
variabilità.
(c) La stima intervallare e la verifica delle ipotesi sulle stime dei parametri del modello
Ricordiamo che per stimare la significatività delle stime è necessario aver ben chiaro le loro distribuzioni.
Qui sotto, per comodità, le riportiamo:
1 x̅
a~N(A; σ2 ( + ))
n ∑(xi − x̅)2
σ2
b~N(B; )
∑(xi − x̅)2
̂i )2
∑(yi −y
dove S̃ 2 =
n−k
1 (x0 − x̅)2
E(Y0 ⁄x0 ) = a + bx0 ± t α⁄2 ∗ √S̃ 2 ∗ [ + ]
n Sx
1 (x − x̅)2
̂n+1 ± t α⁄ ∗ √S̃ 2 ∗ [1 + + n+1
E(Yn+1 ) = Y ]
2 n Sx
1 1
b ± t α⁄2 ∗ √S̃ 2 ∗ = 0,97 ± 2,048 ∗ √299,77 ∗
Sx 6.783,47
139
In definitiva, per b, il limite di confidenza inferiore è 0,54 mentre quello superiore è 1,40.
1 x̅ 2 1 45,132
a ± t α⁄2 ∗ √S̃ 2 ∗ [ + ] = 98,75 ± 2,048 ∗ √299,77 ∗ [ + ]
n Sx 30 6.783,47
1 (x0 − 45,13)2
= 98,75 + 0,97x0 ± 2,048 ∗ √299,77 ∗ [ + ]
30 6.783,47
Ponendo, ad esempio, x0 = x̅ = 45,13 , si ottiene 136,06 come limite inferiore e 149,00 come limite
superiore.
1 (xn+1 − x̅)2
̂n+1 ± t α⁄ ∗ √S̃ 2 ∗ [1 +
Y + ]
2 n Sx
dove,
̂n+1 = a + b ∗ xn+1 = 98,75 + 0,97 ∗ 50 = 147,25
Y
quindi l’intervallo di previsione diventa:
1 (50 − 45,13)2
147,25 ± 2,048 ∗ √299,77 ∗ [1 + + ]
30 6.783,47
Si voglia ora verificare l’ipotesi H0 : B = 0 scegliendo però questa volta un α molto più piccolo, ossia
dell’1%. Posto α=0,01, da cui t 0,005 = 2,763, si ha
b 0,97
t= = = 4,61
1 1
√S̃ 2 ∗ √299,77 ∗
Sx 6783,47
140
Similmente, si verifica l’ipotesi H0 : A = 0.
a 98,75
t= = = 9,88
̅̅̅̅2
(x) 1 (45,13)2
1 √299,77 ∗ ( +
√S̃ 2 ∗ ( + 30 6.783,47)
n Sx )
141
Esercizio 9.6 – Regressione lineare multivariata – Approccio matriciale
Nella tabella seguente vengono riportati dati generici per effettuare la regressione lineare multipla.
Y x1 x2
- Si stimino i parametri del modello con il metodo dei minimi quadrati mediante il modello 𝐘 =
𝐀 + 𝐁𝐱𝟏 + 𝐂𝐱𝟐 ;
- si faccia l’anova sulle stime ottenute;
- si verifichi, mediante la costruzione di intervalli di confidenza, l’ipotesi 𝐇𝟎 : 𝐁 = 𝟎.
Soluzione
1 1 1 1 1 1 1 1 1
X T = [100 104 106 111 111 115 120 124 126]
100 99 110 126 113 103 102 103 98 3x9
142
9 1017 954
T
X X = [1017 115571 107690]
954 107690 101772 3x3
Calcoliamo ora il determinante di quest’ultima matrice:
−1
Ora si deve calcolare l’inversa di X T X, ovvero (X T X) .
−1
Tornando alla formula iniziale, β̂ = (X T X) X T Y, si deve moltiplicare la matrice calcolata per la trasposta di
X e per Y.
Procediamo al calcolo:
100
106
107
44,80 −0,21 −0,2 1 1 1 1 1 1 1 1 1 120
[−0,21 0,002 0,0003] ∗ [100 104 106 111 111 115 120 124 126] ∗ 110 =
−0,20 0,0003 0,002 100 99 110 126 113 103 102 103 98 116
123
133
[137]
a −49,34
e otteniamo il seguente vettore β̂ = [b] = [ 1,36 ] che ha componenti le stime di A, B e C.
c 0,11
Ora ci interessa calcolare SSE e SSR , rispettivamente la variabilità residua e la variabilità spiegata dal
modello di regressione.
Usiamo le seguenti formule:
2
̂i ) , dove il cappelletto sta ad indicare “Y stimati”
SSE = ∑(Yi − Y
2
̂i − ̅
SSR = ∑(Y Y) .
143
Nella tabella sottostante si riportano i risultati ottenuti, dettagliando i passaggi con i quali li si è potuti
raggiungere.
𝟐
x1 x2 Y ̅ ̂ −̂ −̅ 𝟐
Media della
Fonte di Somma dei Gradi di
somma dei F F di soglia
variabilità quadrati libertà
quadrati
Regressione 2 ⁄ ⁄
2 2
F0,01 (2);(n-k)
Errore n-k ⁄( − )
⁄( − )
Media
Somma della
Fonte di Gradi di
dei somma F F di soglia
variabilità libertà
quadrati dei
quadrati
Regressione 1260,89 2 630,4444 𝟎,𝟎𝟏
= 𝟏𝟎, 𝟗𝟐𝟓
48,78 𝟐,𝟔
Errore 77,54 6 12,92
Totale 1338,43
0,01
Poiché F = 48,78 > F2,6 = 10,925, si deve concludere che il modello spiega a sufficienza la variabilità.
144
(b) La stima intervallare e la verifica delle ipotesi dei parametri del modello
H0 : B = 0
contro l’alternativa
H1 : B ≠ 0
Allora si ha
b 1,36
t= = = 8,5
0,16
√ SSE ∗ c22
n−k
−1
dove c22 sta ad indicare il valore sulla diagonale principale della matrice inversa (X T X) , ovvero 0,002.
Ciascun elemento della diagonale della stessa matrice rappresenta il reciproco della devianza della variabile
esplicativa.
Quindi, si desume che b è significativamente diverso da zero, essendo t = 8,5 > t 0,005
6 = 3,707.
145
Esercizio 9.7 – Regressione lineare bivariata – Approccio matriciale
In un esperimento compiuto impiegando quantità diverse di fertilizzante (X) in sette zone, si sono
ottenute differenti raccolti di frumento (Y), come riportato nella tabella sottostante.
FERTILIZZANTE FRUMENTO
ZONE
UTILIZZATO RACCOLTO
1 100 40
2 200 50
3 300 50
4 400 70
5 500 65
6 600 65
7 700 80
- Si stimino i parametri del modello con il metodo dei minimi quadrati mediante il modello 𝐘 =
𝐀 + 𝐁𝐱;
- si verifichi, mediante la costruzione di intervalli di confidenza, l’ipotesi 𝐇𝟎 : 𝐁 = 𝟎 e 𝐇𝟎 : 𝐀 = 𝟎.
Soluzione
Utilizziamo come nel caso precedente un approccio matriciale in accordo al quale il nostro modello può
essere scritto come:
da cui si ricava:
−1
β̂ = (X T X) X T Y
146
40 1 100
50 1 200
50 1 300
1 1 1 1 1 1 1
Y = 70 X= 1 400 XT = [ ]
100 200 300 400 500 600 700 2x7
65 1 500
65 1 600
[80] [1 700]7x2
−1
Ora si deve calcolare l’inversa di X T X, ovvero (X T X) .
−1
Tornando alla formula iniziale, β̂ = (X T X) X T Y, si deve moltiplicare la matrice calcolata per la trasposta di
X e per Y, ovvero
40
50
50
0,714 −1,428E − 3 1 1 1 1 1 1 1
[ ]∗ [ ] ∗ 70 =
−1,428E − 3 3,571E − 6 100 200 300 400 500 600 700
65
65
[80]
a 36,429
e otteniamo il seguente vettore β̂ = [ ] = [ ] che ha componenti le stime di A e B.
b 0,059
yi yi
Ora ci interessa stimare la varianza delle distribuzioni condizionate , ,… .
xo xi
147
Usiamo la seguente formula:
2
̂i ) , dove il cappelletto sta ad indicare “Y stimati” ed otteniamo i seguenti valori:
SSE = ∑(Yi − Y
Y ̂ Y- 𝐲̂
Quindi,
∑(yi − ŷi )2 177,68
S̃ 2 = = = 35,54
n−k 5
(b) La stima intervallare e verifica delle ipotesi dei parametri del modello
1 1
b ± t α⁄2 ∗ √S̃ 2 ∗ = 0,059 ± 2,571 ∗ √35,54 ∗
Sx 280000
dove
In definitiva, per b al 95%, il limite di confidenza inferiore è 0,03 , mentre quello superiore è 0,09.
148
Similmente, si verifica l’ipotesi H0 : A = 0.
a 36,43
t= = = 7,23
1 (400)2
1 ̅̅̅̅
(x)2 √35,54 ∗ ( +
√S̃ 2 ∗ ( + 7 280000)
n Sx )
149
Esercizio 9.8 –Ortogonalità dei residui
X Y
1 1
3 5
5 2
si metta in evidenza l’ortogonalità dei residui con il metodo dei minimi quadrati, utilizzando il
seguente modello: 𝐘𝐢 = 𝐀 + 𝐁𝐗 𝐢 + 𝐞𝐢 .
Soluzione
Per verificare l’ortogonalità dei residui dobbiamo calcolare la varianza di x e covarianza tra x e y. Dopo di
che si possono ricavare a e b per poter andare a calcolare i residui.
Per calcolare la varianza e la covarianza appena menzionate abbiamo la necessità di conoscere le medie di x
e y, rispettivamente x̅ e y̅.
∑ xi 1 + 3 + 5
x̅ = = = 3,00
n 3
∑ yi 1 + 5 + 2
y̅ = = = 2,67
n 3
Quindi,
∑(xi − x̅)2 (1 − 3)2 + (3 − 3)2 + (5 − 3)2
var x = = = 2,67
n 3
∑(xi − x̅) ∗ (yi − y̅) (1 − 3) ∗ (1 − 2,67) + ⋯ + (5 − 3) ∗ (2 − 2,67)
cov xy = = = 0,67
n 3
Per ottenere i residui, occorre conoscere le y stimate, che andiamo a calcolare sotto:
150
Conoscendo le ŷ, calcoliamo i residui:
Per appurare l’ortogonalità dei residui, devono essere verificate le seguenti proprietà:
∑ ei = 0
∑ ei ∗ x i = 0
∑ ei ∗ ŷi = 0
Essendo verificate le tre proprietà dell’ortogonalità dei residui, si può concludere che i residui sono
ortogonali.
151
Esercizio 9.9 – Coefficiente di correlazione e regressione
Di un collettivo di bambini di cui si conoscono peso (ettogrammi) e altezza (centimetri) si spieghi perché:
Soluzione
Il coefficiente di correlazione è un numero puro, ossia adimensionale, in quanto la covarianza ha dimensioni
pari al prodotto della dimensione di X per quella di Y e i due scarti quadratici medi hanno proprio questa
dimensione. Così, se si misura la relazione lineare tra peso (in ettogrammi) e statura (in cm) di una
popolazione di bambini, si ha che la dimensione della covarianza è espressa in ettogrammi * centimetri.
Poiché σx ha dimensione di ettogrammi e σy quella di cm, si ha:
ettogrammi ∗ centimetri
dimensione r = =1
ettogrammi ∗ centimetri
quindi è un numero puro.
152
Esercizio 9.10 – Coefficiente di correlazione
Soluzione
153
Concludendo:
- r assume valore 0 quando al variare di una variabile l’altra rimane costante;
- r assume valore prossimo allo 0 quando la nuvola di punti si dispone dentro un cerchio
- r assume valore +1 quando i punti sono tutti allineati su una retta positivamente inclinata;
- r assume valore -1 quando i punti sono tutti allineati su una retta negativamente inclinata.
154
Esercizio 9.11 – Dipendenza perfetta tra x e y, ma covarianza uguale a zero
X Y
-2 6
-1 3
1 3
2 6
𝐘 = 𝐗𝟐 + 𝟐
Si spieghi come possa aversi che r (coefficiente di correlazione) sia pari a zero. Costruire l’esempio.
Soluzione
Andiamo a calcolare le medie di x e y, rispettivamente x̅ e y̅.
∑ xi −2 − 1 + 1 + 2
x̅ = = = 0,00
n 4
∑ yi 6 + 3 + 3 + 6
y̅ = = = 4,50
n 4
Siccome,
∑(xi − x̅) ∗ (yi − y̅) (−2) ∗ (6 − 4,50) + ⋯ + (2) ∗ (6 − 4,50)
cov xy = = = 0,00
n 4
155
10. Le distanze
Si calcolino le distanze di Minkowski di ordine 1, 2 e 3 tra il punto 𝐀 (𝟐; 𝟐) e il punto 𝐁 (𝟒; 𝟒).
Si verifichino, sulla base di questo esempio, tre specifiche proprietà della distanze di Minkowski.
Soluzione
L’espressione per il calcolo delle distanze di Minkowski è la seguente:
1
p k
k
d = (∑|xis − xjs | )
s=1
Scegliamo k=10
X ′ = X + 10 Y ′ = Y + 10
Prendiamo k=3
X′ = 3 ∗ X Y′ = 3 ∗ Y
che sono tutte diverse dalle distanze prodotte sulla base di dati non trasformati.
cosρ −senρ
M = [senρ cosρ ]
π
Quindi, considerando ρ =
2
0 −1
M=[ ]
1 0
0 −1 2 −2
A′ = [ ]∗[ ] =[ ]
1 0 2 2
0 −1 4 −4
B′ = [ ]∗[ ] = [ ]
1 0 4 4
157
Esercizio 10.2 – Distanza euclidea
Soluzione
Per risolvere il primo quesito si deve verificare l’ortogonalità della matrice M, ovvero si deve provare la
relazione M ∗ M T = matrice identità, ossia
0,698 0,025 0,716 0,698 −0,391 0,6 1 0,00036 0,00020
(−0,391 0,85 0,352 ) ∗ (0,025 0,85 0,526 ) = (0,00036 1 0,00024)
0,6 0,526 −0,603 0,716 0,352 −0,603 0,00020 0,00024 1
Si può concludere quindi che la matrice Mè ortogonale.
Per rispondere al secondo quesito calcoliamo la distanza euclidea, ovvero la distanza di Minkowski di ordine
2.
1
p 2
2
d = (∑|xis − xjs | )
s=1
Con la matrice M, che abbiamo dimostrato essere ortogonale, possiamo provare l’ultima proprietà della
distanza euclidea, ovvero che quest’ultima rimane invariante per rotazione.
Per effettuare la rotazione moltiplichiamo la matrice ortogonale M per i vettori delle coordinare di A e B.
158
0,698 0,025 0,716 1 2,896
′
A = (−0,391 0,85 0,352 ) ∗ [2] = [ 2,365 ]
0,6 0,526 −0,603 3 −0,157
159
Esercizio 10.3 – Distanza di Mahalanobis
Si fissi una circonferenza con centro C(0;0) con raggio pari a 4. Si inscriva nella stessa circonferenza
un quadrato con vertici nei punti Q(4;0), R(0;4), S(-4;0), T(0;-4).
Si calcoli la distanza di Manhattan dal C a P e da C a Q dove il punto P rappresenta il punto di
intersezione tra la retta Y=X ed il lato, posto nel primo quadrante, del quadrato inscritto nella
circonferenza.
Considerando successivamente il collettivo di unità Q, R, S e T si calcolino la distanza euclidea e di
Mahalanobis tra i punti Q e T.
Soluzione
Nella figura viene rappresentata la circonferenza con raggio uguale a 4 con inserito un quadrato.
̅̅̅̅ + ̅̅̅̅
La distanza di Manhattan tra C e P è CH HP.
Però abbiamo che il triangolo RĈQ è isoscele in quanto ha come cateti il raggio.
̂ Q è simile al triangolo RĈQ e quindi anche questo secondo triangolo è isoscele.
Il triangolo PH
Poiché però ̅̅̅̅ ̅̅̅̅ in quanto cateti di un triangolo isoscele abbiamo che CH
PH = HQ ̅̅̅̅ + HP ̅̅̅̅ + HQ
̅̅̅̅ = CH ̅̅̅̅ = raggio.
Se prendiamo un secondo punto sul lato del quadrato per esempio P′ , abbiamo che la distanza di Manhattan
̅̅̅̅̅′ + ̅̅̅̅̅̅
tra C e P è CH H′ P′.
160
̂′ Q possiamo concludere che CH
Essendo però il triangolo RĈQ simile anche al triangolo P′ 𝐻 ̅̅̅̅̅′ + ̅̅̅̅̅̅
H′ P′ è
̅̅̅̅̅′ + ̅̅̅̅̅
uguale a CH H ′ Q = raggio.
Lungo il lato del quadrato la distanza tra ciascun punto sul quadrato e il centro C è sempre uguale al raggio.
Le coordinate dei vertici della circonferenza, come suggerito dal testo dell’esercizio, sono:
X Y
Q 4 0
R 4 0
S -4 0
T 0 -4
−1
var(x) cov(xy) (x − x2 )
√[(x1 − x2 ) ∗ (y1 − y2 )] ∗ [ ] ∗[ 1 ]
cov(yx) var(y) (y1 − y2 )
x1 = 0 y1 = −4 T = (0; −4)
x2 = 4 y2 = 0 Q = (4; 0)
161
(4 − 0) ∗ (0 − 0) + (0 − 0) ∗ (4 − 0) + (−4 − 0) ∗ (0 − 0) + (0 − 0) ∗ (−4 − 0) 0
cov(x, y) = = =0
4 4
Quindi,
var(x) cov(xy) 8 0
[ ]=[ ]
cov(yx) var(y) 0 8
8 0 1 8 0 1 0,125 0
[ ]∗ =[ ]∗ =[ ]
0 8 det 0 8 64 0 0,125
0,125 0 4 4
√[4 4] ∗ [ ] ∗ [ ] = √[0,5 0,5] ∗ [ ] = 2,00
0 0,125 4 4
162
Esercizio 10.4 – Distanze dal centroide
X Y
1 2 5000
2 2,5 8500
3 4 6000
4 3,5 5500
5 3 7000
- calcolare il centroide µ;
- usando la distanza euclidea, ordinare le osservazioni dalla più vicina alla più lontana dal
centroide;
- ripetere il quesito precedente utilizzando la distanza di Mahalanobis. L’ordine rimane lo
stesso?
Soluzione
Il centroide µ ha per coordinate le medie delle osservazioni, ovvero
∑ xi 2 + 2,5 + 4 + 3,5 + 3
μx = = = 3,00
n 5
∑ yi 5000 + 8500 + 6000 + 5500 + 7000
μy = = = 6400,00
n 5
μ = (3,00; 6400,00)
Per rispondere al secondo quesito calcoliamo le singole distanze euclidee tramite l’espressione generale
1
p 2
2
d = (∑|xis − xjs | )
s=1
163
In ordine crescente abbiamo le seguenti distanze:
d3,μ, d5,μ, d4,μ, d1,μ, d2,μ.
Per rispondere al terzo quesito calcoliamo le distanze di Mahalanobis tramite l’espressione generale
−1
var(x) cov(xy) (x − x2 )
√[(x1 − x2 ) ∗ (y1 − y2 )] ∗ [ ] ∗[ 1 ]
cov(yx) var(y) (y1 − y2 )
Quindi,
var(x) cov(xy) 0,5 −100
[ ]=[ ]
cov(yx) var(y) −100 1540000
2,03 0,00013 −1 −1
d1M = √[−1 −1400] ∗ [ ]∗[ ] = √[−2,212 −0,001] ∗ [ ] = 1,9
0,00013 0,00000065 −1400 −1400
2,03 0,00013 1 1
dM
3 = √[1 −400] ∗ [ ]∗[ ] = √[1,978 −0,00013] ∗ [ ] = 1,42
0,00013 0,00000065 −400 −400
Come si nota, l’ordinamento delle distanze cambia al variare della distanza utilizzata.
165
Esercizio 10.5 – Indici di similarità
Soluzione
Le 5 variabili in tabella sono dicotomiche, con modalità:
presenza = 1
assenza = 0
L’indice di similarità di Russel e Rao è uguale al rapporto tra compresenza e il numero totale delle variabili
considerate. Poiché i due tipi di lasagne hanno per due variabili punteggio pari a 1 – sapore e consistenza –,
l’indice di Russel e Rao è uguale a 2/5.
L’indice di Sokal e Michener ha invece al numeratore non soltanto il numero delle variabili per le quali le
due unità hanno entrambe punteggio 1 – come è il caso dell’indice di Russel e Rao – ma anche il numero
delle variabili per le quali le due unità hanno entrambe punteggio zero. L’indice in questione è pertanto 3/5
166
11. L’analisi discriminante
Si hanno tre gruppi, le cui unità statistiche sono osservate rispetto a due variabili X e Y nella matrice
dei dati A.
x y
34 9
32 10
30 10
36 12
35 13
34 14
32 16
40 13
38 14
41 15
38 16
42 14
Soluzione
Calcoliamo i 4 centroidi, tre dei gruppi e uno generale.
34 + 32 + 30
C1x = = 32,00
3
9 + 10 + 10
C1y = = 9,667
3
36 + 35 + 34 + 32
C2x = = 34,25
4
12 + 13 + 14 + 16
C2y = = 13,75
4
40 + 38 + 41 + 38 + 42
C3x = = 39,80
5
13 + 14 + 15 + 16 + 14
C3y = = 14,40
5
34 + ⋯ + 30 + 36 + ⋯ + 32 + 40 + ⋯ + 42
Cx = = 36,00
12
167
9 + ⋯ + 10 + 12 + ⋯ + 16 + 13 + ⋯ + 14
Cy = = 13,00
12
Per risolvere la discriminante di Fisher, dobbiamo calcolare le matrici di devianze tra i gruppi e nei gruppi.
Calcoliamo la matrice B delle devianze tra i gruppi:
32 − 36 34,25 − 36
B=[ ] ∗ [32 − 36 9,667 − 13] ∗ 3 + [ ] ∗ [34,25 − 36 13,75 − 13] ∗ 4
9,667 − 13 13,75 − 13
39,80 − 36 132,45 61,35
+[ ] ∗ [39,80 − 36 14,40 − 13] ∗ 5 = [ ]
14,40 − 13 61,35 45,38
La matrice à delle devianze nei gruppi può essere ottenuta considerando la matrice degli scarti delle
rispettive medie di gruppo.
34 − 32 9 − 9,667 2 −0,667
32 − 32 10 − 9,667 0 0,333
30 − 32 10 − 9,667 −2 0,333
36 − 34,25 12 − 13,75 1,75 −1,75
35 − 34,25 13 − 13,75 0,75 −0,75
̃ = 34 − 34,25
A
14 − 13,75
=
−0,25 0,25
32 − 34,25 16 − 13,75 −2,25 2,25
40 − 39,80 13 − 14,40 0,20 −1,40
38 − 39,80 14 − 14,40 −1,80 −0,40
41 − 39,80 15 − 14,40 1,20 0,60
38 − 39,80 16 − 14,40 −1,80 1,60
[42 − 39,80 14 − 14,40] [ 2,20 −0,40 ]
̃T ∗ A
Facciamo dunque il prodotto A ̃=W
168
W
2 0 −2 1,75 0,75 −0,25 −2,25 0,20 −1,80 1,20 −1,80 2,20
=[ ]
−0,667 0,333 0,333 −1,75 −0,75 0,25 2,25 −1,40 −0,40 0,60 1,60 −0,40
2 −0,667
0 0,333
−2 0,333
1,75 −1,75
0,75 −0,75
−0,25 0,25 29,55 −13,35
∗ =[ ]
−2,25 2,25 −13,35 14,62
0,20 −1,40
−1,80 −0,40
1,20 0,60
−1,80 1,60
[ 2,20 −0,40 ]
Ora calcoliamo l’inversa della matrice W.
Possiamo ora costruire gli autovalori della matrice prodotto e quindi i rispettivi autovettori corrispondenti.
Dobbiamo porre la seguente condizione:
det[(W −1 ∗ B) − λI] = 0
Ovvero,
10,86 5,92 1 0
det [ ]− λ[ ]=0
14,12 8,51 0 1
10,86 − λ 5,92
det [ ]=0
14,12 8,51 − λ
(10,86 − λ) ∗ (8,51 − λ) − 5,92 ∗ 14,12 = 0
λ2 − 19,373λ + 8,847 = 0
Risolvendo l’equazione di secondo grado si ottengono i seguenti autovalori:
λ1 = 18,91 e λ2 = 0,47
−8,05V1 + 5,92V2 = 0
{14,12V1 − 10,40V2 = 0
V12 + V22 = 1
Ragioniamo allo stesso modo prendendo l’autovalore 2 per ottenere il seguente autovettore:
−0,4952
v2 = ( )
0,8688
Z1 = 0,8053x + 0,5928y
Z2 = −0,4952x + 0,8688y
Andiamo quindi ad utilizzare la prima funzione discriminante per allocare le due unità statistiche:
Possiamo quindi concludere che A deve essere inclusa nel I° gruppo mentre B nel II° gruppo.
170
Esercizio 11.2 – Analisi discriminante con distanza di Mahalanobis
X Y
1 1 2
G 2 7
R
3 3
U
P 3 1
P 2 4
O 5 1
2
G 4 6
R
2 5
U
P 4 4
P
O 6 7
Soluzione
Data Z = C1 μx + C2 μy i parametri incogniti sono C1 e C2 , ovvero
(C1 , C2 ) = (μ1 − μ2 ) ∗ S −1
Andiamo, quindi a calcolare:
∑ x1i 1+2+3+3+2+5
μ1x = = = 2,66
n1 6
y ∑ yi1 2 + 7 + 3 + 1 + 4 + 1
μ1 = = = 3,00
n1 6
∑ xi2 4 + 2 + 4 + 6
μx2 = = = 4,00
n2 4
y ∑ yi2 6 + 5 + 4 + 7
μ2 = = = 5,50
n2 4
Quindi,
μ1 = (2,66; 3) e μ2 = (4; 5,50)
171
var(x) cov(xy)
S=( )
cov(yx) var(y)
Per calcolare le varianze e la covarianza, prima si calcola la media di X e Y generale, ovvero considerando
entrambi i gruppi:
∑ xi 1 + 2 + ⋯ + 4 + 6
x̅ = = = 3,20
n 10
∑ yi 2 + 7 + ⋯ + 4 + 7
y̅ = = = 4,00
n 10
Quindi,
(1 − 3,20)2 + ⋯ + (6 − 3,20)2
var(x) = = 2,16
10
(2 − 4,00)2 + ⋯ + (7 − 4,00)2
var(y) = = 4,60
10
(1 − 3,20) ∗ (2 − 4,00) + ⋯ + (6 − 3,20) ∗ (7 − 4,00)
cov(xy) = = 0,50
10
Otteniamo infine,
0,47 −0,05
(C1 , C2 ) = (μ2 − μ1 ) ∗ S −1 = (1,34 2,50) ∗ [ ] = (0,5048 0,483)
−0,05 0,22
Si è utilizzato (μ2 − μ1 ) in quanto μ2 > μ1 .
̅̅̅
Z2 + ̅̅̅
Z1 2,80 + 4,70
Z̿ = = = 3,75
2 2
173
Esercizio 11.3 – Analisi discriminante con la distanza di Mahalanobis
La seguente tabella contiene i dati riguardanti il numero di figli e il numero di vani dell’abitazione di
10 coppie che hanno chiesto agevolazioni per l’affitto:
Numero di Numero
figli di vani
A
A 2 3 g
e
B 3 4 v
o C
C 2 2 l o
a n
D 4 5 z c
i e
E 3 2 o s
n s
F 1 2 e a
A N
G 1 4 g o
e n
v
o C
H 2 4 l o
a n
z c
I 1 3 i e
o s
n s
L 1 5 e a
Soluzione
Esplicitiamo le variabili nel seguente modo:
x = numero di figli
y = numero di vani
C1 = agevolazione concessa
C2 = agevolazione non concessa
Quindi,
174
2+3+2+4+3+1
C1x = = 2,50
6
3+4+2+5+2+2
C1y = = 3,00
6
1+2+1+1
C2x = = 1,25
4
4+4+3+5
C2y = = 4,00
4
Quindi,
C1 = (2,50; 3,00) e C2 = (1,25; 4,00)
Per rispondere al secondo quesito c’è da calcolare le singole distanze euclidee tra i punti da “verificare” e i
centroidi dei due gruppi, tramite l’espressione generale:
1
p 2
2
d = (∑|xis − xjs | )
s=1
Quindi,
Quindi, M appartiene al gruppo dell’agevolazione non concessa dato che è più vicino (distanza minore) al
centroide del gruppo 2.
Mentre, N appartiene al gruppo dell’agevolazione concessa dato che è più vicino (distanza minore) al
centroide del gruppo 1.
Per rispondere al terzo quesito c’è da calcolare le distanze di Mahalanobis tramite l’espressione generale
−1
var(x) cov(xy) (x − x2 )
√[(x1 − x2 ) ∗ (y1 − y2 )] ∗ [ ] ∗[ 1 ]
cov(yx) var(y) (y1 − y2 )
Dobbiamo andare a calcolare le varianza e la covarianza per poter risolvere l’espressione sopra:
175
(2 − 2)2 + ⋯ + (1 − 2)2
var(x) = = 1,00
10
(3 − 3,40)2 + ⋯ + (5 − 3,40)2
var(y) = = 1,24
10
(2 − 2) ∗ (3 − 3,40) + ⋯ + (1 − 2) ∗ (5 − 3,40)
cov(x, y) = = 0,20
10
Quindi,
var(x) cov(xy) 1 0,20
S=[ ]=[ ]
cov(yx) var(y) 0,20 1,24
Come nel caso della distanza euclidea, M appartiene al gruppo dell’agevolazione non concessa dato che è più
vicino (distanza minore) al centroide del gruppo 2.
N invece appartiene al gruppo dell’agevolazione concessa dato che è più vicino (distanza minore) al
centroide del gruppo 1.
176
12. Le componenti principali
Un’azienda alimentare esportatrice di primi piatti tipici italiani vuole condurre una valutazione
sintetica sulla “completezza” di un primo, ossia sulla sua capacità di essere piacevole al consumo, ma
allo stesso tempo anche di dare sazietà.
A tale scopo sottopone ad un suo assaggiatore particolarmente affidabile 10 tipi di lasagna su cui gli
viene chiesto:
- una valutazione sulla piacevolezza del piatto (variabile X) provata durante il suo consumo,
espressa in 60esimi;
- il senso di sazietà provato (variabile Y) una volta consumato l’intero piatto, espresso in
110esimi.
PIATTI X Y
1 60 110
2 54 100
3 36 99
4 40 95
5 36 88
6 58 105
7 44 100
8 42 102
9 42 90
10 55 108
Soluzione
La media delle variabili x e y risultano essere
Mx = 46,70
My = 99,70
177
(110 − 99,70)2 + ⋯ + (108 − 99,70)2
σy = √ = 7,17
10 − 1
La covarianza tra x e y è:
(60 − 46,70) ∗ (110 − 99,70) + ⋯ + (55 − 46,70) ∗ (108 − 99,70)
cov(x, y) = = 51,79
10 − 1
Quindi,
var(x) cov(xy) 83,567 51,79
S=[ ]=[ ]
cov(yx) var(y) 51,79 51,34
Ovvero,
83,567 51,79 1 0
det [ ]− λ[ ]=0
51,79 51,34 0 1
83,567 − λ 51,79
det [ ]=0
51,79 51,34 − λ
(83,567 − λ) ∗ (51,34 − λ) − 51,79 ∗ 51,79 = 0
λ2 − 134,91λ + 1608,13 = 0
178
−38,123V1 + 51,79V2 = 0
51,79V1 − 70,35V2 = 0
La matrice à delle devianze nei gruppi può essere ottenuta considerando la matrice degli scarti delle
rispettive medie di gruppo.
60 − 46,70 110 − 99,70 13,3 10,3
54 − 46,70 100 − 99,70 7,3 0,3
36 − 46,70 99 − 99,70 −10,7 −0,7
40 − 46,70 95 − 99,70 −6,7 −4,7
̃ = 36 − 46,70
A
88 − 99,70
=
−10,7 −11,7
58 − 46,70 105 − 99,70 11,3 5,3
44 − 46,70 100 − 99,70 −2,7 0,3
42 − 46,70 102 − 99,70 −4,7 2,3
42 − 46,70 90 − 99,70 −4,7 −9,7
[55 − 46,70 108 − 99,70] [ 8,3 8,3 ]
179