Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Federico II
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 1:
Raccolta e presentazione
dei dati
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Lʼindagine statistica
La classificazione del carattere osservato dipende dalla natura del carattere stesso e non
dall’uso convenzionale che se ne fa. Ad esempio, l’età è una variabile continua, anche se quasi
sempre i valori vengono arrotondati e, quindi, resi discreti.
La classificazione proposta definisce anche quella che possiamo immaginare come una
gerarchia informativa dei caratteri considerati: una variabile continua è più “informativa” di una
variabile discreta, che a sua volta è più informativa di una mutabile ordinabile, e così via. E’
sempre possibile “scendere” questa gerarchia (una variabile continua può essere resa discreta
mediante arrotondamento oppure resa una mutabile ordinabile se si associano degli attributi a
classi di valori consecutive), non è possibile risalirla.
In questo caso, non avrebbe senso mantenere classi con frequenza molto piccola o
addirittura vuote.
Quando possibile, si procede ad un accorpamento delle classi contigue che presentano
frequenze particolarmente basse.
Quando le classi sono di ampiezza diversa, il confronto non può più essere fatto sulla base delle
frequenze. Occorre introdurre il concetto di densità di frequenza.
NOTA: Per il calcolo della densità di frequenza dell'ultima classe, si è immaginato un valore massimo di 120 minuti,
e quindi un'ampiezza di 60 minuti.
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 2:
Gli indici di posizione
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Indici assoluti: .........… Dipendono dalla natura della variabile che si sta esaminando e sono
espressi nella stessa unità di misura della variabile.
Indici relativi: ……..… Sono indipendenti dall'unità di misura perché costruiti come rapporti tra
indici assoluti o tra indici assoluti e loro valori estremi.
Sono, quindi, numeri puri, utili per confrontare fenomeni omogenei.
Indici normalizzati: … Sono indici relativi che variano in un intervallo finito, generalmente
nell'intervallo [0, 1] oppure in [-1, +1].
Sono, quindi, di immediata interpretazione.
µ=21,6 µ=22,8
Il confronto dei grafici consente di evidenziare delle differenze tra le due situazioni
ma non di “quantificarle”.
Il calcolo della media aritmetica rende questo confronto più agevole, e aggiunge
un’informazione importante a quanto già intuito dall’osservazione dei grafici.
La media di una variabile X è quel valore M, compreso tra minimo e massimo di una
distribuzione di frequenza, che, rispetto ad una funzione sintetica delle osservazioni,
ne lascia inalterato il valore:
(
f x1, x2 ,…, xn = f M, M,…, M) ( )
La media M è, dunque, quel valore che eguaglia la funzione f(.) quando alle
osservazioni si sostituisce il valore costante M.
Il punto cruciale è, quindi, specificare f(.) in funzione della natura della variabile (additiva,
moltiplicativa, inversa, …).
Esempio
Cinque importi in euro: 125; 1.250; 75; 84; 648 Calcoliamo la media
La definizione del Chisini ci dice che la media M è quel valore che risolve l’equazione:
La media aritmetica
∑x i
µ= i=1
La media aritmetica
La media aritmetica può essere calcolata in diversi modi, a seconda di come sono
organizzati i dati:
23 20 20 20 23 20 20 20 21 18 20 19 20 19 19 20 22 23 19 22
20 21 20 20 20 20 21 19 21 19 18 21 19 22 19 20 19 23 19 22
20 20 20 20 20 21 21 19 21 22 20 20 20 19 20 21 21 19 22 23
n=60
∑x i
23 + 20 + 20 + … +19 + 22 + 23 1.220
µ= i=1
= = = 20,3
n 60 60
La media aritmetica
La media aritmetica può essere calcolata in diversi modi, a seconda di come sono
organizzati i dati:
18 2 36 0,03
19 13 247 0,22
20 21 20 20 20 20 21 19 21 19 18 21 19 22 19 20 19 23 19 22
20 24 480 0,40
21 10 210 0,17
22 6 2013220 20 20 0,10
20 21 21 19 21 22 20 20 20 19 20 21 21 19 22 23
23 5 115 0,08
TOT 60 1.220 1,00
k=6
∑x ⋅n i i
µ= i=1
La media aritmetica
La media aritmetica può essere calcolata in diversi modi, a seconda di come sono
organizzati i dati:
18 2 36 0,03
19 13 247 20
0,22
21 20 20 20 20 21 19 21 19 18 21 19 22 19 20 19 23 19 22
20 24 480 0,40
21 10 210 20 0,17
20 20 20 20 21 21 19 21 22 20 20 20 19 20 21 21 19 22 23
22 6 132 0,10
23 5 115 0,08
TOT 60 1.220 1,00
k=6
La media aritmetica
La media aritmetica può essere calcolata in diversi modi, a seconda di come sono
organizzati i dati:
La media aritmetica
La media aritmetica può essere calcolata in diversi modi, a seconda di come sono
organizzati i dati:
18 2 36 0,03 20 210,60 20 20 20 20 21 19 21 19 18 21 19 22 19 20 19 23 19 22
k=6
µ = ∑ xi ⋅ fi
i=1
La media aritmetica
La media aritmetica può essere calcolata in diversi modi, a seconda di come sono
organizzati i dati:
(x i ) (n i ) (f i )
20 21 20 20 20 20 21 19 21 19 18 21 19 22 19 20 19 23 19 22
18 2 36 0,03 0,60
19 13 247 0,22 4,12
20 20 20 20 20 21 21 19 21 22 20 20 20 19 20 21 21 19 22 23
( ) ( ) ( ) ( ) ( ) ( )
k=6
µ = ∑ xi ⋅ fi = 18 × 0,03 + 19 × 0,22 + 20 × 0,40 + 21× 0,17 + 22 × 0,10 + 23 × 0,08 = 20,3
i=1
Esempio:
227 studenti a cui è stato chiesto quanto tempo impiegassero per raggiungere l'Università
TEMPO PER RAGGIUNGERE Frequenze Frequenze Frequenze
L'UNIVERSITÀ assolute relative %
(in minuti) (n i ) (f i ) (p i )
0-20 84 0,37 37,0
20-40 81 0,36 35,7
40-60 44 0,19 19,4
>60 18 0,08 7,9
TOT 227 1,00 100,0
Esempio:
227 studenti a cui è stato chiesto quanto tempo impiegassero per raggiungere l'Università
TEMPO PER RAGGIUNGERE Frequenze Frequenze Frequenze
L'UNIVERSITÀ assolute relative %
(in minuti) (n i ) (f i ) (p i )
0-20 84 0,37 37,0
20-40 81 0,36 35,7
40-60 44 0,19 19,4
>60 * 18 0,08 7,9
TOT 227 1,00 100,0
µ=
(10 × 84 ) + ( 30 × 81) + ( 50 × 44 ) + ( 90 ×18 )
= 31,2 minuti
227
* Per quest'ultima classe è stato considerato, come valore massimo, 120 minuti.
Esempio 2:
Distribuzione dei punteggi finali dei laureati nei corsi di Economia della Federico II, per l’anno
solare 2015. Determinare il punteggio medio
Voto ni
81-90 380
91-100 450
101-105 262
106-110 113
110 e lode 48
Tot 1.253
Poiché il Voto è una variabile discreta, il limite superiore di una classe non coincide con il limite
inferiore della classe successiva.
Questo può portare ad una qualche confusione, soprattutto nella determinazione dell'ampiezza
delle classi e del valore centrale. Ad esempio, qual è l'ampiezza della classe 101-105? Se si
risponde in modo automatico, si è portati a dire "quattro" (105-101) ma, in realtà, il valore 101 è
compreso e, dunque, l'ampiezza è "cinque" (101, 102, 103, 104, 105).
Per risolvere il "problema" si può riscrivere la tabella, facendo in modo che il valore superiore di
una classe coincida con il valore inferiore della classe successiva, come nel caso di variabili
continue; occorrerà, però, specificare se i limiti inferiori e superiori di ciascuna classe
appartengono o meno alla classe stessa, cioè se la classe è una classe "aperta" o "chiusa",
utilizzando una simbologia opportuna.
Esempio 2:
Distribuzione dei punteggi finali dei laureati nei corsi di Economia della Federico II, per l’anno
solare 2015. Determinare il punteggio medio
Voto ni Voto ni
81-90 380 80 -| 90 380
91-100 450 90 -| 100 450
101-105 262 100 -| 105 262
106-110 113 105 -| 110 113
110 e lode 48 110 e lode 48
Tot 1.253 Tot 1.253
Nella seconda tabella, le classi sono "aperte" a sinistra (il limite inferiore non è compreso) e
"chiuse" a destra (il limite superiore è compreso). In questo caso, l'ampiezza di ciascuna classe
può essere calcolato come differenza tra limite superiore e limite inferiore di ciascuna classe, e il
valore centrale potrà essere calcolato come il punto centrale di questa ampiezza.
1 k
(
µ = ∑ xi ⋅ ni = 1 85 × 380 + 95 × 450 +102,5 × 262 +107,5 ×113 +110 × 48
n i=1 1.253
)
119.332,5
=
1
1.253
(
32.300 + 42.750 + 26.855 +12.147,5 + 5.280 =
1.253
= 95,2 )
1. Internalità
La media aritmetica è sempre compresa tra il minimo e il massimo della distribuzione osservata.
4. Proprietà associativa
La media di una variabile osservata in più gruppi può essere ottenuta come media delle medie dei
singoli gruppi, tenuto conto della eventuale differente numerosità:
n1 n2 nk
µ = µ1 × + µ2 × + … + µk ×
n n n
1. Internalità
La media aritmetica è sempre compresa tra il minimo e il massimo della distribuzione osservata.
Altezza e Peso di 20 studenti di una scuola media
ALTEZZA PESO
ID. A-M(A) P-M(P)
(cm) (kg)
1 171 80 13,7 25,3
2 165 48 7,7 -6,7
3 154 44 -3,3 -10,7
4 140 34 -17,4 -20,7
5 141 35 -16,4 -19,7
6 149 53 -8,3 -1,7
7 173 61 15,7 6,3
8 161 72 3,7 17,3
9 162 49 4,7 -5,7
10 158 75 0,7 20,3
11 173 76 15,7 21,3
12 138 35 -19,4 -19,7
13 157 53 -0,3 -1,7
14 157 58 -0,3 3,3
15 148 48 -9,3 -6,7
16 165 50 7,7 -4,7
17 168 65 10,7 10,3
18 154 65 -3,3 10,3
19 155 50 -2,3 -4,7
20 158 43 0,7 -11,7
SOMMA 3147,0 1094,0 0,00 0,00
MIN 138,0 34,0
MAX 173,0 80,0
MEDIA 157,4 54,7
LEZIONE 2 – GLI INDICI DI POSIZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
µ=
(10 × 84) + ( 30 × 81) + (50 × 44) + (90 ×18) = 31,2 minuti
227
3. Linearità
Se la variabile X ha media µ, allora la variabile Y=α+βX ha media pari a α +βµ.
Retribuzione mensile di 20 impiegati di un ufficio pubblico
RETRIBUZ.
ID. PREMIO
(€)
1 1.661 266,1 La Direzione decide di assegnare ad ogni impiegato un
2 2.215 321,5
3 1.737 273,7
premio "una tantum", pari ad un bonus di 100 euro più il
4 1.668 266,8 10% della retribuzione di ognuno.
5 1.791 279,1 Quanto sarà l'ammontare medio dei premi?
6 1.522 252,2
7 2.105 310,5
8 1.560 256
9 1.321 232,1
10 2.095 309,5
11 2.645 364,5
12 2.631 363,1
13 1.526 252,6
14 1.314 231,4
15 2.431 343,1
16 2.033 303,3
17 2.945 394,5
18 2.358 335,8
19 2.395 339,5
20 1.304 230,4
MEDIA 1962,9 296,3
a 100,0
b 0,10
3. Linearità
Se la variabile X ha media µ, allora la variabile Y=α+βX ha media pari a α +βµ.
Retribuzione mensile di 20 impiegati di un ufficio pubblico
RETRIBUZ.
ID. PREMIO
(€)
1 1.661 266,1 La Direzione decide di assegnare ad ogni impiegato un
2 2.215 321,5
3 1.737 273,7
premio "una tantum", pari ad un bonus di 100 euro più il
4 1.668 266,8 10% della retribuzione di ognuno.
5 1.791 279,1 Quanto sarà l'ammontare medio dei premi?
6 1.522 252,2
( )
7 2.105 310,5
8 1.560 256 RETRIBUZ. = 1.661 ⇒ PREMIO = 100 + 0,1×1.661 = 266,1€
9 1.321 232,1
10 2.095 309,5
11 2.645 364,5
12 2.631 363,1
13 1.526 252,6
14 1.314 231,4
15 2.431 343,1
16 2.033 303,3
17 2.945 394,5
18 2.358 335,8
19 2.395 339,5
20 1.304 230,4
MEDIA 1962,9 296,3
a 100,0
b 0,10
3. Linearità
Se la variabile X ha media µ, allora la variabile Y=α+βX ha media pari a α +βµ.
Retribuzione mensile di 20 impiegati di un ufficio pubblico
RETRIBUZ.
ID. PREMIO
(€)
1 1.661 266,1 La Direzione decide di assegnare ad ogni impiegato un
2 2.215 321,5
3 1.737 273,7
premio "una tantum", pari ad un bonus di 100 euro più il
4 1.668 266,8 10% della retribuzione di ognuno.
5 1.791 279,1 Quanto sarà l'ammontare medio dei premi?
6 1.522 252,2
( )
7 2.105 310,5
8 1.560 256 RETRIBUZ. = 1.661 ⇒ PREMIO = 100 + 0,1×1.661 = 266,1€
9 1.321 232,1
( )
10 2.095 309,5
11 2.645 364,5 MPREMIO = 100 + 0,1×1.962,9 = 296,3€
12 2.631 363,1
13 1.526 252,6
14 1.314 231,4
15 2.431 343,1
16 2.033 303,3
17 2.945 394,5
18 2.358 335,8
19 2.395 339,5
20 1.304 230,4
MEDIA 1962,9 296,3
a 100,0
b 0,10
4. Proprietà associativa
La media di una variabile osservata in più gruppi può essere ottenuta come media delle medie dei
singoli gruppi, tenuto conto della eventuale differente numerosità:
Retribuzione mensile di 20 impiegati di un ufficio pubblico
RETRIBUZ. RETRIBUZ.
ID. LIVELLO ID. LIVELLO
(€) (€)
1 1.661 1 1 1.661 1
2 2.215 2 4 1.668 1
3 1.737 2 6 1.522 1
4 1.668 1 8 1.560 1
5 1.791 2 9 1.321 1
6 1.522 1 13 1.526 1
7 2.105 2 14 1.314 1
8 1.560 1 20 1.304 1
9 1.321 1 2 2.215 2
10 2.095 2 3 1.737 2
11 2.645 2 5 1.791 2
12 2.631 2 7 2.105 2
13 1.526 1 10 2.095 2
14 1.314 1 11 2.645 2
15 2.431 2 12 2.631 2
16 2.033 2 15 2.431 2
17 2.945 2 16 2.033 2
18 2.358 2 17 2.945 2
19 2.395 2 18 2.358 2
20 1.304 1 19 2.395 2
MEDIA 1.962,9
4. Proprietà associativa
La media di una variabile osservata in più gruppi può essere ottenuta come media delle medie dei
singoli gruppi, tenuto conto della eventuale differente numerosità:
Retribuzione mensile di 20 impiegati di un ufficio pubblico
RETRIBUZ. RETRIBUZ.
ID. LIVELLO ID. LIVELLO
(€) (€)
1 1.661 1 1 1.661 1
2 2.215 2 4 1.668 1
3 1.737 2 6 1.522 1
4 1.668 1 8 1.560 1
5 1.791 2 9 1.321 1
6 1.522 1 13 1.526 1
7 2.105 2 14 1.314 1 1.661+1.668 + … +1.304 11.876
8 1.560 1 20 1.304 1
MLiv1 = = = 1.484,5
9 1.321 1 2 2.215 2
8 8
10 2.095 2 3 1.737 2
11 2.645 2 5 1.791 2
12 2.631 2 7 2.105 2
13 1.526 1 10 2.095 2
14 1.314 1 11 2.645 2
15 2.431 2 12 2.631 2
16 2.033 2 15 2.431 2
17 2.945 2 16 2.033 2
18 2.358 2 17 2.945 2 2.215 +1.737 + … + 2.395 27.381
19 2.395 2 18 2.358 2 MLiv2 = = = 2.281,8
20 1.304 1 19 2.395 2 12 12
MEDIA 1.962,9
M=
(1.484,5 × 8 ) + ( 2.281,8 ×12 ) 11.876,0 + 27.381,6
= = 1.962,9
20 20
4. Proprietà associativa
La media di una variabile osservata in più gruppi può essere ottenuta come media delle medie dei
singoli gruppi, tenuto conto della eventuale differente numerosità:
Retribuzione mensile di 20 impiegati di un ufficio pubblico
RETRIBUZ. RETRIBUZ.
ID. LIVELLO ID. LIVELLO
(€) (€)
1 1.661 1 1 1.661 1
2 2.215 2 4 1.668 1
3 1.737 2 6 1.522 1
4 1.668 1 8 1.560 1
5 1.791 2 9 1.321 1
6 1.522 1 13 1.526 1
7 2.105 2 14 1.314 1 1.661+1.668 + … +1.304 11.876
8 1.560 1 20 1.304 1
MLiv1 = = = 1.484,5
9 1.321 1 2 2.215 2
8 8
10 2.095 2 3 1.737 2
11 2.645 2 5 1.791 2
12 2.631 2 7 2.105 2
13 1.526 1 10 2.095 2
14 1.314 1 11 2.645 2
15 2.431 2 12 2.631 2
16 2.033 2 15 2.431 2
17 2.945 2 16 2.033 2
18 2.358 2 17 2.945 2 2.215 +1.737 + … + 2.395 27.381
19 2.395 2 18 2.358 2 MLiv2 = = = 2.281,8
20 1.304 1 19 2.395 2 12 12
MEDIA 1.962,9
8 12
M = 1.484,5 × + 2.281,8 × = 1.962,9
20 20
Esercizio
Altezza Frequenza
132 1
138 1 La tabella riporta le altezze (in cm) di 240 studenti di una scuola
139 3
140 3 secondaria di primo grado.
141 1
142 3 1. Calcolare la media aritmetica
143 3
144 5 2. Raggruppare i dati in classi di uguale ampiezza (10 cm) e calcolare
145
146
6
5
di nuovo la media aritmetica utilizzando il valore centrale di ogni
147 5 classe.
148 9
149 9
150 11
151 9
152 8
153 6
154 11
155 17
156 10
157 8
158 11
159 11
160 9
161 14
162 10
163 10
164 7
165 7
166 3
167 2
168 8
169 2
170 4
171 2
172 1
173 2
174 1
175 1
180 1 LEZIONE 2 – GLI INDICI DI POSIZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esercizio
Altezza Frequenza
132 1
138 1 La tabella riporta le altezze (in cm) di 240 studenti di una scuola
139 3
140 3 secondaria di primo grado.
141 1
142 3 1. Calcolare la media aritmetica
143 3
144 5 2. Raggruppare i dati in classi di uguale ampiezza (10 cm) e calcolare
145
146
6
5
di nuovo la media aritmetica utilizzando il valore centrale di ogni
147 5 classe.
148 9
(132 ×1) + (138 ×1) + (139 × 3 ) + … + (175 ×1) + (180 ×1) 37.436
149 9
150 11
151 9
152 8
M= = = 156,0
153 6 240 240
154 11
155 17
156 10
157 8
158 11
159 11
160 9
161 14
162 10
163 10
164 7
165 7
166 3
167 2
168 8
169 2
170 4
171 2
172 1
173 2
174 1
175 1
180 1 LEZIONE 2 – GLI INDICI DI POSIZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esercizio
Altezza Frequenza
132 1
138 1 La tabella riporta le altezze (in cm) di 240 studenti di una scuola
139 3
140 3 secondaria di primo grado.
141 1
142 3 1. Calcolare la media aritmetica
143 3
144 5 2. Raggruppare i dati in classi di uguale ampiezza (10 cm) e calcolare
145 6
146 5
di nuovo la media aritmetica utilizzando il valore centrale di ogni
147 5 classe.
148 9
149 9 VALORE
150 11 CLASSI FREQUENZA xi*ni
CENTRALE
151 9
152 8 130|-140 5 135 675
153 6 140|-150 49 7.105
145
154 11
155 17 150|-160 102 155 15.810
156 10 160|-170 72 11.880
165
157 8
158 11 170|-180 11 175 1.925
159 11 180 1 180
160 9 180
161 14 240 37.575
162 10
(135 × 5) + (145 × 49) + (155 ×102) + (165 × 72) + (175 ×11) + (180 ×1) = 37.575 = 156,6
163 10
164 7
165 7 M=
166 3 240 240
167 2
168 8 COMMENTO: Il risultato è diverso dal valore reale della media, calcolato precedentemente
169 2
170 4 utilizzando i veri valori della distribuzione. È il "prezzo" che si paga per la maggiore sintesi che
171 2 una distribuzione in classi di valori presenta rispetto alla distribuzione di frequenza.
172 1
173 2
Se le classi sono formate in modo corretto, questa differenza può non essere particolarmente
174 1 rilevante.
175 1
180 1 LEZIONE 2 – GLI INDICI DI POSIZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
1 USA 39 41 33 113
2 CINA 38 32 18 88
3 GIAPPONE 27 14 17 58
4 GRAN BRETAGNA 22 21 22 65
5 ROC (Russian Olympic Committee) 20 28 23 71
6 AUSTRALIA 17 7 22 46
7 OLANDA 10 12 14 36
8 FRANCIA 10 12 11 33
9 GERMANIA 10 11 16 37
10 ITALIA 10 10 20 40
PAESE TOT
PAESE TOT
1 USA 39 41 33 113
Se stiliamo la classifica sulla base del
2 CINA 38 32 18 88
numero complessivo di medaglie, diamo
3 ROC (Russian Olympic Committee) 20 28 23 71
4 GRAN BRETAGNA 22 21 22 65 peso uguale a tutti i “metalli” (oro, argento
5 GIAPPONE 27 14 17 58 e bronzo).
6 AUSTRALIA 17 7 22 46
7 ITALIA 10 10 20 40
8 GERMANIA 10 11 16 37
9 OLANDA 10 12 14 36
10 FRANCIA 10 12 11 33
1 USA 39 41 33 113
Se stiliamo la classifica sulla base delle
2 CINA 38 32 18 88
medaglie d’oro, non teniamo in nessun
3 GIAPPONE 27 14 17 58
4 GRAN BRETAGNA 22 21 22 65
conto gli argenti e i bronzi.
5 ROC (Russian Olympic Committee) 20 28 23 71
6 AUSTRALIA 17 7 22 46
7 OLANDA 10 12 14 36
8
9
10
FRANCIA
GERMANIA
ITALIA
10
10
10
12
11
10
11
16
20
33
37
40
Una possibile soluzione può essere quella di dare
(Ordinato secondo il numero complessivo di medaglie) pesi diversi alle diverse medaglie: per esempio, si
1
PAESE
USA 39 41 33
TOT
113
Se stiliamo la classifica sulla base del
può immaginare che una medaglia d’oro valga il
doppio di una medaglia d’argento che, a sua volta,
2 CINA 38 32 18 88
numero complessivo di medaglie, diamo
3 ROC (Russian Olympic Committee) 20 28 23 71
4 GRAN BRETAGNA 22 21 22 65
peso uguale a tutti i “metalli” (oro, argento
e bronzo).
atleti a Tokyo 2020: 180mila euro per una medaglia d'oro, 90mila
per un argento e 60mila per un bronzo)
Quindi, i pesi delle diverse medaglie sono in rapporto 18:9:6, e i fattori di ponderazione
(che per consuetudine devono sommare a 1) saranno:
18 9 6
ORO: = 0,545 ARGENTO: = 0,273 BRONZO: = 0,182
18 + 9 + 6 18 + 9 + 6 18 + 9 + 6
PAESE TOT
1 USA 39 41 33 113
2 CINA 38 32 18 88
3 GIAPPONE 27 14 17 58
4 GRAN BRETAGNA 22 21 22 65
5 ROC (Russian Olympic Committee) 20 28 23 71
6 AUSTRALIA 17 7 22 46 (Ordinato secondo il numero di medaglie riponderate)
7 OLANDA 10 12 14 36
MEDIA MEDIA
8 FRANCIA 10 12 11 33 PAESE PAESE TOT TOT
PONDERATA PONDERATA
9 GERMANIA 10 11 16 37
10 ITALIA 10 10 20 40 1 USA 1 USA 39x0,545 41x0,273
39x0,545 33x0,182
41x0,273 33x0,182
38,5 115
38,5 115
2 CINA 2 CINA 38x0,545 32x0,273
38x0,545 18x0,182
32x0,273 18x0,182
32,7 98
32,7 98
3 ROC (Russian
3 Olympic
ROC Committee) 20x0,545
(Russian Olympic Committee)28x0,273
20x0,545 23x0,182
28x0,273 23x0,182
22,7 68
22,7 68
(Ordinato secondo il numero complessivo di medaglie) 4 GRAN BRETAGNA
4 GRAN BRETAGNA 22x0,545 21x0,273
22x0,545 22x0,182
21x0,273 22x0,182
21,7 65
21,7 65
5 GIAPPONE5 GIAPPONE 27x0,545 14x0,273
27x0,545 17x0,182
14x0,273 17x0,182
21,6 65
21,6 65
PAESE TOT 6 AUSTRALIA
6 AUSTRALIA 17x0,545 7x0,273
17x0,545 22x0,182
7x0,273 22x0,182
15,2 46
15,2 46
7 ITALIA 7 ITALIA 10x0,545 10x0,273
10x0,545 20x0,182
10x0,273 20x0,182
11,8 35
11,8 35
1 USA 39 41 33 113
8 GERMANIA8 GERMANIA 10x0,545 11x0,273
10x0,545 16x0,182
11x0,273 16x0,182
11,4 34
11,4 34
2 CINA 38 32 18 88
9 OLANDA 9 OLANDA 10x0,545 12x0,273
10x0,545 14x0,182
12x0,273 14x0,182
11,3 34
11,3 34
3 ROC (Russian Olympic Committee) 20 28 23 71
10 FRANCIA10 FRANCIA 10x0,545 12x0,273
10x0,545 11x0,182
12x0,273 11x0,182
10,7 32
10,7 32
4 GRAN BRETAGNA 22 21 22 65
5 GIAPPONE 27 14 17 58
6 AUSTRALIA 17 7 22 46
7 ITALIA 10 10 20 40
8 GERMANIA 10 11 16 37
9 OLANDA 10 12 14 36
10 FRANCIA 10 12 11 33
12 6 28 26
13 10 22 30
14 4 30 22
15 12 22 30
TOT 120 394 394
∑x ⋅p i i
3.031 3.235
µ= i=1
15
µ1 = = 25,3 µ2 = = 27,0
120 120
∑p i
i=1
Esempio:
15 studenti a cui è stato chiesto quanti soldi avessero con sé:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
€ 42 50 19 700 45 30 49 34 26 14 29 39 24 5 25
42 + 50 +19 + … + 5 + 25
Calcoliamo la media aritmetica: µ = = 75,4
15
E’ chiaro che in questo caso la media aritmetica non avrebbe alcun senso; è molto più
bassa di quanto possieda il soggetto più "ricco" (numero 4), ed è molto più alta di quanto
abbia in tasca il più “ricco” degli altri 14 studenti.
In altri termini, la media aritmetica non è in grado di rappresentare né l’uno né gli altri.
Il motivo è che la distribuzione presenta un valore chiaramente “anomalo” (potrebbe anche
trattarsi di un errore di digitazione, volevamo scrivere 70 e abbiamo scritto 700), che rende la
media aritmetica inattendibile e richiede indici che siano, invece, più “resistenti” a questi
valori.
Le medie robuste sono indici che tengono conto dell'ordinamento di una distribuzione, e
risultano uguali ai valori che, nella distribuzione ordinata, occupano posizioni caratteristiche.
La mediana, ad esempio, è il valore che occupa la posizione centrale di una
distribuzione ordinata in modo non decrescente.
NOTA: Una distribuzione non decrescente è una distribuzione in cui un valore può essere uguale a quello che lo precede ma
non può essere più piccolo. Una distribuzione ordinata in senso crescente, invece, è una distribuzione in cui ogni valore è
maggiore di quello che lo precede.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Distribuzione iniziale
42 50 19 700 45 30 49 34 26 14 29 39 24 5 25
Distribuzione ordinata 14 10 3 13 15 9 11 6 8 12 1 5 7 2 4
in modo non decrescente
5 14 19 24 25 26 29 30 34 39 42 45 49 50 700
Le medie robuste sono indici che tengono conto dell'ordinamento di una distribuzione, e
risultano uguali ai valori che, nella distribuzione ordinata, occupano posizioni caratteristiche.
La mediana, ad esempio, è il valore che occupa la posizione centrale di una
distribuzione ordinata in modo non decrescente.
NOTA: Una distribuzione non decrescente è una distribuzione in cui un valore può essere uguale a quello che lo precede ma
non può essere più piccolo. Una distribuzione ordinata in senso crescente, invece, è una distribuzione in cui ogni valore è
maggiore di quello che lo precede.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Distribuzione iniziale
42 50 19 700 45 30 49 34 26 14 29 39 24 5 25
Distribuzione ordinata 14 10 3 13 15 9 11 6 8 12 1 5 7 2 4
in modo non decrescente
5 14 19 24 25 26 29 30 34 39 42 45 49 50 700
La mediana
La mediana, Me, è il valore assunto dall'unità statistica che occupa la posizione
centrale della distribuzione ordinata in modo non decrescente.
E’ un indice “robusto” in quanto non dipende da variazioni che si verificano nelle
code della distribuzione (dove si possono trovare i c.d. “valori anomali”).
Esempio:
Frequenza Freq. Cum. 1. In questo esempio, la distribuzione è già ordinata.
Età
(n) (N)
2. Poiché n è dispari (227), la posizione mediana è
18 6 6
unica, ed è la 114°.
19 51 57
3. Osservando la colonna delle frequenze cumulate,
20 73 130
possiamo calcolare il valore mediano. Infatti, è facile
21 41 171
osservare che lo studente che occupa la 114°
22 21 192 posizione della distribuzione ordinata ha 20 anni.
23 16 208
24 11 219 Med(X) = 20 anni
25 8 227
TOT 227 /
Nota: Se n fosse stato pari, per esempio 226 (uno studente in meno) o 228 (uno studente in più), non
sarebbe cambiato assolutamente nulla.
Qualsiasi età avesse avuto lo studente eliminato (o lo studente aggiunto), le due posizioni mediane
avrebbero "puntato" a due unità con lo stesso valore della variabile (in questo caso, 20 anni), e il valore
mediano sarebbe stato uguale al caso precedente.
Esempio:
Tempo per 1. Anche in questo caso, la distribuzione è già
Frequenza Freq. Cum.
raggiungere la Facoltà (n) (N) ordinata.
(in minuti)
0-20 84 84 2. Poiché n è dispari (227), la posizione mediana
20-40 81 165 è unica, ed è la 114°.
40-60 44 209 3. Osservando la colonna delle frequenze
>60 18 227 cumulate, possiamo individuare la classe
TOT 227 / mediana, che sarà la seconda, 20-40 minuti.
All'interno di questa classe, dovremo individuare
il valore mediano.
N − NCl
2 (Prec ) 114 − 84
Me = Linf + × c = 20 + ⋅ 20 = 27,4 minuti
nCl 81
( Med)
Esempio
Frequenza Freq. Rel. Freq. Perc. Freq. Cum. Freq. Rel. Cum. Freq. Perc. Cum.
Età
(n) (f) (p) (N) (F) (P)
18 6 0,026 2,64 6 0,026 2,643
19 51 0,225 22,47 57 0,251 25,110
20 73 0,322 32,16 130 0,573 57,269
21 41 0,181 18,06 171 0,753 75,330
22 21 0,093 9,25 192 0,846 84,581
23 16 0,070 7,05 208 0,916 91,630
24 11 0,048 4,85 219 0,965 96,476
25 8 0,035 3,52 227 1,000 100,000
TOT 227 1,000 100,00 / / /
Calcolare:
• Il 3° quartile
• Il 1° decile
• Il 90° percentile
Esempio
Frequenza Freq. Rel. Freq. Perc. Freq. Cum. Freq. Rel. Cum. Freq. Perc. Cum.
Età
(n) (f) (p) (N) (F) (P)
18 6 0,026 2,64 6 0,026 2,643
19 51 0,225 22,47 57 0,251 25,110
20 73 0,322 32,16 130 0,573 57,269
21 41 0,181 18,06 171 0,753 75,330
22 21 0,093 9,25 192 0,846 84,581
23 16 0,070 7,05 208 0,916 91,630
24 11 0,048 4,85 219 0,965 96,476
25 8 0,035 3,52 227 1,000 100,000
TOT 227 1,000 100,00 / / /
Calcolare:
• Il 3° quartile (risp.: 21)
• Il 1° decile (risp.: 19)
• Il 90° percentile (risp.: 23)
Calcolare:
• Il 3° quartile k⋅N − NCl
• Il 2° decile q (Prec )
Qu = Linf + ×c
• Il 90° percentile nCl
(Qu)
Calcolare:
• Il 3° quartile (risp.: 42,4) k⋅N − NCl
• Il 2° decile (risp.: 10,8) q (Prec )
Qu = Linf + ×c
• Il 90° percentile (risp.: 57,9) nCl
(Qu)
Esercizio
Si riporta, di seguito, la distribuzione dei punteggi finali dei laureati nei corsi di Economia
della Federico II, per l’anno solare 2015.
Freq. Frq. Cum. Supponendo che un’azienda voglia chiamare per un
Voto
(n) (N) colloquio i 200 laureati più bravi, qual è il voto minimo
81-90 380 380 per poter accedere al colloquio?
91-100 450 830
101-105 262 1092
106-110 113 1205
110 e lode 48 1253
TOT 1.253 /
Esercizio
Si riporta, di seguito, la distribuzione dei punteggi finali dei laureati nei corsi di Economia
della Federico II, per l’anno solare 2015.
Freq. Frq. Cum. Supponendo che un’azienda voglia chiamare per un
Voto
(n) (N) colloquio i 200 laureati più bravi, qual è il voto minimo
81-90 380 380 per poter accedere al colloquio?
91-100 450 830
OBIETTIVI DI QUALITA’ DEI SERVIZI DI TELEFONIA VOCALE FORNITI SU RETE FISSA PER L’ANNO 2018
Indicatore Misura Obiettivo 2018
Percentile 95% del tempo di fornitura (1) 10 giorni
Tempo di fornitura Percentile 99% del tempo di fornitura (1) 19 giorni
dell’allacciamento iniziale Percentuale degli ordini validi completati entro la
97,40%
data concordata con il cliente
Tasso di Rapporto tra numero di segnalazioni di
malfunzionamento per malfunzionamenti effettivi e numero medio di linee 9,60%
linea di accesso d’accesso RTG
Percentile 80% del tempo di riparazione dei
42 ore
malfunzionamenti (2)
Percentile 95% del tempo di riparazione dei
Tempo di riparazione dei 90 ore
malfunzionamenti (2)
malfunzionamenti
Percentuale delle riparazioni dei malfunzionamenti
completate entro il tempo massimo 92,50%
contrattualmente previsto
Rapporto tra la somma del numero dei giorni di
Percentuale di telefoni
funzionamento di tutti i telefoni pubblici osservati
pubblici a pagamento (a
nel periodo considerato e il numero di giorni dello 96,50%
monete e a schede) in
stesso periodo moltiplicato per il numero di telefoni
servizio
pubblici sottoposti ad osservazione
Rapporto tra il numero dei reclami ricevuti nel
Fatture contestate periodo considerato e il numero di fatture emesse 1,20%
nello stesso periodo
Rapporto tra il numero delle fatture contestate
Accuratezza della riconosciute fondate emesse nel periodo
0,28%
fatturazione considerato e il numero di fatture emesse nello
stesso periodo
Tempo minimo di navigazione su risponditore
70 secondi
automatico per accedere alla scelta “operatore”
Tempi di risposta alle
Tempo medio di risposta dell’operatore alle
chiamate ai servizi di 70 secondi
chiamate entranti
assistenza clienti
Percentuale di chiamate entranti in cui il tempo di
45%
risposta dell’operatore è inferiore a 20 secondi
(1) Per "Percentile 95% (o 99%) del tempo di fornitura" si intende il numero di giorni entro cui è stato soddisfatto il 95% (o il 99%) delle richieste.
(2) Per "Percentile 80% (o 95%) dei tempi di riparazione dei malfunzionamenti" si intende il numero di ore, a partire dalla segnalazione dei clienti, entro cui è stato riparato l'80% (o il 95%) dei malfunzionamenti.
La scelta dell’indice di posizione dipende dal tipo e dalle caratteristiche della distribuzione.
Più che individuare l’indice “migliore in assoluto” (che non esiste), è importante anche
valutare le differenze tra le diverse misure, che possono fornire ulteriori, importanti
informazioni anche, ad esempio, sulla forma della distribuzione;
Volendo comunque definire delle caratteristiche dei diversi indici di posizione, possiamo
dire che: (Piccolo, pag. 95)
• La moda è utile quando occorre “minimizzare gli scontenti”, e quindi in tutte quelle
situazioni in cui il consenso e il numero delle singole unità ha significato per la decisione.
In breve, la moda è un indice per governare;
• La mediana minimizza i costi complessivi ed è resistente ai valori estremi. Quindi, la
mediana è un indice per decisioni che implicano costi elevati nei casi estremi;
• La media aritmetica è il baricentro dei dati e propone, quindi, un valore che equi-
ripartisce il fenomeno tra le unità statistiche, pervenendo così a decisioni nelle quali
contano, a parità numerica, gli estremi molto più dei valori centrali. Quindi, la media
aritmetica è un indice di equilibrio generale.
1-5 40.480
6-10 63.020
11-15 54.280
16-20 31.510
21-25 20.010
26-30 11.730
31-39 8.970
230.000
Determinare:
• Il valore medio;
• il valore mediano;
• la classe modale;
• il primo quartile;
• il 90°percentile;
• il 99°percentile.
Magazzino
centrale
L'ALTALENA
Tommaso è al parco con i genitori e con loro si diverte a giocare su
un'altalena che ha i due bracci di lunghezze diverse.
La madre si siede sul braccio più lungo, il padre su quello più corto, e l'asse resta
perfettamente in equilibrio. Poi si scambiamo di posto, ma questa volta Tommaso si
siede in braccio alla mamma e, ancora una volta, l'asse rimane in perfetto equilibrio.
Sapendo che il papà di Tommaso pesa 76 chili e la mamma 64, quanto pesa
Tommaso?
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 3:
La media geometrica
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La media di una variabile X è quel valore M, compreso tra minimo e massimo di una
distribuzione di frequenza, che, rispetto ad una funzione sintetica delle osservazioni,
ne lascia inalterato il valore:
(
f x1, x2 ,…, xn = f M, M,…, M) ( )
La media M è, dunque, quel valore che eguaglia la funzione f(.) quando alle
osservazioni si sostituisce il valore costante M.
Il punto cruciale è, quindi, specificare f(.) in funzione della natura della variabile (additiva,
moltiplicativa, inversa, …).
La media geometrica
In alcune situazioni, la relazione che esiste tra i termini di una distribuzione non è di tipo
additivo ma di tipo moltiplicativo.
Coorte Immatricolati CLEC 2009-10
Immatricolati CLEC Iscritti 1° anno Iscritti 2° anno Iscritti 3° anno
Laureati in regola
2009-10 2009-10 2010-11 2011-12
Tassi
373 278 146 61
di “sopravvivenza”: T1 = = 0,675 ; T2 = = 0,745 ; T3 = = 0,525 ; T4 = = 0,418
553 373 278 146
Domanda: Qual è il tasso medio di sopravvivenza?
La media geometrica
In alcune situazioni, la relazione che esiste tra i termini di una distribuzione non è di tipo
additivo ma di tipo moltiplicativo.
Coorte Immatricolati CLEC 2009-10
Immatricolati CLEC Iscritti 1° anno Iscritti 2° anno Iscritti 3° anno
Laureati in regola
2009-10 2009-10 2010-11 2011-12
Tassi
373 278 146 61
di “sopravvivenza”: T1 = = 0,675 ; T2 = = 0,745 ; T3 = = 0,525 ; T4 = = 0,418
553 373 278 146
Domanda: Qual è il tasso medio di sopravvivenza?
E' chiaro che, in questo esempio, la somma di due tassi darebbe, come risultato, una
quantità indefinita. Tra i dati, cioè, non esiste una relazione di tipo additivo e, dunque, non
avrebbe alcun senso utilizzare la media aritmetica.
Il prodotto di due tassi produce, invece, ancora un tasso.
373 278 278
T1 × T2 = × = = 0,503 Tasso di sopravvivenza “biperiodale”
553 373 553
La media geometrica
In alcune situazioni, la relazione che esiste tra i termini di una distribuzione non è di tipo
additivo ma di tipo moltiplicativo.
( )
n
Relazione di moltiplicatività: f x , x ,…, x = x ⋅ x ⋅…⋅ x = ∏ x
1 2 n 1 2 n i
i=1
La media geometrica di n termini è, dunque, uguale alla radice n-esima del loro prodotto.
La media geometrica
In alcune situazioni, la relazione che esiste tra i termini di una distribuzione non è di tipo
additivo ma di tipo moltiplicativo.
Coorte Immatricolati CLEC 2009-10
Immatricolati CLEC Iscritti 1° anno Iscritti 2° anno Iscritti 3° anno
Laureati in regola
2009-10 2009-10 2010-11 2011-12
Tassi
373 278 146 61
di “sopravvivenza”: T1 = = 0,675 ; T2 = = 0,745 ; T3 = = 0,525 ; T4 = = 0,418
553 373 278 146
Domanda: Qual è il tasso medio di sopravvivenza?
La media geometrica
Esercizio:
Si consideri un capitale iniziale unitario depositato in banca, che rimane depositato per
n anni a tassi di interesse i1, i2, …, in, non necessariamente uguali.
Domanda: Qual è quel tasso di interesse fisso, i, che avrebbe prodotto, dopo n anni,
lo stesso montante?
La media geometrica
Esercizio:
Si consideri un capitale iniziale unitario depositato in banca, che rimane depositato per 5 anni ai
seguenti tassi di interesse i1, i2, …, in:
i1 = 0,07 i2 = 0,06 i3 = 0,07 i4 = 0,04 i5 = 0,05
Qual è quel tasso di interesse fisso, i, che dopo 5 anni, produce lo stesso montante?
= (1+ 0,07 ) × (1+ 0,06 ) × (1+ 0,07 ) × (1+ 0,04 ) × (1+ 0,05 ) = 1,325
3. Calcoliamo ora il montante MF che otterremmo se utilizzassimo, per 5 anni, lo stesso tasso:
( )
5
MFIX = 1+ 0,0567 = 1,318
I due montanti sono diversi. Il tasso di interesse così individuato non Perché?
rappresenta, dunque, il tasso di interesse medio.
La media geometrica
Esercizio:
Si consideri un capitale iniziale unitario depositato in banca, che rimane depositato per 5 anni ai
seguenti tassi di interesse i1, i2, …, in:
i1 = 0,07 i2 = 0,06 i3 = 0,07 i4 = 0,04 i5 = 0,05
Qual è quel tasso di interesse fisso, i, che dopo 5 anni, produce lo stesso montante?
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
Obiettivo: 1+ i1 × 1+ i2 × 1+ i3 × 1+ i4 × 1+ i5 = 1+ i × 1+ i × 1+ i × 1+ i × 1+ i
Montante ottenuto dopo 5 anni, con tassi variabili. Montante ottenuto dopo 5 anni, con tasso fisso.
Ricordando la formula generale del Chisini, è facile vedere come, in realtà, le grandezze di cui
stiamo cercando la media non sono i tassi di interesse quanto piuttosto i montanti.
(1+ i ) × (1+ i ) × (1+ i ) × (1+ i ) × (1+ i ) = (1+ i ) × (1+ i ) × (1+ i ) × (1+ i ) × (1+ i )
1 2 3 4 5
x1 x2 x3 x4 x5 M M M M M
( ) ( ) ( ) ( ) ( ) ( )
5
Soluzione: 1+ i1 × 1+ i2 × 1+ i3 × 1+ i4 × 1+ i5 = 1+ i
( ) (1+ i ) × (1+ i ) × (1+ i ) × (1+ i ) × (1+ i ) = 1,07 ×1,06 ×1,07 ×1,04 ×1,05 =
⇒ 1+ i = 5
1 2 3 4 5
5 5
1,3252 = 1,0579
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 4:
Gli indici di variabilità
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempio:
Distribuzioni di frequenza dei 21 esami svolti da due studenti giunti al termine del loro percorso di studi:
Studente A Studente B
Voto Frequenza Voto Frequenza
(x) (n) (x) (n)
18 3 18 0
19 2
∑x ⋅n i i
504 19 0
∑x ⋅n i i
504
µA = i
= = 24 µB = i
= = 24
20
21
0
2
∑n i
21 20
21
0
1
∑n i
21
i i
22 0 22 0
23 2 23 3
24 2 24 11
25 2 25 6
26 2 26 0
27 0 27 0
28 2 28 0
29 2 29 0
30 2 30 0
18 19 20 21 22 23 24 25 26 27 28 29 30 18 19 20 21 22 23 24 25 26 27 28 29 30
Le due distribuzioni hanno la stessa variabile osservata, lo stesso numero di osservazioni, la stessa
media, eppure sono profondamente diverse, perché diversa è la dispersione dei valori.
Esempio:
Distribuzioni di frequenza dei 21 esami svolti da due studenti giunti al termine del loro percorso di studi:
Studente A Studente B
18 19 20 21 22 23 24 25 26 27 28 29 30 18 19 20 21 22 23 24 25 26 27 28 29 30
Un indice di variabilità può essere costruito come somma delle differenze tra ciascuna osservazione
e la propria media aritmetica, considerata come "centro" rappresentativo della distribuzione. Ma,
per la proprietà baricentrica della media aritmetica, tale somma risulterebbe nulla.
Per risolvere il problema algebrico, è possibile elevare al quadrato ogni differenza, ottenendo un
primo, importante, indice di variabilità, la devianza:
∑( ) ∑( )
n 2 k 2
Per distribuzioni semplici xi − µ ; xi − µ ⋅ ni Per dati organizzati in frequenze
i=1 i=1
∑( ) ∑( )
n 2 k 2
xi − µ xi − µ ⋅ ni
Per distribuzioni semplici Per dati organizzati in frequenze
i=1
; i=1
n n
LEZIONE 4 – GLI INDICI DI VARIABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La varianza
Esempio:
Gli Occupati in Italia nel periodo 1997-2009 (Fonte: ISTAT, Dati in migliaia)
Occupati 2
Anno x i -µ (x i -µ)
(x i )
1997 20.207 -1.773 3.143.256
1998 20.435 -1.545 2.386.787
1999 20.692 -1.288 1.658.746
2000 21.080 -900 809.862
2001 21.604 -376 141.318
2002 21.913 -67 4.479
2003 22.241 261 68.161
2004 22.404 424 179.841
2005 22.563 583 339.979
2006 22.988 1.008 1.016.219
2007 23.417 1.437 2.065.190
2008 23.170 1.190 1.416.283
2009 23.025 1.045 1.092.186
TOT 285.739 0 14.322.307
La varianza
Esempio:
Gli Occupati in Italia nel periodo 1997-2009 (Fonte: ISTAT, Dati in migliaia)
Occupati n
285.739
Anno x i -µ (x i -µ) 2 µ = ∑ xi = = 21.980
(x i )
i=1 13
1997 20.207 -1.773 3.143.256
1998 20.435 -1.545 2.386.787
1999 20.692 -1.288 1.658.746
2000 21.080 -900 809.862
2001 21.604 -376 141.318
2002 21.913 -67 4.479
2003 22.241 261 68.161
2004 22.404 424 179.841
2005 22.563 583 339.979
2006 22.988 1.008 1.016.219
2007 23.417 1.437 2.065.190
2008 23.170 1.190 1.416.283
2009 23.025 1.045 1.092.186
TOT 285.739 0 14.322.307
La varianza
Esempio:
Gli Occupati in Italia nel periodo 1997-2009 (Fonte: ISTAT, Dati in migliaia)
Occupati n
285.739
Anno x i -µ (x i -µ) 2 µ = ∑ xi = = 21.980
(x i )
i=1 13
1997 20.207 -1.773 3.143.256
1998 20.435 -1.545 2.386.787
1999 20.692 -1.288 1.658.746
2000 21.080 -900 809.862
2001 21.604 -376 141.318
2002 21.913 -67 4.479
2003 22.241 261 68.161
2004 22.404 424 179.841
2005 22.563 583 339.979
2006 22.988 1.008 1.016.219
2007 23.417 1.437 2.065.190
2008 23.170 1.190 1.416.283
2009 23.025 1.045 1.092.186
TOT 285.739 0 14.322.307
La varianza
Esempio:
Gli Occupati in Italia nel periodo 1997-2009 (Fonte: ISTAT, Dati in migliaia)
Occupati n
285.739
Anno x i -µ (x i -µ) 2 µ = ∑ xi = = 21.980
(x i )
i=1 13
1997 20.207 -1.773 3.143.256
( ) ( )
n
1998 20.435 -1.545 2.386.787 2
Dev X = ∑ xi − µ = 14.322.307
1999 20.692 -1.288 1.658.746
i=1
2000 21.080 -900 809.862
( )
1 n
( ) 14.322.307
2
2001 21.604 -376 141.318 Var X = ∑ xi − µ = = 1.101.716
2002 21.913 -67 4.479 n i=1 13
2003 22.241 261 68.161
2004 22.404 424 179.841
2005 22.563 583 339.979
2006 22.988 1.008 1.016.219
2007 23.417 1.437 2.065.190
2008 23.170 1.190 1.416.283
2009 23.025 1.045 1.092.186
TOT 285.739 0 14.322.307
Poiché per il calcolo della varianza abbiamo elevato al quadrato ciascuna differenza dalla media, anche l'unità
di misura in cui è espresso l'indice sarà al quadrato (e, quindi, poco interpretabile).
Per ripristinare l'unità di misura originaria, dobbiamo calcolare la radice quadrata della varianza. Questo
importantissimo indice di variabilità prende il nome di Scarto quadratico medio, ed esprime, nell'unità di
misura della variabile X, la dispersione media dei dati attorno al valore centrale.
Esempio:
Gli Occupati in Italia nel periodo 1997-2009 (Fonte: ISTAT, Dati in migliaia)
Occupati n
285.739
Anno x i -µ (x i -µ) 2 µ = ∑ xi = = 21.980
(x i )
i=1 13
1997 20.207 -1.773 3.143.256
( ) ( )
n
1998 20.435 -1.545 2.386.787 2
Dev X = ∑ xi − µ = 14.322.307
1999 20.692 -1.288 1.658.746
i=1
2000 21.080 -900 809.862
( )
1 n
( ) 14.322.307
2
2001 21.604 -376 141.318 Var X = ∑ xi − µ = = 1.101.716
2002 21.913 -67 4.479 n i=1 13
2003 22.241 261 68.161
( ) 1 n
( ) 14.322.307
2
2004 22.404 424 179.841 Sqm X = ∑ x −µ
n i=1 i
=
13
= 1.049,6
2005 22.563 583 339.979
2006 22.988 1.008 1.016.219
2007 23.417 1.437 2.065.190
2008 23.170 1.190 1.416.283
2009 23.025 1.045 1.092.186
TOT 285.739 0 14.322.307
Quindi, nel periodo considerato, il numero medio di Occupati in Italia è stato di 21milioni 980mila,
con una dispersione media, attorno a questo valore centrale, di 1milione 49mila unità.
Esempio:
L'età degli studenti del Corso di Statistica (Dati organizzati in una distribuzione di frequenza)
Frequenza 2
Età (xi -µ) · ni
(n)
18 6 42,8 ∑x ⋅n i i (18 × 6 ) + (19 × 51) + ( 20 × 73 ) + … + ( 25 × 8 )
19 51 142,2 µ= i
= = 20,7
20 73 32,7 ∑n i
227
i
21 41 4,5
22 21 37,2
23 16 86,9
24 11 122,0
25 8 150,0
TOT 227 618,2
Esempio:
L'età degli studenti del Corso di Statistica (Dati organizzati in una distribuzione di frequenza)
Frequenza 2
Età (xi -µ) · ni
(n)
18 6 42,8 ∑x ⋅n i i (18 × 6 ) + (19 × 51) + ( 20 × 73 ) + … + ( 25 × 8 )
19 51 142,2 µ= i
= = 20,7
20 73 32,7 ∑n i
227
i
21 41 4,5
( ) ( )
n 2
22 21 37,2 Dev X = ∑ xi − µ = 618,2
i=1
23 16 86,9
24 11 122,0
( ) 1 n
( ) 618,2
2
25 8 150,0 Var X = ∑ x −µ
n i=1 i
=
227
= 2,72
TOT 227 618,2
( ) 1 n
( )
2
Sqm X = ∑ x −µ
n i=1 i
= 2,72 = 1,65 anni
La varianza di una variabile X può essere calcolata, oltre che con la formula tradizionale,
anche come la media dei quadrati meno il quadrato della media, cioè:
( ) ( )
2
σ = M X − ⎡M X ⎤
2 2
X ⎣ ⎦
Questo consente di evitare il calcolo degli scarti dalla media, rendendo, quindi, la formula
molto più semplice.
D’altra parte, come accade spesso, il “prezzo” che si paga è dato dalla impossibilità di
associare alla formula un ragionamento, come invece è possibile fare con la formula
tradizionale.
( ) ( )
2
Un metodo alternativo per il calcolo di σ2 σ = M X − ⎡M X ⎤
2 2
X ⎣ ⎦
Esempio:
Gli Occupati in Italia nel periodo 1997-2009 (Fonte: ISTAT, Dati in migliaia)
Occupati
Anno x2
(x i )
1997 20.207 408.322.849
1998 20.435 417.589.225
1999 20.692 428.158.864
2000 21.080 444.366.400
2001 21.604 466.732.816
2002 21.913 480.179.569
2003 22.241 494.662.081
2004 22.404 501.939.216
2005 22.563 509.088.969
2006 22.988 528.448.144
2007 23.417 548.355.889
2008 23.170 536.848.900
2009 23.025 530.150.625
TOT 285.739 6.294.843.547
µ=21.980
( ) ( )
2
Un metodo alternativo per il calcolo di σ2 σ = M X − ⎡M X ⎤
2 2
X ⎣ ⎦
Esempio:
Gli Occupati in Italia nel periodo 1997-2009 (Fonte: ISTAT, Dati in migliaia)
Occupati
Anno x2
( ) ( )
(x i ) 2
1997 20.207 408.322.849 σ = M X − ⎡M X ⎤
2 2
µ=21.980 ( )
M X2 =
6.294.843.547
13
= 484.218.734
( ) ( )
2
Un metodo alternativo per il calcolo di σ2 σ = M X − ⎡M X ⎤
2 2
X ⎣ ⎦
Esempio:
L'età degli studenti del Corso di Statistica (Dati organizzati in una distribuzione di frequenza)
Età Frequenza 2 2
x x ·n
(x) (n)
18 6 324 1.944
19 51 361 18.411
20 73 400 29.200
21 41 441 18.081
22 21 484 10.164
23 16 529 8.464
24 11 576 6.336
25 8 625 5.000
TOT 227 3.740 97.600
µ=20,6696
( ) ( )
2
Un metodo alternativo per il calcolo di σ2 σ = M X − ⎡M X ⎤
2 2
X ⎣ ⎦
Esempio:
L'età degli studenti del Corso di Statistica (Dati organizzati in una distribuzione di frequenza)
Età Frequenza 2 2
x x ·n
( ) ( )
(x) (n) 2
σ = M X − ⎡M X ⎤
2 2
18 6 324 1.944 X ⎣ ⎦
19 51 361 18.411
( )
2
= 429,9559 − 20,6696
20 73 400 29.200
21 41 441 18.081 = 2,72
22 21 484 10.164
23 16 529 8.464 NOTA: In questo caso, avendo usato quattro
24 11 576 6.336 cifre decimali, il valore della varianza coincide
25 8 625 5.000 con quello calcolato usando la formula
"classica".
TOT 227 3.740 97.600
µ=20,6696 ( )
M X2 =
97.600
227
= 429,9559
Il coefficiente di variazione
Esempio:
Distribuzione dei pesi di 100 neo-mamme e dei 100 loro neonati
MAMME NEONATI
Qual è il carattere che risulta più variabile?
Peso Peso
n n
(kg) (kg)
45 - 50 4 1,5 - 2,0 5
50 - 55 12 2,0 - 2,5 12
55 - 60 22 2,5 - 3,0 25
60 - 65 40 3,0 - 3,5 35
65 - 70 19 3,5 - 4,0 18
70 - 75 3 4,0 - 4,5 5
TOT 100 TOT 100
Il coefficiente di variazione
Esempio:
Distribuzione dei pesi di 100 neo-mamme e dei 100 loro neonati
MAMME NEONATI
Qual è il carattere che risulta più variabile?
Peso Peso
n n
(kg) (kg) E’ chiaro che il confronto dei due sqm non avrebbe senso,
45 - 50 4 1,5 - 2,0 5 perché, pur essendo le variabili espresse nella stessa unità di
50 - 55 12 2,0 - 2,5 12 misura, le distribuzioni sono molto diverse in media, e,
55 - 60 22 2,5 - 3,0 25 dunque, uno scarto medio di 5,6kg da una media di 60kg
60 - 65 40 3,0 - 3,5 35 potrebbe essere meno rilevante di uno scarto medio di
65 - 70 19 3,5 - 4,0 18 0,6kg da una media di 3,1kg.
70 - 75 3 4,0 - 4,5 5 Occorre, quindi, relativizzare l’indice, renderlo indipendente
TOT 100 TOT 100 dalla sua unità di misura.
Il modo più semplice per rendere un indice indipendente
Media 60,9 Media 3,070
dall’unità di misura in cui è espresso, renderlo, cioè un
Var 31,53 Var 0,358 numero “puro”, adimensionale, è dividerlo per un altro
Sqm 5,6 Sqm 0,598 indice espresso nella stessa unità di misura.
Nel caso dello sqm, quest’indice è la media aritmetica. L’indice ottenuto dividendo lo sqm per la media
aritmetica è un indice adimensionale che prende il nome di Coefficiente di variazione.
σM 5,6 σN 0,598
CVMamme = = = 0,092 CVNeonati = = = 0,195
µM 60,9 µN 3,070
Il coefficiente di variazione
Esempio:
Distribuzione dei pesi di 100 neo-mamme e dei 100 loro neonati
MAMME NEONATI
Qual è il carattere che risulta più variabile?
Peso Peso
n n
(kg) (kg) L’indice ottenuto dividendo lo sqm per la media
45 - 50 4 1,5 - 2,0 5 aritmetica è un indice adimensionale che prende il nome
50 - 55 12 2,0 - 2,5 12 di Coefficiente di variazione.
55 - 60 22 2,5 - 3,0 25
Come era forse prevedibile, relativamente ai rispettivi
60 - 65 40 3,0 - 3,5 35
65 - 70 19 3,5 - 4,0 18
pesi medi, il peso dei neonati è più variabile del peso
delle mamme.
70 - 75 3 4,0 - 4,5 5
TOT 100 TOT 100 NOTA:
Il CV consente di confrontare la variabilità tra caratteri
Media 60,9 Media 3,070 espressi in unità di misura differenti o anche espressi nella
Var 31,53 Var 0,358 stessa unità di misura ma differenti in media. D’altra parte,
Sqm 5,6 Sqm 0,598 per le sue caratteristiche, in alcune situazioni può risultare
CV 0,092 CV 0,195 poco adatto o affidabile. Ricordiamo, infatti, che:
• Non ha senso per valori di µ<0;
• Non è definito per µ=0;
• Tende ad “esplodere” per µ≈0
1 n
.) Scostamento semplice dalla mediana: ………………. S Me = ∑ xi − Me ⋅ ni
n i=1
( )
∑ x −x i j
.) Differenza semplice media (Indice di mutua variabilità): …. Δ = i≠ j=1
n⋅ n −1 ( )
( )
Rete 3 1.524 2.322.576
( )
2
Rete 4 697 485.809 σ = M X − ⎡M X ⎤
2 2
X ⎣ ⎦
Rete 5 1.994 3.976.036
19.103.837
( )
2
Rete 6 1.798 3.232.804
= − 1.319,9 = 380.539
Rete 7 1.320 1.742.400 9
Rete 8 461 212.521
Rete 9 339 114.921
σ X = σ X2 = 380.539 = 616,9 mln
∑ x −x i j
Differenza semplice media: Δ= i≠ j=1
n⋅ n −1 ( )
LEZIONE 4 – GLI INDICI DI VARIABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Rete 1 1.889
n
∑ x −x
Rete 2 1.857
Rete 3 1.524 i j
Rete 4 697
Δ= i≠ j=1
Rete 5
Rete 6
Rete 7
1.994
1.798
1.320
( )
n⋅ n −1
Rete 8 461
Rete 9 339
TOT 11.879
Rete 1 1.889
n
∑ x −x
Rete 2 1.857
Rete 3 1.524 i j
Rete 4 697
Δ= i≠ j=1
Rete 5
Rete 6
Rete 7
1.994
1.798
1.320
n⋅ n −1 ( )
Rete 8 461
Rete 9 339
TOT 11.879
∑ (x − x ) = 0
Rete 1 0 32 365 1.192 -105 91 569 1.428 1.550 n
Rete 1 1.889
n
∑ x −x
Rete 2 1.857
Rete 3 1.524 i j
Rete 4 697
Δ= i≠ j=1
= 761,2
Rete 5
Rete 6
Rete 7
1.994
1.798
1.320
n⋅ n −1 ( )
Rete 8 461
Rete 9 339
TOT 11.879
E' possibile dimostrare che il massimo di D è pari a due volte la media aritmetica:
max ( Δ ) = 2µ
Si può, quindi, calcolare un indice normalizzato, R, compreso tra zero e uno e, dunque, di
immediata interpretazione, dividendo il valore ottenuto per il suo massimo (vedremo, più avanti, che
questo indice normalizzato è pari al coefficiente di concentrazione del Gini):
Δ 761,2
R= = = 0,288
2µ 2 ×1.319,9
Durata
(in secondi)
n Calcolare:
30 - 60 5
• la durata media
60 - 150 135 • la durata mediana
150 - 180 150 • la classe modale
180 - 300 570 • il primo e il terzo quartile
300 - 450 280 • la varianza (nei due modi studiati)
450 - 950 45 • lo scarto quadratico medio
TOT 1185 • il coefficiente di variazione
10,51 8,61 10,01 8,29 12,89 10,73 8,13 11,67 7,46 12,72 12,72 9,35
5,43 8,55 8,30 4,20 6,14 6,54 4,10 8,53 4,85 7,90 6,31 4,91
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 5:
La Concentrazione
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La concentrazione
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempio: il Reddito
qi i
1 pi = Frazione cumulata dei primi i redditieri
n
qn-1 Retta di
equiripartizione i
∑x j
j=1 Frazione cumulata del reddito posseduto
qi = n dai primi i redditieri
∑x j
j=1
Equiripartizione: pi = qi ∀i
q2
q1
p1 p2 … pn-1 1 pi
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempio: il Reddito
qi i
1 pi = Frazione cumulata dei primi i redditieri
n
qn-1 Retta di
equiripartizione i
∑x j
Frazione cumulata del reddito posseduto
ne
j=1
qi =
zio
j
nt
j=1
ce
on
Equiripartizione: pi = qi ∀i
C
q2
di
Spezzata di
Massima
a
massima
q1
∑
re
concentrazione
concentrazione: q1 = q2 = … = qn−1 = 0 ; qn = 1 xi
A
i
p1 p2 … pn-1 1 pi
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempio: il Reddito
qi i
1 pi = Frazione cumulata dei primi i redditieri
n
qn-1 Retta di
equiripartizione i
∑x j
j=1 Frazione cumulata del reddito posseduto
qi =
ne
∑x
tra
j
en
j=1
nc
co
Equiripartizione: pi = qi ∀i
di
a
re
Massima
∑
A
q2 concentrazione: q1 = q2 = … = qn−1 = 0 ; qn = 1 xi
q1
i
p1 p2 … pn-1 1 pi Situazioni reali: q1 ≤ q2 ≤ … ≤ qn ≤ 1
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempio: il Reddito
qn-1 Retta di
∑(p − q )
n−1
equiripartizione
i i
R= i=1
ne
n−1
∑p
zio
i
tra
i=1
en
nc
co
di
a
re
A
q2
q1
p1 p2 … pn-1 1 pi
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempio: il Reddito
qn-1 Retta di
∑(p − q )
n−1
equiripartizione
i i
R= i=1
ne
n−1
∑p
zio
i
tra
i=1
en
nc
equiripartizione.
A
q2
q1
pi − qi E’ una misura normalizzata della misura precedente, in
p1 p2 … pn-1 1 pi quanto ottenuta rapportando la stessa al suo massimo
pi valore possibile.
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempio: il Reddito
qn-1 Retta di
∑(p − q )
n−1
equiripartizione
i i Indice normalizzato
R= i=1
0 ≤ R ≤1
ne
n−1
∑ pi
zio
tra
i=1
en
2 n−1
∑
nc
Formula alternativa: R = 1− q1
co
n −1 i=1
di
a
re
A
q2
q1
p1 p2 … pn-1 1 pi
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
∑(p − q )
n−1
La concentrazione i i
2 n−1
R= i=1
n−1
= 1− ∑
n −1 i=1
q1
Esempio: ∑p i
Gli introiti pubblicitari per le principali TV nazionali (Modificato da Borra, Di Ciaccio, Statistica) i=1
Introiti
TV pubblicitari
(in milioni di euro)
Rete 1 1.889
Rete 2 1.857
Rete 3 1.524
Rete 4 697
Rete 5 1.994
Rete 6 1.798
Rete 7 1.320
Rete 8 461
Rete 9 339
TOT 11.879
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
∑(p − q )
n−1
La concentrazione i i
2 n−1
R= i=1
n−1
= 1− ∑
n −1 i=1
q1
Esempio: ∑p i
Gli introiti pubblicitari per le principali TV nazionali (Modificato da Borra, Di Ciaccio, Statistica) i=1
Introiti
TV pubblicitari
(in milioni di euro)
Individuiamo le pi e le qi
Rete 1 1.889
Rete 2 1.857
Rete 3 1.524 • Chi sono le pi ? Le TV
Rete 4 697 (i “possessori” del “bene”)
Rete 5 1.994
Rete 6 1.798 • Chi sono le qi ? Gli Introiti pubblicitari
(il “bene” da ripartire)
Rete 7 1.320
Rete 8 461
Hai ordinato i dati?
Rete 9 339 • Quanto vale p1 ?
TOT 11.879
• Quanto vale q1 ?
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
∑(p − q )
n−1
La concentrazione i i
2 n−1
R= i=1
n−1
= 1− ∑
n −1 i=1
q1
Esempio: ∑p i
Gli introiti pubblicitari per le principali TV nazionali (Modificato da Borra, Di Ciaccio, Statistica) i=1
Introiti
TV pubblicitari pi qi pi -qi
(in milioni di euro)
Individuiamo le pi e le qi
Rete 9 339 0,11 0,0285 0,0826
Rete 8 461 0,22 0,0673 0,1549
Rete 4 697 •0,33 0,1260
Chi sono le pi ? 0,2073 Le TV
Rete 7 1.320 0,44 0,2371 0,2073 (i “possessori” del “bene”)
Rete 3 1.524 0,56 0,3654 0,1901
Rete 6 1.798 •0,67
Chi sono le qi ?
0,5168 0,1499 Gli Introiti pubblicitari
(il “bene” da ripartire)
Rete 2 1.857 0,78 0,6731 0,1047
Rete 1 1.889 0,89 0,8321 0,0567
Rete 5 1.994 • Quanto vale p1 ?
11.879 4,00 2,8465 1,1535
• Quanto vale q1 ?
Tabella ordinata
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
∑(p − q )
n−1
La concentrazione i i
2 n−1
R= i=1
n−1
= 1− ∑
n −1 i=1
q1
Esempio: ∑p i
Gli introiti pubblicitari per le principali TV nazionali (Modificato da Borra, Di Ciaccio, Statistica) i=1
Introiti
TV pubblicitari pi qi pi -qi
(in milioni di euro)
Quanto vale p1 ?
Rete 9 339 0,11 0,0285 Il valore
0,0826
di pi esprime la frazione cumulata delle prime i
Rete 8 461 0,22 0,0673 TV più
0,1549
“povere” del carattere, ossia quelle che hanno
Rete 4 697 0,33 0,1260 meno introiti. Quindi, poiché le unità osservate sono le
0,2073
Rete 7 1.320 0,44 0,2371 singole TV e il totale delle TV è n=9, pi sarà uguale a:
0,2073
Rete 3 1.524 0,56 0,3654 i 1
0,1901
Rete 6 1.798 0,67 0,5168 p1 =0,1499
1
= = 0,11
9 9
Rete 2 1.857 0,78 0,6731 0,1047
Rete 1 1.889 0,89 0,8321 0,0567
Quanto vale p2 ?
Rete 5 1.994
Per p2 (e poi per tutte le pi successive) il discorso è
11.879 4,00 2,8465 analogo;
1,1535 bisogna solo ricordare che parliamo di
frazioni cumulate. Avremo, quindi:
i1 + i2 1+1
p2 = = = 0,22
9 9
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
∑(p − q )
n−1
La concentrazione i i
2 n−1
R= i=1
n−1
= 1− ∑
n −1 i=1
q1
Esempio: ∑p i
Gli introiti pubblicitari per le principali TV nazionali (Modificato da Borra, Di Ciaccio, Statistica) i=1
Introiti
TV pubblicitari pi qi pi -qQuanto
i vale q1 ?
(in milioni di euro)
Il valore di qi esprime la frazione cumulata
Rete 9 339 0,11 0,0285 0,0826
della quantità del carattere detenuto dalle
Rete 8 461 0,22 0,0673 0,1549
prime i reti più “povere”. Avremo quindi:
Rete 4 697 0,33 0,1260 0,2073 x1 339
Rete 7 1.320 0,44 0,2371 q1 =
0,2073 = = 0,0285
Rete 3 1.524 0,56 0,3654 0,1901 ∑x i
11.879
i
Rete 6 1.798 0,67 0,5168 0,1499
Rete 2 1.857 0,78 0,6731 0,1047
Rete 1 1.889 0,89 0,8321
Quanto
0,0567
vale q2 ?
Per q2 (e poi per tutte le qi successive) il
Rete 5 1.994
discorso è analogo; bisogna solo ricordare
11.879 4,00 2,8465 1,1535
che parliamo di quantità cumulate. Avremo,
quindi:
x1 + x2 339 + 461
q2 = = = 0,0673
∑x i
11.879
i
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
∑(p − q )
n−1
La concentrazione i i
2 n−1
R= i=1
n−1
= 1− ∑
n −1 i=1
q1
Esempio: ∑p i
Gli introiti pubblicitari per le principali TV nazionali (Modificato da Borra, Di Ciaccio, Statistica) i=1
Introiti
TV pubblicitari pi qi pi -qi
(in milioni di euro)
∑(p − q )
n−1
i i
1,1535 2 n−1 2
1 R= i=1
n−1
=
4
= 0,288 2 R = 1− ∑
n −1 i=1
q1 = 1− × 2,8465 = 1− 0,7116 = 0,288
8
∑p i
i=1
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
qn-1
ne
zio
tra
en
nc
co
di
ea
Ar
q3
q2
q1
p1 p2 … pn-1 1
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
i=0 2
zio
( )( )
tra
2 i=0 2
nc
co
qi+1
di
qi
di Concentrazione: Area massima
Ar
q2
q1
p1 p2 … pi pi+1 pn-1 1
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
qi
1
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
i=0 2
zio
( )( )
tra
2 i=0 2
nc
co
qi+1
di
qi
di Concentrazione: Area massima
Ar
q2
q1 1
!
p1 p2 … pi pi+1 pn-1 1 2
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
qi
1
n−1 q + q
Area di concentrazione: 1 − ∑ i i+1 (
⋅ pi+1 − pi )( )
2 i=0 2
qn-1
Rapporto di concentrazione:
ne
zio
( )( )
tra
11 n−1 qii ++ q
n−1 q qi+1 ⋅⋅ p
pi+1 −− p
pii
−− ∑
en
i+1 i+1
( )( )
n−1
n−1
nc
22 i=0 22
R ==
R i=0
1− ∑ q
== 1− qii ++ q
qi+1 ⋅⋅ p
pi+1 −− p
pii
co
i+1 i+1
qi+1 11 i=0
i=0
di
22
ea
qi
( ) ( )
n−1
Ar
Formula alternativa: R = ∑ ⎡ p × q − p × q ⎤
q2
q1 i=1
⎣ i i+1 i+1 i ⎦
p1 p2 … pi pi+1 pn-1 1
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempio:
La concentrazione degli addetti nelle Imprese italiane (da Borra, Di Ciaccio, Statistica; Dati in migliaia)
Classe Numero imprese Numero addetti Numero addetti
di addetti (x 1.000) (stimato) (reale)
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempio:
La concentrazione degli addetti nelle Imprese italiane (da Borra, Di Ciaccio, Statistica; Dati in migliaia)
Classe Numero imprese Numero addetti Numero addetti
di addetti (x 1.000) (stimato) (reale)
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempio:
La concentrazione degli addetti nelle Imprese italiane (da Borra, Di Ciaccio, Statistica; Dati in migliaia)
Classe Numero imprese Numero addetti Numero addetti Per esempio,
di addetti (x 1.000) (stimato) (reale) da rilevazioni ISTAT
0-2 2.043,0 2.043,0 2.718,3
3-9 636,0 3.816,0 2.845,6
10-19 103,2 1.496,4 1.352,0
Ovviamente, tra un dato stimato
20-49 43,4 1.497,3 1.281,2
e un dato reale, scegliamo il
50-99 11,8 879,1 808,7 dato reale.
100-499 8,3 2.485,9 1.588,3
500-999 0,8 599,6 529,4
TOT 2.847 12.817 11.124
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempio:
La concentrazione degli addetti nelle Imprese italiane (da Borra, Di Ciaccio, Statistica; Dati in migliaia)
Classe Numero Numero addetti pi · qi+1 pi+1· qi
pi qi a-b
di addetti imprese (reale) (a) (b)
0-2 2.043,0 2.718,3 0,7177 0,2444 0,3590 0,2300 0,1290
3-9 636,0 2.845,6 0,9412 0,5002 0,5852 0,4889 0,0963
10-19 103,2 1.352,0 0,9774 0,6217 0,7203 0,6172 0,1031
20-49 43,4 1.281,2 0,9927 0,7369 0,8037 0,7346 0,0691
50-99 11,8 808,7 0,9968 0,8096 0,9494 0,8094 0,1400
100-499 8,3 1.588,3 0,9997 0,9524 0,9997 0,9524 0,0473
500-999 0,8 529,4 1,0000 1,0000
TOT 2.847 11.124 / / 4,4172 3,8324 0,5848
Quanto vale p2? Per p2 (e poi per tutte le pi successive) il discorso è analogo; 2.043 + 636
bisogna solo ricordare che parliamo di frazioni cumulate. p2 = = 0,941
Quindi avremo:
2.847
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempio:
La concentrazione degli addetti nelle Imprese italiane (da Borra, Di Ciaccio, Statistica; Dati in migliaia)
Classe Numero Numero addetti pi · qi+1 pi+1· qi
pi qi a-b
di addetti imprese (reale) (a) (b)
0-2 2.043,0 2.718,3 0,7177 0,2444 0,3590 0,2300 0,1290
3-9 636,0 2.845,6 0,9412 0,5002 0,5852 0,4889 0,0963
10-19 103,2 1.352,0 0,9774 0,6217 0,7203 0,6172 0,1031
20-49 43,4 1.281,2 0,9927 0,7369 0,8037 0,7346 0,0691
50-99 11,8 808,7 0,9968 0,8096 0,9494 0,8094 0,1400
100-499 8,3 1.588,3 0,9997 0,9524 0,9997 0,9524 0,0473
500-999 0,8 529,4 1,0000 1,0000
TOT 2.847 11.124 / / 4,4172 3,8324 0,5848
Quanto vale q1? Il valore di qi esprime la frazione cumulata della quantità 2.718,3
q1 = = 0,244
del carattere (gli addetti) detenuto dalle prime i imprese 11.124
più “povere”. Avremo quindi:
Quanto vale q2? Per p2 (e poi per tutte le pi successive) il discorso è analogo; 2.718,3 + 2.845,6
bisogna solo ricordare che parliamo di frazioni cumulate.
q2 =
11.124
Quindi avremo:
= 0,500
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempio:
La concentrazione degli addetti nelle Imprese italiane (da Borra, Di Ciaccio, Statistica; Dati in migliaia)
Classe Numero Numero addetti pi · qi+1 pi+1· qi
pi qi a-b
di addetti imprese (reale) (a) (b)
0-2 2.043,0 2.718,3 0,7177 0,2444 0,3590 0,2300 0,1290
3-9 636,0 2.845,6 0,9412 0,5002 0,5852 0,4889 0,0963
10-19 103,2 1.352,0 0,9774 0,6217 0,7203 0,6172 0,1031
20-49 43,4 1.281,2 0,9927 0,7369 0,8037 0,7346 0,0691
50-99 11,8 808,7 0,9968 0,8096 0,9494 0,8094 0,1400
100-499 8,3 1.588,3 0,9997 0,9524 0,9997 0,9524 0,0473
500-999 0,8 529,4 1,0000 1,0000
TOT 2.847 11.124 / / 4,4172 3,8324 0,5848
( ) ( )
n−1
R = ∑ ⎡ pi × qi+1 − p+1 × qi ⎤
i=1
⎣ ⎦
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempio:
La concentrazione degli addetti nelle Imprese italiane (da Borra, Di Ciaccio, Statistica; Dati in migliaia)
Classe Numero Numero addetti pi · qi+1 pi+1· qi
pi qi a-b
di addetti imprese (reale) (a) (b)
0-2 2.043,0 2.718,3 0,7177 0,2444 0,3590 0,2300 0,1290
3-9 636,0 2.845,6 0,9412 0,5002 0,5852 0,4889 0,0963
10-19 103,2 1.352,0 0,9774 0,6217 0,7203 0,6172 0,1031
20-49 43,4 1.281,2 0,9927 0,7369 0,8037 0,7346 0,0691
50-99 11,8 808,7 0,9968 0,8096 0,9494 0,8094 0,1400
100-499 8,3 1.588,3 0,9997 0,9524 0,9997 0,9524 0,0473
500-999 0,8 529,4 1,0000 1,0000
TOT 2.847 11.124 / / 4,4172 3,8324 0,5848
( ) ( )
n−1
R = ∑ ⎡ pi × qi+1 − p+1 × qi ⎤ = 0,585
i=1
⎣ ⎦
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Scientifica 174.463
Medica 229.138
Ingegneria 338.686
Economico-Statistica 394.174
Giuridica 431.252
Letteraria 196.204
Altra 30.195
TOT 1.794.112
Si determini una misura della concentrazione degli iscritti nelle varie aree di studio.
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
0-1.000 2.275.202
1.000-2.000 1.211.674
2.000-5.000 2.556.592
5.000-10.000 7.804.113
10-000-20.000 13.355.976
20.000-40.000 11.117.210
40.000-60.000 1.651.195
60.000-100-000 888.064
100.000-200.000 320.852
Oltre 200.000 77.273
TOT 41.258.151
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli
Federico II
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 6:
Miscellanea
(Boxplot; Indici di forma; Numeri indici semplici)
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Media=Mediana=Moda Media=Mediana=Moda
Moda<Mediana<Media Media<Mediana<Moda
µ − Me
Indice di asimmetria relativo: I1 =
σ
I valori "anomali"
Età Frequenza
25 3 Media= 28,5 anni
26 6 Q1= 26 anni
27 8
28 5
Mediana= 27 anni
29 5 Q3= 29 anni
30 3
61 1
TOT 31
Valori anomali:
La caratterizzazione di un valore come “anomalo” è, ovviamente, assolutamente arbitraria; non
esistono criteri “oggettivi” per definire un valore come anomalo. D’altra parte, è chiaro che un
valore anomalo si troverà nelle code della distribuzione ordinata, quindi o molto più a destra di Q3 o
molto più a sinistra di Q1.
I valori "anomali"
Età Frequenza
25 3 Media= 28,5 anni
26 6 Q1= 26 anni
27 8
28 5
Mediana= 27 anni
29 5 Q3= 29 anni
30 3 DI = Differenza interquartile (Q3-Q1) = 3 anni
61 1
TOT 31
Valori anomali:
La caratterizzazione di un valore come “anomalo” è, ovviamente, assolutamente arbitraria; non
esistono criteri “oggettivi” per definire un valore come anomalo. D’altra parte, è chiaro che un
valore anomalo si troverà nelle "code" della distribuzione ordinata, quindi o molto più a destra di Q3
o molto più a sinistra di Q1.
Un metodo empirico generalmente accettato definisce questa distanza come un multiplo della
differenza interquartile (Q3-Q1).
Più precisamente, un dato viene considerato come anomalo se si trova a sinistra di Q1 o a destra
di Q3 per più di 1,5 volte la differenza interquartile.
Nel nostro esempio questi limiti valgono rispettivamente:
( ) (
Q1 − 1,5 × DI = 26 − 1,5 × 3 = 21,5 ) ( ) (
Q3 + 1,5 × DI = 29 − 1,5 × 3 = 33,5 )
da cui risulta che non ci sono valori anomali nella coda sinistra (non ci sono valori inferiori a 21, 5 anni),
mentre se ne trova uno nella coda destra (61 anni).
31
Min Q1 Q2 Q3 Max
24 25 26 27 28 29 30 31 20 30 40 50 60 70
30
%
20
10
0
24 25 26 27 28 29 30 31 25 26 27 28 29 30
Esempi di Boxplot
(Indagine del Sole 24ore sulla "Qualità della vita" nelle Province italiane, anno 2007)
Esempi di Boxplot
(Indagine del Sole 24ore sulla "Qualità della vita" nelle Province italiane, anno 2007)
Reddito p.c. (in €, per Zona geografica) Sale cinematografiche (per 100mila ab., per Zona)
Esempi di Boxplot
(Indagine del Sole 24ore sulla "Qualità della vita" nelle Province italiane, anno 2007)
Reddito p.c. e Consumi p.c. (in €) Reddito p.c. e Consumi p.c. (in €, per Zona geografica)
(mld di euro)
PIL ITALIA PIL EU27
(mld di €) (mld di €)
2007 1.614,8 11.313,1
2008 1.637,7 11.369,7
2009 1.577,3 10.880,8
2010 1.611,3 11.120,2
2011 1.648,8 11.322,5
2012 1.624,4 11.388,9
2013 1.612,8 11.516,9
2014 1.627,4 11.781,4
2015 1.655,4 12.211,5
2016 1.695,8 12.550,2
2017 1.736,6 13.066,3
2018 1.771,6 13.519,8
(mld di euro)
PIL ITALIA PIL EU27 Scegliendo un anno t come riferimento, è possibile ridefinire tutti i
(mld di €) (mld di €) valori come rapporti percentuali, mediante la trasformazione:
2007 1.614,8 11.313,1 yi
2008 1.637,7 11.369,7 y i* = *100
yt
2009 1.577,3 10.880,8
2010 1.611,3 11.120,2 1.614,8 * 11.313,1
y IT* ,2007 = ×100 = 97,9 y EU27,2007 = ×100 = 99,9
2011 1.648,8 11.322,5 1.648,8 11.322,5
2012 1.624,4 11.388,9 1.637,7 11.369,7
y IT* ,2008 = ×100 = 99,3 *
y EU27,2008 = ×100 = 100,4
2013 1.612,8 11.516,9 1.648,8 11.322,5
2014 1.627,4 11.781,4 : :
2015 1.655,4 12.211,5 : :
2016 1.695,8 12.550,2
2017 1.736,6 13.066,3
2018 1.771,6 13.519,8
La serie risultante non dipende più dall'unità di misura, essendo costituita da rapporti tra due numeri espressi nella
stessa unità di misura.
Sarà, dunque, possibile confrontare sia serie dello stesso fenomeno osservate su unità diverse (per esempio, il
confronto tra le serie del PIL nei diversi Paesi dell'UE) sia serie riguardanti fenomeni espressi in unità di misura diverse
(per esempio, le serie del PIL tra Paesi con unità monetarie diverse).
La serie risultante non dipende più dall'unità di misura, essendo costituita da rapporti tra due numeri espressi nella
stessa unità di misura.
Sarà, dunque, possibile confrontare sia serie dello stesso fenomeno osservate su unità diverse (per esempio, il
confronto tra le serie del PIL nei diversi Paesi dell'UE) sia serie riguardanti fenomeni espressi in unità di misura diverse
(per esempio, le serie del PIL tra Paesi con unità monetarie diverse).
(2011=100)
PIL ITALIA PIL EU27
(2011=100) (2011=100)
2007 97,9 99,9
2008 99,3 100,4
2009 95,7 96,1
2010 97,7 98,2
2011 100,0 100,0
2012 98,5 100,6
2013 97,8 101,7
2014 98,7 104,1
2015 100,4 107,9
2016 102,9 110,8
2017 105,3 115,4
2018 107,4 119,4
(mld di euro)
2011 2012 2013 2014 2015 2016 2017 2018 2019 2020
EU27 11.322,5 11.388,9 11.516,9 11.781,4 12.211,5 12.550,2 13.066,3 13.519,8 13.983,5 13.348,7
Austria 310,1 318,7 323,9 333,1 344,3 357,6 369,3 385,4 397,6 377,3
Belgium 376,0 386,2 392,9 403,0 416,7 430,1 445,1 460,4 476,3 451,2
Bulgaria 41,3 42,0 41,9 42,9 45,7 48,6 52,3 56,1 61,2 60,6
Croatia 44,9 44,0 43,8 43,4 44,6 46,6 49,2 52,0 54,2 49,3
Cyprus 19,8 19,4 18,0 17,4 17,9 18,9 20,1 21,4 22,3 20,8
Czechia 165,2 162,6 159,5 157,8 169,6 177,4 194,1 210,9 225,6 215,3
Denmark 247,9 254,6 258,7 265,8 273,0 283,1 294,8 302,3 310,5 312,5
Estonia 16,8 18,1 19,0 20,2 20,8 21,9 23,9 25,9 28,1 27,2
Finland 198,0 201,0 204,3 206,9 211,4 217,5 226,3 233,5 240,1 236,2
France 2.058,4 2.088,8 2.117,2 2.149,8 2.198,4 2.234,1 2.297,2 2.363,3 2.437,6 2.302,9
Germany 2.693,6 2.745,3 2.811,4 2.927,4 3.026,2 3.134,7 3.267,2 3.367,9 3.473,4 3.367,6
Greece 203,3 188,4 179,6 177,3 176,1 174,2 177,2 179,7 183,4 165,8
Hungary 102,0 100,0 102,0 106,1 112,7 116,1 126,9 135,9 146,1 135,9
Ireland 171,7 175,5 179,4 194,9 262,8 270,1 296,9 326,0 356,5 372,9
Italy 1.648,8 1.624,4 1.612,8 1.627,4 1.655,4 1.695,8 1.736,6 1.771,6 1.790,9 1.651,6
Latvia 20,3 22,2 23,0 23,6 24,6 25,4 27,0 29,1 30,4 29,3
Lithuania 31,3 33,4 35,0 36,6 37,3 38,9 42,3 45,5 48,8 48,9
Luxembourg 43,2 44,1 46,5 49,8 52,1 54,9 56,8 60,1 63,5 64,1
Malta 6,9 7,4 7,9 8,8 10,0 10,6 11,7 12,6 13,6 12,7
Netherlands 650,4 653,0 660,5 671,6 690,0 708,3 738,1 774,0 813,1 800,1
Poland 379,9 387,9 392,3 409,0 430,5 427,1 467,4 497,8 533,6 523,0
Portugal 176,1 168,3 170,5 173,1 179,7 186,5 195,9 205,2 213,9 202,4
Romania 131,8 132,7 143,7 150,7 160,1 170,1 187,8 204,5 223,0 218,2
Slovakia 71,3 73,6 74,4 76,3 79,8 81,1 84,5 89,4 93,9 91,6
Slovenia 37,1 36,3 36,5 37,6 38,9 40,4 43,0 45,9 48,4 46,3
Spain 1.063,8 1.031,1 1.020,3 1.032,2 1.077,6 1.113,8 1.161,9 1.204,2 1.244,8 1.121,7
Sweden 412,8 430,0 441,9 438,8 455,5 466,3 480,0 470,7 476,9 474,7
(2011=100)
2011 2012 2013 2014 2015 2016 2017 2018 2019 2020
EU27 100,0 100,6 101,7 104,1 107,9 110,8 115,4 119,4 123,5 117,9
Austria 100,0 102,7 104,4 107,4 111,0 115,3 119,1 124,3 128,2 121,7
Belgium 100,0 102,7 104,5 107,2 110,8 114,4 118,4 122,4 126,7 120,0
Bulgaria 100,0 101,9 101,5 103,9 110,7 117,9 126,8 136,0 148,4 146,9
Croatia 100,0 98,0 97,5 96,6 99,3 103,8 109,6 115,6 120,7 109,7
Cyprus 100,0 98,2 90,9 88,0 90,3 95,6 101,6 108,2 112,5 105,2
Czechia 100,0 98,4 96,5 95,5 102,6 107,4 117,5 127,7 136,5 130,3
Denmark 100,0 102,7 104,4 107,2 110,1 114,2 118,9 122,0 125,3 126,1
Estonia 100,0 107,3 113,1 119,9 123,5 130,3 141,8 154,1 167,0 161,4
Finland 100,0 101,5 103,2 104,5 106,8 109,9 114,3 117,9 121,3 119,3
France 100,0 101,5 102,9 104,4 106,8 108,5 111,6 114,8 118,4 111,9
Germany 100,0 101,9 104,4 108,7 112,3 116,4 121,3 125,0 129,0 125,0
Greece 100,0 92,7 88,3 87,2 86,6 85,7 87,1 88,4 90,2 81,6
Hungary 100,0 98,0 100,0 104,0 110,5 113,8 124,4 133,2 143,2 133,2
Ireland 100,0 102,2 104,5 113,5 153,1 157,3 172,9 189,9 207,7 217,2
Italy 100,0 98,5 97,8 98,7 100,4 102,9 105,3 107,4 108,6 100,2
Latvia 100,0 109,4 113,1 116,3 120,9 124,9 132,8 143,5 149,8 144,4
Lithuania 100,0 106,7 111,9 116,8 119,2 124,2 135,0 145,3 155,9 156,2
Luxembourg 100,0 102,2 107,7 115,4 120,6 127,1 131,6 139,1 147,1 148,6
Malta 100,0 106,4 114,7 126,4 144,4 152,6 169,2 181,9 196,3 183,4
Netherlands 100,0 100,4 101,6 103,3 106,1 108,9 113,5 119,0 125,0 123,0
Poland 100,0 102,1 103,3 107,7 113,3 112,4 123,1 131,1 140,5 137,7
Portugal 100,0 95,6 96,8 98,3 102,1 105,9 111,3 116,5 121,5 115,0
Romania 100,0 100,7 109,0 114,3 121,5 129,0 142,4 155,1 169,1 165,5
Slovakia 100,0 103,2 104,4 107,0 111,9 113,7 118,5 125,3 131,7 128,4
Slovenia 100,0 97,8 98,4 101,6 104,8 109,1 116,1 123,8 130,6 124,9
Spain 100,0 96,9 95,9 97,0 101,3 104,7 109,2 113,2 117,0 105,4
Sweden 100,0 104,2 107,0 106,3 110,3 112,9 116,3 114,0 115,5 115,0
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 7:
Associazione tra caratteri
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Le distribuzioni doppie
20
10-15mila 300 350 100 0 0 750
20-25mila 150 300 550 150 0 1.150
25-40mila 50 400 900 700 0 2.050
40-100mila 0 50 100 300 50 500
TOT 950 1.200 1.650 1.150 50 5.000
Le distribuzioni doppie
20
10-15mila 300 350 100 0 0 750 Distribuzione marginale
20-25mila 150 300 550 150 0 1.150 della X
25-40mila 50 400 900 700 0 2.050
40-100mila 0 50 100 300 50 500
TOT 950 1.200 1.650 1.150 50 5.000
Distribuzione marginale della Y
Le distribuzioni doppie
20
10-15mila 300 350 100 0 0 750 Distribuzione
condizionata della Y,
20-25mila 150 300 550 150 0 1.150
per X=10-15mila€
25-40mila 50 400 900 700 0 2.050
40-100mila 0 50 100 300 50 500
TOT 950 1.200 1.650 1.150 50 5.000
Lo studio dell’associazione
Caratteri
2 2 1 variabile
Approccio mutabili variabili 1 mutabile
Simmetrico
(Interdipendenza) ? ? ?
Asimmetrico
(Dipendenza) ? ? ?
Nell'approccio "simmetrico", si studia come due caratteri si influenzano
reciprocamente, in una relazione, quindi, di interdipendenza, o dipendenza reciproca;
Nell'approccio "asimmentrico", invece, si studia come uno dei due caratteri influenzi
l'altro; si dà, cioè, una "direzione" alla relazione, che non sarà più una relazione di
interdipendenza ma di dipendenza di una variabile dall'altra.
Lo studio dell’associazione
Simmetrico
(Interdipendenza) ?
Asimmetrico
(Dipendenza)
Simbologia
Voto all'esame
Basso Medio Alto TOT c
Tizio 13 33 38 84 ni. = ∑ nij
Docente
nij r c
Generico elemento, n.. = ∑ ∑ nij
di riga i e colonna j. i=1 j=1
r
Totale delle frequenze.
n. j = ∑ nij
E ʼ la somma delle frequenze di tutte le
celle, o anche la somma degli elementi dei
i=1 marginali di riga o di quelli dei marginali di
j-esimo elemento del marginale di colonna. colonna.
Eʼ la somma delle frequenze delle modalità di
tutte le righe relativamente alla sola modalità
di posto j della variabile in colonna.
Tabella di contingenza
Voto all'esame
Basso Medio Alto TOT
Tizio 13 33 38 84
Docente
E’ possibile affermare, sulla base dei valori osservati in tabella, che esiste una
relazione tra il docente e il voto?
Messa in altri termini, se voi doveste sostenere questo esame, a cui volete avere un
voto alto, e vi fosse consentito scegliere il docente, quale docente scegliereste?
L'indice chi-quadrato
( n − n̂ )
2
= ∑∑
ij ij
χ 2
i j n̂ij
(13 − 28,3) + (33 − 36,1) + (38 −19,6) + (38 − 60,6) + (102 − 77,3) + (40 − 42,1) + (90 − 52,2) + (45 − 66,6) + (20 − 36,3)
2 2 2 2 2 2 2 2 2
=
28,3 36,1 19,6 60,6 77,3 42,1 52,2 66,6 36,3
L'indice chi-quadrato
( n − n̂ )
2
= ∑∑
ij ij
χ 2
= 83,78 Qual è la sua interpretazione?
i j n̂ij
L’indice chi-quadrato è un indice assoluto, che dipende dal numero di osservazioni e dalle dimensioni
della tabella e, quindi, risulta di difficile interpretazione. Molto meglio sarebbe un indice normalizzato,
con un campo di variazione indipendente dalle dimensioni della tabella e dal numero di osservazioni.
La normalizzazione di un indice positivo è molto semplice, se se ne conosce il valore massimo, risultando,
infatti, pari al rapporto tra il valore dell’indice e, appunto, il suo valore massimo.
( )
Max χ 2 = n × min ⎡ r −1 ; c −1 ⎤
⎣ ⎦ ( )( )
LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
L'indice chi-quadrato
( n − n̂ )
2
= ∑∑
ij ij
χ 2
= 83,78
i j n̂ij
( ) ( )( )
Max χ 2 = n × min ⎡ r −1 ; c −1 ⎤ = 419 ✕ 2 = 838
⎣ ⎦
χ2 83,78
Indice normalizzato V di Cramer: V= = = 0,316
( )
Max χ 2 838
L’indice Φ di Fisher è un indice molto utilizzato quando almeno una delle due dimensioni
della tabella (righe o colonne) risulti pari a 2; in questo caso, infatti, l’indice Φ risulta
normalizzato.
Quando entrambe le dimensioni della tabella sono >2 (come nel nostro esempio), l’indice
Φ non ha molto senso e si preferisce di gran lunga il V di Cramer.
χ2
Φ=
?
n
χ2 83,78
Nel nostro esempio: Φ = = = 0,447
n 419
Esempio 2
Consideriamo ancora i 419 studenti dell'esempio precedente e l'esame da loro svolto, ma
supponiamo che, invece di distinguere gli studenti rispetto al docente con cui hanno
sostenuto l'esame, li dividessimo in base al giorno della settimana (lunedì, martedì o
mercoledì) in cui lo hanno sostenuto.
Cosa ci aspettiamo dall'indice di associazione?
Basso Medio Alto TOT
Lunedì 53 68 39 160
Martedì 41 53 26 120
Mercoledì 47 59 33 139
TOT 141 180 98 419
Esempio 2
Consideriamo ancora i 419 studenti dell'esempio precedente e l'esame da loro svolto, ma
supponiamo che, invece di distinguere gli studenti rispetto al docente con cui hanno
sostenuto l'esame, li dividessimo in base al giorno della settimana (lunedì, martedì o
mercoledì) in cui lo hanno sostenuto.
Cosa ci aspettiamo dall'indice di associazione?
Tabella delle frequenze osservate Tabella delle frequenze teoriche
Basso Medio Alto TOT Basso Medio Alto TOT
Lunedì 53 68 39 160 Lunedì 53,8 68,7 37,4 160
% 33,1% 42,5% 24,4% 100,0% % 33,7% 43,0% 23,4% 100,0%
Martedì 41 53 26 120 Martedì 40,4 51,6 28,1 120
% 34,2% 44,2% 21,7% 100,0% % 33,7% 43,0% 23,4% 100,0%
Mercoledì 47 59 33 139 Mercoledì 46,8 59,7 32,5 139
% 33,8% 42,4% 23,7% 100,0% % 33,7% 43,0% 23,4% 100,0%
TOT 141 180 98 419 TOT 141 180 98 419
% 33,7% 43,0% 23,4% 100,0% % 33,7% 43,0% 23,4% 100,0%
c2 = 0,31 V= 0,019
Esempio 3
382 laureati sui quali sono stati osservati il Voto di laurea e la Frequenza alle lezioni
Voto di laurea
<96 96-105 106-110 110 e lode TOT
Frequenza
<30% 43 82 29 13 167
30-50% 27 68 31 33 159
>50% 0 19 13 24 56
TOT 70 169 73 70 382
Esempio 3
382 laureati sui quali sono stati osservati il Voto di laurea e la Frequenza alle lezioni
( n − n̂ )
2
χ 2
= ∑∑
ij
n̂ij
ij
= 47,56 ( ) ⎣ ( )( )
Max χ 2 = n × min ⎡ r −1 ; c −1 ⎤
⎦
i j
χ2 47,56
V= = = 0,249
Max χ 2 ( ) 382 × 2
Lo studio dell’associazione
Simmetrico χ2 ; V
(Interdipendenza)
Φ
Asimmetrico
(Dipendenza) ?
(
P Voto medio = ) 180
419
= 0,430 ( )
P Errore = 1− 0,430 = 0,570
(
P Voto medio = ) 180
419
= 0,430 ( )
P Errore = 1− 0,430 = 0,570
Ma se sulla sua cartella leggiamo “Appunti delle lezioni del prof. Sempronio” ?…
In questo caso abbiamo delle informazioni ulteriori, che potrebbero portarci a ”correggere” la
scelta precedente. Il ragionamento è analogo a quanto fatto in precedenza (scelta della
modalità modale) ma l’insieme dei casi possibili è ora costituito dai soli studenti che hanno
sostenuto l’esame con il prof. Sempronio (distribuzione condizionata).
(
P Voto medio = ) 180
419
= 0,430 ( )
P Errore = 1− 0,430 = 0,570
Ma se sulla sua cartella leggiamo “Appunti delle lezioni del prof. Sempronio”?…
In questo caso abbiamo delle informazioni ulteriori, che potrebbero portarci a ”correggere” la
scelta precedente. Il ragionamento è analogo a quanto fatto in precedenza (scelta della
modalità modale) ma l’insieme dei casi possibili è ora costituito dai soli studenti che hanno
sostenuto l’esame con il prof. Sempronio (distribuzione condizionata).
L’informazione sulla seconda mutabile
(
P Voto medio =
90
155
= 0,581 ) ( )
P Errore = 1− 0,581= 0,419 (il docente) migliora, dunque, la
prevedibilità della prima (l’esito
dell’esame).
Gli indici “asimmetrici” per lo studio della dipendenza di una mutabile da unʼaltra (il più
importante dei quali è probabilmente l’indice lamda di Goodman e Kruskal) misurano il
miglioramento apportato dalla conoscenza di un carattere X nella prevedere i valori di un
carattere Y.
Quanto più è forte la dipendenza tra i caratteri, tanto più la conoscenza di uno consentirà
di prevedere lʼaltro ( 0 ≤ λ ≤1), fino alla situazione di dipendenza “massima” in cui la
conoscenza di un carattere implica la previsione dell’altro senza possibilità di errore (l=1);
dʼaltra parte, se i due caratteri sono indipendenti, la conoscenza di uno non fornisce
alcuna informazione sui valori dell’altro, e quindi non ne migliora la prevedibilità (l=0).
Sorte
Deceduti Sopravvissuti TOT
Prima 122 203 325
Classe
La tabella riporta le conseguenze del naufragio del Titanic (14 aprile 1912),
incrociando la Sorte dei passeggeri con il Tipo di sistemazione sulla nave.
Si definisca una misura appropriata della eventuale associazione tra i caratteri.
La tabella riporta gli incroci tra il titolo di studio degli uomini e delle donne che hanno
contratto matrimonio in Italia nel 2012 (Fonte: Istat).
Si definisca una misura appropriata della eventuale associazione tra i caratteri.
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 8:
La Correlazione
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Lo studio dell’associazione
χ2 ; V
Simmetrico
(Interdipendenza)
Φ
?
Asimmetrico
(Dipendenza)
l
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
Distribuzione del Reddito pro capite e dei Consumi per beni
durevoli nelle 110 province italiane (Anno 2017, Sole 24ore) È possibile calcolare l'associazione tra
Reddito Consumi variabili quantitative utilizzando gli indici
Provincia pro capite beni durevoli che abbiamo definito per le mutabili?
(€ x1.000) (€)
AG 13,5 1.378
AL
AN
24,6
26,5
2.627
2.452 SI.
AO 31,4 2.671 Ricordando, infatti, lo schema della “gerarchia
AR 25,4 2.625 informativa” dei caratteri, possiamo
AP 22,9 2.401
trasformare le variabili in mutabili ordinabili,
AT 22,6 2.505
AV 15,1 1.598 definendo delle classi di valori, e utilizzare gli
BA 18,4 1.838 indici di associazione tra mutabili che
BT 13,6 1.493 conosciamo.
BL 29,1 2.590
BN 14,1 1.595
BG 27,8 2.617
: : :
: : :
VR 28,8 2.842
VV 13,8 1.620
VI 29,1 2.794
VT 18,4 2.004
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
Distribuzione del Reddito pro capite e
dei Consumi per beni durevoli nelle 110 È possibile calcolare l'associazione tra variabili quantitative
province italiane (Anno 2017, Sole 24ore)
utilizzando gli indici che abbiamo definito per le mutabili?
Reddito Consumi
Provincia pro capite beni durevoli
AG
(€ x1.000)
13,5
(€)
1.378
SI.
AL 24,6 2.627
Ricordando, infatti, lo schema della “gerarchia informativa” dei caratteri,
AN 26,5 2.452 possiamo trasformare le variabili in mutabili ordinabili, definendo delle classi di
AO 31,4 2.671 valori, e utilizzare gli indici di associazione tra mutabili che conosciamo.
AR 25,4 2.625
AP 22,9 2.401
AT 22,6 2.505
AV 15,1 1.598
BA 18,4 1.838
BT 13,6 1.493
BL 29,1 2.590
BN 14,1 1.595
BG 27,8 2.617
: : :
: : :
VR 28,8 2.842
VV 13,8 1.620
VI 29,1 2.794
VT 18,4 2.004
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
Distribuzione del Reddito pro capite e
dei Consumi per beni durevoli nelle 110 È possibile calcolare l'associazione tra variabili quantitative
province italiane (Anno 2017, Sole 24ore)
utilizzando gli indici che abbiamo definito per le mutabili?
Reddito Consumi
Provincia pro capite beni durevoli
AG
(€ x1.000)
13,5
(€)
1.378
SI.
AL 24,6 2.627
Ricordando, infatti, lo schema della “gerarchia informativa” dei caratteri,
AN 26,5 2.452 possiamo trasformare le variabili in mutabili ordinabili, definendo delle classi di
AO 31,4 2.671 valori, e utilizzare gli indici di associazione tra mutabili che conosciamo.
AR 25,4 2.625
AP 22,9 2.401
AT 22,6 2.505
AV 15,1 1.598
BA 18,4 1.838
BT 13,6 1.493
BL 29,1 2.590
Ma possiamo fare
BN 14,1 1.595
BG 27,8 2.617
: : :
molto meglio
: : :
VR 28,8 2.842
VV 13,8 1.620
VI 29,1 2.794
VT 18,4 2.004
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
Distribuzione del Reddito pro capite e dei Consumi
per beni durevoli nelle 110 province italiane.
(Anno 2017, Sole 24ore)
Reddito Consumi
Provincia pro capite beni durevoli
(€ x1.000) (€)
AG 13,5 1.378
AL 24,6 2.627 Diagramma di dispersione
AN 26,5 2.452
AO 31,4 2.671
AR 25,4 2.625
AP 22,9 2.401
AT 22,6 2.505
AV 15,1 1.598
BA 18,4 1.838
BT 13,6 1.493
BL 29,1 2.590
BN 14,1 1.595
BG 27,8 2.617
: : :
: : :
VR 28,8 2.842
VV 13,8 1.620
VI 29,1 2.794
VT 18,4 2.004
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
Distribuzione del Reddito pro capite e dei Consumi
per beni durevoli nelle 110 province italiane.
(Anno 2017, Sole 24ore)
Reddito Consumi
Provincia pro capite beni durevoli
(€ x1.000) (€)
AG 13,5 1.378
AL 24,6 2.627 Diagramma di dispersione
AN 26,5 2.452
AO 31,4 2.671
AR 25,4 2.625
II I
AP 22,9 2.401
AT 22,6 2.505
AV 15,1 1.598
BA 18,4 1.838
BT 13,6 1.493
BL 29,1 2.590
BN 14,1 1.595 III IV
BG 27,8 2.617
: : :
: : :
VR 28,8 2.842
VV 13,8 1.620
VI 29,1 2.794
VT 18,4 2.004
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
Distribuzione del Reddito pro capite e dei Consumi
per beni durevoli nelle 110 province italiane.
(Anno 2017, Sole 24ore)
Reddito Consumi
Provincia pro capite beni durevoli
(€ x1.000) (€)
AG 13,5 1.378 Diagramma di dispersione
AL 24,6 2.627
AN 26,5 2.452 II I
AO 31,4 2.671
AR 25,4 2.625
AP 22,9 2.401
AT 22,6 2.505
III IV
AV 15,1 1.598
BA 18,4 1.838
BT 13,6 1.493
BL 29,1 2.590
BN 14,1 1.595
BG 27,8 2.617
∑( x − x ) ⋅ (y )
n
: : : −y
( ) ( )( ) ( )
n i i
: : :
VR 28,8 2.842 Cod XY = ∑ xi − x ⋅ y i − y Cov XY = i=1
i=1 n
VV 13,8 1.620
VI 29,1 2.794
VT 18,4 2.004
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
Distribuzione del Reddito pro capite e dei Consumi
per beni durevoli nelle 110 province italiane.
(Anno 2017, Sole 24ore)
Reddito Consumi
X-M(X) Y-M(Y)
Provincia pro capite beni durevoli Ax B
(A) (B)
(€ x1.000) (€)
( ) ( )( )
n
Cod XY = ∑ xi − x ⋅ y i − y
AG 13,5 1.378 -9,1 -849 7.746,7
AL 24,6 2.627 2,0 400 790,2
AN 26,5 2.452 3,9 225 872,0 i=1
∑( x − x ) ⋅ (y )
n
AP 22,9 2.401 0,3 174 47,9
−y
( )
AT 22,6 2.505 0,0 278 -6,8 i i
AV 15,1 1.598 -7,5 -629 4.732,9 Cov XY = i=1
NOTA: Ricordo che i valori nelle tabelle sono valori arrotondati, quindi diversi dai valori reali. Ad esempio, la differenza X-M(X) per la provincia
di Asti (AT) vale -0,0245454545454464, valore che, arrotondato, diventa 0,0 (senza il segno "-", perché lo zero non ha segno). Il prodotto tra il
valore reale e la differenza Y-M(Y) dà il valore riportato nell'ultima colonna.
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
Distribuzione del Reddito pro capite e dei Consumi per beni durevoli
nelle 110 province italiane.
(Anno 2017, Sole 24ore)
Reddito Consumi
X-M(X) Y-M(Y)
Provincia pro capite beni durevoli Ax B
(A) (B)
(€ x1.000) (€)
AG 13,5 1.378 -9,1 -849 7.746,7
AL 24,6 2.627 2,0 400 790,2
( ) ( )( )
AN 26,5 2.452 3,9 225 872,0 n
AO
AR
31,4
25,4
2.671
2.625
8,8
2,8
444
398
3.896,3
1.104,6
Cod XY = ∑ xi − x ⋅ y i − y = 285.992,4
AP 22,9 2.401 0,3 174 47,9 i=1
AT 22,6 2.505 0,0 278 -6,8
∑( x − x ) ⋅ (y )
AV 15,1 1.598 -7,5 -629 4.732,9
n
BA 18,4 1.838 -4,2 -389 1.643,3 −y
( )
BT 13,6 1.493 -9,0 -734 6.624,0 i i
BL 29,1 2.590 6,5 363 2.350,6 Cov XY = i=1
= 2.599,9
BN
BG
14,1
27,8
1.595
2.617
-8,5
5,2
-632
390
5.387,5
2.018,4
n
: : : : : :
: : : : : :
VR 28,8 2.842 6,2 615,0 3797,9
VV 13,8 1.620 -8,8 -607,0 5356,5
VI 29,1 2.794 6,5 567,0 3671,6
VT 18,4 2.004 -4,2 -223,0 942,1
0,0 0,0 285.992,4
Proprietà di Cauchy-Schwartz:
La covarianza tra due variabili X e Y, in valore assoluto, è sempre minore o uguale al prodotto dei due
scarti quadratici medi:
σ XY ≤ σ X ⋅ σ Y
Se dividiamo, dunque, la covarianza per il suo valore massimo, otteniamo un indice normalizzato,
che prende il nome di coefficiente di correlazione lineare di Bravais-Pearson.
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
Distribuzione del Reddito pro capite e dei Consumi per beni durevoli
nelle 110 province italiane.
(Anno 2017, Sole 24ore)
Reddito Consumi
X-M(X) Y-M(Y)
Provincia pro capite beni durevoli Ax B
(A) (B)
(€ x1.000) (€)
AG 13,5 1.378 -9,1 -849 7.746,7
AL 24,6 2.627 2,0 400 790,2
( ) ( )( )
AN 26,5 2.452 3,9 225 872,0 n
AO
AR
31,4
25,4
2.671
2.625
8,8
2,8
444
398
3.896,3
1.104,6
Cod XY = ∑ xi − x ⋅ y i − y = 285.992,4
AP 22,9 2.401 0,3 174 47,9 i=1
AT 22,6 2.505 0,0 278 -6,8
∑( x − x ) ⋅ (y )
AV 15,1 1.598 -7,5 -629 4.732,9
n
BA 18,4 1.838 -4,2 -389 1.643,3 −y
( )
BT 13,6 1.493 -9,0 -734 6.624,0 i i
BL 29,1 2.590 6,5 363 2.350,6 Cov XY = i=1
= 2.599,9
BN
BG
14,1
27,8
1.595
2.617
-8,5
5,2
-632
390
5.387,5
2.018,4
n
: : : : : :
( )=
: : : : : :
VR
VV
28,8
13,8
2.842
1.620
6,2
-8,8
615,0
-607,0
3797,9
5356,5
Cov XY 2.599,9
VI 29,1 2.794 6,5 567,0 3671,6 rXY = = 0,83
VT 18,4 2.004 -4,2 -223,0 942,1 σ X ⋅σ Y 6,3 × 500,1
0,0 0,0 285.992,4
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
L'interpretazione di r
Il coefficiente di correlazione misura la possibilità di rappresentare la relazione tra due
variabili mediante una funzione lineare.
Un coefficiente di correlazione pari a ±1 indica quindi una associazione massima, in senso
rispettivamente diretto e inverso.
Da un punto di vista analitico, l’associazione massima implica la possibilità di prevedere il
valore di una variabile a partire dalla conoscenza dei valori dell’altra, senza possibilità di
errore.
Da un punto di vista geometrico, nel diagramma di dispersione i punti sono perfettamente
allineati e giacciono quindi su un’unica retta (crescente o decrescente).
Y Y
r =1
r=1 r = -1
r=-1
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
L'interpretazione di r
Il coefficiente di correlazione misura la possibilità di rappresentare la relazione tra due
variabili mediante una funzione lineare.
Un coefficiente di correlazione pari a 0 deve essere interpretato con attenzione. Infatti,
questo valore indica solo la mancanza di legame lineare tra le variabili osservate, ma non
la loro indipendenza. In altri termini, tra le variabili potrebbe esistere una relazione che la
funzione lineare non riesce a rappresentare (per esempio, parabolica).
Quindi, mentre l’indipendenza tra due variabili presuppone necessariamente anche la
non correlazione, non è affatto detto il contrario, perché due variabili non correlate (e
quindi con r=0) potrebbero essere fortemente legate da un legame di ordine superiore a
quello lineare.
Y Y
r=0
r=0 r=0
r=0
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
X Y
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
X Y
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
r = 0.883
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
r = -0.761
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
r = 0,045
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Si riportano i valori delle misure relative al Peso (X) e all'Altezza (Y) di 15 studenti di una scuola
media, con alcuni indici descrittivi. Calcolare il coefficiente di correlazione.
PESO ALTEZZA X-M(X) Y-M(Y)
STUD AxB
(kg) (cm) A B
1 35,0 148,0 -12,3 -6,2 76,5
2 38,0 146,0 -9,3 -8,2 76,5
3 41,0 147,0 -6,3 -7,2 45,6
4 58,0 158,0 10,7 3,8 40,5
5 65,0 166,0 17,7 11,8 208,5
6 46,0 149,0 -1,3 -5,2 6,9
7 43,0 150,0 -4,3 -4,2 18,2
8 49,0 154,0 1,7 -0,2 -0,3
9 42,0 164,0 -5,3 9,8 -52,3
10 63,0 162,0 15,7 7,8 122,2
11 60,0 158,0 12,7 3,8 48,1
12 29,0 137,0 -18,3 -17,2 315,3
13 46,0 160,0 -1,3 5,8 -7,7
14 48,0 158,0 0,7 3,8 2,5
15 47,0 156,0 -0,3 1,8 -0,6
TOT 710,0 2.313,0 0,0 0,0 900,0
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Si riportano i valori delle misure relative al Peso (X) e all'Altezza (Y) di 15 studenti di una scuola
media, con alcuni indici descrittivi. Calcolare il coefficiente di correlazione.
PESO ALTEZZA X-M(X) Y-M(Y)
STUD AxB
(kg) (cm) A B
1 35,0 148,0 -12,3 -6,2 76,5
2 38,0 146,0 -9,3 -8,2 76,5
3 41,0 147,0 -6,3 -7,2 45,6
4 58,0 158,0 10,7 3,8 40,5
5 65,0 166,0 17,7 11,8 208,5
6 46,0 149,0 -1,3 -5,2 6,9
7 43,0 150,0 -4,3 -4,2 18,2
8 49,0 154,0 1,7 -0,2 -0,3
9 42,0 164,0 -5,3 9,8 -52,3
10 63,0 162,0 15,7 7,8 122,2
11 60,0 158,0 12,7 3,8 48,1
12 29,0 137,0 -18,3 -17,2 315,3
13 46,0 160,0 -1,3 5,8 -7,7
14 48,0 158,0 0,7 3,8 2,5
15 47,0 156,0 -0,3 1,8 -0,6
TOT 710,0 2.313,0 0,0 0,0 900,0
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Si riportano i valori delle misure relative al Peso (X) e all'Altezza (Y) di 15 studenti di una scuola
media, con alcuni indici descrittivi. Calcolare il coefficiente di correlazione.
PESO ALTEZZA X-M(X) Y-M(Y)
STUD AxB
(kg) (cm) A B
1 35,0 148,0 -12,3 -6,2 76,5
2 38,0 146,0 -9,3 -8,2 76,5
3 41,0 147,0 -6,3 -7,2 45,6
4 58,0 158,0 10,7 3,8 40,5
5 65,0 166,0 17,7 11,8 208,5
6 46,0 149,0 -1,3 -5,2 6,9
7 43,0 150,0 -4,3 -4,2 18,2
8 49,0 154,0 1,7 -0,2 -0,3
9 42,0 164,0 -5,3 9,8 -52,3
10 63,0 162,0 15,7 7,8 122,2
11 60,0 158,0 12,7 3,8 48,1
12 29,0 137,0 -18,3 -17,2 315,3
13 46,0 160,0 -1,3 5,8 -7,7
14 48,0 158,0 0,7 3,8 2,5
15 47,0 156,0 -0,3 1,8 -0,6
TOT 710,0 2.313,0 0,0 0,0 900,0
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Si riportano i valori delle misure relative al Peso (X) e all'Altezza (Y) di 15 studenti di una scuola
media, con alcuni indici descrittivi. Calcolare il coefficiente di correlazione.
PESO ALTEZZA X-M(X) Y-M(Y)
STUD AxB
(kg) (cm) A B
1 35,0 148,0 -12,3 -6,2 76,5
2 38,0 146,0 -9,3 -8,2 76,5
3 41,0 147,0 -6,3 -7,2 45,6
4 58,0 158,0 10,7 3,8 40,5
5 65,0 166,0 17,7 11,8 208,5
6 46,0 149,0 -1,3 -5,2 6,9
7 43,0 150,0 -4,3 -4,2 18,2
8 49,0 154,0 1,7 -0,2 -0,3 13
9 42,0 164,0 -5,3 9,8 -52,3 9
10 63,0 162,0 15,7 7,8 122,2
11 60,0 158,0 12,7 3,8 48,1
12 29,0 137,0 -18,3 -17,2 315,3
13 46,0 160,0 -1,3 5,8 -7,7
14 48,0 158,0 0,7 3,8 2,5
15 47,0 156,0 -0,3 1,8 -0,6
TOT 710,0 2.313,0 0,0 0,0 900,0
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Grafico relativo al Peso (X) e all'Altezza (Y) di 1.496 studenti di una scuola media.
Peso: FEMMINE
MASCHI
Q1 = 41 kg
Q3 = 58 kg
DI = Q3-Q1 = 17kg
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Grafico relativo al Peso (X) e all'Altezza (Y) di 1.496 studenti di una scuola media.
Peso: FEMMINE
MASCHI
Q1 = 41 kg
Q3 = 58 kg
DI = Q3-Q1 = 17kg
Limiti valori anomali:
( ) ( )
Linf = Q1 − 1,5×DI = 41− 1,5×17 = 15,5
Lsup = Q3 + (1,5×DI) = 58 + (1,5×17) = 83,5
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Grafico relativo al Peso (X) e all'Altezza (Y) di 1.496 studenti di una scuola media.
Peso: FEMMINE
MASCHI
Q1 = 41 kg
Q3 = 58 kg
DI = Q3-Q1 = 17kg
Limiti valori anomali:
( ) ( )
Linf = Q1 − 1,5×DI = 41− 1,5×17 = 15,5
Lsup = Q3 + (1,5×DI) = 58 + (1,5×17) = 83,5
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
BOXPLOT relativI al Peso (X) di 1.496 studenti di una scuola media.
Peso:
Q1 = 41 kg
Q3 = 58 kg
Q3-Q1 = 17kg
Limite valori anomali:
Linf = 15,5 kg
Lsup = 83,5 kg
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
ISTOGRAMMI relativI al Peso (X) di 1.496 studenti di una scuola media.
PESO:
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Si riportano i valori delle misure relative al Peso (X) e all'Altezza (Y) di 15 studenti di una scuola
media, con alcuni indici descrittivi. Calcolare il coefficiente di correlazione.
PESO ALTEZZA X-M(X) Y-M(Y)
STUD AxB
(kg) (cm) A B
1 35,0 148,0 -12,3 -6,2 76,5
2 38,0 146,0 -9,3 -8,2 76,5
3 41,0 147,0 -6,3 -7,2 45,6
4 58,0 158,0 10,7 3,8 40,5
5 65,0 166,0 17,7 11,8 208,5
6 46,0 149,0 -1,3 -5,2 6,9
7 43,0 150,0 -4,3 -4,2 18,2
8 49,0 154,0 1,7 -0,2 -0,3
9 42,0 164,0 -5,3 9,8 -52,3
10 63,0 162,0 15,7 7,8 122,2
11 60,0 158,0 12,7 3,8 48,1
12 29,0 137,0 -18,3 -17,2 315,3
13 46,0 160,0 -1,3 5,8 -7,7
14 48,0 158,0 0,7 3,8 2,5
15 47,0 156,0 -0,3 1,8 -0,6
TOT 710,0 2.313,0 0,0 0,0 900,0
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Si riportano i valori delle misure relative al Peso (X) e all'Altezza (Y) di 15 studenti di una scuola
media, con alcuni indici descrittivi. Calcolare il coefficiente di correlazione.
PESO ALTEZZA X-M(X) Y-M(Y)
STUD AxB
(kg) (cm) A B
1 35,0 148,0 -12,3 -6,2 76,5
∑( x − x ) ⋅ (y )
n
2 38,0 146,0 -9,3 -8,2 76,5 −y
( )
i i
3 41,0 147,0 -6,3 -7,2 45,6
Cov XY = i=1
4 58,0 158,0 10,7 3,8 40,5 n
5 65,0 166,0 17,7 11,8 208,5
900
6 46,0 149,0 -1,3 -5,2 6,9 = = 60
7 43,0 150,0 -4,3 -4,2 18,2 15
8 49,0 154,0 1,7 -0,2 -0,3
9 42,0 164,0 -5,3 9,8 -52,3
60,0
10 63,0 162,0 15,7 7,8 122,2 r= = 0,79
11 60,0 158,0 12,7 3,8 48,1 7,6 ×10,0
12 29,0 137,0 -18,3 -17,2 315,3
13 46,0 160,0 -1,3 5,8 -7,7
14 48,0 158,0 0,7 3,8 2,5
15 47,0 156,0 -0,3 1,8 -0,6
TOT 710,0 2.313,0 0,0 0,0 900,0
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
( ) ( )
Cov XY = M XY − ⎡ M X ⋅ M Y ⎤
⎣ ⎦ ( ) ()
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione Cov XY ( )
( ) ( )
⎣ ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥
⎦
r=
σ X ⋅σ Y
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione Cov XY ( )
( ) ( )
⎣ ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥
⎦
r=
σ X ⋅σ Y
( ) 35.108
( ) ( )
2 2
2 ⎡ ⎤
σ =M X − M X =
2
− 47,333 = 2.340,5 − 2.240,4 = 100,1
X ⎣ ⎦ 15
( ) () 357.539
( )
2 2
σ Y2 = M Y 2 − ⎡ M Y ⎤ = − 154,200 = 23.835,9 − 23.777,6 = 58,3
⎣ ⎦ 15
( ) ( )
Cov XY = M XY − ⎡ M X ⋅ M Y ⎤ =
⎣ ( ) ()
⎦
110.382
15
(
− 47,333 ×154,200 = 7.358,80 − 7.298,75 = 60,0 )
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione Cov XY ( )
( ) ⎣ ( ) ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥
⎦
r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO 2 2
PROV AL MQ X Y XY
(X)
(Y)
AG 9.864,3 878,0 97.304.414 770.884 8.660.855,4
AL 20.555,0 981,3 422.508.025 962.950 20.170.621,5
AN 22.310,9 1.291,1 497.776.259 1.666.939 28.805.603,0
AO 24.583,3 1.575,2 604.338.639 2.481.255 38.723.614,2
AP 18.179,3 903,8 330.486.948 816.854 16.430.451,3
AQ 16.165,1 1.136,2 261.310.458 1.290.950 18.366.786,6
AR 19.780,3 1.187,9 391.260.268 1.411.106 23.497.018,4
AT 18.540,8 1.136,2 343.761.265 1.290.950 21.066.057,0
AV 13.169,7 852,2 173.440.998 726.245 11.223.218,3
BA 14.770,7 1.678,5 218.173.578 2.817.362 24.792.620,0
TOT 177.919,4 11.620,4 3.340.360.853 14.235.497 211.736.846
Media 17.791,9 1.162,0 334.036.085,3 1.423.549,7 21.173.684,6
Var 17.482.956 73.213 / / /
Sqm 4.181,3 270,6 / / /
Cov 498.738,6 / / /
r 0,441 / / /
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione Cov XY ( )
( ) ⎣ ( ) ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥
⎦
r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO 2 2
PROV AL MQ X Y XY
(X)
(Y)
AG 9.864,3 878,0 97.304.414 770.884 8.660.855,4
AL 20.555,0 981,3 422.508.025 962.950 20.170.621,5
AN 22.310,9 1.291,1 497.776.259 1.666.939 28.805.603,0
AO 24.583,3 1.575,2 604.338.639 2.481.255 38.723.614,2
AP 18.179,3 903,8 330.486.948 816.854 16.430.451,3
AQ 16.165,1 1.136,2 261.310.458 1.290.950 18.366.786,6
AR 19.780,3 1.187,9 391.260.268 1.411.106 23.497.018,4
AT 18.540,8 1.136,2 343.761.265 1.290.950 21.066.057,0
AV 13.169,7 852,2 173.440.998 726.245 11.223.218,3
BA 14.770,7 1.678,5 218.173.578 2.817.362 24.792.620,0
TOT 177.919,4 11.620,4 3.340.360.853 14.235.497 211.736.846
Media 17.791,9 1.162,0 334.036.085,3 1.423.549,7 21.173.684,6
Var 17.482.956 73.213 / / /
Sqm 4.181,3 270,6 / / /
Cov 498.738,6 / / /
r 0,441 / / /
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione Cov XY ( )
( ) ⎣ ( ) ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥
⎦
r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO 2 2
PROV AL MQ X Y XY
(X)
(Y)
AG 9.864,3 878,0 97.304.414 770.884 8.660.855,4
AL 20.555,0 981,3 422.508.025 962.950 20.170.621,5
AN 22.310,9 1.291,1 497.776.259 1.666.939 28.805.603,0
AO 24.583,3 1.575,2 604.338.639 2.481.255 38.723.614,2
AP 18.179,3 903,8 330.486.948 816.854 16.430.451,3
AQ 16.165,1 1.136,2 261.310.458 1.290.950 18.366.786,6
AR 19.780,3 1.187,9 391.260.268 1.411.106 23.497.018,4
AT 18.540,8 1.136,2 343.761.265 1.290.950 21.066.057,0
AV 13.169,7 852,2 173.440.998 726.245 11.223.218,3
BA 14.770,7 1.678,5 218.173.578 2.817.362 24.792.620,0
TOT 177.919,4 11.620,4 3.340.360.853 14.235.497 211.736.846
Media 17.791,9 1.162,0 334.036.085,3 1.423.549,7 21.173.684,6
Var 17.482.956 73.213 / / /
Sqm 4.181,3 270,6 / / /
Cov 498.738,6 / / /
r 0,441 / / /
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione Cov XY ( )
( ) ( )
⎣ ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥
⎦
r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO
PROV AL MQ X2 Y2 XY
(X)
(Y)
AG 9.864,3 878,0 97.304.414 770.884 8.660.855,4
AL 20.555,0 981,3 422.508.025 962.950 20.170.621,5
AN 22.310,9 1.291,1 497.776.259 1.666.939 28.805.603,0
AO 24.583,3 1.575,2 604.338.639 2.481.255 38.723.614,2
AP 18.179,3 903,8 330.486.948 816.854 16.430.451,3
AQ 16.165,1 1.136,2 261.310.458 1.290.950 18.366.786,6
AR 19.780,3 1.187,9 391.260.268 1.411.106 23.497.018,4
AT 18.540,8 1.136,2 343.761.265 1.290.950 21.066.057,0
AV 13.169,7 852,2 173.440.998 726.245 11.223.218,3
BA 14.770,7 1.678,5 218.173.578 2.817.362 24.792.620,0
TOT 177.919,4 11.620,4 3.340.360.853 14.235.497 211.736.846
Media 17.791,9 1.162,0 334.036.085,3 1.423.549,7 21.173.684,6
( ) ()
10
1 177.919,4 73.213 1 /10 11.620,4
MVarX =
Sqm 10
⋅ ∑ 17.482.956
xi =
4.181,310
= 17.791,9
270,6
; / MY
/
= ∑
⋅ yi =
/
10 i=1 10 /
/
= 1.162,0
i=1
Cov 498.738,6 / / /
( ) ( ) 3.340.360.853
( )
2 2
r2 ⎡ ⎤ 0,441 / / /
σX = M X − M X =
2
− 17.791,9 = 17.482.956 ⇒ σ X = 17.482.956 = 4.181,3
⎣ ⎦ 10
( ) ()
14.235.497
( )
2 2
σ Y2 = M Y 2 − ⎡ M Y ⎤ = − 1.162 = 73.213 ⇒ σ Y = 73.213 = 270,6
⎣ ⎦ 10
( ) ( ) ( ) ()
Cov XY = M XY − ⎡ M X ⋅ M Y ⎤ =
⎣ ⎦
211.736.846
10
− 17.791,9 ×1.162,0 = 498.738,6 ( )
Cov ( XY ) 498.738,6
rXY = = = 0,441
σ X ⋅σ Y 4.181,3 ⋅ 270,6
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione Cov XY ( )
( ) ( )
⎣ ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥
⎦
r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO
PROV AL MQ X2 Y2 XY
(X)
(Y)
AG 9.864,3 878,0 97.304.414 770.884 8.660.855,4
AL 20.555,0 981,3 422.508.025 962.950 20.170.621,5
AN 22.310,9 1.291,1 497.776.259 1.666.939 28.805.603,0
AO 24.583,3 1.575,2 604.338.639 2.481.255 38.723.614,2
AP 18.179,3 903,8 330.486.948 816.854 16.430.451,3
AQ 16.165,1 1.136,2 261.310.458 1.290.950 18.366.786,6
AR 19.780,3 1.187,9 391.260.268 1.411.106 23.497.018,4
AT 18.540,8 1.136,2 343.761.265 1.290.950 21.066.057,0
AV 13.169,7 852,2 173.440.998 726.245 11.223.218,3
BA 14.770,7 1.678,5 218.173.578 2.817.362 24.792.620,0
TOT 177.919,4 11.620,4 3.340.360.853 14.235.497 211.736.846
Media 17.791,9 1.162,0 334.036.085,3 1.423.549,7 21.173.684,6
( ) ()
10
1 177.919,4 73.213 1 /10 11.620,4
MVarX =
Sqm 10
⋅ ∑ 17.482.956
xi =
4.181,310
= 17.791,9
270,6
; / MY
/
= ∑
⋅ yi =
/
10 i=1 10 /
/
= 1.162,0
i=1
Cov 498.738,6 / / /
( ) ( ) 3.340.360.853
( )
2 2
r2 ⎡ ⎤ 0,441 / / /
σX = M X − M X =
2
− 17.791,9 = 17.482.956 ⇒ σ X = 17.482.956 = 4.181,3
⎣ ⎦ 10
( ) ()
14.235.497
( )
2 2
σ Y2 = M Y 2 − ⎡ M Y ⎤ = − 1.162 = 73.213 ⇒ σ Y = 73.213 = 270,6
⎣ ⎦ 10
( ) ( ) ( ) ()
Cov XY = M XY − ⎡ M X ⋅ M Y ⎤ =
⎣ ⎦
211.736.846
10
− 17.791,9 ×1.162,0 = 498.738,6 ( )
Cov ( XY ) 498.738,6
rXY = = = 0,441
σ X ⋅σ Y 4.181,3 ⋅ 270,6
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione Cov XY ( )
( ) ⎣ ( ) ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥
⎦
r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO 2 2
PROV AL MQ X Y XY
(X)
(Y)
AG 9.864,3 878,0 97.304.414 770.884 8.660.855,4
AL 20.555,0 981,3 422.508.025 962.950 20.170.621,5
AN 22.310,9 1.291,1 497.776.259 1.666.939 28.805.603,0
AO 24.583,3 1.575,2 604.338.639 2.481.255 38.723.614,2
AP 18.179,3 903,8 330.486.948 816.854 16.430.451,3
AQ 16.165,1 1.136,2 261.310.458 1.290.950 18.366.786,6
AR 19.780,3 1.187,9 391.260.268 1.411.106 23.497.018,4
AT 18.540,8 1.136,2 343.761.265 1.290.950 21.066.057,0
AV 13.169,7 852,2 173.440.998 726.245 11.223.218,3
BA 14.770,7 1.678,5 218.173.578 2.817.362 24.792.620,0
TOT 177.919,4 11.620,4 3.340.360.853 14.235.497 211.736.846
Media 17.791,9 1.162,0 334.036.085,3 1.423.549,7 21.173.684,6
Var 17.482.956 73.213 / / /
Sqm 4.181,3 270,6 / / /
Cov 498.738,6 / / /
r 0,441 / / /
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione Cov XY ( )
( ) ⎣ ( ) ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥
⎦
r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO
PROV AL MQ X2 Y2 XY
(X)
(Y) r=0,441
AG 9.864,3 878,0 97.304.414 770.884 8.660.855,4
AL 20.555,0 981,3 422.508.025 962.950 20.170.621,5
AN 22.310,9 1.291,1 497.776.259 1.666.939 28.805.603,0
AO 24.583,3 1.575,2 604.338.639 2.481.255 38.723.614,2
AP 18.179,3 903,8 330.486.948 816.854 16.430.451,3
AQ 16.165,1 1.136,2 261.310.458 1.290.950 18.366.786,6
AR 19.780,3 1.187,9 391.260.268 1.411.106 23.497.018,4
AT 18.540,8 1.136,2 343.761.265 1.290.950 21.066.057,0
AV 13.169,7 852,2 173.440.998 726.245 11.223.218,3
BA 14.770,7 1.678,5 218.173.578 2.817.362 24.792.620,0
TOT 177.919,4 11.620,4 3.340.360.853 14.235.497 211.736.846
Media 17.791,9 1.162,0 334.036.085,3 1.423.549,7 21.173.684,6
Var 17.482.956 73.213 / / /
E’ importante ricordare
Sqm 4.181,3
498.738,6
che il risultato di un’analisi costituisce,
270,6 / / / più che il punto di arrivo, il punto di
Cov / / /
partenza
r di ulteriori
0,441 approfondimenti./ In altri/ termini, il / risultato dovrebbe essere coerente con
quanto le nostre conoscenze, l’esperienza e il buon senso ci suggeriscono (il che, ovviamente,
non vuol dire che non si possano comunque verificare casi in cui i risultati, corretti, rivelino una
radicale modifica, non prevista, dello scenario considerato).
Nel nostro caso, ad esempio, il valore del coefficiente di correlazione sembra essere minore di
quanto probabilmente ci saremmo aspettati. Perché?
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione Cov XY ( )
( ) ⎣ ( ) ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥
⎦
r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO
PROV AL MQ X2 Y2 XY
(X)
(Y) r=0,441
AG 9.864,3 878,0 97.304.414 770.884 8.660.855,4
AL 20.555,0 981,3 422.508.025 962.950 Cosa succede se eliminiamo Bari?
20.170.621,5
AN 22.310,9 1.291,1 497.776.259 1.666.939 28.805.603,0
AO 24.583,3 1.575,2 604.338.639 2.481.255 38.723.614,2
AP 18.179,3 903,8 330.486.948 816.854 16.430.451,3
AQ 16.165,1 1.136,2 261.310.458 1.290.950 18.366.786,6
AR 19.780,3 1.187,9 391.260.268 1.411.106 23.497.018,4
AT 18.540,8 1.136,2 343.761.265 1.290.950 21.066.057,0
AV 13.169,7 852,2 173.440.998 726.245 11.223.218,3
BA 14.770,7 1.678,5 218.173.578 2.817.362 24.792.620,0
TOT 177.919,4 11.620,4 3.340.360.853 14.235.497 211.736.846
Media 17.791,9 1.162,0 334.036.085,3 1.423.549,7 21.173.684,6
Var 17.482.956 73.213 / / /
Sqm 4.181,3 270,6 / / /
Cov 498.738,6 / / /
r 0,441 / / /
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione Cov XY ( )
( ) ( )
⎣ ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥
⎦
r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO
PROV AL MQ
(X)
(Y) r=0,793
AG 9.864,3 878,0
AL 20.555,0 981,3
AN 22.310,9 1.291,1
AO 24.583,3 1.575,2
AP 18.179,3 903,8
AQ 16.165,1 1.136,2
AR 19.780,3 1.187,9
AT 18.540,8 1.136,2
AV 13.169,7 852,2
TOT 163.148,7 9.941,9
Media 18.127,6 1.104,7
Var 18.298.607 48.418
Sqm 4.277,7 220,0
L’eliminazione
Cov
dall’analisi
746.789,8
della Provincia di Bari ha portato ad un evidente miglioramento dei
risultati.
r 0,793
ATTENZIONE, però: questo non vuol dire che ogni volta che otteniamo un risultato diverso da
quanto ci aspettavamo siamo autorizzati ad eliminare osservazioni fino a quando non otteniamo il
risultato cercato! Una unità può essere eliminata dall’analisi solo se risulta essere non omogenea
all’insieme osservato rispetto alle caratteristiche rilevate; in caso contrario, eliminarla
significherebbe eliminare una parte della variabilità “naturale” del fenomeno, e i risultati sarebbero
del tutto inattendibili.
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
Esercizio:
La tabella riporta i dati relativi alla Superficie di vendita e al Fatturato di un
gruppo di 14 Centri Commerciali appartenenti ad una rete di franchising.
Determinare il valore del coefficiente di correlazione r.
SUPERFICIE (m2) FATTURATO (€x1.000)
CENTRO X2 Y2 XY
(X) (Y)
1 1.726 5.681 2.979.076 32.273.761 9.805.406
2 1.642 3.895 2.696.164 15.171.025 6.395.590
3 2.816 6.653 7.929.856 44.262.409 18.734.848
4 5.555 6.543 30.858.025 42.810.849 36.346.365
5 1.292 3.418 1.669.264 11.682.724 4.416.056
6 2.208 6.563 4.875.264 43.072.969 14.491.104
7 1.313 3.660 1.723.969 13.395.600 4.805.580
8 1.102 2.694 1.214.404 7.257.636 2.968.788
9 3.151 5.468 9.928.801 29.899.024 17.229.668
10 1.516 2.898 2.298.256 8.398.404 4.393.368
11 5.161 10.674 26.635.921 113.934.276 55.088.514
12 4.567 7.585 20.857.489 57.532.225 34.640.695
13 5.841 11.760 34.117.281 138.297.600 68.690.160
14 3.008 4.085 9.048.064 16.687.225 12.287.680
TOT 40.898 81.577 156.831.834 574.675.727 290.293.822
MEDIA 2.921 5.827 11.202.274 41.048.266 20.735.273
VAR 2.668.363,6 7.095.169,6 / / /
SQM 1.633,5 2.663,7 / / /
COV 3.713.150 / / /
CORR 0,853 / / /
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La correlazione
Esercizio:
Il responsabile delle vendite di un Centro commerciale ha rilevato gli
incassi giornalieri del negozio di Profumeria e del negozio di
Abbigliamento per l’infanzia nella prima settimana di Ottobre.
Costruire il diagramma di dispersione e determinare una misura normalizzata della relazione tra le variabili.
ABBIGLIAM.
PROFUMERIA
CENTRO INFANZIA
(X)
(Y)
LUNEDI 2.000 3.200
MARTEDÌ 2.700 2.700
MERCOLEDÌ 2.400 2.900
GIOVEDÌ 1.900 3.200
VENERDÌ 2.300 2.500
SABATO 3.200 3.600
DOMENICA 3.600 3.900
TOT 18.100 22.000
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli
Federico II
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 9:
L'associazione in tabelle
miste
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Lo studio dell’associazione
Tabella riepilogativa
Caratteri
2 2 1 variabile
Approccio mutabili variabili 1 mutabile
Asimmetrico
(Dipendenza)
l ?
Le tabelle miste
Le tabelle miste
Le tabelle miste
Una variabile Y è indipendente in media da una mutabile X se, al variare delle modalità di X, le
medie condizionate di Y rimangono costanti.
Le tabelle miste
Posto che le medie dei gruppi sono diverse e, dunque, la relazione tra Reddito e Zona
? geografica esiste, è possibile, sulla base dei soli valori medi, definirne l'intensità?
LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
M1 M2 X
M1 M2 X
M1 M2
Esempio
(con due variabili quantitative dipendenti e una mutabile indipendente)
Y
Consideriamo n individui su cui siano state osservate due variabili (X
e Y) e una mutabile. Le due variabili possono essere rappresentate
attraverso un diagramma di dispersione in cui riportare gli n punti,
dei quali è possibile individuare il baricentro (+) che avrà come +
coordinate i valori medi delle due variabili.
La Devianza totale della nube di punti può essere calcolata, come
sappiamo, come somma dei quadrati delle distanze di ciascun
punto dalla media generale (baricentro).
Esempio
(con due variabili quantitative dipendenti e una mutabile indipendente)
Y
Consideriamo n individui su cui siano state osservate due variabili (X
e Y) e una mutabile. Le due variabili possono essere rappresentate
attraverso un diagramma di dispersione in cui riportare gli n punti,
dei quali è possibile individuare il baricentro (+) che avrà come +
coordinate i valori medi delle due variabili.
La Devianza totale della nube di punti può essere calcolata, come
sappiamo, come somma dei quadrati delle distanze di ciascun
punto dalla media generale (baricentro).
Supponiamo adesso che, sulla base dei valori della mutabile, gli
n individui possano essere divisi in tre gruppi. X
Esempio
(con due variabili quantitative dipendenti e una mutabile indipendente)
Y
Consideriamo n individui su cui siano state osservate due variabili (X
e Y) e una mutabile. Le due variabili possono essere rappresentate +
attraverso un diagramma di dispersione in cui riportare gli n punti, +
dei quali è possibile individuare il baricentro (+) che avrà come +
coordinate i valori medi delle due variabili.
La Devianza totale della nube di punti può essere calcolata, come
sappiamo, come somma dei quadrati delle distanze di ciascun +
punto dalla media generale (baricentro).
Supponiamo adesso che, sulla base dei valori della mutabile, gli
n individui possano essere divisi in tre gruppi. X
Ciascun gruppo avrà un proprio baricentro. Sarà dunque possibile calcolare la dispersione interna dei
gruppi, calcolando la somma dei quadrati delle distanze delle unità di ciascun gruppo dal proprio
baricentro.
D’altra parte, questa è solo una parte della variabilità totale, l’altra essendo rappresentata dalla
dispersione tra i gruppi, ossia dal quadrato della distanza dei singoli baricentri dal baricentro generale.
Esempio
(con due variabili quantitative dipendenti e una mutabile indipendente)
Y Y Y
+ +
+ +
+ + +
+ +
Dev Tot( ) X
Dev W( )
X
Dev B ()
X
Misura la dispersione generale degli n Misura la dispersione entro Misura la dispersione tra
punti attorno al baricentro generale. (Within) i gruppi. (Between) i gruppi.
( )
Dev Tot = Dev W + Dev B ( ) ()
LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
+
Raggruppamento dei punti Raggruppamento dei punti
secondo una mutabile A. secondo una mutabile B.
Y Y
+ +
X X
A parità di Devianza totale (la disposizione dei punti è immutata), la ridefinizione dei gruppi porta
ad una diversa ripartizione tra Devianza Within e Devianza Between.
E’ evidente che, nel raggruppamento secondo la mutabile B, i gruppi sono più dispersi al loro
interno ma anche più “vicini” tra loro (in termini di distanza tra i baricentri): questo implica un
aumento della Devianza Within (W) e una diminuzione della Devianza Between (B), a parità di
Devianza totale.
Le tabelle miste
() ( )
2
Eʼ la devianza totale. Esprime la dispersione della nube di punti
Dev Y = ∑ y i − y ⋅ ni
i
attorno alla media generale.
() ( )
2
Eʼ la devianza Between o fra i gruppi. Esprime la dispersione delle
Dev B = ∑ y j − y ⋅ nj
j
medie dei k gruppi attorno alla media generale.
Le tabelle miste
() ( )
4 2
Dev T = ∑ y j − y ⋅ n. j
j=1
( ) ( ) ( ) ( )
2 2 2 2
= 12, 5000 − 23, 0682 ×14 + 17, 5000 − 23, 0682 × 27 + 25, 0000 − 23, 0682 × 58 + 40, 0000 − 23, 0682 ×11
= 1.563, 6159 + 837,1310 + 216, 4474 + 3.153, 5444 = 5.770, 7387
Le tabelle miste
()
Dev T = 5.770, 7387
Dev ( B ) = ∑ ( y − y ) ⋅ n
4 2
j i.
j=1
( ) ( ) ( ) ( )
2 2 2 2
= 29, 5000 − 23, 0682 × 20 + 26,7308 − 23, 0682 × 26 + 25, 0000 − 23, 0682 × 25 + 16, 0897 − 23, 0682 × 39
= 827, 3610 + 348,7806 + 93, 2963 +1.899, 2790 = 3.168, 7169
Le tabelle miste
()
Dev T = 5.770, 7387 ; Dev ( B ) = 3.168, 7169
( ) ( ) ( ) ( ) ( )
2 2 2 2
Dev NE = 12, 5000 − 29, 5000 × 0 + 17, 5000 − 29, 5000 × 0 + 25, 0000 − 29, 5000 ×14 + 40, 0000 − 29, 5000 × 6 = 945, 0000
Dev ( NO) = (12, 5000 − 26,7308 ) × 0 + (17, 5000 − 26,7308 ) × 0 + ( 25, 0000 − 26,7308 ) × 23 + ( 40, 0000 − 26,7308 ) × 3 = 597,1154
2 2 2 2
Dev ( Ce) = (12, 5000 − 25, 0000 ) × 0 + (17, 5000 − 25, 0000 ) × 4 + ( 25, 0000 − 25, 0000 ) ×19 + ( 40, 0000 − 25, 0000 ) × 2 = 675, 0000
2 2 2 2
Dev ( Su) = (12, 5000 −16, 0897 ) ×14 + (17, 5000 −16, 0897 ) × 23 + ( 25, 0000 −16, 0897 ) × 2 + ( 40, 0000 −16, 0897 ) × 0 = 384, 9359
2 2 2 2
Le tabelle miste
()
Dev T = 5.770, 7387 ; Dev ( B ) = 3.168, 7169
Le tabelle miste
()
Dev T = 5.770, 7387 ; ()
Dev B = 3.168, 7169 ; ( )
Dev W = 2.602, 0513
Il rapporto di correlazione: η 2 =
()
Dev B
Dev ( T )
Le tabelle miste
Il rapporto di correlazione: η 2 =
()
Dev B
Dev ( T )
Il rapporto di correlazione eta quadrato misura quanta parte della variabilità della variabile
dipendente può essere attribuita alle diverse modalità della mutabile indipendente.
E’ un indice normalizzato, compreso tra zero e uno.
Vale zero quando il numeratore è nullo, quindi quando è nulla la varianza tra i gruppi; questo
accade solo se le medie dei gruppi sono tutte uguali tra loro, e cioè quando le diverse modalità della
mutabile non danno alcun contributo alla differenziazione dei gruppi.
Vale uno quando numeratore e denominatore sono uguali. In questo caso, è la variabilità entro i
gruppi ad essere nulla e questo accade solo se, in ogni gruppo, tutte le osservazioni hanno lo stesso
valore. In questo caso, la dipendenza della variabile dalla mutabile è massima, perché la
conoscenza della modalità della mutabile consente di prevedere, senza possibilità di errore, il valore
della variabile.
Come sempre, questi sono entrambi casi limite; nella realtà ci si trova sempre in situazioni intermedie,
che potranno però essere meglio interpretate se riferite ai due estremi.
3.168,7
Nel nostro esempio, il valore del rapporto di correlazione è: η 2 = = 0,549
5.770,7
Le tabelle miste
Esercizio
Nel corso di unʼindagine condotta su 320 dipendenti di aziende commerciali, sono stati
rilevati il Genere (X) e il Reddito medio netto annuo (Y), con i risultati riportati nella tabella
seguente:
18-20mila 20-22mila 22-24mila 24-26mila TOT
MASCHI 20 45 90 45 200
FEMMINE 30 15 60 15 120
TOT 50 60 150 60 320
Le tabelle miste
Esercizio
Nel corso di unʼindagine condotta su 320 dipendenti di aziende commerciali, sono stati rilevati il
Genere (X) e il Reddito medio netto annuo (Y), con i risultati riportati nella tabella seguente:
18-20mila 20-22mila 22-24mila 24-26mila TOT
MASCHI 20 45 90 45 200
FEMMINE 30 15 60 15 120
TOT 50 60 150 60 320
(
M Maschi = ) 19 × 20 + 21× 45 + 23 × 90 + 25 × 45 380 + 945 + 2.070 +1.125 4.520
200
=
200
=
200
= 22,6
(
M Femmine = ) 19 × 30 + 21×15 + 23 × 60 + 25 ×15 570 + 315 +1.380 + 375 2.640
120
=
120
=
120
= 22,0
( )
M TOT =
22,6 × 200 + 22,0 ×120 4.520 + 2.640 7.160
320
=
320
=
320
= 22,4
Le tabelle miste
Esercizio
Nel corso di unʼindagine condotta su 320 dipendenti di aziende commerciali, sono stati rilevati il
Genere (X) e il Reddito medio netto annuo (Y), con i risultati riportati nella tabella seguente:
18-20mila 20-22mila 22-24mila 24-26mila TOT
MASCHI 20 45 90 45 200
FEMMINE 30 15 60 15 120
TOT 50 60 150 60 320
( ) ( ) ( ) ( ) ( )
2 2 2 2
Dev Tot = 19 − 22,4 × 50 + 21− 22,4 × 60 + 23 − 22,4 ×150 + 25 − 22,4 × 60
= 578,0 +117,6 + 54,0 + 405,6 = 1.155,2
Le tabelle miste
Esercizio
Nel corso di unʼindagine condotta su 320 dipendenti di aziende commerciali, sono stati rilevati il
Genere (X) e il Reddito medio netto annuo (Y), con i risultati riportati nella tabella seguente:
18-20mila 20-22mila 22-24mila 24-26mila TOT
MASCHI 20 45 90 45 200
FEMMINE 30 15 60 15 120
TOT 50 60 150 60 320
( ) ( ) ( ) ( ) ( )
2 2 2 2
Dev Maschi = 19 − 22,6 × 20 + 21− 22,6 × 45 + 23 − 22,6 × 90 + 25 − 22,6 × 45
= 259,2 +115,2 +14,4 + 259,2 = 648,0
( ) ( ) ( ) ( ) ( )
2 2 2 2
Dev Femmine = 19 − 22,0 × 30 + 21− 22,0 ×15 + 23 − 22,0 × 60 + 25 − 22,0 ×15
= 270 +15 + 60 +135 = 480,0
Le tabelle miste
Esercizio
Nel corso di unʼindagine condotta su 320 dipendenti di aziende commerciali, sono stati rilevati il
Genere (X) e il Reddito medio netto annuo (Y), con i risultati riportati nella tabella seguente:
18-20mila 20-22mila 22-24mila 24-26mila TOT
MASCHI 20 45 90 45 200
FEMMINE 30 15 60 15 120
TOT 50 60 150 60 320
Dev (Tot) = 1.155,2 ; Dev (W) = Dev (Maschi) + Dev (Femmine) = 648+480 = 1.128
() ( ) ( )
2 2
Dev B = 22,6 − 22,4 × 200 + 22,0 − 22,4 ×120 = 8,0 +19,2 = 27,2
Le tabelle miste
Esercizio
Nel corso di unʼindagine condotta su 320 dipendenti di aziende commerciali, sono stati rilevati il
Genere (X) e il Reddito medio netto annuo (Y), con i risultati riportati nella tabella seguente:
18-20mila 20-22mila 22-24mila 24-26mila TOT
MASCHI 20 45 90 45 200
FEMMINE 30 15 60 15 120
TOT 50 60 150 60 320
η2 =
( ) = 27,2 = 0,023
Dev B
Dev ( T ) 1.155,2
Le tabelle miste
Esercizio
Si riportano le caratteristiche del peso (in kg) di 5.000 bambini di un anno di età, divisi tra maschi e
femmine. Si determini quanta parte della variabilità del Peso può essere attribuita al Genere.
MASCHI FEMMINE
(N=2.764) (N=2.236)
Le tabelle miste
Esercizio
Si riportano le caratteristiche del peso (in kg) di 5.000 bambini di un anno di età, divisi tra maschi e
femmine. Si determini quanta parte della variabilità del Peso può essere attribuita al Genere.
MASCHI FEMMINE
(N=2.764) (N=2.236)
M( Y ) =
( 9,75 × 2.764 ) + ( 9,40 × 2.236 ) 26.949,0 + 21.018,4
= = 9,59 kg
2.764 + 2.236 5.000
() ( ) ( ) ( )
2 2 2 2
Dev B = ∑ y i − y ⋅ ni = 9,75 − 9,59 × 2.764 + 9,40 − 9,59 × 2.236
i=1
Le tabelle miste
Esercizio
Si riportano le caratteristiche del peso (in kg) di 5.000 bambini di un anno di età, divisi tra maschi e
femmine. Si determini quanta parte della variabilità del Peso può essere attribuita al Genere.
MASCHI FEMMINE
(N=2.764) (N=2.236)
( ) ( ) ( )
Dev W = Dev Maschi + Dev Femmine = 0,47 × 2.764 + 0,41× 2.236 = 1.299,1+ 916,8 = 2.215,90
Le tabelle miste
Esercizio
Si riportano le caratteristiche del peso (in kg) di 5.000 bambini di un anno di età, divisi tra maschi e
femmine. Si determini quanta parte della variabilità del Peso può essere attribuita al Genere.
MASCHI FEMMINE
(N=2.764) (N=2.236)
( ) () ( )
Dev Tot = Dev B + Dev W = 151,48 + 2.215,90 = 2.367,38
Le tabelle miste
Esercizio
Si riportano le caratteristiche del peso (in kg) di 5.000 bambini di un anno di età, divisi tra maschi e
femmine. Si determini quanta parte della variabilità del Peso può essere attribuita al Genere.
MASCHI FEMMINE
(N=2.764) (N=2.236)
M (Y) = 22,6 ; Dev (B) = 151,48 ; Dev (W) = 2.215,90 ; Dev (Tot) = 2.367,38
η =
2 ( ) = 151,48 = 0,064
Dev B
Dev ( T ) 2.367,38
Esercizio di riepilogo
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 10:
Interpolazione e
Regressione
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Lo studio dell’associazione
Tabella riepilogativa
Caratteri
2 2 1 variabile
Approccio mutabili variabili 1 mutabile
χ2 ; V CovXY
Simmetrico
(Interdipendenza)
Φ rXY ?
Asimmetrico
(Dipendenza)
l ? h2
Lo studio dell’associazione
Tabella riepilogativa
Caratteri
2 2 1 variabile
Approccio mutabili variabili 1 mutabile
Simmetrico χ2 ; V CovXY χ2 ; V
(Interdipendenza) rXY
Φ Φ
Asimmetrico
(Dipendenza)
l ? h2
L'interpolazione
Date due variabili, X e Y, rappresentabili come assi di un piano cartesiano, e data una
nuvola di punti sul piano, costituita dalle n coppie di valori osservati sulle unità statistiche, il
problema dell’interpolazione consiste nel trovare lʼequazione di una curva passante per i
punti del piano, oppure “vicino” ai punti stessi. Prezzo casa al mq
(in €) 2000
AN
AR
AQ AT
AL
1000
AP
AG
AV
500
5000 10000 15000 20000 25000 30000
Reddito p.c.
(in €)
L'interpolazione
Interpolazione matematica
Data una successione di n coppie di numeri xi,yi, che nel piano corrispondono ad altrettanti
punti P1, P2, …, Pn, e scelta una funzione di X contenente n parametri a0, a1, …, an-1,
l’interpolazione matematica consiste nel determinare il valore di questi parametri in modo
che la funzione passi per i punti dati. Prezzo casa al mq
(in €) 2000
AR
AQ AT
AL
1000
AP
AG
AV
500
5000 10000 15000 20000 25000 30000
Reddito p.c.
(in €)
L'interpolazione
Interpolazione statistica
L’interpolazione statistica abbandona il vincolo che la funzione passi per i punti, a favore di
una condizione, più realistica soprattutto quando si osservino molte unità, di passare fra i
punti.
A differenza di quanto accade nell’interpolazione Prezzo casa al mq
(in €) 2000
matematica, nell’interpolazione statistica non cʼè
una relazione fissa tra il numero dei parametri e il
numero dei punti, risultando sufficiente che i
secondi superino i primi. AO
1500
D’altra parte, mentre nell’interpolazione
matematica si ha un’unica soluzione, AN
L'interpolazione
(
Funzione interpolante: ŷ i = ϕ xi ,a0 ,a1,…,ak )
La condizione dei minimi quadrati determina i parametri incogniti in modo da rendere
minima la somma dei quadrati degli scarti fra valori interpolati e valori osservati:
( ) ( )
2 2 Y
S = ∑ ŷ i − y i = ∑ ⎡⎣ϕ xi ,a0 ,a1,…,ak − yi ⎤⎦ = min
i i
si riduce a:
ŷ = a0 + a1x
che può anche essere trovata nelle forme:
ŷ = a + bx ; ŷ = b0 + b1x
X
LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
(
∂ ⎡ S b0 ,b1 ⎤ )∂ ⎡ S b0 ,b1 ⎤ ( )
( ) ( )
n
S b0 ,b1 = ∑ Yi − b0 − b1Xi
2
= min ⇒
⎣ ⎦ =0 ; ⎣ ⎦=0
i=1 ∂b0 ∂b1
Y
Richiamo del corso di Metodi matematici…
La derivata di una funzione quadratica è uguale a due volte la funzione
non derivata, moltiplicato la derivata della funzione:
( ( )) ( ) ( )
D f 2 x = 2f x ⋅ f ′ x
∑ (Y − b )
n 2
− b1Xi Calcoliamo la derivata di questa espressione
i=1
i 0
rispetto ai parametri b0 e b1. X
⎡ n 2⎤
∂
∂b0
( ) ( )( )
⎢ ∑ Yi − b0 − b1Xi ⎥ = 2∑ Yi − b0 − b1Xi ⋅ −1 = −2∑ Yi − b0 − b1Xi
⎢⎣ i=1 ⎥⎦ i i
( )
∂ ⎡ n 2⎤
( ) ( )( )
⎢ ∑ Y − b0 − b1Xi ⎥ = 2∑ Yi − b0 − b1Xi ⋅ −Xi = −2Xi ∑ Yi − b0 − b1Xi
∂b1 ⎢⎣ i=1 i ⎥⎦ i i
( )
(
∂ ⎡ S b0 ,b1 ⎤ )∂ ⎡ S b0 ,b1 ⎤ ( )
( ) ( )
n
S b0 ,b1 = ∑ Yi − b0 − b1Xi
2
= min ⇒
⎣ ⎦ =0 ; ⎣ ⎦=0
i=1 ∂b0 ∂b1
Y
Richiamo del corso di Metodi matematici…
La derivata di una funzione quadratica è uguale a due volte la funzione
non derivata, moltiplicato la derivata della funzione:
( ( )) ( ) ( )
D f 2 x = 2f x ⋅ f ′ x
∑ (Y − b )
n 2
− b1Xi Calcoliamo la derivata di questa espressione
i=1
i 0
rispetto ai parametri b0 e b1. X
⎡ n 2⎤
∂
∂b0
( ) ( )( )
⎢ ∑ Yi − b0 − b1Xi ⎥ = 2∑ Yi − b0 − b1Xi ⋅ −1 = −2∑ Yi − b0 − b1Xi
⎢⎣ i=1 ⎥⎦ i i
( )
∂ ⎡ n 2⎤
( ) ( )( )
⎢ ∑ Y − b0 − b1Xi ⎥ = 2∑ Yi − b0 − b1Xi ⋅ −Xi = −2Xi ∑ Yi − b0 − b1Xi
∂b1 ⎢⎣ i=1 i ⎥⎦ i i
( )
∑ X Y − (Y − b X ) nX − b ∑ X
1. ⎨ i 5. ⎨ 2
=0
⎪
⎪⎩ i
(
−2∑ Xi Yi − b0 − b1Xi = 0 ) ⎪
⎩ i
i i 1 1
i
i
⎧ b0 = Y − b1X
⎧ ⎛ ⎞ ⎪
⎪ −2 ⎜ ∑ Yi − nb0 − b1∑ Xi ⎟ = 0
( )
6. ⎨ 2
2. ⎨
⎪ ⎝ i ⎠ i ⎪ ∑ XiYi − nXY + b1n X − b1∑ Xi2 = 0
⎛ ⎞ ⎩ i i
⎪ −2 ⎜ ∑ Xi Yi − b0 ∑ Xi − b1∑ Xi2 ⎟ = 0
⎪ ⎧ b0 = Y − b1X
⎝ ⎠ ⎪
⎩ i i i
⎪
⎧
∑ Y − nb − b1∑ Xi = 0
7. ⎨ ∑XY ∑X 2
( )
i i 2 i
⎪⎪ i
i 0
i
⎪ i
− XY + b1 X − b1 i
=0
3. ⎨ ⎪⎩ n n
⎪ ∑XY − b ∑X − b∑X
i i 0 i 1
2
i
=0
⎧
⎪⎩ i i i b0 = Y − b1X
⎪
⎧
⎪
nY − nb0 − b1nX = 0 b0 = Y − b1X
8. ⎨
⎪ ∑XY ⎛ ∑ X2 ⎞
( )
i i i
− XY − b1 ⎜ i − X ⎟ =0
2
4. ⎨
∑ X Y − b nX − b ∑ X 2 i
=0 ⎪ ⎜ n ⎟
⎪ i i 0 1 i
⎪ n ⎜⎝ ⎟⎠
⎩ i i
⎩
⎧ b0 = Y − b1X
9. ⎨
⎪
( )
Cov XY
⎪⎩ ( )
Cov XY − b1Var X = 0 ( ) b1 =
Var ( X )
(
∂ ⎡ S b0 ,b1 ⎤ ) ( )
∂ ⎡ S b0 ,b1 ⎤
( ) ( ) ( )
n n
2 2
⎣ ⎦ =0 ; ⎣ ⎦=0
S b0 ,b1 = ∑ Yi − Ŷi = ∑ Yi − b0 − b1Xi = min ⇒
i=1 i=1 ∂b0 ∂b1
Soluzioni: b0 = Y − b1X b1 =
( )
Cov XY Y
Var ( X )
La Regressione
La Regressione Y = b0 + b1X + e
Ŷ = b0 + b1X
Tra tutte le infinite possibili rette, scegliamo quella che ottimizza un
criterio che definiamo arbitrariamente, per esempio quella che
minimizza la somma dei quadrati degli scarti tra valori osservati e X
valori teorici:
( ) ( ) ( )
n 2 n 2
S b0 ,b1 = ∑ Yi − Ŷi = ∑ Yi − b0 − b1Xi = min
i=1 i=1
Il metodo dei minimi quadrati consente di ottenere le soluzioni di questo problema, soluzioni che
rappresentano i parametri della retta:
b0 = Y − b1X b1 =
Cov XY ( )
Var X ( )
Sostituendo questi valori nell’equazione della retta, per ogni valore dato di X otterremo il
corrispondente valore teorico di Y.
b0 = Y − b1X Y
Eʼ lʼintercetta sull’asse delle ordinate.
Può essere interpretato, quando ha senso, come il valore
di Y quando è X=0.
b0 = Y − b1X Y
Eʼ lʼintercetta sull’asse delle ordinate.
Può essere interpretato, quando ha senso, come il valore
di Y quando è X=0.
Y
Da questa espressione deriva, inoltre la seguente:
Y = b0 + b1X
che assicura che la retta di regressione passa sempre per il
punto di coordinate Xmedio;Ymedio. (baricentro della nube).
X X
b0 = Y − b1X Y
Eʼ lʼintercetta sull’asse delle ordinate.
Può essere interpretato, quando ha senso, come il valore
di Y quando è X=0.
Y
Da questa espressione deriva, inoltre la seguente:
Y = b0 + b1X
che assicura che la retta di regressione passa sempre per il
punto di coordinate Xmedio;Ymedio. (baricentro della nube).
b1 =
( )
Cov XY X X
Var ( X )
Eʼ il coefficiente angolare della retta di regressione in quanto funzione dell’angolo che la retta
forma con lʼasse delle ascisse. Esprime dunque la pendenza (positiva, negativa o nulla) della retta,
e anche quanto varia la variabile Y al variare unitario della variabile X (variazione marginale).
La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in €
App. X2 Y2 XY 900000
(X) (Y)
1 80 212.000 6.400 44.944.000.000 16.960.000 800000
13
2 200 313.000 40.000 97.969.000.000 62.600.000 3
La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in €
App. X2 Y2 XY 900000
(X) (Y)
1 80 212.000 6.400 44.944.000.000 16.960.000 800000
13
2 200 313.000 40.000 97.969.000.000 62.600.000 3
La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in € 2 2
App. X Y XY 900000
(X) (Y)
1 80 212.000 6.400 44.944.000.000 16.960.000 800000
13
2 200 313.000 40.000 97.969.000.000 62.600.000 3
La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in € 2 2
App. X Y XY 900000
(X) (Y)
1 80 212.000 6.400 44.944.000.000 16.960.000 800000
13
2 200 313.000 40.000 97.969.000.000 62.600.000 3
La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in €
App. Yteo Y-Yteo 900000
(X) (Y)
1 80 212.000 282.107 -70.107 800000
13
2 200 313.000 593.227 -280.227 3
Ŷ = 74.693,9 + 2.592,7X
La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in €
App. Yteo Y-Yteo 900000
(X) (Y)
1 80 212.000 282.107 -70.107 800000
13 Yˆ = 74.693,8 + 2.592,7X
2 200 313.000 593.227 -280.227 3
Ŷ = 74.693,9 + 2.592,7X
La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in €
App. Yteo Y-Yteo 900000
(X) (Y)
1 80 212.000 282.107 -70.107 800000
13 Yˆ = 74.693,8 + 2.592,7X
2 200 313.000 593.227 -280.227 3
Ŷ = 74.693,9 + 2.592,7X
La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in €
App. Yteo Y-Yteo 900000
(X) (Y)
1 80 212.000 282.107 -70.107 800000
13
2 200 313.000 593.227 -280.227 3
Ŷ = 74.693,9 + 2.592,7X
Qual è il prezzo previsto di un appartamento di 160mq?
(
Ŷ = 74.693,9 + 2.592,7 ×160 = 489.526 € )
LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in €
App. Yteo Y-Yteo 900000
(X) (Y)
1 80 212.000 282.107 -70.107 800000
13
2 200 313.000 593.227 -280.227 3
Ŷ = 74.693,9 + 2.592,7X
Qual è il prezzo previsto di un appartamento di 260mq?
La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in €
App. Yteo Y-Yteo 900000
(X) (Y)
1 80 212.000 282.107 -70.107 800000
13
2 200 313.000 593.227 -280.227 3
Ŷ = 74.693,9 + 2.592,7X
Qual è il prezzo previsto di un appartamento di 260mq?
Se il valore della X è esterno all’intervallo dei valori considerati, il valore della Y non può essere previsto
applicando la funzione di regressione. In questo caso si tratterebbe di “estrapolazione” e non di “interpolazione”.
() ( )
2
Dev Y = ∑ Yi − Y
i
() ( )
2
Dev Y = ∑ Yi − Y
i
Consideriamo ora il generico punto Yi. Questo partecipa all’errore complessivo con la quantità:
(Y − Y )
2
() ( )
2
Dev Y = ∑ Yi − Y
i
Consideriamo ora il generico punto Yi. Questo partecipa all’errore complessivo con la quantità:
(Y − Y )
2
i
Con l’obiettivo di ridurre l’errore di previsione, consideriamo ora la variabile X (la Superficie in mq). La
retta interpolante si dispone nella direzione di “allungamento” della nube di punti, facendo
“perno” sul baricentro della nube, il punto medio, per il quale le retta di regressione deve passare;
(Y −Yˆ )
2
i i
(Y −Y )
2
(Yˆ −Y )
2
Y
i
(Ŷ − Y )
2
D’altra parte, esiste una parte di errore “residua”, che rimane anche dopo la costruzione della retta di
regressione, ossia quella parte di errore che non viene spiegata dall’osservazione della variabile X;
Questa parte di errore è data dalla quantità:
(Y − Ŷ )
2
i i
(Y −Yˆ )
2
i i
(Y −Y )
2
i
(Yˆ −Y )
2
L’indice R2 Y
i
∑( )
2
Ŷi − Y
DevREG
2
R = = i
(0 ≤ R ≤ 1)
2
DevTOT
∑ (Y − Y )
2
i
i
Quando è R2=0, la devianza spiegata è pari a zero. Questo vuol dire che lʼosservazione della variabile X non
ha aggiunto nulla a quanto già si sapeva dalla sola osservazione della Y. Dal punto di vista geometrico, la
retta di regressione coincide con la retta M(Y); dal punto di vista interpretativo, le variabili X e Y sono
incorrelate;
Quando è R2=1, la devianza spiegata è uguale alla devianza totale. Questo vuol dire che lʼosservazione della
variabile X spiega perfettamente la variabile Y, e ne rende possibile la previsione senza possibilità di errore.
Dal punto di vista geometrico, tutti i punti sono allineati e la retta di regressione passa per tutti i punti (siamo
quindi nel caso di una dipendenza funzionale, deterministica, esatta); dal punto di vista interpretativo, le
variabili X e Y sono massimamente correlate (in senso diretto o inverso).
Quando è 0≤R2 ≤1, la devianza spiegata è pari a una quota della devianza totale. Lʼosservazione della
variabile X migliora quindi la previsione della variabile Y, con una quota di errore residua dovuta in parte alle
variabili non osservate, in parte alla sempre presente quota di imponderabilità dei fenomeni osservati.
La valutazione dell'adattamento
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Calcolare i parametri della retta di regressione e l'indice R2 di adattamento della retta ai dati.
mq Prezzo in €
App. Yteo (Y-Ymed)2 )2
(Yteo-Ymed900000 (Y-Yteo)2
(X) (Y)
800000
1 80 212.000 282.107 40.938.777.778 17.483.727.210 4.915.031.754 13
3
2 200 313.000 593.227 10.268.444.444 32.003.085.447
700000
78.527.393.139
14
3 185 717.000 554.337 91.607.111.111 19.601.133.620 26.459.127.32215
10
4 140 431.000 437.667 277.777.778 544.475.934
600000 44.453.442
5 95 270.000 320.997 20.832.111.111 8.711.614.942 2.600.724.704
500000
6 60 261.000 230.254 23.511.111.111 33.885.224.478 945.320.444 4 7
∑( )
2
Ŷi − Y
2
DevREG
R = = i
DevTOT
∑ (Y − Y )
2
i
i
La valutazione dell'adattamento
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Calcolare i parametri della retta di regressione e l'indice R2 di adattamento della retta ai dati.
mq Prezzo in €
App. Yteo Y-Ymed Yteo-Ymed Y-Yteo
(X) (Y)
1 80 212.000 282.107 -202.333 -132.226 -70.107
2 200 313.000 593.227 -101.333 178.894 -280.227
3 185 717.000 554.337 302.667 140.004 162.663
4 140 431.000 437.667 16.667 23.334 -6.667
5 95 270.000 320.997 -144.333 -93.336 -50.997
6 60 261.000 230.254 -153.333 -184.079 30.746
7 210 431.000 619.154 16.667 204.821 -188.154
8 65 140.000 243.217 -274.333 -171.116 -103.217
9 70 282.000 256.181 -132.333 -158.153 25.819
10 120 600.000 385.814 185.667 -28.519 214.186
11 100 303.000 333.961 -111.333 -80.373 -30.961
12 90 220.000 308.034 -194.333 -106.299 -88.034
13 180 749.000 541.374 334.667 127.041 207.626
14 220 663.000 645.081 248.667 230.747 17.919
15 150 623.000 463.594 208.667 49.261 159.406
TOT 1.965 6.215.000 6.215.000 0,0 0,0 0,0
∑( )
2
Ŷi − Y
2
DevREG
R = = i
DevTOT
∑ (Y − Y )
2
i
i
La valutazione dell'adattamento
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Calcolare i parametri della retta di regressione e l'indice R2 di adattamento della retta ai dati.
mq Prezzo in €
App. Yteo (Y-Ymed)2 (Yteo-Ymed)2 (Y-Yteo)2
(X) (Y)
1 80 212.000 282.107 40.938.777.778 17.483.727.210 4.915.031.754
2 200 313.000 593.227 10.268.444.444 32.003.085.447 78.527.393.139
3 185 717.000 554.337 91.607.111.111 19.601.133.620 26.459.127.322
4 140 431.000 437.667 277.777.778 544.475.934 44.453.442
5 95 270.000 320.997 20.832.111.111 8.711.614.942 2.600.724.704
6 60 261.000 230.254 23.511.111.111 33.885.224.478 945.320.444
7 210 431.000 619.154 277.777.778 41.951.534.609 35.401.954.462
8 65 140.000 243.217 75.258.777.778 29.280.705.777 10.653.805.643
9 70 282.000 256.181 17.512.111.111 25.012.283.333 666.640.808
10 120 600.000 385.814 34.472.111.111 813.352.938 45.875.646.835
11 100 303.000 333.961 12.395.111.111 6.459.770.030 958.561.153
12 90 220.000 308.034 37.765.444.444 11.299.556.109 7.749.978.661
13 180 749.000 541.374 112.001.777.778 16.139.342.188 43.108.537.570
14 220 663.000 645.081 61.835.111.111 53.244.368.793 321.099.637
15 150 623.000 463.594 43.541.777.778 2.426.614.965 25.410.267.386
TOT 1.965 6.215.000 6.215.000 582.495.333.333 298.856.790.373 283.638.542.960
Devianza totale Devianza spiegata Devianza residua
∑( )
2
Ŷi − Y
2
DevREG 298.856.790.373
R = = i
= = 0,513
DevTOT
∑ (Y − Y ) 582.495.333.333
2
i
i
4 140 431.000 10
15
5 95 270.000 600000
6 60 261.000
500000
7 210 431.000 4 7
8 65 140.000
400000
9 70 282.000
11 2
10 120 600.000 300000 9
5
6
11 100 303.000 1 12
12 90 220.000 200000
8
13 180 749.000
14 220 663.000 100000
15 150 623.000
0
TOT 1.965 6.215.000 0 50 100 150 200 250 300
Ancora una volta, questo risultato deve costituire un punto di partenza per l’interpretazione e per
eventuali riflessioni. Il valore dell’indice sembra, infatti, particolarmente basso, comunque inferiore a
quanto sarebbe probabilmente legittimo aspettarsi dalla relazione tra queste due variabili.
Ferma restando la correttezza dei dati (che va sempre verificata), occorre dunque fare qualche
riflessione per migliorare il risultato.
Proviamo allora a dividere le osservazioni in due gruppi, gli appartamenti fino a 150 mq, che
costituiscono un gruppo con un comportamento più omogeneo rispetto alla variabile Prezzo, e gli
appartamenti oltre i 150 mq che, invece, risultano molto più dispersi.
Proviamo allora a dividere le osservazioni in due gruppi, gli appartamenti fino a 150 mq, che
costituiscono un gruppo con un comportamento più omogeneo rispetto alla variabile Prezzo, e gli
appartamenti oltre i 150 mq che, invece, risultano molto più dispersi.
Come ci aspettavamo, limitando l’analisi agli appartamenti più piccoli, la regressione fornisce
risultati molto più soddisfacenti.
E’ probabile che, per gli appartamenti più grandi, altre variabili, oltre alla Superficie, influiscano sul
Prezzo (che addirittura sembra diminuire all’aumentare della superficie); mettere insieme i due
gruppi aveva, in un certo senso, “inquinato” i dati, producendo risultati insoddisfacenti.
• Regressione e causalità
Regressione e Correlazione
Var ( Y )
1
I due coefficienti angolari possono essere considerati come una misura della dipendenza lineare
della variabile dipendente dalla variabile indipendente. Sono, quindi, due misure asimmetriche di
dipendenza.
Se, a partire da queste misure, volessimo costruire un indice simmetrico, la cosa più ovvia sarebbe
farne la media. Poiché si tratta di rapporti, però, non avrebbe senso utilizzare la media aritmetica
ma, come abbiamo visto, sarebbe corretto utilizzare la media geometrica. In questo caso,
trattandosi di due soli termini, la media geometrica risulta uguale alla radice quadrata del prodotto
dei due indici. Quindi:
Indice di interdipendenza
( )× ( ) ( ) ( ) =r
2
Cov XY Cov XY ⎡Cov XY ⎤ Cov XY
(Y ) ( X)
b1 × b1 = = ⎣ ⎦ = (Coefficiente di correlazione)
Var ( X ) Var ( Y ) ( )
Var X × Var Y () σ X ⋅σ Y
Esercizi di riepilogo
Esercizio 1:
Il responsabile di un negozio operante nel settore dell’home entertainment ipotizza l’esistenza di una
relazione tra gli incassi realizzati ai botteghini e quelli derivanti dalla vendita di DVD.
Considerando i seguenti 10 film (stagione 2004-’05), si valuti l’ipotesi del responsabile determinando:
• Il diagramma di dispersione
• la retta di regressione e l’indice di determinazione lineare
Esercizi di riepilogo
Esercizio 2:
Si sono analizzati i voti riportati da 300 studenti agli esami di Metodi matematici e di Statistica.
Metodi matematici: Voto medio: 24,2 ; Sqm: 2,9
Statistica: Voto medio: 26,9 ; Sqm: 2,4
Sapendo che il coefficiente di correlazione è risultato pari a 0,78, qual è il voto previsto all’esame di
Statistica per uno studente che ha avuto 25 all'esame di Metodi matematici?
Esercizi di riepilogo
Esercizio 3:
Si riporta la tabella con la Superficie (in metri quadrati) e il Fatturato (in migliaia di euro) di
14 Centri Commerciali appartenenti ad una nota catena di Franchising:
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 11:
La Probabilità
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La Probabilità
Come è stato dimostrato, il nostro cervello non sembra essere programmato per
risolvere questioni di probabilità.
Questo perché il risultato di un quesito probabilistico è spesso determinato dal calcolo
simultaneo di un certo numero di quantità frazionarie, cosa che generalmente risulta
abbastanza ostica.
Quello che, allora, tipicamente si fa per arrivare al risultato, è ripetere la prova un certo numero
di volte, osservando i risultati positivi e negativi.
In altri termini, si sostituisce il calcolo simultaneo con una sequenza, che risulta decisamente più
semplice da controllare, perché il nostro intuito funziona per abitudine e le nostre abitudini
vengono apprese in modo sequenziale, in cui il prima determina il dopo.
Esempio: l’alfabeto
abcdefghijklmnopqrstuvwxyz
Facile, no? Provate ora a dirlo al contrario…
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La Probabilità
La probabilità di un evento A è una misura del grado di fiducia che una persona ripone sul verificarsi di un
dato evento, avendo a disposizione informazioni sul fenomeno. Può essere quantificato nella somma che un
individuo coerente è disposto a scommettere in un gioco equo nel quale, al verificarsi di A, egli riceve dal
banco un importo unitario.
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Probabilità e Statistica
La teoria della probabilità deduce dal contenuto noto della popolazione il contenuto
probabile del campione.
Deduce, quindi, le proprietà di un processo fisico da un modello matematico.
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Il diagramma di Venn
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Ω A∪ B
A B A B
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
( )
1. P Ei ≥ 0 ∀Ei ⊂ Ω
La probabilità di ciascun evento associato ad un esperimento è sempre maggiore o uguale a zero.
( )
2. P Ω = 1
Lo spazio campionario, ossia l’insieme dei possibili eventi associati ad un esperimento, costituisce
l’evento certo, e la sua probabilità è pari a 1.
( ) ( ) ( )
3. Ei ∩ E j = ∅ ⇒ P Ei ∪ E j = P Ei + P E j
Dati due eventi E1 e E2 la cui intersezione è l’insieme vuoto, allora la probabilità dell’unione dei due
eventi è pari alla somma delle singole probabilità.
Probabilità condizionata:
(
P B|A =
(
P A∩ B
) ( ) ) ( ) ( ) (
⇒ P A ∩ B = P A ⋅ P B|A = P B ⋅ P A|B ) () ( )
P A
Eventi indipendenti:
( ) () (
P B|A = P B ⇒ P A ∩ B = P A ⋅ P B ) ( ) ()
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Incompatibilità e Indipendenza
Eventi A e B
incompatibili Compatibili
( ) ( ) ()
P A∪ B = P A + P B ( ) ( ) () (
P A∪ B = P A + P B − P A∩ B )
P ( A ∩ B) = 0 P ( A ∩ B)
Indipendenti Dipendenti
I concetti di indipendenza e di
incompatibilità sono, dunque, molto differenti.
L’incompatibilità è una relazione tra eventi, una loro
( ) ()
P A ×P B ( ) ( )
P A × P B|A
P ( B ) × P ( A|B )
caratteristica intrinseca, che non varia, e può essere
rappresentata sui diagrammi di Venn.
L’indipendenza, invece, è una relazione tra le
probabilità degli eventi, e la si può evincere solo dal
calcolo, perché la misura di probabilità assegnata allo
spazio campione può variare in base alle informazioni
a disposizione.
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempi
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempi
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempi
b. non studiando;
c. a casa;
d. studiando, posto che rimanga a casa.
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempi
a. )
navigando in Internet o ascoltando la musica; ………... P A ∪ D = 0,24 + 0,12 = 0,36 (
b. non studiando; ……………………………………………………..… P ( B ) = 1- 0,15 = 0,85
c. a casa; ………………………………………………..…….. P ( A ∪ B ∪ D) = 0,24 + 0,15 + 0,12 = 0,51
d. studiando, posto che rimanga a casa. ………….. P ( B|A ∪ B ∪ D) = 0,15 / (0,24 + 0,15 + 0,12)
= 0,29
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempi
Esempio 3
La tabella riporta i risultati di 100 candidati ad un Concorso pubblico, divisi per Genere ed Esito
della prova. Si estrae a caso un candidato. Qual è la probabilità che:
a. Sia maschio?
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempi
Esempio 3
La tabella riporta i risultati di 100 candidati ad un Concorso pubblico, divisi per Genere ed Esito
della prova. Si estrae a caso un candidato. Qual è la probabilità che:
(
a. Sia maschio? ………………………………………………….. 18 + 22 100 = 0,40)
b. Abbia superato la prova? …………………………………. (18 + 34 ) 100 = 0,52
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempi
Esempio 3
La tabella riporta i risultati di 100 candidati ad un Concorso pubblico, divisi per Genere ed Esito
della prova. E’ possibile considerare l’Esito come indipendente dal Genere?
(
Indipendenza ⇒ P A ∩ B = P A × P B ) ( ) ()
( )
P A ∩ B = 0,18 ; P A = ( ) 18 + 22
100
= 0,40 ; P B =
18 + 34
100
()
= 0,52
( ) ()
P A × P B = 0,40 × 0,52 = 0,208 ( ) ( ) ()
P A∩ B ≠ P A × P B gli eventi
non sono indipendenti.
NOTA:
Se consideriamo questa tabella come una normale tabella di contingenza, le frequenze teoriche, in caso di indipendenza, si
ottengono moltiplicando i marginali e dividendo per il totale. Esattamente quello che prevede la probabilità.
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempi
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempi
(
a. P A ∩ B = ) 7 6
× = 0,700 × 0,667 = 0,467
10 9
(
b. P A ∩ B = ) 3 2
× = 0,300 × 0,222 = 0,067
10 9
⎛ 7 3⎞ ⎛ 3 7⎞
⎡ ( ⎤) ( )
c. P ⎣ A ∩ B ∪ A ∩ B ⎦ ⎜ × ⎟ + ⎜ × ⎟ = 0,233 + 0,233 = 0,466
=
⎝ 10 9 ⎠ ⎝ 10 9 ⎠
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempi
Esempio 5
Si lanciano contemporaneamente due dadi: qual è la probabilità che il risultato sia “6”?
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempi
Esempio 5
Si lanciano contemporaneamente due dadi: qual è la probabilità che il risultato sia “6”?
Ω= 3;1
4;1
3;2
4;2
3;3
4;3
3;4
4;4
3;5
4;5
3;6
4;6
(
P risultato = "6 " = ) 5
36
= 0,139
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempi
Esempio 6
Un sistema elettronico è formato da due sole componenti, A e B, che funzionano in
modo indipendente con probabilità rispettivamente pari a 0,910 e 0,750.
Il sistema funziona se almeno una delle due componenti è attiva; qual è la probabilità
che il sistema elettronico si blocchi?
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempi
Esempio 6
Un sistema elettronico è formato da due sole componenti, A e B, che funzionano in
modo indipendente con probabilità rispettivamente pari a 0,910 e 0,750.
Il sistema funziona se almeno una delle due componenti è attiva; qual è la probabilità
che il sistema elettronico si blocchi?
( ) ()
P A = 0,910 ; P B = 0,750 A B
P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B )
) ( ) () (
P A ∩ B = P A ⋅ P B = 0,910 × 0,750 = 0,683
( ) (
e, quindi, la probabilità che il sistema si blocchi è: P A ∩ B = 1− P A ∪ B = 1 - 0,977 = 0,023 )
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempi
Esempio 7
Si supponga di estrarre, senza reinserirle nel mazzo, 3 carte da un mazzo di carte
francesi (52 carte, di cui 12 “figure”). Si calcoli la probabilità di ottenere:
a. Esattamente 2 figure b. Una figura alla seconda estrazione
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esempi
Esempio 7
Si supponga di estrarre, senza reinserirle nel mazzo, 3 carte da un mazzo di carte
francesi (52 carte, di cui 12 “figure”). Si calcoli la probabilità di ottenere:
a. Esattamente 2 figure b. Una figura alla seconda estrazione
{( ) ( )} = P ⎡⎣(F,F) + (F,F)⎤⎦ = 12
b. P F,F ∪ F,F
11 40 12
⋅ + ⋅
52 51 52 51
= 0,23
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esercizi di riepilogo
VACCINO 28 97 125
PLACEBO 54 71 125
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esercizi di riepilogo
1. La probabilità che si verifichi l’evento A è pari a 0,60, la probabilità che si verifichi l’evento B
è 0,45, la probabilità che si verifichi almeno uno degli eventi è 0,80.
Qual è la probabilità che si verifichino entrambi gli eventi?
2. La probabilità che si verifichi l’evento A è pari a 0,60, la probabilità che si verifichi l’evento B
è 0,45, la probabilità che si verifichino entrambi è 0,30.
Qual è la probabilità che si verifichi almeno uno dei due eventi?
3. La probabilità che si verifichi l’evento A è pari a 0,60, la probabilità che si verifichi l’evento B
è 0,45, la probabilità che si verifichino entrambi è 0,30.
Qual è la probabilità che si verifichi l’evento A, sapendo che si è già verificato l’evento B?
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli
Federico II
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 12:
Il teorema di Bayes
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Richiami di probabilità
P ( Tizio|Voto Medio) =
( ) 33
P Tizio ∩ Voto Medio
= 419 = 33 = 0,183
P (Voto Medio) 180 180
419
(
P Tizio ∩ Voto Medio = ) 33
419
= 0,079
( ) ( ) 180
= P T|VM × P VM =
33 180
×
419
= 0,079
33 84
= P (VM|T ) × P ( T ) = × = 0,079
84 419
LEZIONE 12 – IL TEOREMA DI BAYES
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Richiami di probabilità
P ( Tizio|Voto Medio) =
( ) 33
P Tizio ∩ Voto Medio
= 419 = 33 = 0,183
P (Voto Medio) 180 180
419
(
P Tizio ∩ Voto Medio = ) 33
419
= 0,079
( ) ( ) 180
= P T|VM × P VM =
33 180
×
419
= 0,079
33 84
= P (VM|T ) × P ( T ) = × = 0,079
84 419
LEZIONE 12 – IL TEOREMA DI BAYES
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
E1 E2
… Ek
Teorema delle probabilità totali
Sia E1, E2, …, Ek una partizione di eventi di Ω. Allora,
per ogni altro evento A appartenente ad Ω, si ha: A
( ) ( ) ( )
k
P A = ∑ P A|Ei ⋅ P Ei
i=1
Poiché gli eventi E1, E2, …, Ek sono una partizione di eventi di Ω, la somma delle loro
probabilità è pari a 1.
Il teorema delle probabilità totali afferma dunque che la probabilità di qualsiasi altro
evento A, appartenente ad Ω, è pari alla media aritmetica ponderata delle probabilità
condizionate P(A|Ei), con pesi dati dalle probabilità P(Ei).
( ) (
A ∩ E1 → P A ∩ E1 = P A|E1 ⋅ P E1 ) ( ) ( ) (
A ∩ E2 → P A ∩ E2 = P A|E2 ⋅ P E2 ) ( ) …
( ) ( ) ( ) ( ) ( ) ( ) (
P A = P A ∩ E1 + P A ∩ E2 + … + P A ∩ Ek = P A|E1 ⋅ P E1 + P A|E2 ⋅ P E2 + … + P A|Ek ⋅ P Ek ) ( ) ( ) ( )
= ∑ P ( A|E ) ⋅ P ( E )
k
i i
i=1
Il teorema di Bayes
Il teorema di Bayes
E1 E2 Ek
( ) (
) ( )
k
P A = ∑ P A|Ei ⋅ P Ei
i=1
A
= P( A ∩ E ) + P( A ∩ E ) + … + P( A ∩ E )
1 2 k
Esempi:
E1, E2, …, Ek A
Il teorema delle probabilità totali considera gli eventi Ei come Malattie Sintomi
le cause che determinano lʼevento A. Nelle situazioni reali è Docenti Esito esame
verosimile immaginare che sia le P(Ei) sia le P(A|Ei) siano note. Macchine Pezzi difettosi
: :
In realtà, in molti casi ci si può porre lʼobiettivo di calcolare la probabilità che sia stato
lʼevento Ei a determinare lʼevento A, posto che lʼevento A si sia verificato, quindi la P(Ei|A).
) (( ))
P Ei ∩ A
Dalla probabilità condizionata: P Ei |A = (
, e dalla regola moltiplicativa:
P A
P Ei ∩ A = P A|Ei ⋅ P Ei , ( ) ( ) ( )
ricaviamo dunque il Teorema di Bayes: P Ei |A = ( ) ( ) ( )
P A|Ei ⋅ P Ei
∑ P ( A|E ) ⋅ P ( E )
k
i i
i=1
Il teorema di Bayes
E1 E2 Ek
(
P Ei |A =) )( (
P A|Ei ⋅ P Ei )
A
∑ P ( A|E ) ⋅ P ( E )
k
i i
i=1
Il teorema di Bayes
E1 E2 Ek
(
P Ei |A =) )( (
P A|Ei ⋅ P Ei )
A
∑ P ( A|E ) ⋅ P ( E )
k
i i
i=1
Quindi…
Il teorema di Bayes può essere interpretato come un meccanismo che consente di
correggere le informazioni a priori, P(Ei), sulla base delle osservazioni sperimentali, P(A|Ei),
fornendo, appunto, le probabilità a posteriori, P(Ei|A).
Nella formula si combinano informazioni a priori e verosimiglianze. Quanto più la
probabilità a posteriori P(Ei|A) è diversa dalla probabilità a priori P(Ei), tanto più si può dire
che la verosimiglianza ha modificato le informazioni a priori sulle cause Ei.
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Diagnostica industriale
E1 E2 Ek
Esempio 1
A
Supponiamo che un pezzo di un assemblato sia sottoposto a
controllo, allo scopo di verificare se è difettoso o no.
Se il pezzo supera il test, verrà dunque considerato come “Buono”, altrimenti no.
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Diagnostica industriale
E1 Pezzo buono
Esempio 1
vo
Supponiamo che un pezzo di un assemblato sia sottoposto a negati
Test
controllo, allo scopo di verificare se è difettoso o no.
Pezzo difettoso E2
Evento E1: Pezzo BUONO Evento E2: Pezzo DIFETTOSO
Se il pezzo supera il test, verrà dunque considerato come “Buono”, altrimenti no.
Supponiamo che un pezzo venga sottoposto a verifica e non superi il test. Qual è la
probabilità che sia realmente difettoso?
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Diagnostica industriale
E1 Pezzo buono
Esempio 1
vo
P(PB) = 0,99 P(PD) = 0,01 negati
Test
P(TN|PB) = 0,02 P(TN|PD) = 0,99 Pezzo difettoso E2
Supponiamo che un pezzo venga sottoposto a verifica e non superi il test. Qual è la
probabilità che sia realmente difettoso?
P ( PD|TN ) =
( )
P PD ∩ TN
=
(
P PD ∩ TN ) =
( ) ( )
P PD × P TN|PD
P ( TN ) P ( PB ∩ TN ) + P ( PD ∩ TN ) P ( PD) × P ( TN|PD) + P ( PB ) × P ( TN|PB )
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Diagnostica industriale
Esempio 1 E1 Pezzo buono
vo
Supponiamo che un pezzo di un assemblato sia sottoposto a negati
controllo, allo scopo di verificare se è difettoso o no. Test
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Diagnostica industriale
Esempio 1 E1 Pezzo buono
vo
P(PB) = 0,99 P(PD) = 0,01 negati
Test
P(TN|PB) = 0,02 P(TN|PD) = 0,99 Pezzo difettoso E2
Supponiamo che un pezzo venga sottoposto a verifica e non superi il test. Qual è la
probabilità che sia realmente difettoso?
P ( PD|TN ) =
( )
P PD ∩ TN
=
(
P PD ∩ TN ) =
( ) ( )
P PD × P TN|PD
P ( TN ) P ( PB ∩ TN ) + P ( PD ∩ TN ) P ( PD) × P ( TN|PD) + P ( PB ) × P ( TN|PB )
Sebbene il test appaia “affidabile”, in quanto classifica correttamente il 98% e il 99% dei
pezzi buoni e difettosi, in realtà non è tale poiché solo il 33% dei pezzi che non superano il
test risultano realmente difettosi!
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Diagnostica industriale
Esempio 1 E1 Pezzo buono
vo
P(PB) = 0,99 P(PD) = 0,01
negati
Test
P(TP|PB) = 0,98 P(TN|PD) = 0,99
Pezzo difettoso E2
P(TN|PB) = 0,02 P(TP|PD) = 0,01
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Diagnostica industriale
Esempio 1 E1 Pezzo buono
vo
P(PB) = 0,99 P(PD) = 0,01
negati
Test
P(TP|PB) = 0,98 P(TN|PD) = 0,99
Pezzo difettoso E2
P(TN|PB) = 0,02 P(TP|PD) = 0,01
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Diagnostica industriale
Esempio 1 E1 Pezzo buono
vo
P(PB) = 0,99 P(PD) = 0,01
negati
Test
P(TP|PB) = 0,98 P(TN|PD) = 0,99
Pezzo difettoso E2
P(TN|PB) = 0,02 P(TP|PD) = 0,01
(
P PD|TN =
( ) (
P PD × P TN|PD )
) P (PD) × P (TN|PD) + P (PB) × P (TN|PB)
0,01× 0,99 0,0099
= = = 0,333
0,01× 0,99 + 0,99 × 0,02 0,0099 + 0,0198
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Diagnostica industriale
Esempio 1 E1 Pezzo buono
vo
P(PB) = 0,99 P(PD) = 0,01
negati
Test
P(TP|PB) = 0,98 P(TN|PD) = 0,99
Pezzo difettoso E2
P(TN|PB) = 0,02 P(TP|PD) = 0,01
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Diagnostica industriale
Esempio 1 E1 Pezzo buono
vo
Supponiamo che un pezzo di un assemblato sia sottoposto a negati
controllo, allo scopo di verificare se è difettoso o no. Test
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Diagnostica industriale
Esempio 1 E1 Pezzo buono
vo
Supponiamo che un pezzo di un assemblato sia sottoposto a negati
controllo, allo scopo di verificare se è difettoso o no. Test
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Diagnostica industriale
E1 E2 Ek
In una giornata si producono 10.000 pezzi. Si sceglie un pezzo a caso, e questo risulta difettoso.
Qual è la probabilità che il pezzo provenga da M1, M2 o M3?
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Diagnostica industriale
M1 M2 M3
Esempio 2 (Macchine e Produzione, Orsi, 1995, pag. 45)
o)
M1 30% della produzione 1,0% di pezzi difettosi difettos
o
A (Pezz
M2 25% della produzione 1,2% di pezzi difettosi
M3 45% della produzione 2,0% di pezzi difettosi
In una giornata si producono 10.000 pezzi. Si sceglie un pezzo a caso, e questo risulta difettoso.
Qual è la probabilità che il pezzo provenga da M1, M2 o M3?
Cosa sappiamo: ( )
P M1 = 0,30 ; P ( M ) = 0,25 ; P ( M ) = 0,45
2 3
…………….. (Probabilità a priori)
(
P Mi |A =
( ) P ( M ∩ A)
P Mi ∩ A
) P ( A) = ∑ P ( M ∩ A) i
=
( ) ( )
P A|Mi ⋅ P Mi
i ∑ P ( A|M ) ⋅ P ( M ) i i
i i
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Diagnostica industriale
M1 M2 M3
Esempio 2 (Macchine e Produzione, Orsi, 1995, pag. 45)
o)
M1 30% della produzione 1,0% di pezzi difettosi difettos
o
A (Pezz
M2 25% della produzione 1,2% di pezzi difettosi
M3 45% della produzione 2,0% di pezzi difettosi
In una giornata si producono 10.000 pezzi. Si sceglie un pezzo a caso, e questo risulta difettoso. Qual è
la probabilità che il pezzo provenga da M1, M2 o M3?
( ) ( ) ( ) ( )
P M1 = 0,30 ; P M2 = 0,25 ; P M3 = 0,45 ; P A|M1 = 0,010 ; P A|M2 = 0,012 ; P A|M3 = 0,020 ( ) ( )
Soluzione:
( ) ( ) ( )
P M1 ∩ A = P A|M1 × P M1 = 0,010 × 0,30 = 0,003
P ( M ∩ A) = P ( A|M ) × P ( M ) = 0,012 × 0,25 = 0,003
2 2 2
( ) ( ) (
P A = P M1 ∩ A + P M2 ∩ A + P M3 ∩ A ) ( )
P ( M ∩ A) = P ( A|M ) × P ( M ) = 0,020 × 0,45 = 0,009
3 3 3
= 0,003 + 0,003 + 0,009 = 0,015
Quindi:
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
E1 E2 Ek
Esempio (Virus e diagnosi, Piccolo, 2004, pag. 203)
Tasso di penetrazione 1
di un Virus nella popolazione: 1000 A
TEST CLINICO:
98% dei casi diagnostica correttamente la presenza del Virus
1% dei casi diagnostica il Virus a soggetti sani (c.d. “falso positivo”)
Una persona si sottopone al test e risulta positivo. Qual è la probabilità che abbia il Virus?
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
NO VIRUS VIRUS
Esempio (Virus e diagnosi, Piccolo, 2004, pag. 203)
Tasso di penetrazione 1
di un Virus nella popolazione: 1000 TP
TEST CLINICO:
98% dei casi diagnostica correttamente la presenza del Virus
1% dei casi diagnostica il Virus a soggetti sani (c.d. “falso positivo”)
Una persona si sottopone al test e risulta positivo. Qual è la probabilità che abbia il Virus?
( )
Cosa sappiamo: P V1 = 0,001 ; P V0 = 0,999 ( ) P ( TP|V ) = 0,98 ; P ( TP|V ) = 0,01
1 0
P (V ∩ TP) P (V ) × P ( TP|V )
Cosa cerchiamo: P (V |TP) = 1 1 1
=
P ( TP) P (V ) × P ( TP|V ) + P (V ) × P ( TP|V )
1
1 1 0 0
(
Quindi: P V1|TP = ) 0,001× 0,98
=
0,00098
=
0,00098
0,001× 0,98 + 0,999 × 0,01 0,00098 + 0,00999 0,01097
= 0,089
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
NO VIRUS VIRUS
Esempio (Virus e diagnosi, Piccolo, 2004, pag. 203)
Tasso di penetrazione 1
di un Virus nella popolazione: 1000 TP
TEST CLINICO:
98% dei casi diagnostica correttamente la presenza del Virus
1% dei casi diagnostica il Virus a soggetti sani (c.d. falso positivo )
Una persona si sottopone al test e risulta positivo. Qual è la probabilità che abbia il Virus?
( )
Cosa sappiamo: P V1 = 0,001 ; P V0 = 0,999 ( ) P ( TP|V ) = 0,98 ; P ( TP|V ) = 0,01
1 0
P (V ∩ TP) P (V ) × P ( TP|V )
Cosa cerchiamo: P (V |TP) = 1 1 1
=
P ( TP) P (V ) × P ( TP|V ) + P (V ) × P ( TP|V )
1
1 1 0 0
(
Quindi: P V1|TP = ) 0,001× 0,98
=
0,00098
=
0,00098
0,001× 0,98 + 0,999 × 0,01 0,00098 + 0,00999 0,01097
= 0,089
Il risultato, che non si può certamente considerare soddisfacente, dipende dalla probabilità a priori,
P(V1), che è molto bassa. In questi casi, per migliorare lʼattendibilità del test (non potendo agire
sulle probabilità a priori), occorre migliorare la performance, per esempio riducendo la P(TP|V0).
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
NO VIRUS VIRUS
Esempio (Virus e diagnosi, Piccolo, 2004, pag. 203)
Tasso di penetrazione 1
di un Virus nella popolazione: 1000 TP
TEST CLINICO:
98% dei casi diagnostica correttamente la presenza del Virus
1% dei casi diagnostica il Virus a soggetti sani (c.d. falso positivo )
Una persona si sottopone al test e risulta positivo. Qual è la probabilità che abbia il Virus?
(
Quindi: P V1|TP = ) 0,001× 0,98
=
0,00098
=
0,00098
0,001× 0,98 + 0,999 × 0,0001 0,00098 + 0,0000999 0,00108
= 0,907
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
NO VIRUS VIRUS
Esempio (Virus e diagnosi, Piccolo, 2004, pag. 203)
Tasso di penetrazione 1
di un Virus nella popolazione: 1000 TP
TEST CLINICO:
98% dei casi diagnostica correttamente la presenza del Virus
1% dei casi diagnostica il Virus a soggetti sani (c.d. “falso positivo”)
Una persona si sottopone al test e risulta positivo.
Cosa si fa?
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
NO VIRUS VIRUS
Esempio (Virus e diagnosi, Piccolo, 2004, pag. 203)
Tasso di penetrazione 1
di un Virus nella popolazione: 1000 TP
TEST CLINICO:
98% dei casi diagnostica correttamente la presenza del Virus
1% dei casi diagnostica il Virus a soggetti sani (c.d. “falso positivo”)
1a strategia: Si ripete (anche più volte) lo stesso test sui soli soggetti risultati “positivi”.
VIRUS NO VIRUS TOT
TEST
98 999 1.097
POSITIVO
TEST
2 98.901 98.903
NEGATIVO
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
NO VIRUS VIRUS
Esempio (Virus e diagnosi, Piccolo, 2004, pag. 203)
Tasso di penetrazione 1
di un Virus nella popolazione: 1000 TP
TEST CLINICO:
98% dei casi diagnostica correttamente la presenza del Virus
1% dei casi diagnostica il Virus a soggetti sani (c.d. “falso positivo”)
1a strategia: Si ripete (anche più volte) lo stesso test sui soli soggetti risultati “positivi”.
VIRUS NO VIRUS TOT VIRUS NO VIRUS TOT
TEST
98 999 1.097 TEST
POSITIVO 96 10 106
POSITIVO
TEST
2 98.901 98.903 TEST
NEGATIVO 2 989 991
NEGATIVO
TOT 100 99.900 100.000
TOT 98 999 1.097
(
P V1|TP = ) 96
106
= 0,906
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
NO VIRUS VIRUS
Esempio (Virus e diagnosi, Piccolo, 2004, pag. 203)
Tasso di penetrazione 1
di un Virus nella popolazione: 1000 TP
TEST CLINICO:
98% dei casi diagnostica correttamente la presenza del Virus
1% dei casi diagnostica il Virus a soggetti sani (c.d. “falso positivo”)
2a strategia: Come secondo test si utilizza un test più potente, sia nel senso della sua
sensibilità (riduzione dei “falsi negativi”) che della sua specificità (riduzione dei “falsi
positivi”) ma più costoso, e quindi non utilizzabile come test di screening.
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Esempio E1 E2 Ek
Un manager ha nel proprio ufficio tre
segretarie, Sara, Mara e Chiara, i cui A
telefoni risultano liberi con probabilità,
rispettivamente: 0,7, 0,2 e 0,3.
Si compone a caso uno dei tre numeri:
1. Qual è la probabilità di trovare la linea libera?
2. La linea è libera: qual è la probabilità che risponda Chiara?
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Esempio
Sara Mara Chiara
Un manager ha nel proprio ufficio tre
segretarie, Sara, Mara e Chiara, i cui
telefoni risultano liberi con probabilità, a l i bera
Line
rispettivamente: 0,7, 0,2 e 0,3.
Si compone a caso uno dei tre numeri:
1. Qual è la probabilità di trovare la linea libera?
2. La linea è libera: qual è la probabilità che risponda Chiara?
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Esempio
Sara Mara Chiara
Un manager ha nel proprio ufficio tre
segretarie, Sara, Mara e Chiara, i cui
telefoni risultano liberi con probabilità, a l i bera
Line
rispettivamente: 0,7, 0,2 e 0,3.
Si compone a caso uno dei tre numeri:
1. Qual è la probabilità di trovare la linea libera?
2. La linea è libera: qual è la probabilità che risponda Chiara?
Cosa sappiamo: ( ) ( ) (
P Sara = P Mara = P Chiara = ) 31
P ( LL|Sara ) = 0,7 ; P ( LL|Mara ) = 0,2 (
; P LL|Chiara = 0,3 )
( ) ( ) (
Cosa cerchiamo: P LL = P Sara ∩ LL + P Mara ∩ LL + P Chiara ∩ LL ) ( )
( ) (
P Sara × P LL | Sara ) ( ) (
P Mara × P LL | Mara ) ( ) (
P Chiara × P LL | Chiara )
( ) ( ) ( ) ( ) (
P LL = ⎡ P Sara × P LL|Sara ⎤ + ⎡ P Mara × P LL|Mara ⎤ + ⎡ P Chiara × P LL|Chiara ⎤
⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ) ( ) ( )
1 1 1
= × 0,7 + × 0,2 + × 0,3 = 0,2331+ 0,0667 + 0,0999 = 0,3997
3 3 3
( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k
i i
i=1
Esempio
Sara Mara Chiara
Un manager ha nel proprio ufficio tre
segretarie, Sara, Mara e Chiara, i cui
telefoni risultano liberi con probabilità, a l i bera
Line
rispettivamente: 0,7, 0,2 e 0,3.
Si compone a caso uno dei tre numeri:
1. Qual è la probabilità di trovare la linea libera?
2. La linea è libera: qual è la probabilità che risponda Chiara?
Cosa sappiamo: ( ) ( ) (
P Sara = P Mara = P Chiara = ) 31
P ( LL|Sara ) = 0,7 ; P ( LL|Mara ) = 0,2 (
; P LL|Chiara = 0,3 )
( ) ( ) (
Cosa cerchiamo: P LL = P Sara ∩ LL + P Mara ∩ LL + P Chiara ∩ LL ) ( )
( ) (
P Sara × P LL | Sara ) ( ) (
P Mara × P LL | Mara ) ( ) (
P Chiara × P LL | Chiara )
( )
P LL =
3
1 1 1
× 0,7 + × 0,2 + × 0,3 = 0,2331+ 0,0667 + 0,0999 = 0,3997
3 3
1
(
P Chiara|LL = ) ( ) (
P Chiara × P LL|Chiara
= 3
× 0,3
= 0,250
)
P LL ( ) 0,3997
LEZIONE 12 – IL TEOREMA DI BAYES
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Una ditta di Computer ha, per i propri hard disk, tre fornitori, F1, F2 e
F3, che provvedono rispettivamente al 50%, 40% e 10% dei pezzi.
Dalla esperienza passata, si sa che le percentuali di pezzi difettosi
riscontrate nelle varie forniture possono essere stimate nello 0,9% per
F1, 0,7% per F2 e 1,3% per F3.
Durante le normali procedure di controllo di qualità, viene selezionato un computer
del quale viene valutato l’hard disk.
1. Qual è la probabilità che l’hard disk sia difettoso?
2. Posto che il pezzo sia difettoso, qual è il fornitore che più verosimilmente lo ha
inviato?
Una ditta di Computer ha, per i propri hard disk, tre fornitori, F1, F2 e F3,
che provvedono rispettivamente al 50%, 40% e 10% dei pezzi.
Dalla esperienza passata, si sa che le percentuali di pezzi difettosi
riscontrate nelle varie forniture possono essere stimate nello 0,1% per F1,
5% per F2 e 10% per F3.
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 13:
Le variabili casuali
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Le variabili casuali
• Eʼ diverso, dunque, dal concetto di variabile definita su una popolazione, di cui io posso
conoscere o meno il valore che questa assume sulle singole unità, ma rispetto alla quale
non cʼè nulla di incerto.
• Eʼ lo stesso concetto che possiamo associare al lancio di una moneta. Prima di lanciare la
moneta, la probabilità che esca testa può essere posta pari a p, quella che esca croce
pari a (1-p). Ma una volta lanciata la moneta, una volta realizzato lʼevento, questo può
essere noto o meno (immaginiamo di avere la moneta nel pugno stretto), ma non cʼè più
incertezza: la probabilità che il risultato sia testa è 1 (se effettivamente è uscito testa) o 0
(se è uscito croce).
Le variabili casuali
• Quando è possibile, invece di specificare le singole probabilità P(X) per i valori che la
variabile X può assumere, si preferisce esprimere la relazione funzionale che lega queste
probabilità e che viene sintetizzata attraverso la funzione f(x):
() (
f x =P X=x )
• Lʼimpiego della funzione di probabilità f(x) è indispensabile quando si ha a che fare con
v.c. di tipo continuo o con v.c. di tipo discreto con un numero elevato di possibili
modalità.
• Nel caso discreto, la funzione f(x) definisce la funzione di probabilità della v.c. X. Se X è
discreta, anche f(x) sarà discreta, nel senso che concentrerà la probabilità in un insieme
finito di valori di X. La funzione di probabilità f(x) di tipo discreto soddisfa le condizioni:
()
f x ≥0 ∑f (x ) = 1
i
i
• In molti casi, può essere necessario trovare la probabilità che la v.c. X assuma un
valore inferiore o uguale ad un dato valore xk. Tale probabilità viene definita
probabilità cumulata ed è descritta dalla funzione di ripartizione, che viene indicata
con F(xk).
• Quindi, se x1, x2, …, xn sono i valori possibili di X, ordinati in senso crescente, la
probabilità cumulata sarà:
( ) ( ) ( )
F xk = f x1 + f x2 + … + f xk ( )
Esempio:
Lancio di tre monete (oppure, tre lanci di una moneta)
Variabile casuale associata: Numero di "Teste" ottenute
Valori possibili che la variabile casuale può assumere: 0, 1, 2, 3
( ) ( ) (
f x0 = P X = 0 = P C ∩ C ∩ C = ) 21 × 21 × 21 = 81
f ( x ) = P ( X = 1) = P ⎡( T ∩ C ∩ C ) ∪ ( C ∩ T ∩ C ) ∪ ( C ∩ C ∩ T ) ⎤ = + + =
1 1 1 3
1 ⎣ ⎦ 8 8 8 8
f ( x ) = P ( X = 2 ) = P ⎡( T ∩ T ∩ C ) ∪ ( C ∩ T ∩ T ) ∪ ( T ∩ C ∩ T ) ⎤ = + + =
1 1 1 3
2 ⎣ ⎦ 8 8 8 8
f ( x ) = P ( X = 3) = P (T ∩ T ∩ T ) = × × =
1 1 1 1
3
2 2 2 8
• Una variabile casuale continua è una v.c. che può assumere un numero infinito di valori
compresi in un intervallo di ampiezza finita o infinita.
• A differenza di quanto accade nel caso discreto, non è possibile ottenere la probabilità
che la variabile assuma un qualsiasi valore interno allʼintervallo sommando le probabilità
dei singoli punti che lo compongono, in quanto i punti sono infiniti e una somma infinita di
valori finiti non può dare lʼunità.
• Il c.d. paradosso della continuità viene risolto ricorrendo al concetto di area, assegnando
probabilità a singoli intervalli piuttosto che a singoli punti e rappresentando le probabilità
come delle aree su degli intervalli.
• Una variabile casuale X è, allora, continua se esiste una funzione f (x) tale che:
b
( )
P a ≤ X ≤ b = ∫ f x dx
a
()
dove a e b sono numeri reali qualsiasi, con a<b.
() (
F x =P X≤x = ) ∫ f ( x ) dx
−∞
che conserva il suo significato.
Una variabile casuale può essere interamente descritta dalla sua funzione di densità.
Eʼ possibile, dʼaltra parte, definire dei parametri, o grandezze caratteristiche, di una
distribuzione di probabilità, che hanno la capacità di riassumere in modo immediato e
sintetico lʼinformazione relativa alla distribuzione.
Questi parametri vengono definiti in termini di valori attesi, o speranze matematiche, e
rappresentano una sintesi dei diversi risultati dell’esperimento.
Eʼ chiaro che il risultato del gioco sarà dato dall’ammontare che si vince quando si presenta A o B, ognuno
moltiplicato per le rispettive probabilità, sommato all’ammontare che si perde quando si presenta C,
ponderato con la corrispondente probabilità.
( ) ( ) (
Avremo, dunque: 20 × 0,1 + 10 × 0,2 + −10 × 0,7 = −3€ )
Il gioco ha, cioè, un valore atteso negativo, e più precisamente una perdita di 3€ a partita.
I 3 euro non rappresentano lʼammontare che si perde in una singola giocata ma ciò che si perderebbe in media,
per partita, se si giocasse un numero elevato di volte (infatti, nella singola giocata o si vincono 10 o 20 euro o se ne
perdono 10, ma non se ne potranno mai perdere 3).
Questa somma, tuttavia, rappresenta una sintesi dei diversi risultati del gioco, i quali portano a perdere, in media, 3
euro ogni giocata, e quindi non si avrà interesse a giocare perché il gioco non è equo.
Il valore atteso, o speranza matematica, di una v.c. X discreta sarà quindi dato da: E X = ( ) ∑ x ⋅f(x )
i
i i
∞
GUADAGNO 9€ 1€ 0€ -1 €
( ) ( ) ( ) ( ) (
E X = 9 × 0,01 + 1× 0,16 + 0 × 0,25 + −1× 0,58 = −0,33€ )
LEZIONE 13 – LE VARIABILI CASUALI
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
( ) ( ) ( ) ( ) ( )
(mele, mele) (camp., camp.) (cil., cil.) (altro)
GUADAGNO 9€ 1€ 0€ -1 €
E X = 9 × 0,01 + 1× 0,16 + 0 × 0,25 + −1× 0,58
PROBABILITÀ 0,01 0,16 0,25 0,58 = −0,33€
Il guadagno atteso è un valore negativo, quindi una perdita: per ogni euro giocato si perdono, in media, 33 centesimi,
per cui per 100 giocate ci aspettiamo di perdere 33 euro.
Ancora una volta va precisato che la perdita di 0,33 euro per ogni euro giocato è quello che ci si attende in
media per un numero elevato di prove. Questo valore dà, cioè, una indicazione sul meccanismo del gioco, in
questo caso un gioco non equo poiché tende a produrre un guadagno sistematico per la macchina, pagando
un premio non proporzionale alla posta pagata ma inferiore. Questo non vuol dire che non si possa vincere! Se
ciò accade, però, è da considerarsi un evento fortuito, e si ha interesse ad abbandonare il gioco, poiché tale
gioco, alla lunga, tende a causare una perdita pari a 1/3 della somma pagata.
Esempio 3:
Il test di ingresso per il Corso XYZ consiste in 80 domande, ciascuna con
cinque possibili risposte di cui una sola esatta. Il test prevede lʼassegnazione
di 1 punto per ogni risposta esatta, di –0,2 punti per ogni risposta sbagliata e di
0 punti in caso di mancata risposta.
1. Nel caso di una domanda di cui si ignori la risposta, conviene rischiare nel rispondere in
modo casuale oppure no?
2. Qual è il punteggio atteso di un candidato che risponda a tutte le 80 domande in
modo casuale?
3. Come dovrebbe essere strutturato il test affinché fosse perfettamente “equo” (e cioè
tale da non favorire né danneggiare lo studente)?
Esempio 3:
Il test di ingresso per il Corso XYZ consiste in 80 domande, ciascuna con
cinque possibili risposte di cui una sola esatta. Il test prevede lʼassegnazione
di 1 punto per ogni risposta esatta, di –0,2 punti per ogni risposta sbagliata e di
0 punti in caso di mancata risposta.
1. Nel caso di una domanda di cui si ignori la risposta, conviene rischiare nel rispondere in
modo casuale oppure no?
Soluzione:
Conviene rischiare se il valore atteso del punteggio alla domanda è positivo, non conviene se è
negativo, è indifferente se è nullo.
() ( ) ( )
E Y = 1× 0,2 + −0,2 × 0,8 = 0,20 − 0,16 = 0,04 In questo caso, conviene rischiare!
Esempio 3:
Il test di ingresso per il Corso XYZ consiste in 80 domande, ciascuna con
cinque possibili risposte di cui una sola esatta. Il test prevede lʼassegnazione
di 1 punto per ogni risposta esatta, di –0,2 punti per ogni risposta sbagliata e di
0 punti in caso di mancata risposta.
2. Qual è il punteggio atteso di un candidato che risponda a tutte le 80 domande in modo
casuale?
Soluzione:
Poiché a tutte le domande si applica lo stesso criterio, il punteggio è dato dal valore atteso del
punteggio alla singola domanda moltiplicato per il numero di domande.
()
E Y = 0,04 × 80 = 3,2
Esempio 3:
Il test di ingresso per il Corso XYZ consiste in 80 domande, ciascuna con
cinque possibili risposte di cui una sola esatta. Il test prevede lʼassegnazione
di 1 punto per ogni risposta esatta, di –0,2 punti per ogni risposta sbagliata e di
0 punti in caso di mancata risposta.
3. Come dovrebbe essere strutturato il test affinché fosse perfettamente “equo” (e cioè tale
da non favorire né danneggiare lo studente)?
Soluzione:
Il test dovrebbe essere strutturato in modo che il valore atteso del punteggio alla singola risposta
risulti pari a zero. Questo avviene se, nel nostro esempio, ad ogni risposta sbagliata viene
assegnato un punteggio negativo pari a -0,25.
() ( ) ( )
E Y = 1× 0,2 + −0,25 × 0,8 = 0,20 − 0,20 = 0,00
( ) (
P Rosso = P Nero = ) 18
37 → cʼè anche lo zero che è verde!
Il valore atteso della vincita (V) su uno dei due colori (R/N), per una puntata di 1 euro è dunque:
⎛ 18 ⎞ ⎛ 18 +1⎞
( )
E V = ⎜1× ⎟ + ⎜ −1×
⎝ 37 ⎠ ⎝ 37 ⎠
⎟ = 0,4865 − 0,5135 = −0,0270
NOTA 1: Ancora una volta il gioco è a favore del banco. Questo non deve meravigliare ma nemmeno deve trarre in
inganno il valore, in assoluto non molto elevato. In questo specifico tipo di gioco (Rosso/Nero alla roulette), non si punta
certo un euro, le somme giocate ad ogni "giro di ruota" da un giocatore accanito possono essere anche di diverse
migliaia di euro e, di conseguenza, anche le perdite possono essere rilevanti.
D'altra parte, il fatto che il gioco abbia un "costo" (il valore atteso negativo) non è di per sé un fatto da condannare. È il
prezzo che si paga per qualcosa che per molti rimane comunque un divertimento.
NOTA 2: Il valore atteso può essere interpretato anche come la quota che manca al nostro premio in caso di vincita
rispetto a quanto dovremmo ricevere in un gioco equo (inclusa la quota che abbiamo puntato).
Ad esempio, se io punto sul Rosso, la probabilità di vincita è: P Rosso =
18
37
(
= 0,4865 = ) 1
2,0555
(Quindi, in media vinco 100
volte ogni 206 puntate)
In caso di vincita con una puntata di 1 euro, dovrei dunque riceverne 2,0555 (incluso l'euro che ho puntato), invece ne
riceverò solo 2.
2
Il rapporto tra quello che ricevo e quello che dovrei avere in caso di gioco equo è: = 0,973 . Quello che "manca"
2,0555
è proprio rappresentato dal valore atteso della giocata (0,0270).
LEZIONE 13 – LE VARIABILI CASUALI
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
(
P Ambo = ) 5
×
90 89
4
= 0,00250 (su una singola ruota)
⎛ 1 ⎞ ⎛ 399 ⎞
( )
E V = ⎜ 250 ×
⎝
+
⎟ ⎜
400 ⎠ ⎝
−1× ⎟ = 0,6250 − 0,9975 = −0,3725
400 ⎠
In pratica, se centomila persone giocano sull'ambo, puntando ciascuno 1 euro, il
guadagno previsto dal banco è di oltre 37mila euro.
LOTTO
Puntata Vincita Valore
Esito Probabilità
(€) (€) atteso
Ambo 1/400 0,002500000 1 250 -0,3725
Terno 1/11.748 0,000085121 1 4.500 -0,6169
Quaterna 1/511.038 0,000001957 1 120.000 -0,7652
Cinquina 1/43.949.268 0,000000023 1 6.000.000 -0,8635
SUPERENALOTTO
Puntata Vincita media Valore
Esito Probabilità
(€) (€) (vedi Nota) atteso
3 punti 1/327 0,003058104 1 40 -0,8746
4 1/11.907 0,000083984 1 700 -0,9411
5 1/1.250.230 0,000000800 1 110.000 -0,9120
5+1 1/103.769.105 0,000000010 1 1.600.000 -0,9846
6 1/622.614.630 0,000000002 1 150.000.000 -0,7591
Nota – La puntata minima al superenalotto è di 1 euro, che consente, però, di giocare due “quadri” di numeri. Lʼimporto medio delle vincite
delle varie categorie è stato dunque moltiplicato per 2.
Esercizi di riepilogo
Esercizio 1
Esercizi di riepilogo
Esercizio 2
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 14:
La variabile casuale
Normale
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
I modelli di probabilità
• Nello studio dei fenomeni reali, uno dei problemi che si pone è stabilire se, per la
descrizione del fenomeno osservato, si debba costruire un’apposita variabile casuale
oppure se non convenga fare riferimento a variabili casuali note per le loro
caratteristiche e proprietà.
• Tali variabili casuali note, sia discrete che continue, costituiscono altrettanti modelli
probabilistici che consentono di descrivere la realtà con un sufficiente grado di
approssimazione.
• La distribuzione di probabilità più importante della Statistica è certamente la
distribuzione Normale, proposta da Gauss nel 1809 come distribuzione in grado di
descrivere gli errori accidentali commessi nel calcolo del cammino dei corpi celesti.
• L’importanza della distribuzione Normale è legata alla considerazione che molti dei
fenomeni osservabili si distribuiscono in un modo che può essere considerato Normale,
ma anche al fatto che altre distribuzioni di probabilità, diverse dalla Normale, in molte
circostanze possono essere approssimate in modo soddisfacente dalla distribuzione
gaussiana.
Consideriamo una macchina che produce dadi per bulloni. Il diametro dei dadi
deve essere pari a 20 mm.
Consideriamo ora un lotto di 10mila dadi prodotti dalla macchina.
Possiamo immaginare che tutti i 10mila dadi abbiano un diametro esattamente pari a 20,0000 mm,
o è più probabile che ci possano essere degli scostamenti, anche minimi? E, in questo caso, quale
sarà la loro distribuzione?
Frequenza
In un qualsiasi processo produttivo, è praticamente impossibile
prescindere da uno scostamento, anche piccolissimo, tra quello che ci si
aspetta e quello che si ottiene
Se l'errore è casuale, ossia generato da un insieme, anche numeroso, di
cause non controllabili, è possibile immaginare che:
• La maggior parte dei pezzi prodotti ha scarti piccoli, o piccolissimi,
rispetto al valore atteso;
• Gli scostamenti possono essere indifferentemente positivi o
negativi;
• Via via che ci si allontana dal valore atteso, gli
scostamenti diventano sempre meno frequenti, in modo
| simmetrico;
20mm X
Consideriamo una macchina che produce dadi per bulloni. Il diametro dei dadi
deve essere pari a 20 mm.
Consideriamo ora un lotto di 10mila dadi prodotti dalla macchina.
Possiamo immaginare che tutti i 10mila dadi abbiano un diametro esattamente pari a 20,0000 mm,
o è più probabile che ci possano essere degli scostamenti, anche minimi? E, in questo caso, quale
sarà la loro distribuzione?
In un qualsiasi processo produttivo, è praticamente impossibile
f(x)
prescindere da uno scostamento, anche piccolissimo, tra quello che ci si
aspetta e quello che si ottiene
Se l'errore è casuale, ossia generato da un insieme, anche numeroso, di
cause non controllabili, è possibile immaginare che:
• La maggior parte dei pezzi prodotti ha scarti piccoli, o piccolissimi,
rispetto al valore atteso;
• Gli scostamenti possono essere indifferentemente positivi o
negativi;
• Via via che ci si allontana dal valore atteso, gli
scostamenti diventano sempre meno frequenti, in modo
| simmetrico;
20mm X
• Considerando intervalli sempre più piccoli, il grafico assumerà sempre più la forma di una curva
simmetrica, campanulare e unimodale;
• Tutto questo, dal punto di vista empirico, era probabilmente già noto anche prima di Gauss.
Quello che fece Gauss fu trovare la forma funzionale esatta che lega ciascuna X alla
corrispondente f(x), per ottenere questa curva.
LEZIONE 14 – LA VARIABILE CASUALE NORMALE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
I modelli di probabilità
La distribuzione
Normale sulle vecchie
banconote da 10
marchi
La distribuzione Normale
Una variabile casuale X segue una distribuzione Normale, con media µ e varianza σ2, se la sua
funzione di densità di probabilità è data da:
( x− µ )
2
() 1 −
f x = ⋅e 2σ 2
2πσ 2
0,4500000
f(x) Titolo del grafico Caratteristiche della Curva Normale:
0,4000000
0,2500000
2. Media, mediana e moda coincidenti
3. Proiezione dei punti di flesso a distanza ±σ dalla media
0,2000000
0,1500000
68%
4. Circa il 68% dei casi è compreso nell’intervallo µ±σ
0,1000000
0,0500000
0,0000000
µ-s µ µ+s
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
La distribuzione Normale
Una variabile casuale X segue una distribuzione Normale, con media µ e varianza σ2, se la sua
funzione di densità di probabilità è data da:
( x− µ )
2
() 1 −
f x = ⋅e 2σ 2
2πσ 2
0,4500000
f(x) Titolo del grafico Caratteristiche della Curva Normale:
0,4000000
0,2500000
2. Media, mediana e moda coincidenti
3. Proiezione dei punti di flesso a distanza ±σ dalla media
0,2000000
0,1500000
95%
4. Circa il 68% dei casi è compreso nell’intervallo µ±σ
0,1000000
0,0500000
5. Circa il 95% dei casi è compreso nell’intervallo µ±2σ
0,0000000
µ-2s µ-s µ µ+s µ+2s
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
La distribuzione Normale
Una variabile casuale X segue una distribuzione Normale, con media µ e varianza σ2, se la sua
funzione di densità di probabilità è data da:
( x− µ )
2
() 1 −
f x = ⋅e 2σ 2
2πσ 2
0,4500000
f(x) Titolo del grafico Caratteristiche della Curva Normale:
0,4000000
0,2500000
2. Media, mediana e moda coincidenti
3. Proiezione dei punti di flesso a distanza ±σ dalla media
0,2000000
0,1500000
99%
4. Circa il 68% dei casi è compreso nell’intervallo µ±σ
0,1000000
0,0500000
5. Circa il 95% dei casi è compreso nell’intervallo µ±2σ
0,0000000
µ-3s µ-2s µ-s µ µ+s µ+2s µ+3s
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
La distribuzione Normale
Una variabile casuale X segue una distribuzione Normale, con media µ e varianza σ2, se la sua
funzione di densità di probabilità è data da:
( x− µ )
2
() 1 −
f x = ⋅e 2σ 2
2πσ 2
0,4500000
f(x) Titolo del grafico Caratteristiche della Curva Normale:
0,4000000
0,2500000
2. Media, mediana e moda coincidenti
0,2000000 3. Proiezione dei punti di flesso a distanza ±σ dalla media
0,1500000
4. Circa il 68% dei casi è compreso nell’intervallo µ±σ
0,1000000
0,0500000
5. Circa il 95% dei casi è compreso nell’intervallo µ±2σ
0,0000000
µ µ µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
7. Un aumento o una diminuzione della media determina uno slittamento della curva, a parità di forma,
sullʼasse delle X.
La distribuzione Normale
Una variabile casuale X segue una distribuzione Normale, con media µ e varianza σ2, se la sua
funzione di densità di probabilità è data da:
( x− µ )
2
() 1 −
f x = ⋅e 2σ 2
2πσ 2
0,4500000
f(x) Titolo del grafico Caratteristiche della Curva Normale:
0,4000000
0,2500000
2. Media, mediana e moda coincidenti
0,2000000 3. Proiezione dei punti di flesso a distanza ±σ dalla media
0,1500000
4. Circa il 68% dei casi è compreso nell’intervallo µ±σ
0,1000000
0,0500000
5. Circa il 95% dei casi è compreso nell’intervallo µ±2σ
0,0000000
µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
7. Un aumento o una diminuzione della media determina uno slittamento della curva, a parità di forma,
sullʼasse delle X.
8. Un aumento o una diminuzione della varianza determina, rispettivamente, una minore o una maggiore
concentrazione di valori attorno al valore medio.
La distribuzione Normale
Esempio:
Una macchina produce biscotti il cui peso si distribuisce come una Normale, con
media pari a 5 grammi e scarto quadratico medio pari a 0,1 grammi.
Qual è la percentuale di biscotti il cui peso è compreso tra 5,12 e 5,20 grammi?
La distribuzione Normale
Esempio:
Una macchina produce biscotti il cui peso si distribuisce come una Normale, con
media pari a 5 grammi e scarto quadratico medio pari a 0,1 grammi.
Qual è la percentuale di biscotti il cui peso è compreso tra 5,12 e 5,20 grammi?
( x− µ )
2
0,4500000
Titolo del grafico
() 1 −
f(x)
0,4000000
X~N f x = ⋅e 2σ 2
µ = 5 gr s2 = 0,01
0,3500000
2πσ 2
0,3000000
0,2500000
0,2000000
(
Fr 5,12 ≤ X ≤ 5,20 )
0,1500000
0,1000000
0,0500000
0,0000000
5 X
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
La distribuzione Normale
Esempio:
Una macchina produce biscotti il cui peso si distribuisce come una Normale, con
media pari a 5 grammi e scarto quadratico medio pari a 0,1 grammi.
Qual è la percentuale di biscotti il cui peso è compreso tra 5,12 e 5,20 grammi?
( x− µ )
2
0,4500000
Titolo del grafico
() 1 −
f(x)
0,4000000
X~N f x = ⋅e 2σ 2
µ = 5 gr s2 = 0,01
0,3500000
2πσ 2
0,3000000
0,2500000
0,2000000
(
Fr 5,12 ≤ X ≤ 5,20 )
0,1500000
0,1000000
0,0500000
0,0000000
5 5,10 5,12 5,20 X
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
La distribuzione Normale
Esempio:
Una macchina produce biscotti il cui peso si distribuisce come una Normale, con
media pari a 5 grammi e scarto quadratico medio pari a 0,1 grammi.
Qual è la percentuale di biscotti il cui peso è compreso tra 5,12 e 5,20 grammi?
( x− µ )
2
0,4500000
Titolo del grafico
() 1 −
f(x)
0,4000000
X~N f x = ⋅e 2σ 2
µ = 5 gr s2 = 0,01
0,3500000
2πσ 2
0,3000000
( x− µ )
2
5,20
( ) ∫ 1 −
0,2500000
Fr 5,12 ≤ X ≤ 5,20 = ⋅e 2σ 2
dx
0,2000000
2πσ 2
0,1500000 5,12
0,1000000 Per semplificare il procedimento, possiamo ricorrere
0,0500000 alla standardizzazione della variabile X, con la
0,0000000
trasformazione: X−µ
5 5,12 5,20 X Z=
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
σ
Una variabile standardizzata conserva le caratteristiche distribuzionali della variabile da cui
proviene ma è una variabile adimensionale, ossia priva di unità di misura; ha sempre media nulla
e varianza unitaria. Inoltre, i valori standardizzati esprimono, per ciascuna unità, la distanza, in
termini di scarti quadratici medi, dalla media.
0,3000000
( x− µ )
2
5,20
( ) ∫ 1 −
0,2500000
Fr 5,12 ≤ X ≤ 5,20 = ⋅e 2σ 2
dx
0,2000000
2πσ 2
0,1500000 5,12
0,1000000 Per semplificare il procedimento, possiamo ricorrere
0,0500000 alla standardizzazione della variabile X, con la
0,0000000
trasformazione: X−µ
5 5,12 5,20 X Z=
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
σ
Una variabile standardizzata conserva le caratteristiche distribuzionali della variabile da cui
proviene ma è una variabile adimensionale, ossia priva di unità di misura; ha sempre media nulla
e varianza unitaria. Inoltre, i valori standardizzati esprimono, per ciascuna unità, la distanza, in
termini di scarti quadratici medi, dalla media.
( x− µ )
2
X−µ z2
() 1
() 1
− −
Z= ∼ N ; µ Z = 0 ; σ Z2 = 1 ; σ Z = 1 f x = ⋅e 2σ 2
f z = ⋅e 2
σ 2πσ 2
2π
0,4500000
Titolo del grafico
f(Z)
0,4000000 0,01
0,3500000
0,3000000 0,00
∫ ()
f z dz = 0,0040
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
00,01 Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
( x− µ )
2
X−µ z2
() 1
() 1
− −
Z= ∼ N ; µ Z = 0 ; σ Z2 = 1 ; σ Z = 1 f x = ⋅e 2σ 2
f z = ⋅e 2
σ 2πσ 2
2π
0,4500000
Titolo del grafico
f(Z)
0,4000000 0,01
0,3500000
0,3000000 0,00
∫ ()
f z dz = 0,0040
0,02
()
0,2500000
0,2000000 ∫ f z dz = 0,0080
0,1500000 … 0,00
0,1000000 …
0,0500000
0,0000000
0 0,02 Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
( x− µ )
2
X−µ z2
() 1
() 1
− −
Z= ∼ N ; µ Z = 0 ; σ Z2 = 1 ; σ Z = 1 f x = ⋅e 2σ 2
f z = ⋅e 2
σ 2πσ 2
2π
0,4500000
Titolo del grafico
f(Z)
0,4000000 0,01
0,3500000
0,3000000 0,00
∫ ()
f z dz = 0,0040
0,02
()
0,2500000
0,2000000 ∫ f z dz = 0,0080
0,1500000 0,00
0,1000000 …
0,0500000 3,99
0,0000000
0 3,99
Z ∫ ()
f z dz = 0,5000
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,00
della distribuzione
Tavola della distribuzione Normale standardizzata
Normale Standardizzata
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
LEZIONE 14 – LA VARIABILE CASUALE NORMALE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
della distribuzione
Tavola della distribuzione Normale standardizzata
Normale Standardizzata
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
LEZIONE 14 – LA VARIABILE CASUALE NORMALE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
0,4500000
Titolo del grafico
f(x)
0,4000000
( x− µ )
2
() 1
0,3500000 −
0,3000000 X~N f x = ⋅e 2σ 2
µ = 5 gr s2 = 0,01
0,2500000 2πσ 2
( x− µ )
2
5,20
( ) ∫
0,2000000
1 −
0,1500000 Fr 5,12 ≤ X ≤ 5,20 = ⋅e 2σ 2
dx
0,1000000 2πσ 2
5,12
0,0500000
0,0000000
5 5,12 5,20 X
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,4500000
Titolo del grafico 1
() 1
f(z)
0,4000000 − z2
0,3500000
Z~N f z = ⋅e2
µ=0 s2 = 1
0,3000000
2π
z2
( ) ∫
0,2500000
1
1 − z2
0,2000000 Fr z1 ≤ Z ≤ z2 = ⋅e 2
dz
0,1500000 2π
z1
0,1000000
…
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830 0,3770
0,4826 0,4834 0,4838 0,3790
0,4842 0,3810
0,4846 0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,3944
0,4896 0,4898 0,3962
0,4901 0,4904 0,3980
0,4906 0,3997
0,4909 0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,49400,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956 0,4279
0,4955 0,4957 0,4959 0,4292
0,4960 0,4961 0,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976 0,4406
0,4975 0,4977 0,4977 0,4418
0,4978 0,4979 0,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991 0,4608
0,4991 0,4991 0,4992
0,4616
0,4992
0,4625
0,4992 0,4992
0,4633
0,4993 0,4993
0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,4678
0,4995 0,4995
0,4686
0,4996 0,4996
0,4693
0,4996
0,4699
0,4996 0,4996
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,4997 0,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4812
0,4999 0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
0,4500000
Titolo del grafico
f(x)
0,4000000
( x− µ )
2
() 1
0,3500000 −
0,3000000 X~N f x = ⋅e 2σ 2
µ = 5 gr s2 = 0,01
0,2500000 2πσ 2
( x− µ )
2
5,20
( ) ∫
0,2000000
1 −
0,1500000 Fr 5,12 ≤ X ≤ 5,20 = ⋅e 2σ 2
dx = 0,0923
0,1000000 2πσ 2
5,12
0,0500000
0,0000000
5 5,12 5,20 X
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,4500000
Titolo del grafico 1
() 1
f(z)
0,4000000 − z2
0,3500000
Z~N f z = ⋅e 2
µ=0 s2 = 1
0,3000000
2π
( )
0,2500000
0,1000000
0,0500000
0,0000000
0 1,20 2,00 Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con
media pari a 2.850 ore e scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore?
b. duri meno di 2.500 ore?
c. duri più di 2.600 ore?
d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000
0,3500000
0,3000000
Dove si trova il punto X=3.000?
0,2500000
Punto La proiezione del punto di flesso si trova ad una
di flesso distanza dalla media pari ad uno scarto
0,2000000
quadratico medio. Nel nostro caso, si troverà nel
0,1500000
punto X=(2.850+160)=3.010.
0,1000000
Il punto X=3.000 si troverà, dunque, leggermente
0,0500000
più a sinistra.
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.850 2.850+160
3010
ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000
0,3500000 (
P X > 3.000 )
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.850 3.000
ESERCIZI
0,4500000
Titolo del grafico
f(x)
0,4000000
⎛ X − µ 3.000 − 2.850 ⎞
( )
0,3500000
0,3000000
P X > 3.000 = P ⎜ > ⎟
⎝ σ 160 ⎠
( )
0,2500000
0,1000000
0,0500000
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.850 3.000
0,4500000
Titolo del grafico
f(z)
0,4000000
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0 0,94
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686 0,2454
0,3665 0,3708 0,3729 0,2486
0,3749 0,2517
0,3770 0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,2734
0,4049 0,4066 0,2764
0,4082 0,4099 0,2794
0,4115 0,2823
0,4131 0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357 0,3051
0,4345 0,4370 0,4382 0,3078
0,4394 0,3106
0,4406 0,4418 0,3133
0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
0,9 0,3159 0,3186 0,3212 0,3238 0,3264
1,7 0,4554
0,3289
0,4564 0,4573
0,3315
0,4582 0,4591
0,3340
0,4599
0,3365
0,4608 0,4616
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830 0,3770
0,4826 0,4834 0,4838 0,3790
0,4842 0,3810
0,4846 0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,3944
0,4896 0,4898 0,3962
0,4901 0,4904 0,3980
0,4906 0,3997
0,4909 0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,4940 0,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956 0,4279
0,4955 0,4957 0,4959 0,4292
0,4960 0,49610,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976 0,4406
0,4975 0,4977 0,4977 0,4418
0,4978 0,4979 0,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991 0,4608
0,4991 0,4991 0,4992
0,4616
0,4992
0,4625
0,4992 0,4992
0,4633
0,4993 0,4993
0,4993 0,4993
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,46780,4994
0,4995 0,4995
0,4994
0,4686
0,4996
0,4994
0,4996
0,4994
0,4693
0,4996
0,4994
0,4996
0,4995
0,4699
0,4996
0,4995 0,4995
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,49970,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4812
0,4999 0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
…
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
ESERCIZI
0,4500000
Titolo del grafico
f(x)
0,4000000
⎛ X − µ 3.000 − 2.850 ⎞
( )
0,3500000
0,3000000
P X > 3.000 = P ⎜ > ⎟
⎝ σ 160 ⎠
( )
0,2500000
0,2000000 ( )
P Z > 0,94 = 0,5000
=P −Z> 0,94 = 0,1736
0,3264
0,1500000
0,1000000
0,0500000
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.850 3.000
0,4500000
Titolo del grafico
f(z)
0,4000000
0,3500000
0,3000000
0,2500000
0,3264
0,2000000
( )
0,1500000
0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0 0,94
ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico ⎛ X − µ 3.000 − 2.850 ⎞
f(x)
0,4000000
0,3500000 (
P X > 3.000
=P⎜
)
⎝ σ
>
160 ⎟⎠
0,3000000
0,2500000
(
= P Z > 0,94 )
( )
0,2000000
0,0500000
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.850 3.000
ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000
0,3500000
0,3000000
Dove si trova il punto X=2.500?
0,2500000
Il punto cercato si trova a sinistra della media, per
un valore di 350 ore (2850-2500), pari ad oltre due
0,2000000
volte lo scarto quadratico medio.
0,1500000
0,1000000
0,0500000
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.850
ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000
0,3500000
0,3000000
( )
0,2500000
0,2000000
P X < 2.500
0,1500000
0,1000000
0,0500000
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.500 2.850
ESERCIZI
0,4500000
Titolo del grafico
f(x)
0,4000000
⎛ X − µ 2.500 − 2.850 ⎞
( )
0,3500000
0,3000000
P X < 2.500 = P ⎜ < ⎟
⎝ σ 160 ⎠
( ) ( )
0,2500000
0,1000000
0,0500000
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.500 2.850
0,4500000
Titolo del grafico
f(z)
0,4000000
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
-2,19 0 2,19
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686
0,3665 0,2454
0,3708 0,3729 0,2486
0,3749 0,37700,2517
0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,27340,4066
0,4049 0,2764
0,4082 0,4099 0,2794
0,4115 0,41310,2823
0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357
0,4345 0,3051
0,4370 0,4382 0,3078
0,4394 0,44060,3106
0,4418 0,3133
0,4429 0,4441
0,4452 0,4463
0,9 0,3159 0,3186 0,3212 0,3238 1,6
0,3264
1,7 0,4554
0,32890,4474
0,4564 0,4573
0,4484
0,3315
0,4582
0,4495
0,4591
0,4505
0,3340
0,4599
0,4515
0,4608
0,4525
0,3365
0,4616
0,4535 0,4545
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830
0,4826 0,3770
0,4834 0,4838 0,3790
0,4842 0,48460,3810
0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,39440,4898
0,4896 0,3962
0,4901 0,4904 0,3980
0,4906 0,49090,3997
0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,4940 0,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956
0,4955 0,4279
0,4957 0,4959 0,4292
0,4960 0,49610,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976
0,4975 0,4406
0,4977 0,4977 0,4418
0,4978 0,49790,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991
0,4991
0,4608
0,4991 0,4992
0,4616
0,4992 0,4992
0,4625
0,4992
0,4633
0,4993 0,4993
0,4993 0,4993
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,46780,4994
0,4995 0,4995
0,4994
0,4686
0,4996
0,4994
0,4996
0,4994
0,4693
0,4996
0,4994
0,4996
0,4995
0,4699
0,4996
0,4995 0,4995
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,4997 0,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4999 0,4812
0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
ESERCIZI
0,4500000
Titolo del grafico
f(x)
0,4000000
⎛ X − µ 2.500 − 2.850 ⎞
( )
0,3500000
0,3000000
P X < 2.500 = P ⎜ < ⎟
⎝ σ 160 ⎠
( ) ( )
0,2500000
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.500 2.850
0,4500000
Titolo del grafico
f(z)
0,4000000
0,3500000
0,3000000
0,2500000
0,2000000
0,4857
0,1500000
0,1000000
0,0500000
0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
-2,19 0 2,19
ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000
0,3500000
0,3000000
( )
0,2500000
0,2000000
P X < 2.500 = 0,0143
0,1500000
0,1000000
0,0500000
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.500 2.850
ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000
⎛ X − µ 2.600 − 2.850 ⎞
0,3500000
0,3000000
( )
P X > 2.600 = P ⎜
⎝ σ
<
160
⎟
⎠
( )
0,2500000
0,2000000
= P Z > −1,56
0,1500000
0,1000000
0,0500000
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.600 2.850
ESERCIZI
0,4500000
⎛ X − µ 2.600 − 2.850 ⎞
( )
0,3500000
0,2000000 = P Z ≥ −1,56
( )
0,1500000
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.600 2.850
0,4500000
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
-1,56 0
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686
0,3665 0,2454
0,3708 0,3729 0,2486
0,3749 0,37700,2517
0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,27340,4066
0,4049 0,2764
0,4082 0,4099 0,2794
0,4115 0,41310,2823
0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357
0,4345 0,3051
0,4370 0,4382 0,3078
0,4394 0,44060,3106
0,4418 0,3133
0,4429 0,4441
0,4452 0,4463
0,9 0,3159 0,3186 0,3212 0,3238 1,6
0,3264
1,7 0,4554
0,32890,4474
0,4564 0,4573
0,4484
0,3315
0,4582
0,4495
0,4591
0,4505
0,3340
0,4599
0,4515
0,4608
0,4525
0,3365
0,4616
0,4535 0,4545
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830
0,4826 0,3770
0,4834 0,4838 0,3790
0,4842 0,48460,3810
0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,39440,4898
0,4896 0,3962
0,4901 0,4904 0,3980
0,4906 0,49090,3997
0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,4940 0,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956
0,4955 0,4279
0,4957 0,4959 0,4292
0,4960 0,49610,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976
0,4975 0,4406
0,4977 0,4977 0,4418
0,4978 0,49790,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991
0,4991
0,4608
0,4991 0,4992
0,4616
0,4992 0,4992
0,4625
0,4992
0,4633
0,4993 0,4993
0,4993 0,4993
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,46780,4994
0,4995 0,4995
0,4994
0,4686
0,4996
0,4994
0,4996
0,4994
0,4693
0,4996
0,4994
0,4996
0,4995
0,4699
0,4996
0,4995 0,4995
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,4997 0,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4999 0,4812
0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000
⎛ X − µ 2.600 − 2.850 ⎞
0,3500000
0,3000000
( )
P X > 2.600 = P ⎜
⎝ σ
>
160
⎟
⎠
0,2500000
(
= P Z ≥ −1,56 )
0,4406
0,2000000
0,1500000
0,1000000
(
= 0,5 + P 0 ≤ Z ≤ 1,56 )
0,0500000
0,5000 = 0,5000 + 0,4406 = 0,9406
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.600 2.850
ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000
0,3500000
0,3000000
(
P 2.500 ≤ X ≤ 2.700 )
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
ESERCIZI
0,4500000
Titolo del grafico
f(x)
0,4000000
0,3500000
⎛ 2.500 − 2.850 X − µ 2.700 − 2.850 ⎞
0,3000000
0,2500000
(
P 2.500 ≤ X ≤ 2.700 = P ⎜
⎝
)
160
≤
σ
≤
160
⎟
⎠
0,2000000
0,1500000
(
= P −2,19 ≤ Z ≤ −0,94 )
0,1000000 = P ( 0,94 ≤ Z ≤ 2,19)
0,0500000
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.500 2.700 2.850
0,4500000
f(z)
Titolo del grafico
0,4000000
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686
0,3665 0,2454
0,3708 0,3729 0,2486
0,3749 0,37700,2517
0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,27340,4066
0,4049 0,2764
0,4082 0,4099 0,2794
0,4115 0,41310,2823
0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357
0,4345 0,3051
0,4370 0,4382 0,3078
0,4394 0,44060,3106
0,4418 0,3133
0,4429 0,4441
0,4452 0,4463
0,9 0,3159 0,3186 0,3212 0,3238 1,6
0,3264
1,7 0,4554
0,32890,4474
0,4564 0,4573
0,4484
0,3315
0,4582
0,4495
0,4591
0,4505
0,3340
0,4599
0,4515
0,4608
0,4525
0,3365
0,4616
0,4535 0,4545
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830
0,4826 0,3770
0,4834 0,4838 0,3790
0,4842 0,48460,3810
0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,39440,4898
0,4896 0,3962
0,4901 0,4904 0,3980
0,4906 0,49090,3997
0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,4940 0,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956
0,4955 0,4279
0,4957 0,4959 0,4292
0,4960 0,49610,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976
0,4975 0,4406
0,4977 0,4977 0,4418
0,4978 0,49790,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991
0,4991
0,4608
0,4991 0,4992
0,4616
0,4992 0,4992
0,4625
0,4992
0,4633
0,4993 0,4993
0,4993 0,4993
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,46780,4994
0,4995 0,4995
0,4994
0,4686
0,4996
0,4994
0,4996
0,4994
0,4693
0,4996
0,4994
0,4996
0,4995
0,4699
0,4996
0,4995 0,4995
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,4997 0,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4999 0,4812
0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000
⎛ 2.500 − 2.850 X − µ 2.700 − 2.850 ⎞
0,3500000 (
P 2.500 ≤ X ≤ 2.700 = P ⎜
⎝
) 160
≤
σ
≤
160
⎟
⎠
0,3000000
0,2500000 (
= P −2,19 ≤ Z ≤ −0,94 )
= P ( 0,94 ≤ Z ≤ 2,19)
0,2000000
0,1500000
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
( )
f(x)
0,4000000
0,3500000
P 2.500 ≤ X ≤ 3.000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
ESERCIZI
0,4500000
Titolo del grafico
f(x)
0,4000000
⎛ 2.500 − 2.850 X − µ 3.000 − 2.850 ⎞
0,3500000
0,3000000
(
P 2.500 ≤ X ≤ 3.000 = P ⎜
⎝
) 160
≤
σ
≤
160
⎟
⎠
0,2500000
0,2000000
(
= P −2,19 ≤ Z ≤ 0,94 )
0,1500000 = P ( 0 ≤ Z ≤ 2,19) + P ( 0 ≤ Z ≤ 0,94 )
0,1000000
0,0500000
0,0000000
X
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,4500000
Titolo del grafico
f(z)
0,4000000
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
-2,19 0 0,94
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686
0,3665 0,2454
0,3708 0,3729 0,2486
0,3749 0,37700,2517
0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,27340,4066
0,4049 0,2764
0,4082 0,4099 0,2794
0,4115 0,41310,2823
0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357
0,4345 0,3051
0,4370 0,4382 0,3078
0,4394 0,44060,3106
0,4418 0,3133
0,4429 0,4441
0,4452 0,4463
0,9 0,3159 0,3186 0,3212 0,3238 1,6
0,3264
1,7 0,4554
0,32890,4474
0,4564 0,4573
0,4484
0,3315
0,4582
0,4495
0,4591
0,4505
0,3340
0,4599
0,4515
0,4608
0,4525
0,3365
0,4616
0,4535 0,4545
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830
0,4826 0,3770
0,4834 0,4838 0,3790
0,4842 0,48460,3810
0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,39440,4898
0,4896 0,3962
0,4901 0,4904 0,3980
0,4906 0,49090,3997
0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,4940 0,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956
0,4955 0,4279
0,4957 0,4959 0,4292
0,4960 0,49610,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976
0,4975 0,4406
0,4977 0,4977 0,4418
0,4978 0,49790,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991
0,4991
0,4608
0,4991 0,4992
0,4616
0,4992 0,4992
0,4625
0,4992
0,4633
0,4993 0,4993
0,4993 0,4993
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,46780,4994
0,4995 0,4995
0,4994
0,4686
0,4996
0,4994
0,4996
0,4994
0,4693
0,4996
0,4994
0,4996
0,4995
0,4699
0,4996
0,4995 0,4995
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,4997 0,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4999 0,4812
0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000
0,3000000
P 2.500 ≤ X ≤ 3.000 = P ⎜ ≤ ≤ ⎟
⎝ 160 σ 160 ⎠
( )
0,2500000
0,2000000
= P −2,19 ≤ Z ≤ 0,94
0,1500000
= P ( 0 ≤ Z ≤ 2,19) + P ( 0 ≤ Z ≤ 0,94 )
0,1000000
0,0500000
= 0,4857 + 0,3264 = 0,8121
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000
0,2000000
35%
0,1500000
0,1000000
0,0500000 15%
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.850 ?
ESERCIZI
0,4500000
Titolo del grafico
f(x)
0,4000000
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
X
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
2.850 ?
0,4500000
Titolo del grafico
f(z)
0,4000000
0,3500000
0,1500000
0,1000000
0,0500000
0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0 ?
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686
0,3665 0,2454
0,3708 0,3729 0,2486
0,3749 0,37700,2517
0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,27340,4066
0,4049 0,2764
0,4082 0,4099 0,2794
0,4115 0,41310,2823
0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357
0,4345 0,3051
0,4370 0,4382 0,3078
0,4394 0,44060,3106
0,4418 0,3133
0,4429 0,4441
0,4452 0,4463
0,9 0,3159 0,3186 0,3212 0,3238 1,6
0,3264
1,7 0,4554
0,32890,4474
0,4564 0,4573
0,4484
0,3315
0,4582
0,4495
0,4591
0,4505
0,3340
0,4599
0,4515
0,4608
0,4525
0,3365
0,4616
0,4535 0,4545
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830
0,4826 0,3770
0,4834 0,4838 0,3790
0,4842 0,48460,3810
0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,39440,4898
0,4896 0,3962
0,4901 0,4904 0,3980
0,4906 0,49090,3997
0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,4940 0,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956
0,4955 0,4279
0,4957 0,4959 0,4292
0,4960 0,49610,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976
0,4975 0,4406
0,4977 0,4977 0,4418
0,4978 0,49790,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991
0,4991
0,4608
0,4991 0,4992
0,4616
0,4992 0,4992
0,4625
0,4992
0,4633
0,4993 0,4993
0,4993 0,4993
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,46780,4994
0,4995 0,4995
0,4994
0,4686
0,4996
0,4994
0,4996
0,4994
0,4693
0,4996
0,4994
0,4996
0,4995
0,4699
0,4996
0,4995 0,4995
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,4997 0,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4999 0,4812
0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
ESERCIZI
0,4500000
Titolo del grafico
f(x)
0,4000000
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
X
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
2.850 ?
0,4500000
Titolo del grafico
f(z)
0,4000000
0,3500000
0,1500000
Z85=1,04
0,1000000
0,0500000
0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0 ?
ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000 Stiamo, dunque, cercando l'85° percentile della distribuzione.
0,3500000 Poiché l'85° percentile della distribuzione Normale standardizzata
0,3000000 è Z=1,04, dobbiamo "destandardizzare" questo valore".
0,2500000
Ricordando che un valore standardizzato indica
0,2000000
di quanti scarti quadratici medi quel punto dista
35%
0,1500000
dalla media, possiamo applicare lo stesso
0,1000000
principio alla distribuzione di X:
0,0500000 15%
0,0000000
X85 = µ +1,04 ⋅ σ
X
( )
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.850 3.016
= 2.850 + 1,04 ×160
= 2.850 +166,4
= 3.016,4
La proprietà riproduttiva:
“La combinazione lineare di v.c. Normali e indipendenti è ancora una v.c. Normale, con
valore medio pari alla combinazione lineare dei valori medi e con varianza pari alla
combinazione lineare delle varianze con i quadrati dei coefficienti.”
( ) ⇒ ∑ a X ~ N ( µ ,σ )
n n n
Xi ~N µi ,σ con: µ = ∑ ai µi ; σ = ∑ ai2σ i2
2 2 2
i i i
i=1 i=1 i=1
“La somma di n v.c. Normali e indipendenti è ancora una v.c. Normale, con media pari alla
somma delle medie e varianza pari alla somma delle varianze.”
Xi ~ N µi ,σ i2( ) i = 1, 2,…, n
( )
n n n
∑X i
~ N µ ,σ 2
con : µ = ∑ µi ; σ = ∑ σ i2 2
Esercizio
(
XBASE ~ N 1.650,852 ) ; XSCHERMO ~ N 720,112 ( ) base
La casa produttrice stabilisce che dovranno essere dichiarati “fuori qualità” i notebook con peso
complessivo superiore a 2,5 kg.
Relativamente, dunque, alla variabile peso complessivo:
a. Quali saranno le caratteristiche del prodotto, in termini di media e scarto quadratico medio?
b. Quale sarà la percentuale di notebook che presumibilmente sarà dichiarata “fuori qualità”?
c. Quale sarà il peso oltre il quale è compreso il 10% dei pezzi assemblati?
d. Quale sarà la percentuale di notebook con peso inferiore a 2 kg?
( )
0,4500000
Titolo del grafico
f(x)
0,4000000
f(w) Peso della base: X ∼ N 1.650;852
0,3500000
Peso dello schermo: Y ∼ N 720;112 ( )
( )
0,3000000
( ) ( )
0,2000000
0,1500000
µ = 1.650 + 720 = 2.370 ; σ 2 = 852 +112 = 7.346
0,1000000
0,0500000
0,4500000
Titolo del grafico
f(x)
0,4000000
f(z)
0,3500000
Ricorda che lo sqm di una distribuzione Normale
0,3000000 ottenuta come somma di due distribuzioni Normali non
0,2500000 è uguale alla somma degli scarti ma alla radice
0,2000000
quadrata della somma delle varianze.
0,1500000
0,1000000
0,0500000
0,0000000
0 ZX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
( )
0,4000000
f(w)
0,3500000 Peso del notebook : W = (X + Y) ∼ N 2.370 ; 85,72
0,3000000
( )
0,2500000
0,2000000
P W > 2.500
0,1500000
0,0500000
0,0000000
2.370 WX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0,4500000
Titolo del grafico
f(x)
0,4000000
f(z)
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
0 ZX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
( )
0,4000000
f(w)
0,3500000 Peso del notebook : W = (X + Y) ∼ N 2.370 ; 85,72
0,3000000
⎛ X − µ 2.500 − 2.370 ⎞
( )
0,2500000
0,2000000
P W > 2.500 = P⎜ ≥ ⎟
0,1500000 ⎝ σ 85,7 ⎠
( )
0,1000000
0,0500000 = P Z ≥ 1,52
0,0000000
2.370 2.500 WX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0,4500000
Titolo del grafico
f(x)
0,4000000
f(z)
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
0 ZX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
1,52
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686
0,3665 0,2454
0,3708 0,3729 0,2486
0,3749 0,37700,2517
0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,27340,4066
0,4049 0,2764
0,4082 0,4099 0,2794
0,4115 0,41310,2823
0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357
0,4345 0,3051
0,4370 0,4382 0,3078
0,4394 0,44060,3106
0,4418 0,3133
0,4429 0,4441
0,4452 0,4463
0,9 0,3159 0,3186 0,3212 0,3238 1,6
0,3264
1,7 0,4554
0,32890,4474
0,4564 0,4573
0,4484
0,3315
0,4582
0,4495
0,4591
0,4505
0,3340
0,4599
0,4515
0,4608
0,4525
0,3365
0,4616
0,4535 0,4545
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830
0,4826 0,3770
0,4834 0,4838 0,3790
0,4842 0,48460,3810
0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,39440,4898
0,4896 0,3962
0,4901 0,4904 0,3980
0,4906 0,49090,3997
0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,4940 0,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956
0,4955 0,4279
0,4957 0,4959 0,4292
0,4960 0,49610,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976
0,4975 0,4406
0,4977 0,4977 0,4418
0,4978 0,49790,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991
0,4991
0,4608
0,4991 0,4992
0,4616
0,4992 0,4992
0,4625
0,4992
0,4633
0,4993 0,4993
0,4993 0,4993
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,46780,4994
0,4995 0,4995
0,4994
0,4686
0,4996
0,4994
0,4996
0,4994
0,4693
0,4996
0,4994
0,4996
0,4995
0,4699
0,4996
0,4995 0,4995
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,4997 0,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4999 0,4812
0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
( )
0,4000000
f(w)
0,3500000 Peso del notebook : W = (X + Y) ∼ N 2.370 ; 85,72
0,3000000
⎛ X − µ 2.500 − 2.370 ⎞
( )
0,2500000
0,2000000
P W > 2.500 = P⎜ ≥ ⎟
0,1500000 ⎝ σ 85,7 ⎠
( )
0,1000000
0,0500000 = P Z ≥ 1,52
0,0000000
2.370 2.500 WX = 0,5 − 0,4357 = 0,0643
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0,4500000
Titolo del grafico
f(x)
0,4000000
f(z)
0,3500000
0,3000000
0,2500000
0,4357
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
0 ZX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
1,52
( )
0,4000000
f(w)
0,3500000 Peso del notebook : W = (X + Y) ∼ N 2.370 ; 85,72
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
10%
0,0000000
2.370 WX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
?
0,4500000
Titolo del grafico
f(x)
0,4000000
f(z)
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
40%
0,0500000
10%
0,0000000
0 ZX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686
0,3665 0,2454
0,3708 0,3729 0,2486
0,3749 0,37700,2517
0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,27340,4066
0,4049 0,2764
0,4082 0,4099 0,2794
0,4115 0,41310,2823
0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357
0,4345 0,3051
0,4370 0,4382 0,3078
0,4394 0,44060,3106
0,4418 0,3133
0,4429 0,4441
0,4452 0,4463
0,9 0,3159 0,3186 0,3212 0,3238 1,6
0,3264
1,7 0,4554
0,32890,4474
0,4564 0,4573
0,4484
0,3315
0,4582
0,4495
0,4591
0,4505
0,3340
0,4599
0,4515
0,4608
0,4525
0,3365
0,4616
0,4535 0,4545
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830
0,4826 0,3770
0,4834 0,4838 0,3790
0,4842 0,48460,3810
0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,39440,4898
0,4896 0,3962
0,4901 0,4904 0,3980
0,4906 0,49090,3997
0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,4940 0,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956
0,4955 0,4279
0,4957 0,4959 0,4292
0,4960 0,49610,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976
0,4975 0,4406
0,4977 0,4977 0,4418
0,4978 0,49790,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991
0,4991
0,4608
0,4991 0,4992
0,4616
0,4992 0,4992
0,4625
0,4992
0,4633
0,4993 0,4993
0,4993 0,4993
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,46780,4994
0,4995 0,4995
0,4994
0,4686
0,4996
0,4994
0,4996
0,4994
0,4693
0,4996
0,4994
0,4996
0,4995
0,4699
0,4996
0,4995 0,4995
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,4997 0,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4999 0,4812
0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
( )
0,4000000
f(w)
0,3500000 Peso del notebook : W = (X + Y) ∼ N 2.370 ; 85,72
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
10%
0,0000000
2.370 WX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
?
0,4500000
Titolo del grafico
f(x)
0,4000000
f(z)
0,3500000
Z90=1,28
0,3000000
0,2500000 Il 90° percentile della Normale standardizzata vale 1,28, quindi dista dalla media
0,2000000 1,28 scarti quadratici medi.
Ma questo vale per tutte le distribuzioni Normali, anche non standardizzate:
0,1500000
0,1000000
40% il 90° percentile di una distribuzione Normale, con media µ e varianza s2, si
0,0500000 troverà ad una distanza di 1,28 scarti dalla media e potrà essere calcolato
10%
0,0000000 come µ +1,28σ .
0 ZX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
1,28
( )
0,4000000
f(w)
0,3500000 Peso del notebook : W = (X + Y) ∼ N 2.370 ; 85,72
0,3000000
0,2500000
0,1500000
0,1000000
0,0500000
10%
0,0000000
2.370 2.480 WX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0,4500000
Titolo del grafico
f(x)
0,4000000
f(z)
0,3500000
Z90=1,28
0,3000000
0,2500000 Il 90° percentile della Normale standardizzata vale 1,28, quindi dista dalla media
0,2000000 1,28 scarti quadratici medi.
Ma questo vale per tutte le distribuzioni Normali, anche non standardizzate:
0,1500000
0,1000000
40% il 90° percentile di una distribuzione Normale, con media µ e varianza s2, si
0,0500000 troverà ad una distanza di 1,28 scarti dalla media e potrà essere calcolato
10%
0,0000000 come µ +1,28σ .
0 ZX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
1,28
( )
0,4000000
f(w)
0,3500000 Peso del notebook : W = (X + Y) ∼ N 2.370 ; 85,72
0,3000000
0,2500000
0,2000000
0,1500000
Il punto W=2.000 si trova ad oltre 4 volte lo sqm a sinistra
0,1000000
della media.
0,0500000 La probabilità di trovare osservazioni oltre questo punto
0,0000000
2.370
è, praticamente, pari a zero.
WX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0,4500000
Titolo del grafico
f(x)
0,4000000
f(z)
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
0 ZX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
( )
1. P Z > 0
2. P ( 0 ≤ Z ≤ 1,58 )
3. P ( −∞ ≤ Z ≤ 1,58 )
4. P ( Z > 1,77 )
5. P ( Z < 1,34 )
6. P (1,34 ≤ Z ≤ 1,77 )
7. P ( −1,25 ≤ Z ≤ −0,48 )
8. P ( −1,25 ≤ Z ≤ 0,48 )
( )
1. P 0 ≤ Z ≤ z = 0,3749
2. P ( − z ≤ Z ≤ z ) = 0,9342
3. P ( Z ≥ z ) = 0,0721
4. P ( Z ≥ − z ) = 0,8729
5. P ( Z ≤ − z ) = 0,2266
Qual è, inoltre, l’intervallo (di uguale ampiezza rispetto alla media) che comprende l’80% delle
confezioni prodotte?
( )
1. Il valore di a, tale che: P 180 − a ≤ X ≤ 180 + a = 0,90
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 15:
Il teorema di Chebychev
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Il teorema di Chebychev
95%
0,2000000 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
0,1500000
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,1000000 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,0500000 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
0,0000000 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
µ-2s µ-s µ µ+s µ+2s X
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
LEZIONE 15 – IL TEOREMA DI CHEBYCHEV
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Il teorema di Chebychev
f(x) Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
µ-2σ µ µ+2σ X
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
f(x) 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
3,0
3,1
0,4987
0,4990
0,4987
0,4991
0,4987
0,4991
0,4988
0,4991
0,4988
0,4992
L
0,4989
15 – IL0,4989
0,4989
EZIONE0,4992
0,4992
TEOREMA
0,4992
DI C0,4993
0,4990
0,4993
0,4990
HEBYCHEV
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Il teorema di Chebychev
TEOREMA
Data una v.c. X con media finita µ e scarto quadratico medio finito σ, e dato un numero
positivo k>1, la massa di probabilità all’interno dell’intervallo chiuso [(µ-kσ);(µ+kσ)] è
maggiore della quantità (1-1/k2).
f(x)
( )
P x − µ < kσ ≥ 1−
1
k2
µ-kσ µ µ+kσ X
Il teorema di Chebychev
TEOREMA
Data una v.c. X con media finita µ e scarto quadratico medio finito σ, e dato un numero
positivo k>1, la massa di probabilità all’interno dell’intervallo chiuso [(µ-kσ);(µ+kσ)] è
maggiore della quantità (1-1/k2).
( ) k
f(x)
1
P x − µ < kσ ≥ 1− 2
P ( x − µ ≥ kσ ) ≤
1
2
k
µ-kσ µ µ+kσ X
( ) (
k = 2 ⇒ P x − µ ≥ 2σ ≤ 0,25 ⇒ P x − µ < 2σ ≥ 0,75 )
k = 3 ⇒ P ( x − µ ≥ 3σ ) ≤ 0,11 ⇒ P ( x − µ < 3σ ) ≥ 0,89
Il teorema di Chebychev ( ) k
P x − µ < kσ ≥ 1−
1
2
P ( x − µ ≥ kσ ) ≤
1
2
L'uso (e l'abuso) dei modelli di probabilità k
0,4500000
f(x) f(x) Titolo del grafico
0,4000000
0,3500000
0,3000000
0,2500000
>75% 95%
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
µ µ-2s µ µ+2s
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
µ-2σ µ+2σ X X
1
Il teorema di Chebychev P ( x − µ ≥ kσ ) ≤ 2
k
TEOREMA
Data una v.c. X con media finita µ e scarto quadratico medio finito σ, e dato un numero positivo k>1, la massa di
probabilità che si trova all’interno dell’intervallo chiuso [(µ-kσ), (µ+kσ)] è maggiore della quantità (1-1/k2).
f(x)
µ-kσ µ µ+kσ X
DIMOSTRAZIONE (1 di 4)
Partiamo dalla definizione della varianza della variabile X.
∑( )
2
xi − µ ⋅ ni
ni
( ) ( ) ( )
2 2
σ = 2 i
= ∑ xi − µ ⋅ = ∑ xi − µ ⋅ f xi
n i n i
Poiché questo calcolo è esteso a tutti i valori di X, il risultato sarà certamente maggiore di quello
che otterremmo se limitassimo la sommatoria ai soli X* (che sono quelli esterni all'intervallo
considerato, e quindi solo una parte di tutti gli X).
1
Il teorema di Chebychev P ( x − µ ≥ kσ ) ≤ 2
k
TEOREMA
Data una v.c. X con media finita µ e scarto quadratico medio finito σ, e dato un numero positivo k>1, la massa di
probabilità che si trova all’interno dell’intervallo chiuso [(µ-kσ), (µ+kσ)] è maggiore della quantità (1-1/k2).
f(x)
µ-kσ µ ks µ+kσ X
DIMOSTRAZIONE (2 di 4)
( ) ( ) ( ) ( )
2 2
σ = ∑ xi − µ ⋅ f xi ≥ ∑ x − µ ⋅ f xi*
2 *
i
i i
Consideriamo ora il primo valore di questa sommatoria, ossia il valore x1* e immaginiamo che questo sia il valore del
punto immediatamente oltre il limite dell'intervallo, dunque oltre µ+ks.
Poiché questo punto è esterno all'intervallo, la quantità x1 − µ sarà certamente maggiore di ks, che misura la
*
∑( ) ∑( ) ( ) ( ) ∑( ) ( ) ( )
2 2 2
xi* − µ ≥ ∑ k 2σ 2 ⇒ xi* − µ ⋅ f xi* ≥ ∑ k 2σ 2 ⋅ f xi* ⇒ xi* − µ ⋅ f xi* ≥ k 2σ 2 ⋅ ∑ f xi*
i i i i i i
LEZIONE 15 – IL TEOREMA DI CHEBYCHEV
Corso di STATISTICA
Università degli Studi di Napoli Federico II 1
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio ( ) k
P x − µ < kσ ≥1− M. GHERGHI
A NNO ACCADEMICO 2022-23
2
1
Il teorema di Chebychev P ( x − µ ≥ kσ ) ≤ 2
k
TEOREMA
Data una v.c. X con media finita µ e scarto quadratico medio finito σ, e dato un numero positivo k>1, la massa di
probabilità che si trova all’interno dell’intervallo chiuso [(µ-kσ), (µ+kσ)] è maggiore della quantità (1-1/k2).
f(x)
µ-kσ µ ks µ+kσ X
DIMOSTRAZIONE (3 di 4)
( ) ( ) ) ( ) ( ( )
2 2
σ = ∑ xi − µ ⋅ f xi ≥ ∑ x − µ ⋅ f xi* ≥ k 2σ 2 ⋅ ∑ f xi*
2 *
i
i i i
1
Il teorema di Chebychev P ( x − µ ≥ kσ ) ≤ 2
k
TEOREMA
Data una v.c. X con media finita µ e scarto quadratico medio finito σ, e dato un numero positivo k>1, la massa di
probabilità che si trova all’interno dell’intervallo chiuso [(µ-kσ), (µ+kσ)] è maggiore della quantità (1-1/k2).
f(x)
µ-kσ µ ks µ+kσ X
DIMOSTRAZIONE (4 di 4)
( ) ( ) ( ) ( ) ( )
2 2
σ 2 = ∑ xi − µ ⋅ f xi ≥ ∑ xi* − µ ⋅ f xi* ≥ k 2σ 2 ⋅ P x − µ ≥ kσ Se A>B e B>C, allora A>C.
i i
A B C
Quindi:
( ) σ
( ) ( )
2
σ 2 ≥ k 2σ 2 ⋅ P x − µ ≥ kσ 1
da cui: ≥ P x − µ ≥ kσ e, infine: P x − µ ≥ kσ ≤
k 2σ 2 k2
1
Il teorema di Chebychev P ( x − µ ≥ kσ ) ≤ 2
k
Esercizio
Sul rapporto del responsabile leggete, tra l ʼ altro: “ Gli standard di qualità relativi alla
produzione odierna risultano molto inferiori al previsto in quanto 158 lattine hanno fatto
registrare un contenuto di bevanda inferiore a 30cl”.
1
Il teorema di Chebychev P ( x − µ ≥ kσ ) ≤ 2
k
Esercizio
Il responsabile dell’Ufficio Controllo di Qualità della Pop Cola decide di misurare il contenuto effettivo di
bevanda delle lattine da 33cl prodotte in una giornata.
Supponiamo che le lattine prodotte siano state 2mila e che la media del contenuto sia risultata pari a 33cl,
con scarto quadratico medio pari a 8ml.
N = 2000 ; µ = 33cl ; σ = 8ml
Sul rapporto del responsabile leggete tra lʼaltro: “Gli standard di qualità relativi alla produzione odierna risultano molto inferiori
al previsto in quanto 158 lattine hanno fatto registrare un contenuto di bevanda inferiore a 30cl”.
Eʼ credibile questa affermazione?
Il valore di riferimento, quello che indica il contenuto di bevanda al di sotto del quale si
sarebbero trovate 158 lattine delle 2.000 complessive, è dunque 30 cl. Questo valore è ad
una distanza di 3 cl dal valore medio. Poiché a noi interessa misurare questa distanza in
termini di scarto quadratico medio, dobbiamo “convertire” questa misura, e trovare a quanti
scarti quadratici medi di distanza dalla media si trova il punto 30 cl.
3
= 3,75 ⇒ X − µ = 3cl = 3,75 × σ
0,8
Il punto X=30 cl si trova, dunque, a 3,75 sqm dalla media. continua
1
Il teorema di Chebychev P ( x − µ ≥ kσ ) ≤ 2
k
Esercizio
Il responsabile dell’Ufficio Controllo di Qualità della Pop Cola decide di misurare il contenuto effettivo di
bevanda delle lattine da 33cl prodotte in una giornata.
Supponiamo che le lattine prodotte siano state 2mila e che la media del contenuto sia risultata pari a 33cl,
con scarto quadratico medio pari a 8ml.
N = 2000 ; µ = 33cl ; σ = 8ml
Sul rapporto del responsabile leggete tra lʼaltro: “Gli standard di qualità relativi alla produzione odierna risultano molto inferiori
al previsto in quanto 158 lattine hanno fatto registrare un contenuto di bevanda inferiore a 30cl”.
Eʼ credibile questa affermazione?
3
σ = 8ml = 0,8 cl X − µ = 30 − 33 = 3cl = 3,75 ⇒ X − µ = 3cl = 3,75 × σ
0,8
(
P x − µ > kσ ≤ ) k
1
2 ( )
⇒ P x − µ > 3,75 ⋅ σ ≤ 0,071 ⇒ 0,071× 2000 = 142,2 lattine
Il numero massimo di lattine che, secondo il teorema di Chebychev, si può trovare nelle due code della
distribuzione con i parametri (media e varianza) definiti dall’esercizio è, dunque, 142. Nel rapporto viene
detto che nella sola coda di sinistra si sarebbero trovate 158 lattine; l’affermazione non è credibile.
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 16:
Le variabili legate alla
Normale
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Formalmente:
Zi ∼ N 0,1( ) i = 1,..., g
( )
k
∑Z 2
i
= Z12 + Z22 + … + Zg2 ∼ χ g2
i=1
( )
E X = g ; Var X = 2g ( )
Il rapporto tra una v.c. Normale standardizzata e la radice quadrata di una v.c. indipendente
Chi quadrato divisa per i gradi di libertà, si distribuisce come una v.c. t di Student :
Formalmente:
( )
Z ∼ N 0,1 ; Y ∼ χ g2 ⇒ X =
Z
Y
∼ tg
( )
E X = 0 ; Var X = ( ) n
n− 2
Il rapporto tra due v.c. Chi quadrato, indipendenti tra loro e divise per i rispettivi gradi di libertà si
definisce v.c. F di Fisher-Snedecor:
Formalmente:
X1 ∼ χ 2g ; X2 ∼ χ 2g
( )
1 ( ) 2
X1 g1
X= ∼ F g ,g
X2 g2 ( 1 2 )
I due parametri, g1 e g2, che caratterizzano questa
distribuzione, vengono definiti, rispettivamente,
gradi di libertà del numeratore e gradi di libertà del
denominatore.
g2
( )
E X =
g2 − 2
( per g 2
>2 )
( )
Var X =
(
2 ⋅ g22 ⋅ g1 + g2 − 2 ) ( per g >4 )
( ) ( )
2 2
g1 ⋅ g2 − 2 ⋅ g2 − 4
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 17:
Le variabili casuali discrete
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
(
P X = xi = ) 1
n
i = 1,..., n
( )
E X =
n +1
2
; Var X =
n2 −1
12
( )
( ) ( )
1−x
( ) ( ) ( ) ( )
x 0 1
P X = x = p 1− p Infatti: P X = 1 = p1 1− p =p ; P X = 0 = p0 1− p = 1− p
( )
E X = p ; Var X = p 1− p ( ) ( )
p (1-p) E(X) Var(X)
0,0 1,0 0,0 0,00
N.B. – La varianza della v.c. di Bernoulli assume valore massimo (1/4) 0,1 0,9 0,1 0,09
quando è p=1/2. Eʼ questo, infatti, il caso di massima incertezza, in cui 0,2 0,8 0,2 0,16
risulta più difficile prevedere il risultato. 0,3 0,7 0,3 0,21
0,4 0,6 0,4 0,24
0,5 0,5 0,5 0,25
0,6 0,4 0,6 0,24
0,7 0,3 0,7 0,21
0,8 0,2 0,8 0,16
0,9 0,1 0,9 0,09
1,0 0,0 1,0 0,00
LEZIONE 17 – LE VARIABILI CASUALI DISCRETE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
( ) ( )
E X = np ; Var X = np 1− p ( )
x n-x
X Coeff bin p (1-p) P(X=x)
0 1 0,00098 0,00098
n! 10!
1 10 0,00098
n = 10 ; x = 0 0,00977
⇒ = =1
2 45 0,00098 ( )
0,04395
x! n − x ! (
0! 10 − 0 ! )
?
3 120 0,00098 0,11719n!
n = 10 ; x = 1 ⇒ =
10!
=
10 × 9!
= 10
4 210 0,00098 (
x! n − x !
0,20508 ) 1!× 9! 1!× 9!
5 252 0,00098 0,24609n! 10! 10 × 9 × 8! 10 × 9
n = 10 ; x = 2 ⇒ = = = = 45
6 210 0,00098 0,20508 (
x! n − x ! 2!× 8! )
2!× 8! 2
7 120 0,00098 0,11719
n! 10! 10 × 9 × 8 × 7! 10 × 9 × 8
8 45 ⇒
n = 10 ; x = 3 0,04395
0,00098 = = = = 10 × 3 × 4 = 120
9 10 0,00098.. 0,00977
(
x! n − x ! 3!× 7! ) 3!× 7! 3×2
10 1 0,00098. 0,00098
x n-x
X Coeff bin p (1-p) P(X=x)
f(x)
0 1 0,00098 0,00098 0,2461 …………...................................
1 10 0,00098 0,00977
2 45 0,00098 0,04395 0,2051 ………….........................
0 1 2 3 4 5 6 7 8 9 10 X
0 1 2 3 4 5 6 7 8 9 10 X
(
1. P X = 0 = ) 5!
0!× 5!
⋅ 0,35 0 ⋅ 0,655 = 0,116
(
1. P X = 0 = ) 5!
0!× 5!
⋅ 0,35 0 ⋅ 0,655 = 0,116
(
2. P X = 5 = ) 5!
5!× 0!
⋅ 0,355 ⋅ 0,65 0 = 0,005
(
1. P X = 0 = ) 5!
0!× 5!
⋅ 0,35 0 ⋅ 0,655 = 0,116
(
2. P X = 5 = ) 5!
5!× 0!
⋅ 0,355 ⋅ 0,65 0 = 0,005
(
3. P X = 3 = ) 5!
3!× 2!
⋅ 0,35 3 ⋅ 0,652 = 10 ⋅ 0,043 ⋅ 0,423 = 0,182
(
1. P X = 0 = ) 5!
0!× 5!
⋅ 0,35 0 ⋅ 0,655 = 0,116
(
2. P X = 5 = ) 5!
5!× 0!
⋅ 0,355 ⋅ 0,65 0 = 0,005
(
3. P X = 3 = ) 5!
3!× 2!
⋅ 0,35 3 ⋅ 0,652 = 10 ⋅ 0,043 ⋅ 0,423 = 0,182
{ }
4. P Contanti ∩ Contanti ∩ Carta ∩ Carta ∩ Carta = 0,652 ⋅ 0,35 3 = 0,423 ⋅ 0,043 = 0,0182
(
1. P X = 0 = ) 5!
0!× 5!
⋅ 0,35 0 ⋅ 0,655 = 0,116
(
2. P X = 5 = ) 5!
5!× 0!
⋅ 0,355 ⋅ 0,65 0 = 0,005
(
3. P X = 3 = ) 5!
3!× 2!
⋅ 0,35 3 ⋅ 0,652 = 10 ⋅ 0,043 ⋅ 0,423 = 0,182
{ }
4. P Contanti ∩ Contanti ∩ Carta ∩ Carta ∩ Carta = 0,652 ⋅ 0,35 3 = 0,423 ⋅ 0,043 = 0,0182
( ) ( ) ( ) ( ) ( ) (
5. P X ≥ 1 = P X = 1 + P X = 2 + P X = 3 + P X = 4 + P X = 5 = 1− P X = 0 = 1− 0,116 = 0,884 ) ( )
LEZIONE 17 – LE VARIABILI CASUALI DISCRETE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Se i clienti in fila alla cassa sono 50, qual è la probabilità che almeno 20 paghino
con Bancomat o Carta di Credito?
( ) ( ) ( ) (
P X ≥ 20 = P X = 20 + P X = 21 + P X = 22 + ! + P X = 50 ) ( )
oppure:
( ) ( ) ( ) (
P X ≥ 20 = 1− ⎡ P X = 0 + P X = 1 + P X = 2 + ! + P X = 19 ⎤
⎣ ⎦ ) ( )
Se i clienti in fila alla cassa sono 50, qual è la probabilità che almeno 20 paghino
con Bancomat o Carta di Credito?
( ) ( ) ( ) (
P X ≥ 20 = P X = 20 + P X = 21 + P X = 22 + ! + P X = 50 ) ( )
50!
= ⋅ 0,3520 ⋅ 0,65 30
20!× 30!
0,000002440061
0,000000000761
47.129.212.243.960
Se i clienti in fila alla cassa sono 50, qual è la probabilità che almeno 20 paghino
con Bancomat o Carta di Credito?
( ) ( ) ( ) (
P X ≥ 20 = P X = 20 + P X = 21 + P X = 22 + ! + P X = 50 ) ( )
oppure:
( ) ( ) ( ) (
P X ≥ 20 = 1− ⎡ P X = 0 + P X = 1 + P X = 2 + ! + P X = 19 ⎤
⎣ ⎦ ) ( )
In entrambi i casi, il calcolo è molto disagevole. Cerchiamo un metodo alternativo.
x n-x
X Coeff bin p (1-p) P(X=x)
f(x)
0 1 0,00098 0,00098 0,2461 …………...................................
1 10 0,00098 0,00977
2 45 0,00098 0,04395 0,2051 ………….........................
0 1 2 3 4 5 6 7 8 9 10 X
f(x)
0 10 20 30 40 50 60 70 80 90 100 X
0,3500000
0,3000000
0,2500000
Al crescere del numero n di prove,
0,2000000 la v.c. binomiale tende in distribuzione ad
una v.c. Gaussiana, con media µ=n×p e
0,1500000
varianza σ2=n×p×(1-p).
0,1000000
0,0500000
0,0000000
0 10 20 30 40 50 60 70 80 90 100 X
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
Se i clienti in fila alla cassa sono 50, qual è la probabilità che almeno 20 paghino
con Bancomat o Carta di Credito?
X∼N µ = n⋅ p = 50 × 0,35 = 17,5 ( )
σ 2 = n⋅ p ⋅ 1− p = 50 × 0,35 × 0,65 = 11,38
⎛ X − µ 20 −17,5 ⎞
( )
P X ≥ 20 = P ⎜
⎝ σ
≥
11,38 ⎠
⎟
Se i clienti in fila alla cassa sono 50, qual è la probabilità che almeno 20 paghino
con Bancomat o Carta di Credito?
X∼N µ = n⋅ p = 50 × 0,35 = 17,5 ( )
σ 2 = n⋅ p ⋅ 1− p = 50 × 0,35 × 0,65 = 11,38
⎛ X − µ 19,5 −17,5 ⎞
(
P X ≥ 20 = P ⎜
⎝
) σ
≥
11,38 ⎠
⎟ Correzione per la continuità
Il valore 20 è compreso tra quelli richiesti P(X≥20). Utilizzando la variabile Normale, che è continua, la probabilità nel punto è nulla, per cui,
per essere sicuri di comprendere il valore 20, dobbiamo spostarci più a sinistra sull’asse X, in un qualsiasi punto compreso tra 20 e il valore
intero precedente, 19; convenzionalmente, si sceglie il punto centrale, quindi 19,5. Se la probabilità richiesta fosse per valori maggiori di 20,
P(X>20), ci dovremmo spostare più a destra sull’asse X, in un punto qualsiasi compreso tra 20 e il valore intero successivo, 21;
convenzionalmente, si sceglie il punto centrale, 20,5.
Se i clienti in fila alla cassa sono 50, qual è la probabilità che almeno 20 paghino
con Bancomat o Carta di Credito?
X∼N µ = n⋅ p = 50 × 0,35 = 17,5 ( )
σ 2 = n⋅ p ⋅ 1− p = 50 × 0,35 × 0,65 = 11,38
⎛ X − µ 19,5 −17,5 ⎞
( )
P X ≥ 20 = P ⎜
⎝ σ
≥
11,38 ⎠
⎟ = P Z ≥ 0,59 = 0,5 − 0,2224 = 0,2776 ( )
Esercizio:
La percentuale di studenti fuori sede iscritti al CLEC è pari al 40%. Qual è la probabilità che, in
un’aula con 150 studenti CLEC, più di 50 siano fuori sede?
µ = n⋅ p = 150 × 0,40 = 60 ; ( )
σ 2 = n⋅ p ⋅ 1− p = 150 × 0,40 × 0,60 = 36 ⇒ σ =6
⎛ X − µ 50,5 − 60 ⎞
( )
P X > 50 = P ⎜
⎝ σ
≥
6
(
⎟ = P Z > −1,58 = 0,5 + 0,4429 = 0,9429
⎠
)
Esercizi di riepilogo:
Esercizi (1)
Un commerciante fa unʼordinazione di 100 schede RAM. La sua politica consiste nel
rifiutare la partita se, su un campione casuale di 7, più di una risulta difettosa.
Supponendo che tra le 100 schede ordinate, 4 siano difettose, qual è la probabilità
che il commerciante rifiuti la partita?
( )
E X = n × p = 7 × 0,04 = 0,28 Var ( X ) = n × p × (1− p) = 7 × 0,04 × 0,96 = 0,269
P ( X > 1) = ⎡⎣ P ( X = 2 ) + P ( X = 3 ) + P ( X = 4 ) + P ( X = 5 ) + P ( X = 6 ) + P ( X = 7 ) ⎤⎦
= 1− ⎡ P ( X = 0 ) + P ( X = 1) ⎤
⎣ ⎦
(
P X =1 = ) 7!
1!× 6!
× 0,041 × 0,966 = 0,219
( )
P X = 0 = 0,967 = 0,751
Esercizi (1)
Un commerciante fa unʼordinazione di 100 schede RAM. La sua politica consiste nel
rifiutare la partita se, su un campione casuale di 7, più di una risulta difettosa.
Supponendo che tra le 100 schede ordinate, 4 siano difettose, qual è la probabilità
che il commerciante rifiuti la partita?
( )
E X = n × p = 7 × 0,04 = 0,28 Var ( X ) = n × p × (1− p) = 7 × 0,04 × 0,96 = 0,269
P ( X > 1) = ⎡⎣ P ( X = 2 ) + P ( X = 3 ) + P ( X = 4 ) + P ( X = 5 ) + P ( X = 6 ) + P ( X = 7 ) ⎤⎦
= 1− ⎡ P ( X = 0 ) + P ( X = 1) ⎤
⎣ ⎦
= 1− ⎡⎣ 0,751+ 0,219 ⎤⎦ = 1− 0,970 = 0,030
Esercizi (2)
Immaginiamo che, invece dei soliti esercizi, la prova di esame consista in 20
domande a risposta multipla, ciascuna con quattro possibili risposte, di cui una sola
esatta, e che la prova scritta si consideri superata se si risponde esattamente ad
almeno 18 domande. Supponendo che uno studente sia sicuro di 15 risposte e tiri a
indovinare per le altre 5, qual è la probabilità che passi la prova?
( )
E X = n × p = 5 × 0,25 = 1,25 Var ( X ) = n × p × (1− p) = 5 × 0,25 × 0,75 = 0,9375
P ( X ≥ 3 ) = ⎡⎣ P ( X = 3 ) + P ( X = 4 ) + P ( X = 5 ) ⎤⎦
= 0,255 = 0,000977
5!
= × 0,25 4 × 0,751 = 5 × 0,0039 × 0,75 = 0,0146
4!×1!
5!
= × 0,25 3 × 0,752 = 10 × 0,0156 × 0,5625 = 0,087
3!× 2!
Esercizi (2)
Immaginiamo che, invece dei soliti esercizi, la prova di esame consista in 20
domande a risposta multipla, ciascuna con quattro possibili risposte, di cui una sola
esatta, e che la prova scritta si consideri superata se si risponde esattamente ad
almeno 18 domande. Supponendo che uno studente sia sicuro di 15 risposte e tiri a
indovinare per le altre 5, qual è la probabilità che passi la prova?
( )
E X = n × p = 5 × 0,25 = 1,25 Var ( X ) = n × p × (1− p) = 5 × 0,25 × 0,75 = 0,9375
Esercizi (3)
Si effettuano 100 lanci di una moneta. Qual è la probabilità che si abbiano:
A. Almeno 59 teste
B. Al massimo 55 teste
C. Un numero di teste compreso tra 46 e 48 (estremi inclusi)
( )
E X = n × p = 100 × 0,50 = 50 ( ) ( )
Var X = n × p × 1− p = 100 × 0,50 × 0,50 = 25 X∼N
⎛ X − µ 58,5 − 50 ⎞
A. P X ≥ 59(= P ⎜
⎝
) σ
≥
5 ⎠
(
⎟ = P Z ≥ 1,7 = 0,5000 − 0,4554 = 0,0446 )
⎛ X − µ 55,5 − 50 ⎞
(
B. P X ≤ 55 = P )
⎜
⎝ σ
≤
5 ⎠
(
⎟ = P Z ≤ 1,1 = 0,5000 + 0,3643 = 0,8643)
⎛ 45,5 − 50 X − µ 48,5 − 50 ⎞
(
C. P 46 ≤ X ≤ 48 = P ⎜
⎝
) 5
≤
σ
≤
5 ⎠
(
⎟ = P −0,9 ≤ Z ≤ −0,3 = 0,3159 − 0,1179 = 0,1980 )
Una fornace produce mattoni per costruzioni, con una percentuale di pezzi
non conformi pari al 2,5%.
Il Servizio Controllo Qualità sottopone a controllo un lotto di 500 mattoni, e
decide che il lotto verrà destinato alla vendita se, analizzando in modo
casuale 20 mattoni, al massimo 2 risultino non regolari.
Qual è la probabilità che il lotto superi il controllo?
Alla lezione del corso di Statistica del 9 novembre erano presenti 171 studenti.
Qual è la probabilità che almeno uno festeggiasse il compleanno quel
giorno?
Una filiale di Banca ha 200 impiegati, 20 dei quali giovani appena assunti.
Dovendo indicare quattro nominativi che dovranno effettuare un turno
particolarmente scomodo, si decide di estrarre i nomi a sorte.
Qual è la probabilità che i neoassunti estratti siano:
1. Nessuno
2. Tutti e quattro
3. Almeno uno
4. Al massimo uno
Una compagnia di assicurazioni vende la propria polizza vita a tre uomini, tutti
della stessa età e in buona salute.
Dalle tavole attuariali risulta che la probabilità che un uomo di quella età sia
ancora in vita dopo trentacinque anni è pari a 0,72.
Qual è la probabilità che, trentacinque anni dopo, dei tre uomini siano in vita:
1. Tutti e tre
2. Nessuno
3. Almeno uno
4. Al massimo uno
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 18:
Il Campionamento
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Probabilità e Statistica
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Il campionamento casuale
Campione casuale
• Non è un campione a casaccio!!!
• E’ un campione scelto da una popolazione in cui ciascuna unità ha una
probabilità non nulla di essere estratta.
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Il campionamento casuale
Esempio:
Si consideri una popolazione su cui è definita una variabile X, di distribuzione D qualsiasi con le
seguenti caratteristiche:
X~D µX=100 σX=12 Min(X)=50 Max(X)=150
Si decide di estrarre un campione di dimensioni n=8. Se lo schema è con reintroduzione, il numero
di campioni che è possibile estrarre è infinito. Immaginiamo, comunque, di riportare tutti i possibili
campioni di n=8 in una matrice:
Osservazione campionaria
Campione X1 X2 X3 X4 X5 X6 X7 X8
1° x11 x12 x13 x14 x15 x16 x17 x18
2° x21 x22 x23 x24 x25 x26 x27 x28
3° x31 x32 x33 x34 x35 x36 x37 x38
4° x41 x42 x43 x44 x45 x46 x47 x48
5° x51 x52 x53 x54 x55 x56 x57 x58
: :
: :
∞° x∞1 x∞2 x∞3 x∞4 x∞5 x∞6 x∞7 x∞8
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Il campionamento casuale
Esempio:
Si consideri una popolazione su cui è definita una variabile X, di distribuzione D qualsiasi con le
seguenti caratteristiche:
X~D µX=100 σX=12 Min(X)=50 Max(X)=150
Si decide di estrarre un campione di dimensioni n=8. Se lo schema è con reintroduzione, il numero
di campioni che è possibile estrarre è infinito. Immaginiamo, comunque, di riportare tutti i possibili
campioni di n=8 in una matrice:
Osservazione campionaria
Campione X1 X2 X3 X4 X5 X6 X7 X8
1° x11 x12 x13 x14 x15 x16 x17 x18
2° x21 x22 x23 x24 x25 x26 x27 x28
3° x31 x32 x33 x34 x35 x36 x37 x38
4° x41 x42 x43 x44 x45 x46 x47 x48
5° x51 x52 x53 x54 x55 x56 x57 x58
: :
: :
∞° x∞1 x∞2 x∞3 x∞4 x∞5 x∞6 x∞7 x∞8
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Il campionamento casuale
Esempio:
X~D µX=100 σX=12 Min(X)=50 Max(X)=150
Osservazione campionaria
Campione X1 X2 X3 X4 X5 X6 X7 X8
1° x11 x12 x13 x14 x15 x16 x17 x18
2° x21 x22 x23 x24 x25 x26 x27 x28
3° x31 x32 x33 x34 x35 x36 x37 x38
4° x41 x42 x43 x44 x45 x46 x47 x48
5° x51 x52 x53 x54 x55 x56 x57 x58
: :
: :
∞° x∞1 x∞2 x∞3 x∞4 x∞5 x∞6 x∞7 x∞8
Soffermiamoci sulla variabile casuale "1a osservazione campionaria" (ma il discorso, ovviamente, vale per
tutte). Quali sono i valori che, negli infiniti campioni estraibili da questa popolazione, possono capitare in
prima posizione? E con quale frequenza?
E' chiaro che i valori sono quelli compresi nel range di definizione della variabile osservata e, soprattutto,
che la loro frequenza dipenderà dalla distribuzione della variabile X (se la distribuzione è uniforme, tutti i
valori avranno la stessa probabilità, se è Gaussiana, i valori centrali avranno maggiore probabilità di quelli
nelle code, e così via).
In altri termini, tutte le osservazioni campionarie (tra oro indipendenti) avranno la stessa distribuzione e gli
stessi parametri della variabile X definita nella popolazione.
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Il campionamento casuale
Poiché ciascuna osservazione campionaria Xi è una variabile casuale, ogni funzione che
dipenda dalle osservazioni campionarie sarà essa stessa una variabile casuale e viene
chiamata statistica.
Quindi, i valori campionari ottenuti compiendo una qualsiasi trasformazione sui soli valori
osservati vengono chiamate statistiche, mentre i rispettivi valori della popolazione, che
sono delle costanti, vengono definiti parametri.
Definiamo statistica Tn=T(X1, X2, …, Xn) una qualsiasi funzione a valori reali del campione
casuale (X1, X2, …, Xn) che non dipende da quantità incognite.
Il valore della statistica Tn calcolata sul campione osservato (x1, x2, …, xn) costituisce la
statistica calcolata tn=T(x1, x2, …, xn).
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Il campionamento casuale
Dato un campione casuale (X1, X2, …, Xn), e definita la statistica Tn=T(X1, X2, …, Xn) ottenuta
come elaborazione delle osservazioni campionarie, la distribuzione di probabilità della
statistica Tn(X1, X2, …, Xn) viene definita distribuzione campionaria di Tn.
1 n
Media campionaria: …………….. X = ∑ X
n i=1 i
1 n
( )
2
Varianza campionaria: …………. S = ∑ Xi − Xn 2
n
n i=1
( )
n
1 2
Varianza campionaria corretta: .. S! = ∑
n −1 i=1
Xi − Xn 2
n
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La media campionaria 1 n
X = ∑ Xi
n i=1
( )
E X =?
Var ( X ) = ?
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La media campionaria 1 n
X = ∑ Xi
n i=1
Consideriamo una popolazione composta di tre soli elementi, su cui è definita una variabile
X, che assume valori: 7, 5, 10.
La variabile X avrà dunque media pari a 7,33 e varianza pari a 4,22.
Da questa popolazione, decidiamo di estrarre, con reintroduzione, un campione casuale di
dimensione n=2 e di calcolare la media campionaria.
Prima di estrarre il campione, la media campionaria è una variabile casuale, il cui valore
dipenderà dalle specifiche osservazioni estratte. Quali sono le sue caratteristiche?
Campionamento con reintroduzione
Osservazione campionaria Media Da una popolazione di dimensione N=3 è
Campione X1 X2 campionaria possibile estrarre, con reintroduzione, k=9
campioni di dimensioni n=2.
1° 5 5 5,0
2° 5 7 6,0
3° 5 10 7,5
4° 7 5 6,0
5° 7 7 7,0
6° 7 10 8,5
7° 10 5 7,5
8° 10 7 8,5
9° 10 10 10,0
Media 7,33 7,33 7,33
Varianza 4,22 4,22 2,11
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La media campionaria 1 n
X = ∑ Xi
n i=1
Consideriamo una popolazione composta di tre soli elementi, su cui è definita una variabile
X, che assume valori: 7, 5, 10.
La variabile X avrà dunque media pari a 7,33 e varianza pari a 4,22.
Da questa popolazione, decidiamo di estrarre, con reintroduzione, un campione casuale di
dimensione n=2 e di calcolare la media campionaria.
Prima di estrarre il campione, la media campionaria è una variabile casuale, il cui valore
dipenderà dalle specifiche osservazioni estratte. Quali sono le sue caratteristiche?
Campionamento con reintroduzione
Osservazione campionaria Media Da una popolazione di dimensione N=3 è
Campione X1 X2 campionaria possibile estrarre, con reintroduzione, k=9
campioni di dimensioni n=2.
1° 5 5 5,0
2° 5 7 6,0
3° 5 10 7,5
4° 7 5 6,0
5° 7 7 7,0
6° 7 10 8,5
7° 10 5 7,5
8° 10 7 8,5
9° 10 10 10,0
Media 7,33 7,33 7,33
Varianza 4,22 4,22 2,11
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La media campionaria 1 n
X = ∑ Xi
n i=1
Consideriamo una popolazione composta di tre soli elementi, su cui è definita una variabile
X, che assume valori: 7, 5, 10.
La variabile X avrà dunque media pari a 7,33 e varianza pari a 4,22.
Da questa popolazione, decidiamo di estrarre, con reintroduzione, un campione casuale di
dimensione n=2 e di calcolare la media campionaria.
Prima di estrarre il campione, la media campionaria è una variabile casuale, il cui valore
dipenderà dalle specifiche osservazioni estratte. Quali sono le sue caratteristiche?
Campionamento con reintroduzione
Osservazione campionaria Media Da una popolazione di dimensione N=3 è
Campione X1 X2 campionaria possibile estrarre, con reintroduzione, k=9
campioni di dimensioni n=2.
1° 5 5 5,0
2° 5 7 6,0 Ogni osservazione campionaria (X1 e X2) ha la
stessa distribuzione (uniforme), la stessa media
3° 5 10 7,5
(7,33) e la stessa varianza (4,22) della variabile X
4° 7 5 6,0 definita sulla popolazione.
5° 7 7 7,0
6° 7 10 8,5 Anche la media campionaria ha valore atteso
7° 10 5 7,5 pari a 7,33. Questo significa che la media di tutte
le media campionarie è proprio uguale alla
8° 10 7 8,5
media della popolazione,
9° 10 10 10,0 La varianza della media campionaria, invece, è
Media 7,33 7,33 7,33 diversa dalla varianza della popolazione.
Varianza 4,22 4,22 2,11 Perché?
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La media campionaria 1 n
X = ∑ Xi
n i=1
A. Campionamento con reintroduzione
⎛1 n ⎞ 1 ⎛ n ⎞ 1 n
( ) 1
E X = E ⎜ ∑ Xi ⎟ = E ⎜ ∑ Xi ⎟ = ∑ E Xi = ⋅ nµ = µ
⎝ n i=1 ⎠ n ⎝ i=1 ⎠ n i=1 n
( )
Ricorda che ogni variabile casuale X i (osservazione campionaria) ha la stessa distribuzione
e gli stessi parametri (µ, σ 2)della variabile X nella popolazione.
⎛1 n ⎞ 1 ⎛ n ⎞ 1 n
( ) ⎝ n i=1 ⎠ n ⎝ i=1 ⎠ n i=1 n
1
Var X = Var ⎜ ∑ Xi ⎟ = 2 Var ⎜ ∑ Xi ⎟ = 2 ∑ Var Xi = 2 ⋅ nσ =
2 σ2
n
( )
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Var ( X ) =
6° 7 10 8,5 σ
2
4,22
= = 2,11
7° 10 5 7,5 n 2
8° 10 7 8,5
9° 10 10 10,0
Media 7,33 7,33 7,33
Varianza 4,22 4,22 2,11
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La media campionaria 1 n
X = ∑ Xi
n i=1
A. Campionamento con reintroduzione
⎛1 n ⎞ 1 ⎛ n ⎞ 1 n
( ) 1
E X = E ⎜ ∑ Xi ⎟ = E ⎜ ∑ Xi ⎟ = ∑ E Xi = ⋅ nµ = µ
⎝ n i=1 ⎠ n ⎝ i=1 ⎠ n i=1 n
( )
⎛1 n ⎞ 1 ⎛ n ⎞ 1 n
( ) ⎝ n i=1 ⎠ n ⎝ i=1 ⎠ n i=1 n
1
Var X = Var ⎜ ∑ Xi ⎟ = 2 Var ⎜ ∑ Xi ⎟ = 2 ∑ Var Xi = 2 ⋅ nσ =
2 σ2
n
( )
B. Campionamento senza reintroduzione
( )
E X =µ
⎛1 ⎞ 1 ⎛ ⎞ 1
Var ( X ) = Var ⎜ ∑ X ⎟ = Var ⎜ ∑ X ⎟ = ∑ Var ( X )
n n n
i i i
⎝n ⎠ n
i=1 ⎝ 2
⎠ n i=1
2
i=1
=
1⎡
n2 ⎣
( ) ( ) ( ) ( )
Var X1 + Var X2 + … + Var Xn + 2Cov X1, X2 + 2Cov X1, X3 + … + 2Cov Xn−1, Xn ⎤(
⎦ ) ( )
⎡ ⎤
1 ⎡⎢ n n −1 − σ 2 ⎤ 1 ⎡ ( )n n −1 ⎤ ( )
1⎢ n
n i=1
( )i j
⎥
( n ⎢
2
)
= 2 ⎢ ∑ Var Xi + 2∑ ∑ Cov Xi , X j ⎥ = 2 n⋅ σ + 2 ⋅
2
⋅ ⎥
N −1 ⎥ n ⎢
⎢
= 2 n⋅ σ − σ ⋅
2 2
N −1 ⎥
⎥
⎢⎣ i< j ⎥⎦ ⎣ ⎦ ⎣ ⎦
σ 2 σ 2 n −1 σ 2 ⎛ n −1⎞ σ 2 ⎛ N − n⎞
= − ⋅ = ⋅ ⎜1− ⎟= ⋅⎜ ⎟
n n N −1 n ⎝ N −1⎠ n ⎝ N −1 ⎠
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Var ( X ) =
6° 10 7 8,5
2
σ N − n 4,22 3 − 2
⋅ = ⋅ = 1,06
Media 7,33 7,33 7,33 n N −1 2 3 −1
Varianza 4,22 4,22 1,06
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
1. Quando è n=1, i risultati ottenuti con lo schema di campionamento con reintroduzione e quelli
ottenuti nel campionamento senza reintroduzione coincidono;
2. Quando è n=N , la varianza della media campionaria nello schema di campionamento senza
reintroduzione è nulla. In questo caso, infatti, il campione coincide con la popolazione e non si ha
più alcuna incertezza legata al campionamento;
3. Nel caso più comune in cui è n<N , il fattore di correzione per lo schema senza reintroduzione è <1.
Quindi, la varianza della media campionaria nello schema senza reintroduzione è minore di
quella che si ottiene nello schema con reintroduzione; (Perché?)
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
(
X ∼ N µ ,σ 2
) (
Xi ∼ N µ , σ 2
) 1 n
∑
n i=1
⎛ σ2⎞
Xi = X ∼ N ⎜ µ , ⎟
⎝ n⎠
Campionamento
( )
con reintroduzione: E X = µ ; Var X =
σ2
( ) n
X−µ
σ
( )
∼ N 0,1
n
Campionamento
( )
senza reintroduzione: E X = µ ; Var X =
σ2 N−n
⋅ ( ) n N −1
X−µ
σ N−n
2
( )
∼ N 0,1
⋅
n N −1
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esercizio:
Supponiamo che la durata delle lampadine prodotte da una certa macchina abbia
distribuzione Normale con media µ = 2.750 ore e sqm σ = 118 ore.
Estraendo un campione di 21 lampadine, qual è la probabilità che la durata media sia:
• Superiore a 2.800 ore;
• Superiore a 2.730 ore;
• Compresa tra 2.700 e 2.800 ore?
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esercizio:
Supponiamo che la durata delle lampadine prodotte da una certa macchina abbia
distribuzione Normale con media µ = 2.750 ore e sqm σ = 118 ore.
Estraendo un campione di 21 lampadine, qual è la probabilità che la durata media sia:
• Superiore a 2.800 ore;
• Superiore a 2.730 ore;
• Compresa tra 2.700 e 2.800 ore?
0,4500000
f(x) Titolo del grafico
Localizziamo sull’asse il punto 2.800 ore.
0,4000000
0,1000000
0,0500000
0,0000000
2.750
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esercizio:
Supponiamo che la durata delle lampadine prodotte da una certa macchina abbia
distribuzione Normale con media µ = 2.750 ore e sqm σ = 118 ore.
Estraendo un campione di 21 lampadine, qual è la probabilità che la durata media sia:
• Superiore a 2.800 ore;
• Superiore a 2.730 ore;
• Compresa tra 2.700 e 2.800 ore?
0,4500000
f(x) Titolo del grafico
0,4000000
0,3500000
⎛ ⎞
⎜ X − µ 2.800 − 2.750 ⎟
0,3000000
0,2500000
(
P X ≥ 2.800 ) = P⎜
⎜ σ
≥
118
⎟
⎟
0,2000000 ⎝ n 21 ⎠
( )
0,1500000
0,0000000
2.750
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.800 X
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esercizio:
f(x)
-2,180
-1,960
-1,740
-1,520
-1,080
-0,860
-0,640
-0,420
0,020
0,240
0,460
0,680
1,120
1,340
1,560
1,780
2,0 0
2,2 0
2,4 0
2,6 0
2,8 0
3,320
-2,40
-1,30
-0,20
0,90
3,10
0,4500000
f(x) Titolo del grafico
0,4000000
0,3500000
0,3000000 118
X ! N ; µ X = 2.750 ; s X = = 25,7
Distribuzione della media campionaria 0,2500000
21
in campioni di n=21 lampadine. 0,2000000 ⎛ ⎞
⎜ X − µ 2.800 − 2.750 ⎟
0,1500000
0,1000000
(
P X ≥ 2.800 = P ⎜
⎜σ
) ≥
118
⎟
⎟
⎝ n 21 ⎠
( )
0,0500000
0,0000000
= P Z ≥ 1,94 = 0,5 − 0,4738 = 0,0262
2.750
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.800 X
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esercizio:
Supponiamo che la durata delle lampadine prodotte da una certa macchina abbia
distribuzione Normale con media µ = 2.750 ore e sqm σ = 118 ore.
Estraendo un campione di 21 lampadine, qual è la probabilità che la durata media sia:
• Superiore a 2.800 ore;
• Superiore a 2.730 ore;
• Compresa tra 2.700 e 2.800 ore?
0,4500000
f(x) Titolo del grafico
0,4000000
0,3500000
⎛ ⎞
⎜ X − µ 2.730 − 2.750 ⎟
0,3000000
0,2500000
(
P X ≥ 2.730 = P ⎜
⎜
)σ
≥
118
⎟
⎟
0,2000000 ⎝ n 21 ⎠
( )
0,1500000
0,0000000
2.730 2.750
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esercizio:
Supponiamo che la durata delle lampadine prodotte da una certa macchina abbia
distribuzione Normale con media µ = 2.750 ore e sqm σ = 118 ore.
Estraendo un campione di 21 lampadine, qual è la probabilità che la durata media sia:
• Superiore a 2.800 ore;
• Superiore a 2.730 ore;
• Compresa tra 2.700 e 2.800 ore?
0,4500000
f(x) Titolo del grafico
0,4000000
0,3500000
⎛ ⎞
⎜ 2.700 − 2.750 X − µ 2.800 − 2.750 ⎟
0,3000000
0,2500000
(
P 2.700 ≤ X ≤ 2.800 = P ⎜
⎜ 118
) ≤
σ
≤
118
⎟
⎟
0,2000000 ⎝ 21 n 21 ⎠
( )
0,1500000
0,0000000
2.750
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.700 2.800 X
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
(
X ∼ N µ ,σ 2
) (
Xi ∼ N µ , σ 2
) 1 n
∑
n i=1
⎛ σ2⎞
Xi = X ∼ N ⎜ µ , ⎟
⎝ n⎠
2
Cosa succede se non si conosce la distribuzione di X?
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Var ( X )
n
2. Lindeberg-Cramer
Il teorema limite centrale resta valido anche quando la successione X(n) è formata da variabili
casuali che non sono identicamente distribuite, purché ciascuna v.c. Xi, i=1, …, n, sia indipendente
dalle altre e abbia momenti primi e secondi finiti.
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Quindi…
Sotto condizioni molto generali, la somma di n variabili casuali indipendenti è
asintoticamente Normale, e questo è vero qualunque sia il tipo di distribuzione di
ciascuna delle v.c. Xi, i=1, …, n.
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La media campionaria
Esercizio 1
Negli USA, un produttore di cosmetici ha 1.500 venditori porta a porta che,
nellʼultimo mese, hanno realizzato vendite per un valore pari a µ=3100$ e con
sqm σ=450$.
Si estrae, senza reintroduzione, un campione di 64 venditori. Qual è la probabilità che
questo gruppo abbia realizzato, nell'ultimo mese, vendite per un valore medio inferiore a
3.000$?
n 64
N=1.500 µ =3.100$ σ =450$ n=64 = = 0,043
N 1.500
⎛ ⎞
⎜ X −µ ⎟
(
P X64 < 3000 = P ⎜ ) 64
⎜ σ2 N−n
<
3.000 − 3.100
4502 1.500 − 64 ⎟
⎟
⎜ × × ⎟
⎝ n N −1 64 1.500 −1 ⎠
⎛ ⎞
⎜ ⎟
−
= P⎜ Z <
⎜
3.000 3.100
202.500 1.436 ⎟
⎟ = P Z < −1,81 = 0,0351
( )
⎜ × ⎟
⎝ 64 1.499 ⎠
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
La media campionaria
Esercizio 2
Le funi di sostegno di un ponte sono formate da cavi di acciaio intrecciati.
La resistenza alla trazione di ogni cavo è una variabile casuale con
media µ=0,1 tonnellate e sqm σ=0,06 tonnellate.
Assumendo che una fune abbia una resistenza alla trazione uguale alla somma delle resistenze
dei cavi che la compongono, si determini la probabilità che una fune costituita da 100 cavi
sopporti una trazione di 9 tonn.
1
µ X = 0,1 ; σ X = 0,06
i i
X= ∑X ⇒
n i i
∑X i
= nX
i
⎛ ⎞
( )
P ⎜ ∑ Xi ≥ 9⎟ = P 100 ⋅ X ≥ 9 = P X ≥ 0,09
⎝ i ⎠
( )
⎛ ⎞
⎜ X − µ 0,09 − 0,1 ⎟ ⎛ −0,01⎞
= P⎜
⎜ σ
≥
0,06
⎟ = P⎜ Z ≥
⎟ ⎝ 0,006
⎟ = P Z ≥ −1,67 = 0,9525
⎠
( )
⎜⎝ ⎟
n 100 ⎠
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli
Federico II
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 19:
Teoria della Stima
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Lʼinferenza
Lʼinferenza
• Popolazione di riferimento
• Procedura di raccolta e selezione delle informazioni
• Tecnica inferenziale per giungere dal risultato parziale alla popolazione
• Validità statistica della procedura utilizzata
Lʼinferenza comprende una serie di tecniche che possono essere raccolte nei suoi due
principali capitoli:
Stimatori e stime
Supporremo che sulla popolazione sia definita una variabile X la cui distribuzione, seppure
incognita, è completamente caratterizzata da un parametro q o da un insieme di parametri
Θ.
L’obiettivo è trovare, sulla base di un campione casuale X1, X2, …, Xn, un valore, o un
insieme di valori, per q (o per Θ ) che siano la migliore approssimazione possibile del valore
incognito della popolazione.
Una funzione delle osservazioni campionarie è essa stessa una variabile casuale che, nel
caso della stima di un parametro, viene definita stimatore.
Stimatori e stime
C
C
C
C C C
C
Pop C
C C
C
C C
C
1 n 1 n
µ X = ∑ Xi x = ∑ xi
n i=1 n i=1
Stimatori e stime
C
C
C
C C C
Pop C
C
C C
C
C C
C
In generale, è possibile definire più di uno stimatore per uno stesso parametro.
Ciascuno stimatore avrà una propria distribuzione campionaria che, in generale,
ammetterà una media e una varianza.
()
E θˆ Valore atteso dello stimatore
() ( Var (θˆ) )
2
E ⎡θˆ − E θˆ ⎤ Varianza dello stimatore
⎣ ⎦
• Criteri generali
• “Naturalità” dello stimatore (rispetto al parametro che si vuole stimare)
• Rispetto di specifiche proprietà
• Metodi di stima
• Minimi quadrati
• Momenti
• Massima verosimiglianza
Dato uno stimatore Tn=T(X1, X2, …, Xn) del parametro q, diremo che Tn è corretto (o
centrato o non distorto) se il suo valore atteso coincide con il parametro da stimare,
quindi se:
( )
E Tn = θ
Se E(Tn)≠q, diremo che lo stimatore Tn è uno stimatore distorto per q, con fattore di
distorsione dato da:
( ) ( )
D Tn = E Tn − θ
E (Tn ) = q
q Tn
Dato uno stimatore Tn=T(X1, X2, …, Xn) del parametro q, diremo che Tn è corretto (o
centrato o non distorto) se il suo valore atteso coincide con il parametro da stimare,
quindi se:
( )
E Tn = θ
Se E(Tn)≠q, diremo che lo stimatore Tn è uno stimatore distorto per q, con fattore di
distorsione dato da:
( ) ( )
D Tn = E Tn − θ
Distorsione
q ( )
E Tn Tn
Dato uno stimatore Tn=T(X1, X2, …, Xn) del parametro q, diremo che Tn è corretto (o
centrato o non distorto) se il suo valore atteso coincide con il parametro da stimare,
quindi se:
( )
E Tn = θ
1 n
Esempio: la media campionaria: X = ∑ Xi
n i=1
⎛1 n ⎞ 1 ⎛ n ⎞ 1 n
E X ( )
= E ⎜ ∑ i⎟ X = E ⎜∑ i⎟
X = ∑
⎝ n i=1 ⎠ n ⎝ i=1 ⎠ n i=1
E X i
=
1
n
⋅ n⋅ µ = µ ( )
Dato uno stimatore Tn=T(X1, X2, …, Xn) del parametro q, diremo che Tn è corretto (o
centrato o non distorto) se il suo valore atteso coincide con il parametro da stimare,
quindi se:
( )
E Tn = θ
1 n
( )
2
Esempio: la varianza campionaria: S = ∑ Xi − X 2
n i=1
La Varianza campionaria è una misura della variabilità del carattere nel campione, e può
quindi essere utilizzata come stimatore della variabilità nella popolazione.
(È, quindi, cosa ben diversa dalla Varianza della media campionaria, che è, invece, una misura della
variabilità di tutte le medie calcolabili su tutti i possibili campioni di dimensioni n estratti da una
determinata popolazione).
n i=1
N=3; µ=7,33; s2=4,22; n=2
Osservazione campionaria Media Varianza
Campione
1°
X1
5
X2
5
campionaria
5,0
campionaria
0,00
( )
E S2 ≠ σ 2
n i=1
N=3; µ=7,33; s2=4,22; n=2
Osservazione campionaria Media Varianza ⎛ n −1⎞
Campione
1°
X1
5
X2
5
campionaria
5,0
campionaria
0,00
( )
E S2 ≠ σ 2 = σ 2 ⋅ ⎜
⎝ n ⎠
⎟
2° 5 7 6,0 1,00 La varianza campionaria è uno stimatore
3° 5 10 7,5 6,25 distorto della varianza della popolazione.
4° 7 5 6,0 1,00
5° 7 7 7,0 0,00 Poiché, però, il fattore di distorsione è noto, è
6° 7 10 8,5 2,25 possibile “correggerlo”. Inoltre, è evidente
7° 10 5 7,5 6,25 che la distorsione vale solo per campioni
8° 10 7 8,5 2,25 piccoli, poiché al crescere di n il fattore di
9° 10 10 10,0 0,00 distorsione tende a 1; lo stimatore, cioè, come
Media 7,33 7,33 7,33 2,11 vedremo, sebbene distorto, risulta
Varianza 4,22 4,22 2,11
asintoticamente corretto.
La varianza campionaria è uno stimatore distorto della varianza della popolazione. Può essere
"corretta" in due modi:
A. Moltiplicando la varianza campionaria S2 per il fattore di correzione: n
n −1
E’ questo il metodo che si utilizza quando non si dispone dei singoli dati campionari, per
correggere una varianza già calcolata con la formula tradizionale.
∑( X − X)
n 2
n −1
E’ questo il metodo che in genere si utilizza quando si dispone dei singoli dati campionari.
D’altra parte, la varianza campionaria si corregge “da sola” all’aumentare della dimensione
campionaria.
LEZIONE 19 – TEORIA DELLA STIMA
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
2. Efficienza
In molti casi, è possibile individuare più stimatori “naturali” per lo stesso parametro.
Ad esempio, nel caso di distribuzioni simmetriche, il parametro µ può essere stimato, oltre che dalla
media campionaria, anche dalla mediana campionaria, che risulta anch’essa uno stimatore
corretto per µ.
2. Efficienza
Dati due stimatori, T1 e T2, entrambi corretti per il parametro q, lo stimatore T1 sarà più efficiente di T2 se
risulta: Var T ( ) <1
1
(Efficienza relativa)
Var ( T )
2
T3
T2 Tra i tre stimatori T1, T2 e T3, tutti e tre corretti per il parametro q,
sceglieremo T3 perché ha la varianza più piccola, e quindi
garantisce risultati campionari più vicini al parametro da
stimare.
T1
( )
E Tn = θ Tn
2. Efficienza
Dati due stimatori, T1 e T2, entrambi corretti per il parametro q, lo stimatore T1 sarà più efficiente di T2 se
risulta: Var T ( ) <1
1
(Efficienza relativa)
Var ( T )
2
Media
campionaria
2. Efficienza
Esempio:
Da una popolazione su cui è definita una variabile X con media µ incognita, si estrae un
campione casuale di numerosità n. Si definiscano le proprietà dei seguenti stimatori per µ:
1 n
n i=1
1
2
( ) 1
T1 = ∑ Xi ; T2 = X1 + Xn ; T3 = X2 ; T4 = X2 + X8
3
( )
T1 () 1 ⎛ n ⎞ 1 1
E T1 = E ⎜ ∑ Xi ⎟ = ∑ E Xi = ⋅ nµ = µ
n ⎝ i=1 ⎠ n i n
( ) T1: Stimatore corretto
T2 ( )
E T2 =
1⎡
2⎣
( ) ( ) ⎦ 2
1
E X1 + E Xn ⎤ = ⎡⎣ µ + µ ⎤⎦ = µ T2: Stimatore corretto
T3 ( ) ( )
E T3 = E X2 = µ T3: Stimatore corretto
T4 ( )
E T4 =
1⎡
3⎣
( ) ( ) ⎦ 3
1 2
E X2 + E X8 ⎤ = ⎡⎣ µ + µ ⎤⎦ = µ ≠ µ
3
T4: Stimatore distorto
2. Efficienza
Esempio:
Da una popolazione su cui è definita una variabile X con media µ incognita, si estrae un
campione casuale di numerosità n. Si definiscano le proprietà dei seguenti stimatori per µ:
1 n
n i=1
1
2
( ) 1
T1 = ∑ Xi ; T2 = X1 + Xn ; T3 = X2 ; T4 = X2 + X8
3
( )T1
⎛ n ⎞
() 1 1 n σ
( )
2
1
T1 Var T1 = 2 Var ⎜ ∑ Xi ⎟ = 2 ∑ Var Xi = 2 ⋅ nσ =
2
T2
n ⎝ i=1 ⎠ n i=1 n n
σ2
T2 ( )
Var T2 =
1⎡
4⎣
( ) ⎦ 4
1
( )
Var X1 + Var Xn ⎤ = ⎡⎣σ 2 + σ 2 ⎤⎦ =
2
T3
E (Tn ) = q Tn
T3 ( )
Var T3 = Var X2 ( ) =σ2 Tra i tre stimatori, tutti corretti, si sceglierà quello con varianza più piccola,
cioè quello che raccoglierà più valori attorno al valore centrale, che
coincide con il parametro da stimare. In questo caso, per campioni con n>2
si sceglierà lo stimatore T1.
Sotto condizioni molto generali, ad ogni parametro q è possibile associare un valore minimo per la
varianza al di sotto del quale nessuno stimatore Tn, corretto per q, può andare.
Var Tn ≥ ( ) ⎡ ∂
1
⎤
2
⎣ ∂θ
( )
n⋅ E ⎢ logf X;θ ⎥
⎦
Lo stimatore che raggiunge tale limite verrà definito stimatore a varianza minima.
Lʼesistenza di una varianza minima per ogni q non implica necessariamente lʼesistenza di uno stimatore a
varianza minima. In altri termini, è possibile che esista il limite ma che non esista alcuno stimatore che lo
raggiunga.
Eʼ possibile, comunque, ipotizzare che ad ogni parametro q corrisponda, sotto condizioni molto generali,
almeno uno stimatore asintoticamente efficiente. Per campioni di dimensione finita, sarà il più delle volte
sufficiente fare riferimento a stimatori che si “avvicinano” allʼestremo di Cramer-Rao.
q Tn
( )⎡
( ) ( ) ( )
2⎤ 2
⎡ ⎤
EQM Tn = E ⎢ Tn − θ ⎥ = Var Tn + ⎣ D Tn ⎦
⎣ ⎦ T2 T3 T4
(distorto)(distorto) (distorto)
LʼEQM di uno stimatore è pari alla varianza dello stimatore
più il quadrato della distorsione. Se lo stimatore è non
distorto, lʼEQM risulta pari alla sola varianza.
Nella scelta tra stimatori diversi, quindi, si preferirà quello
con EQM più piccolo, regola che, nel caso di stimatori
entrambi non distorti, equivale a preferire quello più
efficiente.
T1
(corretto)
q Tn
1. Correttezza asintotica
Uno stimatore Tn è asintoticamente corretto per q se il valore atteso della sua distribuzione limite è
uguale a q.
La proprietà della correttezza asintotica garantisce che, anche in uno stimatore distorto, gli errori
sistematici tendono a scomparire al crescere di n, ma non dice nulla sul comportamento della
varianza di Tn, cioè sulla dispersione delle singole stime attorno al parametro q. (Orsi, pag. 297).
1. Correttezza asintotica
1 n
( )
2
La varianza campionaria: S = ∑ Xi − X 2
n i=1
⎛ n −1⎞
( )
E S2 = σ 2 ⋅ ⎜
⎝ n ⎠
⎟ La varianza campionaria è uno stimatore distorto.
n→∞
( )
lim E S2 = σ 2 La varianza campionaria è uno stimatore asintoticamente corretto.
2. Consistenza
Uno stimatore Tn è consistente per q se per ogni coppia di numeri positivi δ ed ε, scelti piccoli a
piacere, è sempre possibile trovare una dimensione campionaria N tale che, per ogni n>N, risulti:
{
P tn − θ < δ > 1− ε }
Condizione sufficiente (ma non necessaria) perché Tn sia uno stimatore consistente per q, è che Tn
sia asintoticamente corretto e che la sua varianza tenda a zero all’aumentare di n:
n→∞
( )
lim E Tn = θ ; ( )
lim Var Tn = 0
n→∞
Questa caratteristica può essere riassunta nella condizione che lʼEQM tenda a zero al crescere di n.
lim ⎡ EQM Tn ⎤ = 0
n→∞ ⎣ ⎦ ( )
2. Consistenza
Esempio:
Verificare se gli stimatori T1, T2 e T3 definiti di seguito sono consistenti:
T1 =
1 n
∑X
n i=1 i
T2 =
1
(X + Xn
2 1
) T3 =
1
(X + X8
3 2
)
()
E T1 = µ ; Var T1 =
σ2
n
() ( )
E T2 = µ ; Var T2 =
σ2
2
( ) ( )
E T3 =
2
3
2
( )
µ ; Var T3 = σ 2
9
2. Consistenza
Esempio:
Verificare se gli stimatori T1, T2 e T3 definiti di seguito sono consistenti:
T1 =
1 n
∑X
n i=1 i
T2 =
1
(X + Xn
2 1
) T3 =
1
(X + X8
3 2
)
T1 T2 T3
DISTORSIONE 0 0 − 1 ⋅µ
3
σ2 σ2 2 ⋅σ 2
VARIANZA
n 2 9 Solo lo stimatore T1
⎛ 2 σ2⎞ σ2 ⎛ 2 σ2⎞ σ2
è consistente.
1 2 2 2
EQM ⎜0 + ⎟= ⎜0 + ⎟= µ + σ
⎝ n⎠ n ⎝ 2 ⎠ 2 9 9
σ2 1 2 2 2
lim EQM 0 µ + σ
n→∞
2 9 9
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 20:
La stima per intervalli
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
1. Variabile quantitative
(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)
Poiché la variabile X si distribuisce in modo Normale, allora anche la v.c. media campionaria
seguirà la stessa distribuzione:
⎛ σ 2⎞
X~N ⎜ µ; ⎟
⎜⎝ n ⎟⎠
La standardizzata della media campionaria seguirà una distribuzione N(0,1): X − µ ~N 0;1
σ
( )
n
æ s2 ö X-µ
X ! N ç µ; ÷ Þ ! N ( 0;1)
è n ø s
n
⎛ ⎞
⎜ X −µ ⎟ 1-a
P ⎜ − zα ≤ n ≤ zα ⎟ = 1− α
⎜ 2 σ 2⎟ X −µ
⎝ ⎠ Z=
n σ
−zα 0 zα
2 2
n
(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)
⎛ ⎞
(
X~N µ;σ 2
)
⎛ σ ⎞
X ∼ N ⎜ µ; ⎟
2 X−µ
σ
∼ N 0;1 ( ) ⎜ X −µ
P ⎜ − zα ≤ n
⎟
≤ zα ⎟ = 1− α
⎝ n⎠ ⎜ 2 σ 2⎟
n ⎝ n ⎠
⎛ σ σ ⎞
P ⎜ µ − zα ⋅ ≤ Xn ≤ µ + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
(Approccio deduttivo)
æ s s ö
P ç - za ×
n
(
£ Xn - µ £ za × )
÷ = 1- a
nø
è 2 2
⎛ σ σ ⎞
P ⎜ X − zα ⋅ ≤ µ ≤ X + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
(Approccio induttivo)
(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)
⎛ ⎞
(
X~N µ;σ 2 )
⎛ σ2⎞
X ∼ N ⎜ µ; ⎟
X−µ
σ
∼ N 0;1 ( ) ⎜ X −µ
P ⎜ − zα ≤ n
⎟
≤ zα ⎟ = 1− α
⎝ n⎠ ⎜ 2 σ 2⎟
n ⎝ n ⎠
⎛ σ σ ⎞
Approccio deduttivo P ⎜ µ − zα ⋅ ≤ Xn ≤ µ + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
Esempio:
Una macchina produce bulloni il cui peso ha distribuzione Normale con media µ=63 grammi e varianza σ2=0,8.
Scegliendo a caso 8 bulloni, qual è l’intervallo che con probabilità 0,95 comprenderà la loro media?
⎛ σ σ ⎞
P ⎜ µ − zα ⋅ ≤ Xn ≤ µ + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
95%
(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)
⎛ ⎞
(
X~N µ;σ 2 )
⎛ σ2⎞
X ∼ N ⎜ µ; ⎟
X−µ
σ
∼ N 0;1 ( ) ⎜ X −µ
P ⎜ − zα ≤ n
⎟
≤ zα ⎟ = 1− α
⎝ n⎠ ⎜ 2 σ 2⎟
n ⎝ n ⎠
⎛ σ σ ⎞
Approccio deduttivo P ⎜ µ − zα ⋅ ≤ Xn ≤ µ + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
Esempio:
Una macchina produce bulloni il cui peso ha distribuzione Normale con media µ=63 grammi e varianza σ2=0,8.
Scegliendo a caso 8 bulloni, qual è l’intervallo che con probabilità 0,95 comprenderà la loro media?
⎛ σ σ ⎞
P ⎜ µ − zα ⋅ ≤ Xn ≤ µ + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
95%
0,89 63 0,89 X (Distribuzione dei valori medi di tutti i possibili campioni di n=8
63 −1,96 ⋅ 63 +1,96 ⋅ bulloni scelti a caso dalla nostra macchina)
8 8
(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)
⎛ ⎞
(
X~N µ;σ 2 )
⎛ σ2⎞
X ∼ N ⎜ µ; ⎟
X−µ
σ
∼ N 0;1 ( ) ⎜ X −µ
P ⎜ − zα ≤ n
⎟
≤ zα ⎟ = 1− α
⎝ n⎠ ⎜ 2 σ 2⎟
n ⎝ n ⎠
⎛ σ σ ⎞
Approccio deduttivo P ⎜ µ − zα ⋅ ≤ Xn ≤ µ + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
Esempio:
Una macchina produce bulloni il cui peso ha distribuzione Normale con media µ=63 grammi e varianza σ2=0,8.
Scegliendo a caso 8 bulloni, qual è l’intervallo che con probabilità 0,95 comprenderà la loro media?
⎛ 0,89 0,89 ⎞
P ⎜ 63 −1,96 ⋅ ≤ Xn ≤ 63 +1,96 ⋅ ⎟ = 0,95
⎝ 8 8 ⎠
(
P 63 − 0,62 ≤ Xn ≤ 63 + 0,62 = 0,95)
95% (
P 62,38 ≤ Xn ≤ 63,62 ) = 0,95
62,4 63 63,6 X (Distribuzione dei valori medi di tutti i possibili campioni di n=8
bulloni scelti a caso dalla nostra macchina)
(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)
⎛ ⎞
(
X~N µ;σ 2 )
⎛ σ2⎞
X ∼ N ⎜ µ; ⎟
X−µ
σ
∼ N 0;1 ( ) ⎜ X −µ
P ⎜ − zα ≤ n
⎟
≤ zα ⎟ = 1− α
⎝ n⎠ ⎜ 2 σ 2⎟
n ⎝ n ⎠
⎛ σ σ ⎞
Approccio deduttivo P ⎜ µ − zα ⋅ ≤ Xn ≤ µ + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
Esempio:
Una macchina produce bulloni il cui peso ha distribuzione Normale con media µ=63 grammi e varianza σ2=0,8.
Scegliendo a caso 8 bulloni, qual è l’intervallo che con probabilità 0,95 comprenderà la loro media?
95%
62,4 63 63,6 X (Distribuzione dei valori medi di tutti i possibili campioni di n=8
bulloni scelti a caso dalla nostra macchina)
(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)
⎛ ⎞
(
X~N µ;σ 2 )
⎛ σ2⎞
X ∼ N ⎜ µ; ⎟
X−µ
σ
∼ N 0;1 ( ) ⎜ X −µ
P ⎜ − zα ≤ n
⎟
≤ zα ⎟ = 1− α
⎝ n⎠ ⎜ 2 σ 2⎟
n ⎝ n ⎠
⎛ σ σ ⎞
Approccio induttivo P ⎜ X − zα ⋅ ≤ µ ≤ X + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
In questo caso, il parametro µ è incognito ma può essere stimato sulla base del risultato campionario di cui si
dispone. Il principio metodologico è assolutamente identico a quanto visto in precedenza, con la differenza
che stavolta l’intervallo sarà costruito attorno al valore campionario e, con probabilità 1-a, conterrà il
parametro incognito.
⎛ σ σ ⎞
P ⎜ X − zα ⋅ ≤ µ ≤ X + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
E’ importante sottolineare che l’ampiezza dell’intervallo è indipendente dal risultato campionario (dipende
infatti solo da z, da s e da n) ed è dunque identica a quella calcolata in precedenza.
(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)
⎛ ⎞
(
X~N µ;σ 2 )
⎛ σ2⎞
X ∼ N ⎜ µ; ⎟
X−µ
σ
∼ N 0;1 ( ) ⎜ X −µ
P ⎜ − zα ≤ n
⎟
≤ zα ⎟ = 1− α
⎝ n⎠ ⎜ 2 σ 2⎟
n ⎝ n ⎠
⎛ σ σ ⎞
Approccio induttivo P ⎜ X − zα ⋅ ≤ µ ≤ X + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
Esempio:
Una macchina produce bulloni il cui peso ha distribuzione Normale con media µ=incognita e varianza
σ2=0,8. Scelti a caso 8 bulloni, il loro peso medio è risultato pari a 62,6 grammi. Qual è l’intervallo che, con
probabilità 0,95, contiene il parametri incognito µ?
⎛ 0,89 0,89 ⎞
P ⎜ 62,6 −1,96 ⋅ ≤ µ ≤ 62,6 +1,96 ⋅ ⎟ = 0,95
⎝ 8 8 ⎠
( )
P 62,6 − 0,62 ≤ µ ≤ 62,6 + 0,62 = 0,95
62,0 62,6 ? 63,2 X (Distribuzione dei valori medi di tutti i possibili campioni di n=8
bulloni scelti a caso dalla nostra macchina)
(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)
⎛ ⎞
(
X~N µ;σ 2 )
⎛ σ2⎞
X ∼ N ⎜ µ; ⎟
X−µ
σ
∼ N 0;1 ( ) ⎜ X −µ
P ⎜ − zα ≤ n
⎟
≤ zα ⎟ = 1− α
⎝ n⎠ ⎜ 2 σ 2⎟
n ⎝ n ⎠
⎛ σ σ ⎞
Approccio induttivo P ⎜ X − zα ⋅ ≤ µ ≤ X + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
Esempio:
Una macchina produce bulloni il cui peso ha distribuzione Normale con media µ=incognita e varianza
σ2=0,8. Scelti a caso 8 bulloni, il loro peso medio è risultato pari a 62,6 grammi. Qual è l’intervallo che, con
probabilità 0,95, contiene il parametri incognito µ?
62,0 62,6 ? 63,2 X (Distribuzione dei valori medi di tutti i possibili campioni di n=8
bulloni scelti a caso dalla nostra macchina)
⎛ 3,26 ⎞
(b) P ⎜175,4 −1,96 ⋅
⎝
3,26
58
≤ µ ≤ 175,4 +1,96 ⋅ ⎟ = 0,95
58 ⎠
( )
P 174,6 ≤ µ ≤ 176,2 = 0,95 X ∓ 0,840
⎛ 3,26 ⎞
(c) P ⎜175,4 − 2,58 ⋅
⎝
3,26
58
≤ µ ≤ 175,4 + 2,58 ⋅ ⎟ = 0,99
58 ⎠
( )
P 174,3 ≤ µ ≤ 176,5 = 0,99 X ∓1,106
Lʼerrore dipende:
X!e • dal livello di fiducia che intendiamo riporre nella nostra stima;
• dalla variabilità dello stimatore (la media campionaria), che a sua volta dipende:
• dalla variabilità del fenomeno;
• dalla numerosità del campione.
Negli esempi analizzati fin ad ora, abbiamo ipotizzato nota, e Normale, la distribuzione della media
campionaria, e nota la varianza σ2 della popolazione, così che l’intervallo di confidenza è stato
costruito nel modo seguente:
s
X ! z×
n
Ovviamente, nei casi reali questo non è sempre vero, ed è quindi necessario prestare particolare
attenzione alle informazioni realmente disponibili, per poter costruire l’intervallo di confidenza nel
modo corretto.
1 n
( ) 1 n
( ) X −µ
2 2
2
s! = ∑ x −x
n −1 i=1 i
⇒ s! = ∑ x −x
n −1 i=1 i s!
∼ tn−1
n
Sostituire il parametro σ con la sua stima introduce un ulteriore elemento di aleatorietà nella
costruzione dell’intervallo di confidenza, che non riguarda la distribuzione della media
campionaria ma della sua standardizzata (in cui avviene la sostituzione del parametro con la
stima), che non sarà più una Normale (0,1) ma una variabile casuale diversa, detta t di Student,
molto simile per forma e caratteristiche alla Normale standardizzata ma con una maggiore
variabilità (cosa che determinerà, quindi, una maggiore incertezza delle stime).
La funzione di densità di probabilità della v.c. di Student è simmetrica, con valore medio pari a 0 e
varianza pari a (n/n-2), ed assume una forma molto simile a quella della Normale standardizzata, alla
quale tende assai velocemente al crescere dei gradi di libertà.
Per valori di n piccoli o moderati, la v.c. di Student si caratterizza per code più “pesanti” della v.c. Normale
standardizzata e, quindi per una maggiore variabilità.]
Esempio:
L’altezza delle matricole universitarie di sesso maschile può essere considerata una variabile
con distribuzione Normale, con media e varianza incognite.
Per stimare l’altezza media, si estrae un campione casuale di 14 matricole e si misura il valore
medio, che risulta pari a 175,4 cm, con sqm campionario corretto pari a 4,4 cm.
Si definisca l’intervallo che, ad un livello di fiducia (a) del 90%, (b) del 95% e (c) del 99%
contenga il parametro incognito della popolazione.
⎧ 0,90
( ) ⎪
X ~ N µ ; σ 2 ; n = 14 ; x = 175,4cm ; s! = 4,4cm ; 1− α = ⎨ 0,95
⎪ 0,99
⎩
⎛ s! s! ⎞
P ⎜ X − tα ⋅ ≤ µ ≤ X + tα ⋅ ⎟ = 1− α
⎝ 2
; n−1 n 2
; n−1 n⎠
Nota:
La tavola considera solo l'area nella coda di destra, nel
caso di un intervallo di confidenza pari ad a/2.
Quindi, per a=0,10, si considererà la colonna 0,05, per
a=0,05, si considererà la colonna 0,025, e così via.
Esempio:
L’altezza delle matricole universitarie di sesso maschile può essere considerata una variabile
con distribuzione Normale, con media e varianza incognite.
Per stimare l’altezza media, si estrae un campione casuale di 14 matricole e si misura il valore
medio, che risulta pari a 175,4 cm, con sqm campionario corretto pari a 4,4 cm.
Si definisca l’intervallo che, ad un livello di fiducia (a) del 90%, (b) del 95% e (c) del 99%
contenga il parametro incognito della popolazione.
⎧ 0,90
( ) ⎪
X ~ N µ ; σ 2 ; n = 14 ; x = 175,4cm ; s! = 4,4cm ; 1− α = ⎨ 0,95
⎪ 0,99
⎛ !s !s ⎞ ⎩
P ⎜ X − tα ⋅ ≤ µ ≤ X + tα ⋅ ⎟ = 1− α
⎝ 2
; n−1 n 2
; n−1 n ⎠
⎛ 4,4 ⎞
(a) P ⎜175,4 −1,77 ⋅
⎝
4,4
14
≤ µ ≤ 175,4 +1,77 ⋅ ⎟ = 0,90
14 ⎠
( )
P 173,3 ≤ µ ≤ 177,5 = 0,90 X ! 2,08
⎛ 4,4 ⎞
(b) P ⎜175,4 − 2,16 ⋅
⎝
4,4
14
≤ µ ≤ 175,4 + 2,16 ⋅ ⎟ = 0,95
14 ⎠
( )
P 172,9 ≤ µ ≤ 177,9 = 0,95 X ! 2,54
⎛ 4,4 ⎞
(c) P ⎜175,4 − 3,01⋅
⎝
4,4
14
≤ µ ≤ 175,4 + 3,01⋅ ⎟ = 0,99
14 ⎠
( )
P 171,9 ≤ µ ≤ 178,9 = 0,99 X ! 3,54
n grande NO X~N NO
?
Si applica
SI il Teorema limite centrale SI Si applica
la Proprietà riproduttiva della Normale
⎛ σ2⎞
X ~ N ⎜ µ; ⎟
⎝ n⎠
X−µ
NO ~ tn−1
σ noto s!
n
SI
X−µ
σ
~ N 0,1 ( )
n
X∓e X ∓k⋅
σ ( oppure s! )
n
zα tα ?
2 2
Se il campione è grande Se il campione è piccolo ma la Se il campione è piccolo e la
oppure se la variabile X ha variabile X ha distribuzione Normale (e variabile X ha distribuzione
distribuzione Normale (e quindi quindi la media campionaria ha incognita, nulla si può dire sulla
la media campionaria ha distribuzione Normale) con σ distribuzione della media
distribuzione Normale) con σ incognito, la standardizzata della campionaria.
noto, la standardizzata della media campionaria segue una
media campionaria è Normale. distribuzione t di Student.
Il teorema di Chebychev:
Data una v.c. X con media finita µ e scarto quadratico medio finito σ, e dato un numero positivo k>1,
la massa di probabilità che si trova al di fuori dellʼintervallo chiuso [(µ-kσ), (µ+kσ)] è inferiore a 1/k2.
f(x)
( )
P X − µ < kσ ≥ 1−
1
k2
µ-kσ µ µ+kσ X
Il teorema di Chebychev:
Data una v.c. X con media finita µ e scarto quadratico medio finito σ, e dato un numero positivo k>1,
la massa di probabilità che si trova al di fuori dellʼintervallo chiuso [(µ-kσ), (µ+kσ)] è inferiore a 1/k2.
f(x)
( )
P X − µ < kσ ≥ 1−
1
k2
α α 1
+ =α = 2
1-a 2 2 k
α α
2 2 1 1
α= ⇒k=
σ μ σ k2 α
µ −k µ+k X
n n
X!e X ∓k⋅
σ ( oppure s! ) n grande NO X~N NO
?
Chebychev
n
Si applica
SI il Teorema limite centrale
SI
2. Variabile qualitative
Immaginiamo ora di estrarre in modo casuale da questa popolazione tutti i possibili campioni di
dimensioni n (con n sufficientemente grande), e di calcolare su ognuno la proporzione p di
soggetti che presentano il carattere considerato.
I valori di p saranno diversi nei diversi campioni, ma è possibile immaginare che saranno più
frequenti i valori di p vicini al parametro incognito π, mentre saranno pochi quei campioni che
produrranno valori di p molto lontani da π.
E’ possibile dimostrare che il valore atteso di p è proprio π (come già visto con la media
campionaria per le variabili quantitative, anche lo stimatore proporzione campionaria è uno
stimatore non distorto). Per quanto riguarda la sua varianza, come nel caso della media
campionaria, anche per la proporzione campionaria questa dipenderà in modo diretto dalla
variabilità del fenomeno nella popolazione e in modo inverso dalla numerosità campionaria; è
facile immaginare che la variabilità del fenomeno sarà tanto maggiore quanto più il parametro π
si avvicina al valore 0,5, e massima proprio per π=0,5.
Infine, è possibile dimostrare che, per campioni grandi, la distribuzione di p tende ad una Normale.
( )
E p = π ; Var p = ( ) (
π ⋅ 1− π ) ⎛ π ⋅ 1− π
; p ~ N⎜π;
( ) ⎞⎟
n ⎜⎝ n ⎟⎠
0,4500000
Titolo del grafico
0,4000000 f(x)
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
π p
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
( ) (
P 0,76 − 0,05 ≤ π ≤ 0,76 + 0,05 = 0,95 ⇒ P 0,71≤ π ≤ 0,81 = 0,95 )
L’intervallo 0,71-0,81 potrebbe essere considerato troppo ampio. Come fare per ridurlo senza
modificare il livello di fiducia?
Quale dovrebbe essere la numerosità campionaria per avere, ad esempio, un errore massimo di
due punti percentuali (in più o in meno) allo stesso livello di fiducia?
Esempio
Con riferimento all’esercizio precedente, si supponga che l’ampiezza dell’intervallo venga giudicata
eccessiva. Senza cambiare il livello di fiducia, si vuole allora ottenere una stima che differisca dal
parametro per non più di 2 punti percentuali (in più o in meno).
Qual è la numerosità campionaria necessaria per ottenere un errore massimo di due punti percentuali ad
un livello di fiducia del 95%?
(
π ⋅ 1− π )
p ∓ zα ⋅
2 n
e ε = 0,02 ; (1− α ) = 0,95 ; za = 1,96 ; n = ?
2
( ) =ε ⇒ z
π ⋅ 1- π 2 ( )=ε
π ⋅ 1- π 2
( )
za2 ⋅ π ⋅ 1- π
za ⋅ a
⋅ ⇒ n= 2
2 n 2 n ε2
In questa espressione, che va risolta rispetto ad n, compare il termine π,
ovviamente incognito, in quanto costituisce il parametro da stimare.
n=
(
1,962 ⋅ 0,76 ⋅ 1− 0,76 )= 0,701
= 1.753
Per dare un valore a π, si possono seguire due strade: 0,022 0,0004
1. Si utilizzano informazioni che provengono da indagini precedenti
(in questo caso, si utilizzerebbe il valore campionario 0,76);
2. Ci si mette nella situazione peggiore, di massima variabilità n=
(
1,962 ⋅ 0,50 ⋅ 1− 0,50 )= 0,960
= 2.401
(utilizzando quindi il valore 0,5). 0,02 2
0,0004
σ zα2 ⋅ σ 2
x ∓ zα σ
n
e x ∓ zα n= 2
2
2 n ε2
Esempio 1:
L’altezza delle matricole universitarie di sesso maschile può essere considerata una v.c. Normale,
con media incognita e varianza pari a 10,66. Nella stima del parametro incognito µ, qual è la
numerosità campionaria necessaria per ottenere un errore massimo di mezzo centimetro ad un
livello di fiducia del 99%?
zα2 ⋅ σ 2
2,582 ×10,66
n= 2
= = 284
ε2 0,52
NOTA: La formula appena considerata può essere utilizzata anche quando non si conosca la distribuzione della variabile X
ma si stimi che la numerosità ottimale possa risultare tale da consentire il ricorso al Teorema limite centrale (quindi,
approssimativamente n>40). Nel caso in cui la numerosità calcolata dovesse risultare inferiore al limite minimo necessario per
utilizzare il TLC, è possibile ricorrere a coefficienti in grado di correggere opportunamente la numerosità ottenuta.
σ zα2 ⋅ σ 2
x ∓ zα σ
n
e x ∓ zα n= 2
2
2 n ε2
Esempio 2:
Si vuole stimare il fatturato medio annuo delle imprese italiane con oltre 20 addetti.
Da studi passati si può porre lo scarto quadratico medio pari a 12.000 euro. Qual è la
numerosità campionaria necessaria per ottenere una stima che non differisca dal
parametro più di 1.000 euro (in più o in meno) ad un livello di fiducia del 90%?
zα2 ⋅ σ 2
1,642 ×12.0002
n= 2
= = 388
ε2 1.0002
1. Determinare l’intervallo che, ad un livello di fiducia del 99%, comprenda il parametro incognito
relativo alla quantità media di nicotina contenute nelle sigarette della marca analizzata;
2. Volendo ripetere l’indagine, quante sigarette si dovranno considerare per assicurare, allo
stesso livello di fiducia, un errore massimo della stima di 0,2 mg (in più o in meno)?
Una grande azienda specializzata nella vendita di prodotti on line vuole stimare
la proporzione di giovani di età compresa tra i 20 e i 30 anni che ricorrono in
modo non saltuario a questo tipo di acquisti.
Scelto allora un campione di 480 giovani della fascia di età considerata, risulta che 315
acquistano regolarmente prodotti sulla rete.
1. Determinare l’intervallo che, ad un livello di fiducia del 95%, comprenda il parametro
incognito relativo alla proporzione di giovani fra i 20 e i 30 anni che acquistano regolarmente
su Internet;
2. Volendo ripetere l’indagine, quanti giovani si dovranno considerare per assicurare, allo stesso
livello di fiducia, un errore massimo della stima di 1 punto percentuale (in più o in meno)?
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 21:
La verifica delle ipotesi
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
In molte circostanze il ricercatore si trova a dover decidere quale, tra le diverse situazioni possibili
riferibili alla popolazione, è quella meglio sostenuta dalle evidenze empiriche.
Anche in questo caso la struttura del problema consiste in una famiglia di distribuzioni di
probabilità parametriche f(x; q), con q incognito, e nelle osservazioni campionarie X1, …, Xn, che
costituiscono delle realizzazioni della distribuzione di probabilità e che, quindi, forniscono delle
informazioni sul valore di q incognito.
Una volta definita l’informazione che è necessario estrarre dal campione e la statistica che deve
essere impiegata per questa operazione, occorrerà dare un giudizio sulla coerenza del risultato
campionario con l’ipotesi specificata per la popolazione.
Più precisamente, se il risultato campionario si verrà a trovare talmente lontano dal valore
teorizzato dall’ipotesi fatta per q da cadere in un insieme di valori ritenuti non “coerenti” (in
quanto troppo poco probabili) con l’ipotesi su q, tale risultato avvalorerà la possibilità di ipotesi
alternative a quella specificata.
E’ dunque necessario definire una regola di decisione, o test statistico, che ad ogni valore
campionario associ una decisione sul parametro q, e tale schema decisionale viene formulato
prima di effettuare il campionamento o di avere i dati a disposizione.
Nel test delle ipotesi si evidenzia il ruolo della Statistica come scienza delle decisioni in
condizioni di incertezza.
Infatti, è proprio del test tradurre un problema reale in unʼaffermazione statistica, assumere
informazioni campionarie sulla popolazione di riferimento e, su questa base, prendere
decisioni attribuendo a tale scelta un giudizio probabilistico sulla sua veridicità.
Il test delle ipotesi statistiche è una regola istituita sullo spazio campionario mediante la
quale, sulla base del campione osservato, si decide se rifiutare o meno una ipotesi
statistica H0 riferita alla popolazione e detta Ipotesi nulla.
Le ipotesi statistiche
L’ipotesi da sottoporre a verifica viene definita Ipotesi nulla e viene indicata con H0.
E’ l’ipotesi preesistente rispetto all’esperimento campionario, quella che viene considerata
valida fino a prova contraria, e comprende il sottoinsieme dei valori dello spazio
parametrico Θ che si vuole sottoporre a test. Tipicamente, l’ipotesi nulla è un’ipotesi di tipo
semplice:
H0 : θ = θ 0
Il complemento all’ipotesi nulla costituisce l’ipotesi alternativa e viene indicata con H1. E’ costituita
da un singolo valore o da un insieme di valori possibili per θ e considerati alternativi a θ0 :
H1 : θ = θ1 ; H1 : θ < θ 0 ; H1 : θ > θ 0 ; H1 : θ ≠ θ 0
L’ipotesi alternativa rappresenta dunque una contro-affermazione che viene fatta in antitesi
all’ipotesi nulla, e indica la direzione di allontanamento da H0 che si desidera esaminare.
E’ bene sottolineare che l’ipotesi nulla e l’ipotesi alternativa non sono equivalenti ai fini della
decisione, nel senso che il test non è mai conclusivo circa H1, ma concerne solo la possibilità che
dal campione si possa pervenire al rifiuto o al non rifiuto di H0.
H0 : θ = θ 0
Regione di Regione di
accettazione di H 0 rifiuto di H 0
H0 : θ > θ 0 t
Regione critica per un test statistico con ipotesi alternativa unidirezionale (a sx):
H0 : θ = θ 0 Regione di
rifiuto di H 0
Regione di
accettazione di H 0
H0 : θ < θ 0 t
H0 : θ = θ 0 Regione di
rifiuto di H 0
Regione di
accettazione di H 0
Regione di
rifiuto di H 0
H0 : θ ≠ θ 0 t
REALTÀ
H0 H1
Accetto H0 falsa
H0
Errore
DECISIONE
II tipo
Rifiuto H0 vera
H1 Errore
I tipo
Accetto H0 falsa
Ipotesi H0
H0
Errore
Ipotesi nulla. Vale fino a prova contraria e non si deve dimostrare: µ = 21.500€
DECISIONE
II tipo
Ipotesi H1
Ipotesi alternativa. È, in genere, quella che si vuole dimostrare vera
(per questo si fa il test) e a cui spetta "l'onere della prova": µ < 21.500€
Rifiuto H0 vera
H1 Errore TEST
I tipo
Si estrae un campione casuale di numerosità n e si verifica se il valore campionario
risulta significativamente più basso del valore atteso sotto l'ipotesi nulla H0.
µ0 = 21.500€
? X
Medie ottenibili da tutti i possibili campioni di
dimensioni n estraibili da una popolazione in cui è
LEZIONE 21 – LA VERIFICA DELLE IPOTESI
µ=21.500
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Accetto H0 falsa
Ipotesi H0
H0
Errore
Ipotesi nulla. Vale fino a prova contraria e non si deve dimostrare: µ = 21.500€
DECISIONE
II tipo
Ipotesi H1
Ipotesi alternativa. È, in genere, quella che si vuole dimostrare vera
(per questo si fa il test) e a cui spetta "l'onere della prova": µ < 21.500€
Rifiuto H0 vera
H1 Errore TEST
I tipo
Si estrae un campione casuale di numerosità n e si verifica se il valore campionario
0,4500000 risulta significativamente più basso del valore atteso sotto l'ipotesi nulla H0.
H0
Titolo del grafico
0,4000000
Se la numerosità campionaria è sufficientemente elevata (oppure, se la variabile X ha
0,3500000 distribuzione Normale), la media campionaria avrà distribuzione Normale.
0,3000000 Questo significa che, per esempio, se consideriamo significative quelle differenze che,
0,2500000 sotto H0, si verificano in meno del 5% dei casi, potremo individuare il valore soglia in
0,2000000
modo univoco.
0,1500000
Questo valore viene definito "valore critico". Se il valore campionario risulta oltre
Livello di il valore critico, l'ipotesi H0 verrà rifiutata, con un rischio di errore pari al livello di
0,1000000
significatività significatività scelto (in questo caso, 5%).
del test (a)
0,0500000
0,0000000
Valori della media campionaria s Medie ottenibili da tutti i possibili campioni di
µ - za ×
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
che portano a rifiutare H0. n µ0 = 21.500€ X dimensioni n estraibili da una popolazione in cui è
LEZIONE 21 – LA VERIFICA DELLE IPOTESI
µ=21.500
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Accetto H0 falsa
Ipotesi H0
H0
Errore
Ipotesi nulla. Vale fino a prova contraria e non si deve dimostrare: µ = 21.500€
DECISIONE
II tipo
Ipotesi H1
Ipotesi alternativa. È, in genere, quella che si vuole dimostrare vera
(per questo si fa il test) e a cui spetta "l'onere della prova": µ < 21.500€
Rifiuto H0 vera
H1 Errore TEST
I tipo
Si estrae un campione casuale di numerosità n e si verifica se il valore campionario
0,4500000 risulta significativamente più basso del valore atteso sotto l'ipotesi nulla H0.
H1 H0
Titolo del grafico
0,4000000
Se si sceglie un livello di significatività molto basso, il rischio di rifiutare H0 quando questa
0,3500000 è vera (errore di I tipo) sarà molto basso.
0,3000000 D'altra parte, risulterà, presumibilmente, elevata la probabilità di non rifiutare H0 quando
0,2500000 questa è effettivamente falsa (errore di II tipo).
0,2000000
0,1500000
0,1000000
0,0500000
Valore campionario
Valore critico
0,0000000
s Medie ottenibili da tutti i possibili campioni di
µ - za ×
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
II tipo
REALTÀ REALTÀ
H0 H1 H0 H1
Innocente Colpevole “Bombe d’acqua” Pioggia normale
emergenza
Assoluzione
Stato di
H0 H0 Creo enormi
Assolvo
disagi alla
DECISIONE
DECISIONE
un colpevole
popolazione
Condanna
allarme
Nessun
H1 Condanno H1 Metto a rischio
un innocente la vita delle
persone
REALTÀ REALTÀ
H0 H1 H0 H1
Innocente Colpevole Pioggia normale "Bombe d'acqua"
Assoluzione
allarme
Nessun
H0 H0 Potrebbe accadere
Assolvo
una catastrofe.
DECISIONE
DECISIONE
un colpevole
Speriamo di no.
emergenza
Condanna
Stato di
H1 Condanno H1 Rischio i voti degli
un innocente elettori a cui ho
creato disagio.
C: Insieme dei valori campionari del test t(X) che portano a rifiutare H0
A: Insieme dei valori campionari del test t(X) che portano ad accettare H0
C: Insieme dei valori campionari del test t(X) che portano a rifiutare H0
A: Insieme dei valori campionari del test t(X) che portano ad accettare H0
NOTA: In genere un test viene fatto per confutare l’ipotesi nulla; quindi, sarà tanto più “potente” quanto
più renderà piccola β e, di conseguenza, grande (1-β), ossia la probabilità di rifiutare l’ipotesi H0 (che è
quello che vogliamo) quando questa è effettivamente falsa (che è quello che ci auguriamo). E’ pur vero
che β è la probabilità associata all’errore meno grave, per cui potrebbe sembrare che un test potente è
quello che riduce la probabilità α; ma α è talmente importante che, nell’approccio classico, viene fissata a
priori e, quindi, è logico che un test potente è proprio quello che, fissata α, rende più piccola possibile β.
Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore
e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di
materiale sulla cui qualità il responsabile della produzione avanza seri dubbi. Prima di
mettere in vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità
del materiale impiegato e, in particolare, verificare se possa avere influito sulla
durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se
ne misura la durata media, che risulta pari a 1.955 ore.
Eʼ possibile affermare, con significatività α=0,05, che tale riduzione sia imputabile alla scarsa
qualità del materiale utilizzato?
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.000 X
0,4500000
Titolo del grafico
0,4000000
0,3500000
0,3000000
1.955 − 2.000
zα = −1,64 -1,8 < -1,64 Rifiuto H0
0,2500000
0,0500000
0,0000000 a=0,05
-1,64 0 X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
Z=
σ
n
0,3500000
Valore critico non standardizzato:
0,3000000
250
0,2500000
0,2000000
xCR = 2.000 −1,64 ⋅ =1.959 1.955 < 1.959 Rifiuto H0
0,1500000 n
0,1000000
0,0500000
0,0000000 a=0,05
1.959
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.000 X
0,4500000
Titolo del grafico
0,4000000
0,3500000
0,3000000
1.955 − 2.000
zα = −1,64 -1,8 < -1,64 Rifiuto H0
0,2500000
0,0500000
0,0000000 a=0,05
-1,64 0 X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
Z=
σ
n
Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore
e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di
materiale di cui si ignorano le performance. Prima di mettere in vendita le lampadine
prodotte si desidera, dunque, indagare sulla qualità del materiale impiegato e, in
particolare, verificare se possa avere influito sulla durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se
ne misura la durata media, che risulta pari a 2.010 ore.
E ʼ possibile affermare, con significatività α=0,05, che tale variazione sia imputabile al nuovo
materiale utilizzato?
0,4500000
Titolo del grafico
n
0,4000000
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.000 X
0,4500000
Titolo del grafico
0,4000000
0,3500000
0,3000000
2.010 − 2.000
0,2500000 zα = ±1,96 = 0,4 −1,96 ≤ 0,4 ≤1,96 Non rifiuto H0
0,2000000
0,1500000
2 250
0,1000000 100
0,0500000
2,5% 2,5%
0,0000000
-1,96 1,96 X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0 0,4 Z=
σ
n
0,4500000
Titolo del grafico
n
0,4000000
0,3500000
Valori critici non standardizzati:
250
0,3000000
0,2500000
0,2000000
xCR = 2.000 ±1,96 ⋅ = 2.000 ± 49 =1.951 ; 2.049 1.951≤ 2.010 ≤ 2.049 Non rifiuto H0
0,1500000
n
0,1000000
0,0500000
2,5% 2,5%
0,0000000
1.951 2.049
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.000 2010 X
0,4500000
Titolo del grafico
0,4000000
0,3500000
0,3000000
2.010 − 2.000
0,2500000 zα = ±1,96 = 0,4 −1,96 ≤ 0,4 ≤1,96 Non rifiuto H0
0,2000000
0,1500000
2 250
0,1000000 100
0,0500000
2,5% 2,5%
0,0000000
-1,96 1,96 X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0 0,4 Z=
σ
n
Esercizio:
Da studi passati risulta che il consumo medio giornaliero di acqua da parte delle
famiglie italiane è pari a 548 litri (in moltissimi Paesi dell’Africa è inferiore a 10…), con
una variabilità rappresentata da uno scarto quadratico medio di 91 litri.
Per valutare gli effetti della campagna governativa di sensibilizzazione ad un consumo più
contenuto e, soprattutto, all’evitare gli sprechi, viene considerato un campione di 20 famiglie, per le
quali, nel periodo d’indagine, si misura un consumo medio giornaliero di acqua di 520 litri.
1. Immaginando che i consumi possano essere approssimati da una distribuzione Normale, è
possibile, sulla base di questo risultato, affermare, con un rischio massimo dell’1%, che la
campagna ha avuto effetto?
2. Cosa cambierebbe se lo stesso risultato fosse stato ottenuto da un campione di 100
famiglie?
0,3500000
Valore critico non standardizzato:
91
0,3000000
0,2500000
0,2000000
xCR = 548 − 2,33 ⋅ = 500,6 520 > 500,6 Non rifiuto H0
0,1500000 20
0,1000000
0,0500000
1%
0,0000000
500,6
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
520 548 X
0,4500000
Titolo del grafico
0,4000000
0,3500000
0,3000000
520 − 548
0,2500000
zCR = −2,33 xST = = −1,37 −1,37 > −2,33 ⇒ Non rifiuto
Non H0 H0
rifiuto
0,2000000
0,1500000
91
0,1000000 20
0,0500000
1%
0,0000000
-2,33 -1,37 X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0 Z=
σ
n
0,1500000
0,1000000
0,0500000
Lo stesso risultato campionario, ottenuto sulla base di un
0,0000000
1% campione più grande, risulta più "credibile", perché associato ad
520 527 548 una minore variabilità dei risultati stessi, rispetto a quelli ottenuti
-3, 50 0
-3, 28 0
-3, 06 0
-2, 84 0
-2, 62 0
-2, 40 0
-2, 18 0
-1, 96 0
-1, 74 0
-1, 52 0
-1, 30 0
-1, 08 0
-0, 86 0
-0, 64 0
-0, 42 0
-0, 20 0
0 ,02 0
0 ,24 0
0 ,46 0
0 ,68 0
0 ,90 0
1 ,12 0
1 ,34 0
1 ,56 0
1 ,78 0
2 ,00 0
2 ,22 0
2 ,44 0
2 ,66 0
2 ,88 0
3 ,10 0
3 ,32 0
X
con un campione più piccolo.
Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore
e deviazione standard pari a 250 ore.
Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in
grado di ottimizzare il processo con un guadagno, in termini di efficienza del
prodotto, quantificabile in un miglioramento di performance del 3,5%.
Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione
casuale di 100 lampadine prese dalla produzione della nuova macchina e di considerare
significativo il risultato se la media campionaria risulta oltre il 99° percentile (quindi, α=0,01).
Si definisca la probabilità b dellʼerrore di II tipo e, quindi, la potenza del test e, eventualmente, si
definisca una possibile strategia alternativa.
0,4000000
0,4500000
H
0
Titolo del grafico H 1
Titolo del grafico
0,4000000
0,3500000 0,3500000
0,3000000 0,3000000
0,2500000 0,2500000
0,2000000 0,2000000
0,1500000 0,1500000
0,1000000 0,1000000
0,0500000 0,0500000
0,0000000 0,0000000
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.000 2.070
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
X
Titolo del H
0,4500000
0,4000000
0
grafico
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
za X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0 Z=
σ
n
0,4000000
0,4500000
H
0
Titolo del grafico H 1
Titolo del grafico
0,4000000
0,3500000 0,3500000
0,3000000 0,3000000
0,2500000
0,2000000
0,2500000
0,2000000
β = P ⎡⎣t X ∈ A|θ ∈ Θ1⎤⎦
( ) Probabilità di accettare (o meglio,
0,1500000 0,1500000 non rifiutare) l'ipotesi H0 quando
questa è falsa.
0,1000000 0,1000000
0,0500000 0,0500000
0,0000000 0,0000000
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.000 2.070
Per determinare b è necessario individuare il valore critico
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
X
Titolo del H
non standardizzato:
0,4500000
0,4000000
0
grafico
0,3500000
0,3000000
250
xCR = 2.000 + 2,33 ⋅ = 2.058
0,2500000
0,2000000
100
0,1500000
0,1000000
0,0500000
0,0000000
X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0 2,33 Z=
σ
n
0,4000000
0,4500000
H
0
Titolo del grafico H 1
Titolo del grafico
0,4000000
0,3500000 0,3500000
0,3000000 0,3000000
0,2500000
0,2000000
0,2500000
0,2000000
β = P ⎡⎣t X ∈ A|θ ∈ Θ1⎤⎦
( ) Probabilità di accettare (o meglio,
0,1500000 0,1500000 non rifiutare) l'ipotesi H0 quando
questa è falsa.
0,1000000 0,1000000
0,0500000 0,0500000
b?
0,0000000 0,0000000
2.070
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.000 2.058
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
X
Titolo del H
0,4500000
0,4000000
0
grafico
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0 2,33 Z=
σ
n
0,4000000
0,4500000
H
0
Titolo del grafico H 1
Titolo del grafico
0,4000000
0,3500000 0,3500000
0,3000000 0,3000000
0,2500000
0,2000000
0,2500000
0,2000000
β = P ⎡⎣t X ∈ A|θ ∈ Θ1⎤⎦
( ) Probabilità di accettare (o meglio,
0,1500000 0,1500000 non rifiutare) l'ipotesi H0 quando
questa è falsa.
0,1000000 0,1000000
0,0500000 0,0500000
0,0000000 0,0000000
2.070
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.000 2.058
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
X
0,4500000
0,4000000
Titolo del H 0
grafico
β = P ⎡⎣ X < 2.058|µ = 2.0701⎤⎦
0,3500000
0,3000000
0,2500000
0,2000000
0,1500000
0,1000000
0,0500000
0,0000000
X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0 2,33 Z=
σ
n
0,4000000
0,4500000
H
0
Titolo del grafico H 1
Titolo del grafico
0,4000000
0,3500000 0,3500000
0,3000000 0,3000000
0,2500000
0,2000000
0,2500000
0,2000000
β = P ⎡⎣t X ∈ A|θ ∈ Θ1⎤⎦
( ) Probabilità di accettare (o meglio,
0,1500000 0,1500000 non rifiutare) l'ipotesi H0 quando
questa è falsa.
0,1000000 0,1000000
0,0500000 0,0500000
0,0000000 0,0000000
2.070
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.000 2.058
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
X
0,4500000
0,4000000
Titolo del H 0
grafico
β = P ⎡⎣ X < 2.058|µ = 2.0701⎤⎦
0,3500000
0,3000000
⎛ ⎞
0,2500000 ⎜ 2.058 − 2.070 ⎟
0,2000000
0,1500000
0,1000000
= P⎜Z <
⎜ 250 ⎟
( )
⎟ = P Z < −0,48 = 0,5 − 0,1844 = 0,3156
0,0500000
⎜ ⎟
0,0000000
X −µ ⎝ 100 ⎠
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0 2,33 Z=
σ
n
0,4000000
0,4500000
H
0
Titolo del grafico H 1
Titolo del grafico
0,4000000
0,3500000 0,3500000
0,3000000 0,3000000
0,2500000
0,2000000
0,2500000
0,2000000
β = P ⎡⎣t X ∈ A|θ ∈ Θ1⎤⎦
( ) Probabilità di accettare (o meglio,
0,1500000 0,1500000 non rifiutare) l'ipotesi H0 quando
questa è falsa.
0,1000000 0,1000000
0,0500000 0,0500000
0,0000000 0,0000000
2.070
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.000 2.058
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
X
0,4500000
0,4000000
Titolo del H 0
grafico
β = P ⎡⎣ X < 2.058|µ = 2.0701⎤⎦ = 0,32
0,3500000
0,3000000
0,2500000
0,2000000
Il test così impostato, sebbene riduca al minimo la probabilità di acquistare
0,1500000 una macchina che non serve (a=0,01, probabilità dell’errore di I tipo), rende
abbastanza probabile l’eventualità di non acquistare una macchina che
0,1000000
0,0500000
0,0000000
X −µ
potrebbe servire (b=0,32, probabilità dell’errore di II tipo).
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0 2,33 Z=
σ
n
0,4000000
0,4500000
H
0
Titolo del grafico H 1
Titolo del grafico
0,4000000
0,3500000 0,3500000
0,3000000 0,3000000
0,2500000
0,2000000
0,2500000
0,2000000
β = P ⎡⎣t X ∈ A|θ ∈ Θ1⎤⎦
( ) Probabilità di accettare (o meglio,
0,1500000 0,1500000 non rifiutare) l'ipotesi H0 quando
questa è falsa.
0,1000000 0,1000000
0,0500000 0,0500000
0,0000000 0,0000000
2.070
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.000 2.058
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
X
0,4500000
0,4000000
Titolo del H 0
grafico
β = P ⎡⎣ X < 2.058|µ = 2.0701⎤⎦ = 0,32
0,3500000
0,3000000
0,2500000
0,2000000
0,1000000
0,0000000
X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0 2,33 Z=
σ
n
n=100
0,4500000
0,4000000
0,4500000
H
0
Titolo del grafico H 1
Titolo del grafico
0,4000000
0,3500000 0,3500000
0,3000000 0,3000000
0,2500000 0,2500000
0,2000000 0,2000000
0,1500000 0,1500000
0,1000000 0,1000000
0,0500000 0,0500000
0,0000000 0,0000000
2.070
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.000
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
0,2000000 0,2000000
β = P ⎡⎣ X < 2.041|µ = 2.070⎤⎦
0,1500000 0,1500000
0,1000000 0,1000000
⎛ ⎞
0,0500000 0,0500000
⎜ 2.041− 2.070 ⎟
0,0000000 0,0000000
2.000 2.041 2.070
= P⎜Z <
⎜ 250 ⎟
( )
⎟ = P Z < −1,64 = 0,5 − 0,4495 = 0,0505
500
280
060
840
620
400
180
960
740
520
300
080
860
640
-0, 420
-0, 200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3, 500
-3, 280
-3, 060
-2, 840
-2, 620
-2, 400
-2, 180
-1, 960
-1, 740
-1, 520
-1, 300
-1, 080
-0, 860
-0, 640
-0, 420
-0, 200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
X ⎜ ⎟
200 ⎠
-3,
-3,
-3,
-2,
-2,
-2,
-2,
-1,
-1,
-1,
-1,
-1,
-0,
-0,
0,1500000
0,2000000
0,1500000
= P⎜Z <
⎜ 250
P =Z P<⎡⎣−1
⎟=β
⎟
X ,64 (= 0,5
< 2.041 )
|µ −=0,4495
2.070⎤⎦ = 0,0505
⎜ ⎟
0,1000000 0,1000000
⎝ 200 ⎠
0,0500000 0,0500000 A parità di a, un aumento della numerosità campionaria
0,0000000 0,0000000
2.000 2.041 2.070 ha notevolmente ridotto b, rendendo così il test più
500
280
060
840
620
400
180
960
740
520
300
080
860
640
-0, 420
-0, 200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3, 500
-3, 280
-3, 060
-2, 840
-2, 620
-2, 400
-2, 180
-1, 960
-1, 740
-1, 520
-1, 300
-1, 080
-0, 860
-0, 640
-0, 420
-0, 200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
X
potente.
-3,
-3,
-3,
-2,
-2,
-2,
-2,
-1,
-1,
-1,
-1,
-1,
-0,
-0,
Esercizio:
In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute 54 teste.
Abbiamo il sospetto che l’amico ci abbia ingannati, utilizzando una moneta truccata.
Si verifichi questa ipotesi ad un livello di significatività a=0,1.
Esercizio:
In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute 54 teste.
Abbiamo il sospetto che l’amico ci abbia ingannati, utilizzando una moneta truccata.
Si verifichi questa ipotesi ad un livello di significatività a=0,1.
p − π0 0,54 − 0,50
= = 0,80
(
π 0 ⋅ 1− π 0 ) (
0,50 ⋅ 1− 0,50 )
n 100
10%
p −π
0,80 < 1,28 Non rifiuto H0
0,80
0 1,28 π ⋅ (1− π )
n
Esercizio:
In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute 54 teste.
Abbiamo il sospetto che l’amico ci abbia ingannati, utilizzando una moneta truccata.
Si verifichi questa ipotesi ad un livello di significatività a=0,1.
pc = 0,50 +1,28 ⋅
(
0,50 ⋅ 1,00 − 0,50 ) = 0,5 + 0,064 = 0,564
10% 100
Esercizio:
In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute 54 teste.
Abbiamo il sospetto che l’amico ci abbia ingannati, utilizzando una moneta truccata.
Si verifichi questa ipotesi ad un livello di significatività a=0,1.
0,54
0,5 p
Supponiamo che io non consideri, a priori, alcun livello di significatività ma che, sulla base del
risultato campionario, decida di accusare l’amico di utilizzare una moneta truccata.
Qual è la probabilità che lo stia accusando ingiustamente?
Il p-value
Esercizio:
In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute 54 teste.
Abbiamo il sospetto che l’amico ci abbia ingannati, utilizzando una moneta truccata.
Si verifichi questa ipotesi ad un livello di significatività a=0,1.
Più piccolo è il p-value, più “distante” risulta essere il valore campionario osservato da quanto ci si
aspetta sotto H0, e quindi più difficile risulta attribuire questa discrepanza alla sola aleatorietà
campionaria. Dunque, più piccolo è il p-value, più tenderemo a rifiutare l'ipotesi H0.
LEZIONE 21 – LA VERIFICA DELLE IPOTESI
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
• Si definisce a priori il livello di significatività, a; • Non esiste un livello di significatività, a, ma solo una
• Si individua il valore critico (o i valori critici, in caso di misura del rischio massimo che siamo disposti ad
ipotesi alternativa bidirezionale) e si definiscono la zona accettare nel rifiutare l'ipotesi nulla;
di accettazione e la zona di rifiuto; • Si osserva il valore campionario e si definisce la
• Se il valore campionario cade nella zona di probabilità che questo valore provenga dalla
accettazione, non si rifiuta H0; distribuzione sotto H0. Nel caso di ipotesi alternativa
• Se il valore campionario cade nella zona critica, si rifiuta unidirezionale a sinistra, questa probabilità sarà l'area
H0, con un rischio di errore pari ad a; a sinistra del valore campionario, nel caso di ipotesi
unidirezionale a destra, sarà l'area a destra del valore
• La critica rivolta a questo approccio è che, quando il campionario, nel caso di ipotesi bidirezionale sarà
valore cade nella zona critica, il rischio di errore è l'area a sinistra (o a destra) del valore campionario
sempre considerato pari ad a, mentre è chiaro che, moltiplicata per 2,
quanto più distante è il valore campionario dal valore
critico, tanto più piccolo sarà il rischio di sbagliare nel • Quanto più è piccola questa probabilità, tanto più
rifiutare H0. saremo indotti a rifiutare l'ipotesi nulla.
0,4500000
H 0
Titolo del grafico
0,4500000
H 0
Titolo del grafico
0,4000000
H0 : µ = µ0 0,4000000
H0 : µ = µ0
0,3500000 0,3500000
0,3000000
H1 : µ < µ0 0,3000000
H1 : µ < µ0
0,2500000 0,2500000
0,2000000 0,2000000
0,1500000 0,1500000
0,1000000 0,1000000
a. .
0,0500000 0,0500000
0,0000000 . . . .
µ0 µ
0,0000000
xc Valore
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
Valore X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
X 0
Valore campionario nella zona di non rifiuto. campionario campionario
Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2000
ore e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo
di materiale sulla cui qualità il responsabile della produzione avanza seri dubbi.
Prima di mettere in vendita le lampadine prodotte si desidera, dunque, indagare
sulla qualità del materiale impiegato e, in particolare, verificare se possa avere
influito sulla durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e
se ne misura la durata media, che risulta pari a 1955 ore.
Qual è la probabilità di errore nell’affermare che tale riduzione sia imputabile alla scarsa qualità
del materiale utilizzato?
Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250
ore. La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale sulla cui qualità il
responsabile della produzione avanza seri dubbi. Prima di mettere in vendita le lampadine prodotte si desidera, dunque,
indagare sulla qualità del materiale impiegato e, in particolare, verificare se possa avere influito sulla durata delle
lampadine. Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura
la durata media, che risulta pari a 1955 ore.
Qual è la probabilità di errore nell’affermare che tale riduzione sia imputabile alla scarsa qualità del materiale utilizzato?
⎛ ⎞
⎜ X − µ 1955 − 2000 ⎟
(
P X ≤ 1955 ) = P⎜
⎜σ
≤
250
(
⎟ = P Z ≤ −1,8
⎟
) = 0,036
(p-value)
⎝ n 100 ⎠
1955 2000
X
La percentuale di errore nel rifiutare lʼipotesi H0 sulla base del
valore campionario osservato è del 3,6%.
La decisione se rifiutare o meno H0 dipenderà dunque da
quanto noi consideriamo piccola (o grande) questa
percentuale, ed è quindi arbitraria, a differenza della
X −µ
-1,8 0 Z=
σ quantificazione del rischio, che è invece oggettiva.
n
Esercizio:
Da studi passati risulta che il consumo medio giornaliero di acqua da parte delle
famiglie italiane è pari a 548 litri (in moltissimi Paesi dell’Africa è inferiore a 10…), con
una variabilità rappresentata da uno scarto quadratico medio di 91 litri.
Per valutare gli effetti della campagna governativa di sensibilizzazione ad un consumo più
contenuto e, soprattutto, all’evitare gli sprechi, viene considerato un campione di 20 famiglie, per le
quali, nel periodo d’indagine, si misura un consumo medio giornaliero di acqua di 520 litri.
Immaginando che i consumi possano essere approssimati da una distribuzione Normale, qual è la
probabilità di sbagliare nell’affermare che tale diminuzione è attribuibile alla campagna di
sensibilizzazione?
Esercizio:
Da studi passati risulta che il consumo medio giornaliero di acqua da parte delle famiglie italiane è pari a 548 litri (in moltissimi Paesi
dell’Africa è inferiore a 10…), con una variabilità rappresentata da uno scarto quadratico medio di 91 litri.
Per valutare gli effetti della campagna governativa di sensibilizzazione ad un consumo più contenuto e, soprattutto, all’evitare gli
sprechi, viene considerato un campione di 20 famiglie, per le quali, nel periodo d’indagine, si misura un consumo medio giornaliero
di acqua di 520 litri.
Immaginando che i consumi possano essere approssimati da una distribuzione Normale, qual è la probabilità di sbagliare
nell’affermare che tale diminuzione è attribuibile alla campagna di sensibilizzazione?
⎛ ⎞⎟
⎜⎜
X − µ 520 − 548 ⎟⎟⎟
P (X < 520) = P ⎜⎜⎜ < ⎟⎟ = P (Z < −1,37) = 0,5 − 0,4147 = 0,0853
⎜⎜ σ 91 ⎟⎟
520 548
⎜⎝ n 20 ⎟⎠
X
Il rischio di errore nell’affermare, sulla base del valore campionario
osservato, che la campagna di sensibilizzazione ha avuto successo è,
dunque, di poco superiore all’8%.
Se questo sia un rischio accettabile o meno non è più un problema
statistico ma una responsabilità di chi, valutate le conseguenze di un
X −µ
eventuale errore, dovrà prendere la decisione.
-1,37 0 Z=
σ
n
Esercizi di riepilogo
La frequenza cardiaca (battiti al minuto, bpm) dei maschi giovani sani segue
una distribuzione Normale con media µ=72 bpm.
Si misura la frequenza cardiaca su un campione di 12 pazienti maschi giovani
affetti da una determinata patologia e si ottiene una media di 68,7 bpm e una
varianza corretta s2=75,12.
Si verifichi, con significatività α=0,05, se la frequenza cardiaca di questi pazienti possa essere
considerata diversa dai valori normali.
Esercizi di riepilogo
La percentuale di studenti dei Corsi triennali di Economia che si laurea nel numero di anni
previsto è, su base nazionale, pari al 39%.
Il Direttore di Dipartimento di una importante Università decide di seguire negli anni una
coorte di 316 studenti del Corso di laurea in Economia e, al termine della rilevazione,
rileva che 131 di loro si sono laureati in corso, quindi rispettando i tempi.
1. È possibile affermare, ad un livello di significatività del 5%, che gli studenti di questo
Corso siano più bravi della media nazionale?
2. Volendo comunque fare questa affermazione, qual è la probabilità di stare affermando una osa
errata?
Esercizi di riepilogo
Un centro medico sa che il numero di giorni necessari per guarire dalla malattia ABC
dopo la somministrazione del farmaco XYZ segue una distribuzione normale con media 20
e sqm 3,5.
I responsabili del laboratorio chimico affermano che i miglioramenti apportati al farmaco
potranno consentire una riduzione del periodo richiesto per la completa guarigione a 18 giorni.
Dato un campione di controllo di numerosità n=45 pazienti ed un livello di significatività α=0,01 si imposti il test
definendo:
• L’ipotesi nulla
• L’ipotesi alternativa
• L’errore di I tipo (specificare in cosa consiste in questo specifico esempio) con la relativa probabilità
• L’errore di II tipo (specificare in cosa consiste in questo specifico esempio) con la relativa probabilità
Si discuta se è utile effettuare il test con queste modalità e, in caso contrario, si definisca, motivandola,
una strategia alternativa.
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 22:
I test non parametrici
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esercizio:
Si riporta, di seguito, la tabella che incrocia il Voto di laurea con lʼOccupazione (al momento
dell’intervista) di 385 laureati di un corso di Economia.
Eʼ possibile affermare, con un livello di significatività α=0,05, che esiste relazione tra i due caratteri
osservati?
Esercizio:
Si riporta, di seguito, la tabella che incrocia il Voto di laurea con lʼOccupazione (al momento dell’intervista) di 385 laureati
della (ex) Facoltà di Economia.
Eʼ possibile affermare, con un livello di significatività α=0,05, che esiste relazione tra i due caratteri osservati?
Frequenze osservate
Distribuz. condizionate
Esercizio:
Si riporta, di seguito, la tabella che incrocia il Voto di laurea con lʼOccupazione (al momento dell’intervista) di 385 laureati
della (ex) Facoltà di Economia.
Eʼ possibile affermare, con un livello di significatività α=0,05, che esiste relazione tra i due caratteri osservati?
Frequenze osservate
Frequenze teoriche
( n − n! )
2
= ∑∑
ij ij
χ 2
= 3,97
i j n! ij
Esercizio:
Si riporta, di seguito, la tabella che incrocia il Voto di laurea con lʼOccupazione (al momento dell’intervista) di 385 laureati
della (ex) Facoltà di Economia.
Eʼ possibile affermare, con un livello di significatività α=0,05, che esiste relazione tra i due caratteri osservati?
Frequenze osservate
Frequenze teoriche
( n − n! )
2
= ∑∑
ij ij
χ 2
= 3,97
n! ij
(n − n ) i j
2
∑∑
ij ij
i j n ij
11 2,603 3,053 3,816 4,575 5,578 7,584 13,701 17,275 19,675 21,920 24,725
12 3,074 3,571 4,404 5,226 6,304 8,438 14,845 18,549 21,026 23,337 26,217
13 3,565 4,107 5,009 5,892 7,042 9,299 15,984 19,812 22,362 24,736 27,688
14 4,075 4,660 5,629 6,571 7,790 10,165 17,117 21,064 23,685 26,119 29,141
15 4,601 5,229 6,262 7,261 8,547 11,037 18,245 22,307 24,996 27,488 30,578
16 5,142 5,812 6,908 7,962 9,312 11,912 19,369 23,542 26,296 28,845 32,000
17 5,697 6,408 7,564 8,672 10,085 12,792 20,489 24,769 27,587 30,191 33,409
18 6,265 7,015 8,231 9,390 10,865 13,675 21,605 25,989 28,869 31,526 34,805
19 6,844 7,633 8,907 10,117 11,651 14,562 22,718 27,204 30,144 32,852 36,191
20 7,434 8,260 9,591 10,851 12,443 15,452 23,828 28,412 31,410 34,170 37,566
21 8,034 8,897 10,283 11,591 13,240 16,344 24,935 29,615 32,671 35,479 38,932
22 8,643 9,542 10,982 12,338 14,041 17,240 26,039 30,813 33,924 36,781 40,289
23 9,260 10,196 11,689 13,091 14,848 18,137 27,141 32,007 35,172 38,076 41,638
24 9,886 10,856 12,401 13,848 15,659 19,037 28,241 33,196 36,415 39,364 42,980
25 10,520 11,524 13,120 14,611 16,473 19,939 29,339 34,382 37,652 40,646 LEZIONE
44,314 22 – I TEST NON PARAMETRICI
26 11,160 12,198 13,844 15,379 17,292 20,843 30,435 35,563 38,885 41,923 45,642
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Frequenze osservate
Frequenze teoriche
α = 0,05
2
χ 0,05;6 =12,59
1− α α
Chi-quadrato calcolato nel campione: 3,97
(n )
2
3,97 12,59 − n ij
∑∑
ij
i j n ij
Frequenze osservate
Frequenze teoriche
(n )
2
− n ij
3,97 ∑∑
ij
i j n ij
Supponiamo che, sulla base di questo risultato campionario, io decida comunque di rifiutare l’ipotesi
di indipendenza e concluda per l’associazione tra le mutabili considerate. Qual è la probabilità che
stia commettendo un errore?
Frequenze osservate
Frequenze teoriche
i j n ij
Il p-value è, dunque, la probabilità di commettere un errore nel rifiutare lʼipotesi H0 sulla base del
valore campionario osservato. Quanto più è piccolo, tanto più tenderemo a rifiutare H0.
1 0,001 0,004 0,016 0,102 1,323 2,706 3,841 5,024 6,635 Per calcolare il p-value, devo
2 0,051 0,103 0,211 0,575 2,773 4,605 5,991 7,378 9,210 cercare, in corrispondenza della
3 0,072 0,115 0,216 0,352 0,584 1,213 4,108 6,251 7,815 9,348 11,345 riga dei gradi di libertà, il valore più
4 0,207 0,297 0,484 0,711 1,064 1,923 5,385 7,779 9,488 11,143 13,277 vicino al valore campionario
5 0,412 0,554 0,831 1,145 1,610 2,675 6,626 9,236 11,070 12,833 15,086 ottenuto: nel nostro esepio, il
6 0,676 0,872 1,237 1,635 2,204 3,455 7,841 10,645 12,592 14,449 16,812 valore è 3,455.
7 0,989 1,239 1,690 2,167 2,833 4,255 9,037 12,017 14,067 16,013 18,475 A questo valore corrisponde
8 1,344 1,646 2,180 2,733 3,490 5,071 10,219 13,362 15,507 17,535 20,090 un’area, a destra, del 75%. Quindi,
9 1,735 2,088 2,700 3,325 4,168 5,899 11,389 14,684 16,919 19,023 21,666 se io rifiutassi l’ipotesi di
10 2,156 2,558 3,247 3,940 4,865 6,737 12,549 15,987 18,307 20,483 23,209
indipendenza sulla base di un
valore campionario del chi
quadrato pari a 3,455 avrei una
11 2,603 3,053 3,816 4,575 5,578 7,584 13,701 17,275 19,675 21,920 24,725
probabilità di sbagliare pari a 0,75
12 3,074 3,571 4,404 5,226 6,304 8,438 14,845 18,549 21,026 23,337 26,217
(e, dunque, è molto probabile che
13 3,565 4,107 5,009 5,892 7,042 9,299 15,984 19,812 22,362 24,736 27,688
non la rifiuti).
14 4,075 4,660 5,629 6,571 7,790 10,165 17,117 21,064 23,685 26,119 29,141
Nel nostro esempio, il valore
15 4,601 5,229 6,262 7,261 8,547 11,037 18,245 22,307 24,996 27,488 30,578 campionario è 3,97, un po’ più a
16 5,142 5,812 6,908 7,962 9,312 11,912 19,369 23,542 26,296 28,845 32,000
destra di 3,455, e individuerà,
17 5,697 6,408 7,564 8,672 10,085 12,792 20,489 24,769 27,587 30,191 33,409 dunque, un’area inferiore al 75%,
18 6,265 7,015 8,231 9,390 10,865 13,675 21,605 25,989 28,869 31,526 34,805 la cui determinazione esatta può
19 6,844 7,633 8,907 10,117 11,651 14,562 22,718 27,204 30,144 32,852 36,191 essere fatta solo utilizzando un
20 7,434 8,260 9,591 10,851 12,443 15,452 23,828 28,412 31,410 34,170 37,566 software specifico ma che può
essere comunque approssimata
21 8,034 8,897 10,283 11,591 13,240 16,344 24,935 29,615 32,671 35,479 38,932 utilizzando la tavola.
22 8,643 9,542 10,982 12,338 14,041 17,240 26,039 30,813 33,924 36,781 40,289
23 9,260 10,196 11,689 13,091 14,848 18,137 27,141 32,007 35,172 38,076 41,638
24 9,886 10,856 12,401 13,848 15,659 19,037 28,241 33,196 36,415 39,364 42,980
25 10,520 11,524 13,120 14,611 16,473 19,939 29,339 34,382 37,652 40,646 44,314 LEZIONE 22 – I TEST NON PARAMETRICI
26 11,160 12,198 13,844 15,379 17,292 20,843 30,435 35,563 38,885 41,923 45,642
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Frequenze osservate
Frequenze teoriche
p-value
(n )
2
− n ij
3,97 ∑∑
ij
i j n ij
In questo esempio, il p-value (calcolato con il software statistico SPSS) vale 0,681. C’è quindi una
probabilità di circa il 70% di sbagliare nel rifiutare l’ipotesi di indipendenza tra le mutabili.
Esercizio:
Si riporta, di seguito, la tabella che incrocia il Voto di laurea con la Frequenza alle lezioni di 385
laureati della (ex) Facoltà di Economia.
Eʼ possibile affermare che esiste relazione tra i due caratteri osservati?
Esercizio:
Si riporta, di seguito, la tabella che incrocia il Voto di laurea con la Frequenza alle lezioni di 385 laureati della Facoltà di
Economia. Eʼ possibile affermare che esiste relazione tra i due caratteri osservati?
( )
2
nij − n! ij
χ2 = ∑∑ = 47,56
i j n! ij
(n )
2
− n ij
47,56 ∑∑
ij
i j n ij
Esercizio:
In 480 lanci di un dado si sono ottenuti i risultati riportati in tabella. Determinare, con significatività
α=0,05, se il dado può considerarsi truccato.
RISULTATO 1 2 3 4 5 6
Freq. osservate 88 75 92 65 86 74
Freq. Teoriche
Questi risultati vanno confrontati
80,0 con quelli
80 80attesi sotto
80 l’ipotesi
80 di distribuzione
80 uniforme che si
(dado non truccato)
avrebbe in caso di dado non truccato:
Esercizio:
In 480 lanci di un dado si sono ottenuti i risultati riportati in tabella. Determinare, con significatività
α=0,05, se il dado può considerarsi truccato.
RISULTATO 1 2 3 4 5 6
Freq. osservate 88 75 92 65 86 74
2 2 2 2 2 2 2
χ 2 = ∑∑
( nij − n! ij ) =( 88 − 80 ) +(75 − 80 ) +( 92 − 80 ) +( 65 − 80 ) +( 86 − 80 ) +(74 − 80 ) = 6,63
i j n! ij 80 80 80 80 80 80
11 2,603 3,053 3,816 4,575 5,578 7,584 13,701 17,275 19,675 21,920 24,725
12 3,074 3,571 4,404 5,226 6,304 8,438 14,845 18,549 21,026 23,337 26,217
13 3,565 4,107 5,009 5,892 7,042 9,299 15,984 19,812 22,362 24,736 27,688
14 4,075 4,660 5,629 6,571 7,790 10,165 17,117 21,064 23,685 26,119 29,141
15 4,601 5,229 6,262 7,261 8,547 11,037 18,245 22,307 24,996 27,488 30,578
16 5,142 5,812 6,908 7,962 9,312 11,912 19,369 23,542 26,296 28,845 32,000
17 5,697 6,408 7,564 8,672 10,085 12,792 20,489 24,769 27,587 30,191 33,409
18 6,265 7,015 8,231 9,390 10,865 13,675 21,605 25,989 28,869 31,526 34,805
19 6,844 7,633 8,907 10,117 11,651 14,562 22,718 27,204 30,144 32,852 36,191
20 7,434 8,260 9,591 10,851 12,443 15,452 23,828 28,412 31,410 34,170 37,566
21 8,034 8,897 10,283 11,591 13,240 16,344 24,935 29,615 32,671 35,479 38,932
22 8,643 9,542 10,982 12,338 14,041 17,240 26,039 30,813 33,924 36,781 40,289
23 9,260 10,196 11,689 13,091 14,848 18,137 27,141 32,007 35,172 38,076 41,638
24 9,886 10,856 12,401 13,848 15,659 19,037 28,241 33,196 36,415 39,364 42,980
25 10,520 11,524 13,120 14,611 16,473 19,939 29,339 34,382 37,652 40,646 44,314 LEZIONE 22 – I TEST NON PARAMETRICI
26 11,160 12,198 13,844 15,379 17,292 20,843 30,435 35,563 38,885 41,923 45,642
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esercizio:
In 480 lanci di un dado si sono ottenuti i risultati riportati in tabella. Determinare, con significatività
α=0,05, se il dado può considerarsi truccato.
RISULTATO 1 2 3 4 5 6
Freq. osservate 88 75 92 65 86 74
2
χ CALC = 6,63 ; 2
χ 0,05;5 =11,07 Non rifiuto lʼipotesi di distribuzione uniforme
(quindi non posso concludere che il dado è truccato)
p-value?
5%
(n )
2
− n!ij
∑∑
ij
6,6 11,1 n!ij
i j
11 2,603 3,053 3,816 4,575 5,578 7,584 13,701 17,275 19,675 21,920 24,725
12 3,074 3,571 4,404 5,226 6,304 8,438 14,845 18,549 21,026 23,337 26,217
13 3,565 4,107 5,009 5,892 7,042 9,299 15,984 19,812 22,362 24,736 27,688
14 4,075 4,660 5,629 6,571 7,790 10,165 17,117 21,064 23,685 26,119 29,141
15 4,601 5,229 6,262 7,261 8,547 11,037 18,245 22,307 24,996 27,488 30,578
16 5,142 5,812 6,908 7,962 9,312 11,912 19,369 23,542 26,296 28,845 32,000
17 5,697 6,408 7,564 8,672 10,085 12,792 20,489 24,769 27,587 30,191 33,409
18 6,265 7,015 8,231 9,390 10,865 13,675 21,605 25,989 28,869 31,526 34,805
19 6,844 7,633 8,907 10,117 11,651 14,562 22,718 27,204 30,144 32,852 36,191
20 7,434 8,260 9,591 10,851 12,443 15,452 23,828 28,412 31,410 34,170 37,566
21 8,034 8,897 10,283 11,591 13,240 16,344 24,935 29,615 32,671 35,479 38,932
22 8,643 9,542 10,982 12,338 14,041 17,240 26,039 30,813 33,924 36,781 40,289
23 9,260 10,196 11,689 13,091 14,848 18,137 27,141 32,007 35,172 38,076 41,638
24 9,886 10,856 12,401 13,848 15,659 19,037 28,241 33,196 36,415 39,364 42,980
25 10,520 11,524 13,120 14,611 16,473 19,939 29,339 34,382 37,652 40,646 44,314 LEZIONE 22 – I TEST NON PARAMETRICI
26 11,160 12,198 13,844 15,379 17,292 20,843 30,435 35,563 38,885 41,923 45,642
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esercizio:
In 480 lanci di un dado si sono ottenuti i risultati riportati in tabella. Determinare, con significatività
α=0,05, se il dado può considerarsi truccato.
RISULTATO 1 2 3 4 5 6
Freq. osservate 88 75 92 65 86 74
p-value: La probabilità di errore nel rifiutare lʼipotesi di indipendenza, sulla base del
valore campionario osservato (6,63), è pari a 0,25.
Come già detto altre volte, se questa probabilità possa considerarsi alta o bassa non
è un problema statistico ma riguarda una valutazione che ciascuno potrà prendere,
assumendosi la responsabilità della decisione conseguente.
25%
(n )
2
− n!ij
∑∑
ij
6,63 n!ij
i j
Esercizio
Si riporta di seguito la tabella che incrocia il Genere e lo Stato occupazionale
di 382 laureati intervistati un anno dopo il conseguimento del titolo:
Ocupato Occupato
Non occupato TOT
precario stabile
Maschio 58 72 95 225
Femmina 72 47 38 157
TOT 130 119 133 382
DiSES
Dipartimento di Scienze Economiche e Statistiche
Corso di
Lezione 23:
Il modello di regressione
A. a. 2022-23
marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Un modello statistico è uno schema teorico attraverso il quale si definisce una relazione
funzionale tra ciò che si intende spiegare e quello che ne può essere la causa.
Tutti i modelli sono solo parzialmente veri e provvisoriamente utili, e destinati ad essere
sostituiti con lʼavanzare delle conoscenze.
Teoria Dati
• Formulazione delle ipotesi • Individuazione della tipologia
• Individuazione delle variabili • Trasformazioni preliminari
• Definizione delle relazioni
NO
Verifica del modello
SI
Uso del modello
(
Y = f X1, X2 ,…Xp , + ε ) La variabile casuale ε riassume quello che
noi “non sappiamo” della relazione tra la
NO
Verifica del modello
• Se lʼerrore è casuale, allora deve avere delle caratteristiche proprie: avere valore medio
nullo e variabilità omogenea da unʼosservazione a unʼaltra.
( )
E εi = 0 ; ( )
Var ε i = σ 2 (costante)
( ) ( )
E Yi = E β 0 + β1Xi + ε i = β 0 + β1Xi + E ε i = β 0 + β1Xi ( )
Il valore medio della variabile dipendente nella i-esima osservazione è uguale al valore
calcolato sulla retta di regressione.
( ) ( )
Var Yi = Var ε i = σ 2
La varianza della variabile dipendente nella i-esima osservazione è uguale alla varianza
dell’errore ed è ipotizzata costante per tutte le Yi.
Il problema consiste nel trovare gli stimatori ottimali per i parametri incogniti (β0, β1) sulla
base del campione osservato. Si potranno così determinare i valori teorici:
ŷ i = β̂ 0 + β̂1xi i = 1,..., n
che differiranno dai valori osservati yi per delle quantità ei che costituiscono i residui del
modello di regressione lineare.
(
ei = y i - ŷ i = y i − β̂ 0 + β̂1xi ) i = 1,...,n
Sulla popolazione:
ŷ i = β 0 + β1xi i = 1,…N y i − ŷ i = ε i errore
Sul campione:
ŷ i = β̂ 0 + β̂1xi i = 1,…n y i − ŷ i = ei residuo
( )
2. E ε i = 0 Le v.c. errori hanno media nulla
( )
3. Var ε i = σ 2
La varianza degli errori, σ2, è costante
(ipotesi di omoschedasticità)
( )
4. Corr ε i , ε j = 0 Le v.c. errori relative ad unità statistiche differenti sono
incorrelate
( )
2. E ε i = 0 Le v.c. errori hanno media nulla
I valori sulla retta di regressione sono i valori medi delle diverse determinazioni di Yi per
ciascuna corrispondente Xi .
E Y|X4 ( )
E Y|X3 ( ) Yi = β 0 + β1Xi
Y (
E Y|X2 )
(
E Y|X1 )
X1 X2 X3 X4 X
LEZIONE 23 – IL MODELLO DI REGRESSIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
( )
3. Var ε i = σ 2 La varianza degli errori, σ2, è costante (ipotesi di omoschedasticità)
SI NO
( )
4. Corr ε i , ε j = 0 Le v.c. errori relative ad unità statistiche differenti sono incorrelate
Quando le ipotesi del modello classico sono rispettate, le procedure inferenziali risultano
ottimali.
Tuttavia, in molti casi una o più ipotesi potrebbero essere non realistiche e questo deve
comportare una attenta considerazione della validità complessiva del modello.
In alcuni casi, infatti, nonostante alcune ipotesi possano risultare non verificate, il modello
potrebbe ancora conservare una validità complessiva in termini di adattamento tra dati e
schema teorico ma il rigore delle proprietà risulterà alterato e alcune utilizzazioni (in
particolare, la previsione) risulteranno più rischiose.
Eʼ possibile rimuovere le ipotesi, in successione, considerando modelli non lineari, con
errori a varianza diversa e tra loro correlati, con variabili esplicative di tipo stocastico e
così via, ma ciò richiede lʼuso di modelli di analisi notevolmente più complessi.
∑ ( xi − x ) ⋅ ( y i − y )
n
∑ ( xi − x ) ⋅ ( y i − y )
n
i=1
sXY n
β̂ 0 = y − β̂1x β̂1 = = = i=1
( ) ( )
n n
sX2 ∑ xi − x
2
∑ xi − x
2
i=1 i=1
n
(β ; β )
0 1 Parametri del modello
(B ;B )
0 1
Stimatori dei minimi quadrati dei parametri del modello di Regressione
lineare semplice
(β̂ ; β̂ )
0 1
Stime dei minimi quadrati dei parametri del modello di Regressione lineare
semplice
Teorema di Gauss-Markov
Sotto le ipotesi classiche del modello di regressione lineare semplice, gli stimatori (B0,B1)
dei minimi quadrati per i parametri (β0,β1) sono lineari, non distorti e a varianza minima.
Sono, quindi, cosiddetti stimatori BLUE (Best Linear Unbiased Estimators).
La costruzione di regioni critiche per i test di verifica richiede lʼassunzione delle ipotesi di Normalità
e di indipendenza degli errori:
ε i ∼ N 0,σ 2( )
Lʼinteresse maggiore è nel verificare se i due parametri sono significativamente diversi da zero,
perché, se un parametro non lo è, il modello va rifiutato a favore di un modello alternativo che non
includa quel parametro.
I test più diffusi sono quelli che verificano le ipotesi:
Test su β0 Test su β1
H0 : β 0 = 0 H0 : β 0 = 0 H0 : β 0 = 0 H0 : β1 = 0 H0 : β1 = 0 H0 : β1 = 0
H1 : β 0 > 0 H1 : β 0 > 0 H1 : β 0 ≠ 0 H1 : β1 > 0 H1 : β1 > 0 H1 : β1 ≠ 0
Regola di decisione
Lʼipotesi nulla verrà rifiutata se il valore standardizzato della statistica test risulta, in valore assoluto,
maggiore del corrispondente valore tabulato della distribuzione t di Student.
1 n
( )
2
in cui s2 rappresenta la stima non distorta della varianza σ2 degli errori ε: ………… s2 = ∑ y − ŷ
n − 2 i=1 i
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino le stime dei parametri della retta di regressione e degli errori standard di B0 e B1.
Superficie Prezzo Diagramma di dispersione
2
App. (mq) (€x1.000) Yteo (Y-Yteo) 900000
X Y
1 80 212 282,1 4.915 800000
13
2 200 313 593,2 78.527 3
700000
3 185 717 554,3 26.459 15
14
x = 131 mq sXY
β̂1 = 2
= 2,59 ; β̂ 0 = y − β̂1x = 74,69
2
s = 2.964 s X
X
LEZIONE 23 – IL MODELLO DI REGRESSIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di β̂ 0 β̂1
T0,calc. = ; T1,calc. =
15 appartamenti, omogenei per ubicazione e altre caratteristiche.
Si determinino le stime dei parametri della retta di regressione e ( )
es B0 ( )
es B1
degli errori standard di B0 e B1.
s2 ⎛ x 2 ⎞ s2 ⎛ 1 ⎞
App.
Superficie
(mq)
Prezzo
(€x1.000) Yteo (Y-Yteo)
2
( )
es B0 =
n⎝
⎜1+ 2 ⎟
sx ⎠
( )
; es B1 = ⎜ ⎟
n ⎝ sx2 ⎠
X Y
1 n
( )
2
1 80 212 282,1 4.915 2
s = ∑ y − ŷ
2 200 313 593,2 78.527 n − 2 i=1 i
3 185 717 554,3 26.459
4 140 431 437,7 44
5 95 270 321,0 2.601
6 60 261 230,3 945
7 210 431 619,2 35.402
8 65 140 243,2 10.654
9 70 282 256,2 667
10 120 600 385,8 45.876
11 100 303 334,0 959
12 90 220 308,0 7.750
13 180 749 541,4 43.109
14 220 663 645,1 321
15 150 623 463,6 25.410
TOT 1.965 6.215 6.215 283.639
x = 131 mq sXY
β̂1 = 2
= 2,59 ; β̂ 0 = y − β̂1x = 74,69
2
s = 2.964 s X
X
LEZIONE 23 – IL MODELLO DI REGRESSIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di β̂ 0 β̂1
T0,calc. = ; T1,calc. =
15 appartamenti, omogenei per ubicazione e altre caratteristiche.
Si determinino le stime dei parametri della retta di regressione e
es B0( ) ( )
es B1
degli errori standard di B0 e B1.
s2 ⎛ x 2 ⎞ s2 ⎛ 1 ⎞
App.
Superficie
(mq)
Prezzo
(€x1.000) Yteo (Y-Yteo)
2
( )
es B0 =
n⎝
⎜1+ 2 ⎟
sx ⎠
( )
; es B1 = ⎜ ⎟
n ⎝ sx2 ⎠
X Y
1 n
( )
2
1 80 212 282,1 4.915 2
s = ∑ y − ŷ
2 200 313 593,2 78.527 n − 2 i=1 i
3 185 717 554,3 26.459
4 140 431 437,7 44 1
s2 = ⋅ 283.639 = 21.818,4
5 95 270 321,0 2.601 13
6 60 261 230,3 945
7 210 431 619,2 35.402
21.818,4 ⎛ 1312 ⎞
8
9
65
70
140
282
243,2
256,2
10.654
667
( )
es B0 =
15
⋅ ⎜1+
⎝ 2.964 ⎠
⎟
10
11
120
100
600
303
385,8
334,0
45.876
959 ( )
= 1.154,6 ⋅ 1+ 5,79 = 1.154,6 × 6,79
12 90 220 308,0 7.750 = 7.839,7 = 88,54
13 180 749 541,4 43.109
14 220 663 645,1 321
21.818,4 ⎛ 1 ⎞
15
TOT
150
1.965
623
6.215
463,6
6.215
25.410
283.639
( )
es B1 =
15
⋅⎜ ⎟
⎝ 2.964 ⎠
x = 131 mq
β̂1 =
sXY
2
= 2,59 ; β̂ 0 = y − β̂1x = 74,69 ( )
= 1.154,6 ⋅ 0,000337 = 0,389 = 0,624
2
s = 2.964 s X
X
LEZIONE 23 – IL MODELLO DI REGRESSIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di β̂ 0 β̂1
T0,calc. = ; T1,calc. =
15 appartamenti, omogenei per ubicazione e altre caratteristiche.
Si determinino le stime dei parametri della retta di regressione e ( )
es B0 ( )
es B1
degli errori standard di B0 e B1.
s2 ⎛ x 2 ⎞ s2 ⎛ 1 ⎞
App.
Superficie
(mq)
Prezzo
(€x1.000) Yteo (Y-Yteo)
2
( )
es B0 =
n⎝
⎜1+ 2 ⎟
sx ⎠
( )
; es B1 = ⎜ ⎟
n ⎝ sx2 ⎠
X Y
1 n
( )
2
1 80 212 282,1 4.915 2
s = ∑ y − ŷ
2 200 313 593,2 78.527 n − 2 i=1 i
3 185 717 554,3 26.459
4 140 431 437,7 44
5
6
95
60
270
261
321,0
230,3
2.601
945
( )
s2 = 21.818,4 ; es B0 = 88,54 ; es B1 = 0,624 ( )
7 210 431 619,2 35.402 β̂ 0 74,69
T0,calc. = = = 0,84
( )
8 65 140 243,2 10.654
es B0 88,54 β̂1
9 70 282 256,2 667 2,59
T1,calc. = = = 4,151
10
11
120
100
600
303
385,8
334,0
45.876
959
( )
es B1 0,624
β̂1 2,59
tcalc. = = = 4,151
( )
es B1 0,624
β̂1 2,59
tcalc. = = = 4,151 t0,05;13 = 1,771
( )
es B1 0,624
Regola di decisione:
4,151> 1,771 Rifiuto H0 p-value ?
β̂1 2,59
tcalc. = = = 4,151 t0,05;13 = 1,771
( )
es B1 0,624
Regola di decisione:
4,151> 1,771 Rifiuto H0 p-value<0,005
La probabilità di errore nel rifiutare lʼipotesi H0 sulla base del valore
campionario osservato è di molto inferiore a 5 su 1.000.
Lʼipotesi H0 potrà dunque essere rifiutata con un ottimo “margine di
sicurezza”.
LEZIONE 23 – IL MODELLO DI REGRESSIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23
Esercizio
Si riportano i dati relativi al Numero di Imprese (per 100 abitanti) e ai Livelli di
PM10 (µg per mm3) di un campione di 15 Province italiane. Si verifichi, con
significatività α=0,1, l’eventuale dipendenza dei livelli di inquinamento dal
numero di imprese per il totale delle Province italiane.
Provincia
Imprese
(per 100 ab.)
Polveri sottili
3
( µ g per mm )
Calcolo
X
2 dei
Y
2
XY YTEO
coefficienti di regressione: β̂1 =
Cov
(Y-YTEO)
2 XY
( ) ; β̂ 0 = y − β̂1x
Var ( X )
X Y
Agrigento 9,7 39,0 94,1 1.521,8 378,4 39,1 0,0
Alessandria 11,1 51,1 123,2 2.606,1 566,7 38,4 159,7
Ancona 10,0 54,8 100,0 3.003,0 548,0 38,9 251,8
Aosta 12,2 34,0 148,8 1.156,0 414,8 37,9 15,2
Ascoli Piceno 12,1 40,5 146,4 1.640,3 490,1 37,9 6,6
L'Aquila 9,3 28,0 86,5 784,0 260,4 39,3 126,8
Arezzo 11,2 30,0 125,4 900,0 336,0 38,4 70,0
Asti 12,9 41,5 166,4 1.722,3 535,4 37,6 15,5
Avellino 9,4 32,7 88,4 1.071,3 307,7 39,2 42,0
Bari 9,5 39,0 90,3 1.521,0 370,5 39,2 0,0
Bergamo 8,6 45,0 74,0 2.025,0 387,0 39,6 29,3
Biella 10,5 28,5 110,3 812,3 299,3 38,7 103,9
Belluno 8,2 42,5 67,2 1.806,3 348,5 39,8 7,4
Benevento 11,3 32,7 127,7 1.071,3 369,8 38,3 31,2
Bologna 10,3 41,7 106,1 1.736,4 429,2 38,8 8,3
TOT 156,3 581,0 1.654,7 23.376,8 6.041,6 867,7
Provincia
Imprese
(per 100 ab.)
Polveri sottili
3
( µ g per mm ) X
2
Y
2
XY YTEO Cov
(Y-Y
β̂1 =
TEO)
2
( XY ) ; β̂ 0 = y − β̂1x
Var ( X )
X Y
Agrigento 9,7 39,0 94,1 1.521,8 378,4 39,1 0,0
Alessandria 11,1 51,1 123,2 2.606,1 566,7 38,4 159,7
Ancona 10,0 54,8 100,0 3.003,0 548,0 38,9 251,8
156,3
Aosta 12,2 34,0 148,8 1.156,0 414,8 37,9 x = 15,2 = 10,42
Ascoli Piceno 12,1 40,5 146,4 1.640,3 490,1 37,9 15
6,6
L'Aquila 9,3 28,0 86,5 784,0 260,4 39,3 581
126,8
Arezzo 11,2 30,0 125,4 900,0 336,0 38,4 y = 70,0 = 38,73
Asti 12,9 41,5 166,4 1.722,3 535,4 37,6
15
15,5
( )1.654,7
( )
2
Avellino 9,4 32,7 88,4 1.071,3 307,7 39,2
Var 42,0
X = − 10,42 = 1,739
Bari 9,5 39,0 90,3 1.521,0 370,5 39,2 0,0 15
Bergamo 8,6 45,0 74,0 2.025,0 387,0 39,6 29,3
Biella
Belluno
10,5
8,2
28,5
42,5
110,3
67,2
812,3
1.806,3
299,3
348,5
38,7
39,8
Cov103,9
7,4
( )
XY =
6.041,6
15
(
− 10,42 × 38,73 = -0,820 )
Benevento 11,3 32,7 127,7 1.071,3 369,8 38,3 31,2
Bologna 10,3 41,7 106,1 1.736,4 429,2 38,8 8,3
TOT 156,3 581,0 1.654,7 23.376,8 6.041,6 867,7
Provincia
Imprese
(per 100 ab.)
Polveri sottili
3
( µ g per mm ) X
2
Y
2
XY YTEO Cov
(Y-Y
β̂1 =
TEO)
2
( XY ) ; β̂ 0 = y − β̂1x
Var ( X )
X Y
Agrigento 9,7 39,0 94,1 1.521,8 378,4 39,1 0,0
Alessandria 11,1 51,1 123,2 2.606,1 566,7 38,4 159,7
Ancona 10,0 54,8 100,0 3.003,0 548,0 38,9 x = 10,42
251,8 ; y = 38,73
Aosta
Ascoli Piceno
12,2
12,1
34,0
40,5
148,8
146,4
1.156,0
1.640,3
414,8
490,1
37,9
37,9 ( )
15,2
( )
Var X6,6= 1,739 ; Cov XY = -0,820
L'Aquila 9,3 28,0 86,5 784,0 260,4 39,3 126,8
Arezzo 11,2 30,0 125,4 900,0 336,0 38,4
β̂1 =
Cov ( ) = −0,829 = −0,476
70,0 XY
Var ( X )
Asti 12,9 41,5 166,4 1.722,3 535,4 37,6 15,5
Avellino 9,4 32,7 88,4 1.071,3 307,7 39,2 42,0
1,739
Bari 9,5 39,0 90,3 1.521,0 370,5 39,2 0,0
β̂ 0 = y − β̂1x = 38,73 + 0,476 ⋅10,42 = 43,65
Bergamo 8,6 45,0 74,0 2.025,0 387,0 39,6 29,3
Biella 10,5 28,5 110,3 812,3 299,3 38,7 103,9
Belluno 8,2 42,5 67,2 1.806,3 348,5 39,8 7,4
Benevento 11,3 32,7 127,7 1.071,3 369,8 38,3 31,2
Bologna 10,3 41,7 106,1 1.736,4 429,2 38,8 8,3
TOT 156,3 581,0 1.654,7 23.376,8 6.041,6 867,7
Esercizio
Si riportano i dati relativi al Numero di Imprese (per 100 abitanti) e ai Livelli di
PM10 (µg per mm3) di un campione di 15 Province italiane. Si verifichi, con
significatività α=0,1, l’eventuale dipendenza dei livelli di inquinamento dal
numero di imprese per il totale delle Province italiane.
Esercizio
Si riportano i dati relativi al Numero di Imprese (per 100 abitanti) e ai Livelli di
PM10 (µg per mm3) di un campione di 15 Province italiane. Si verifichi, con
significatività α=0,1, l’eventuale dipendenza dei livelli di inquinamento dal
numero di imprese per il totale delle Province italiane.
r = 0,081
R2 = 0,007
Esercizio di riepilogo
Si riporta la Tabella contenente le misurazioni relative al Peso e
all’Altezza di un campione di 20 studenti di una Scuola media
inferiore:
Altezza (cm) Peso (kg)
Oss. X2 Y2 XY YTEO (Y-Ymed )2 (YTEO-Ymed )2 (Y-YTEO)2
X Y
1 154 50 23.716 2.500 7.700 49,8 27,0 29,3 0,0
2 164 55 Disegnare
• 26.896 il diagramma
3.025 9.020 di dispersione
61,4 0,0 38,8 41,3
3 147 30 21.609 900 4.410 41,6 635,0 183,9 135,5
• Determinare l’equazione della retta di regressione e
4 163 65 26.569 4.225 10.595 60,3 96,0 25,6 22,4
5 165 75 rappresentarla
27.225 5.625 graficamente
12.375 62,6 392,0 54,6 154,0
6 145 41 Determinare
• 21.025 1.681 una misura
5.945 dell’adattamento
39,3 201,6 della retta ai dati
252,4 2,8
7 157 49
• 24.649 2.401
Verificare se, ad 7.693
un livello53,3 38,4
di significatività 3,7
α=0,05, la18,3
variabile
8 160 61 25.600 3.721 9.760 56,8 33,6 2,5 17,9
Altezza ha effetto sulla variabile Peso.
9 170 71 28.900 5.041 12.070 68,4 249,6 174,5 6,7
10 150 52 22.500 2.704 7.800 45,1 10,2 101,4 47,2
11 162 44 26.244 1.936 7.128 59,1 125,4 15,2 228,0
12 162 46 26.244 2.116 7.452 59,1 84,6 15,2 171,6
13 154 40 23.716 1.600 6.160 49,8 231,0 29,3 95,8
14 161 64 25.921 4.096 10.304 57,9 77,4 7,5 36,8
15 163 61 26.569 3.721 9.943 60,3 33,6 25,6 0,5
16 168 62 28.224 3.844 10.416 66,1 46,2 118,4 16,7
17 161 58 25.921 3.364 9.338 57,9 7,8 7,5 0,0
18 156 40 24.336 1.600 6.240 52,1 231,0 9,5 146,8
19 156 65 24.336 4.225 10.140 52,1 96,0 9,5 166,0
20 155 75 24.025 5.625 11.625 51,0 392,0 18,0 578,3
TOT 3.173 1.104 504.225 63.950 176.114 1.104 3.009 1.123 1.887
MEDIA 158,7 55,2 25.211 3.198 8.806 55,2 150,5 LEZIONE 23
56,1 94,3
– IL MODELLO DI REGRESSIONE