Sei sulla pagina 1di 743

Università degli Studi di Napoli

Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 1:
Raccolta e presentazione
dei dati
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lʼindagine statistica

La raccolta dei dati

Il concetto di Popolazione e di Unità statistica


Da un punto di vista statistico, si intende per Popolazione (o Universo) qualsiasi insieme di elementi che
forma l’oggetto di uno studio statistico.
E’ possibile distinguere tra popolazione reale (effettivamente esistente e visibile) e popolazione virtuale
(definibile con accuratezza ma non osservabile, per esempio riferita ad eventi futuri).
Si definisce, invece, Unità statistica l’elemento di base della popolazione su cui viene effettuata la
rilevazione. E’ importante che l’unità statistica di un’indagine sia definita in modo non ambiguo.

Esempio: Lʼunità statistica nelle indagini ISTAT: La Famiglia

E’ evidente che la definizione di “Famiglia” deve essere chiara e certa,


non soggetta alle convinzioni etiche o religiose di chi effettua l’indagine,
pena l’inattendibilità dell’indagine stessa.
Nelle indagini ISTAT, si intende dunque per famiglia:
"un insieme di persone legate da vincoli di matrimonio, parentela, affinità, adozione, tutela o da vincoli affettivi,
coabitanti e aventi dimora abituale nello stesso comune (anche se non iscritte nell'anagrafe della popolazione
residente del Comune medesimo)."

LEZIONE 1 – RACCOLTA E PRESENTAZIONE DEI DATI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La raccolta dei dati: le tabelle unità×variabili


TITOLO REDDITO NUM. COMP.
IND. GENERE ETÀ PROFESSIONE
La raccolta dei dati DI STUDIO (€) FAMILIARI
I1 M 21 Media inf. Operaio 950 4
Lʼ insieme dei caratteri osservati sulle I2 M 56 Laurea Impiegato 1.700 4
diverse unità statistiche può essere I3 F 33 Laurea Docente 2.100 2
raccolto in una Matrice dei dati. : : : : : : :
In M 71 Media Sup. Pensionato 1.300 3
I caratteri osservati possono essere:
• Variabili continue
• Variabili discrete
• Mutabili ordinabili
• Mutabili sconnesse
• Variabili binarie

La classificazione del carattere osservato dipende dalla natura del carattere stesso e non
dall’uso convenzionale che se ne fa. Ad esempio, l’età è una variabile continua, anche se quasi
sempre i valori vengono arrotondati e, quindi, resi discreti.
La classificazione proposta definisce anche quella che possiamo immaginare come una
gerarchia informativa dei caratteri considerati: una variabile continua è più “informativa” di una
variabile discreta, che a sua volta è più informativa di una mutabile ordinabile, e così via. E’
sempre possibile “scendere” questa gerarchia (una variabile continua può essere resa discreta
mediante arrotondamento oppure resa una mutabile ordinabile se si associano degli attributi a
classi di valori consecutive), non è possibile risalirla.

LEZIONE 1 – RACCOLTA E PRESENTAZIONE DEI DATI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La presentazione dei dati

Le distribuzioni di frequenza 1. Mutabili sconnesse

Frequenze Frequenze Frequenze


TIPO DIPLOMA assolute relative percentuali
(n i ) (f i ) (p i )
LICEO CLASSICO 10 0,04 4,4
LICEO SCIENTIFICO 64 0,28 28,2
ITC 141 0,62 62,1
ALTRO 12 0,05 5,3
TOT 227 1,00 100,0

LEZIONE 1 – RACCOLTA E PRESENTAZIONE DEI DATI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La presentazione dei dati

Le distribuzioni di frequenza 2. Mutabili ordinabili

Frequenze Frequenze Frequenze Freq. assolute Freq. relative Freq. percentuali


Frequenza ai Corsi assolute relative percentuali cumulate cumulate cumulate
(n i ) (f i ) (p i ) (N i ) (F i ) (P i )
NON MISURABILE 42 0,19 18,5 42 0,19 18,5
SALTUARIA 70 0,31 30,8 112 0,49 49,3
REGOLARE 55 0,24 24,2 167 0,74 73,6
ASSIDUA 60 0,26 26,4 227 1,00 100,0
TOT 227 1,00 100,0 / / /

LEZIONE 1 – RACCOLTA E PRESENTAZIONE DEI DATI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La presentazione dei dati

Le distribuzioni di frequenza 3. Variabili (caratteri quantitativi)

La distribuzione in classi di uguale ampiezza:


TEMPO PER RAGGIUNGERE Frequenze Frequenze Frequenze Freq. ass.te Freq. rel.ve Freq. %
L'UNIVERSITÀ assolute relative % cumulate cumulate cumulate
(in minuti) (n i ) (f i ) (p i ) (N i ) (F i ) (P i )
0-20 84 0,37 37,0 84 0,37 37,00
20-40 81 0,36 35,7 165 0,73 72,69
40-60 44 0,19 19,4 209 0,92 92,07
60-80 8 0,04 3,5 217 0,96 95,59
80-100 0 0,00 0,0 217 0,96 95,59
100-120 10 0,04 4,4 227 1,00 100,00
TOT 227 1,00 100,0 / / /

In questo caso, non avrebbe senso mantenere classi con frequenza molto piccola o
addirittura vuote.
Quando possibile, si procede ad un accorpamento delle classi contigue che presentano
frequenze particolarmente basse.

LEZIONE 1 – RACCOLTA E PRESENTAZIONE DEI DATI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La presentazione dei dati

Le distribuzioni di frequenza 3. Variabili (caratteri quantitativi)

La distribuzione in classi di ampiezze diverse:


TEMPO PER RAGGIUNGERE Frequenze Frequenze Frequenze Freq. ass.te Freq. rel.ve Freq. % Densità di
L'UNIVERSITÀ assolute relative % cumulate cumulate cumulate frequenza
(in minuti) (n i ) (f i ) (p i ) (N i ) (F i ) (P i ) (d i )
0-20 84 0,37 37,0 84 0,37 37,00 4,2
20-40 81 0,36 35,7 165 0,73 72,69 4,1
40-60 44 0,19 19,4 209 0,92 92,07 2,2
>60 18 0,08 7,9 227 1,00 100,00 0,3
0,9
TOT 227 1,00 100,0 / / /

Quando le classi sono di ampiezza diversa, il confronto non può più essere fatto sulla base delle
frequenze. Occorre introdurre il concetto di densità di frequenza.

La densità di frequenza si ottiene dividendo la frequenza per l’ampiezza della classe:

nj: frequenza della classe j nj


hj: ampiezza della classe j dj =
dj: densità di frequenza della classe j hj

NOTA: Per il calcolo della densità di frequenza dell'ultima classe, si è immaginato un valore massimo di 120 minuti,
e quindi un'ampiezza di 60 minuti.

LEZIONE 1 – RACCOLTA E PRESENTAZIONE DEI DATI


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 2:
Gli indici di posizione
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli indici sintetici (Posizione; Variabilità; Forma)

Gli indici sintetici


Consentono il passaggio da una pluralità di informazioni ad un’unica misura numerica;
Sintetizzano l'intera distribuzione in un singolo valore, consentendo così confronti nel
tempo, nello spazio o tra circostanze differenti;
In alcuni casi, consentono di verificare se le conseguenze di una determinata azione
abbiano prodotto il risultato desiderato, in quale direzione e con quale intensità.

Indici assoluti: .........… Dipendono dalla natura della variabile che si sta esaminando e sono
espressi nella stessa unità di misura della variabile.

Indici relativi: ……..… Sono indipendenti dall'unità di misura perché costruiti come rapporti tra
indici assoluti o tra indici assoluti e loro valori estremi.
Sono, quindi, numeri puri, utili per confrontare fenomeni omogenei.

Indici normalizzati: … Sono indici relativi che variano in un intervallo finito, generalmente
nell'intervallo [0, 1] oppure in [-1, +1].
Sono, quindi, di immediata interpretazione.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli indici sintetici (Posizione; Variabilità; Forma)

Gli indici sintetici

µ=21,6 µ=22,8

Il confronto dei grafici consente di evidenziare delle differenze tra le due situazioni
ma non di “quantificarle”.
Il calcolo della media aritmetica rende questo confronto più agevole, e aggiunge
un’informazione importante a quanto già intuito dall’osservazione dei grafici.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli indici sintetici di posizione: la media

Una media secondo Chisini

La media di una variabile X è quel valore M, compreso tra minimo e massimo di una
distribuzione di frequenza, che, rispetto ad una funzione sintetica delle osservazioni,
ne lascia inalterato il valore:

(
f x1, x2 ,…, xn = f M, M,…, M) ( )
La media M è, dunque, quel valore che eguaglia la funzione f(.) quando alle
osservazioni si sostituisce il valore costante M.
Il punto cruciale è, quindi, specificare f(.) in funzione della natura della variabile (additiva,
moltiplicativa, inversa, …).

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli indici sintetici di posizione: la media

Una media secondo Chisini


La media di una variabile X è quel valore M, compreso tra minimo e massimo di una distribuzione di frequenza, che, rispetto ad una
funzione sintetica delle osservazioni, ne lascia inalterato il valore:
f(x1,x2,…,xn) = f(M,M,…,M)
La media M è, dunque, quel valore che eguaglia la funzione f(.) quando alle osservazioni si sostituisce il valore costante M. Il punto
cruciale è, dunque, specificare f(.) in funzione della natura della variabile (additiva, moltiplicativa, inversa, …).

Esempio
Cinque importi in euro: 125; 1.250; 75; 84; 648 Calcoliamo la media

Che tipo di relazione esiste tra i valori? Additiva

La definizione del Chisini ci dice che la media M è quel valore che risolve l’equazione:

(125 +1.250 + 75 + 84 + 648) = ( M+ M+ M+ M+ M)


2.182
Soluzione: 2.182 = 5M ⇒ M = = 436,4
5

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica

La media aritmetica è la soluzione alla definizione generale di media del Chisini


quando, con riferimento alla variabile osservata, tra i valori è possibile definire una
relazione di additività:
( ) ( )
n
f x1, x2 ,…, xn = x1 + x2 + … + xn = ∑ xi
i=1

Criterio del Chisini: ( x , x ,…, x ) = ( µ + µ + … + µ )


1 2 n
n
Poiché µ è una costante, possiamo scrivere: ∑x i
= n⋅ µ, e risolvere banalmente rispetto
all'unica incognita, µ: i=1

∑x i
µ= i=1

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica

La media aritmetica può essere calcolata in diversi modi, a seconda di come sono
organizzati i dati:

1. Media aritmetica per dati organizzati in una distribuzione semplice:

Esempio: 60 studenti sui quali è stata osservata l'età:

23 20 20 20 23 20 20 20 21 18 20 19 20 19 19 20 22 23 19 22

20 21 20 20 20 20 21 19 21 19 18 21 19 22 19 20 19 23 19 22

20 20 20 20 20 21 21 19 21 22 20 20 20 19 20 21 21 19 22 23

n=60

∑x i
23 + 20 + 20 + … +19 + 22 + 23 1.220
µ= i=1
= = = 20,3
n 60 60

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica

La media aritmetica può essere calcolata in diversi modi, a seconda di come sono
organizzati i dati:

2. Media aritmetica per dati organizzati in una distribuzione di frequenza


(utilizzando le frequenze assolute):
Esempio: 60 studenti sui quali è stata osservata l'età:
ETÀ FREQ FREQ. REL.
xi *ni
(x i ) (n i ) 23 20 20 20
(f 23i ) 20 20 20 21 18 20 19 20 19 19 20 22 23 19 22

18 2 36 0,03
19 13 247 0,22
20 21 20 20 20 20 21 19 21 19 18 21 19 22 19 20 19 23 19 22
20 24 480 0,40
21 10 210 0,17
22 6 2013220 20 20 0,10
20 21 21 19 21 22 20 20 20 19 20 21 21 19 22 23

23 5 115 0,08
TOT 60 1.220 1,00

k=6

∑x ⋅n i i
µ= i=1

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica

La media aritmetica può essere calcolata in diversi modi, a seconda di come sono
organizzati i dati:

2. Media aritmetica per dati organizzati in una distribuzione di frequenza


(utilizzando le frequenze assolute):
Esempio: 60 studenti sui quali è stata osservata l'età:
ETÀ FREQ FREQ. REL.
xi *ni
(x i ) (n i ) 23 (f20i ) 20 20 23 20 20 20 21 18 20 19 20 19 19 20 22 23 19 22

18 2 36 0,03
19 13 247 20
0,22
21 20 20 20 20 21 19 21 19 18 21 19 22 19 20 19 23 19 22

20 24 480 0,40
21 10 210 20 0,17
20 20 20 20 21 21 19 21 22 20 20 20 19 20 21 21 19 22 23

22 6 132 0,10
23 5 115 0,08
TOT 60 1.220 1,00

k=6

∑x ⋅n i i (18 × 2 ) + (19 ×13 ) + ( 20 × 24 ) + ( 21×10 ) + ( 22 × 6 ) + ( 23 × 5 ) 1.220


µ= i=1
= = = 20,3
n 60 60

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica

La media aritmetica può essere calcolata in diversi modi, a seconda di come sono
organizzati i dati:

3. Media aritmetica per dati organizzati in una distribuzione di frequenza


(utilizzando le frequenze relative):
Esempio: 60 studenti sui quali è stata osservata l'età:
ETÀ FREQ FREQ. REL. Nota:
x i *n i x i *f i
(x i ) (n i ) (f i ) Ricorda che le frequenze relative si calcolano dividendo
18 2 36 0,03 ciascuna
0,60 frequenza assoluta per il totale delle frequenze.
Nel nostro esempio, abbiamo:
19 13 247 0,22 4,12
n1 2
20 24 480 0,40 f1 = 8,00= = 0,03
21 10 210 0,17 n 60
3,50
22 6 132 0,10 n2 13
f2 = 2,20 = = 0,22
23 5 115 0,08 n 60
1,92
TOT 60 1.220 1,00 n
20,33 24
f3 = 3 = = 0,40
n 60
n 10
f4 = 4 = = 0,17
n 60
n 6
f5 = 5 = = 0,10
n 60
n 5
f6 = 6 = = 0,08
n 60

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica

La media aritmetica può essere calcolata in diversi modi, a seconda di come sono
organizzati i dati:

3. Media aritmetica per dati organizzati in una distribuzione di frequenza


(utilizzando le frequenze relative):
Esempio: 60 studenti sui quali è stata osservata l'età:
ETÀ FREQ FREQ. REL.
x i *n i x i *f i
(x i ) (n i ) (f i )
23 20 20 20 23 20 20 20 21 18 20 19 20 19 19 20 22 23 19 22

18 2 36 0,03 20 210,60 20 20 20 20 21 19 21 19 18 21 19 22 19 20 19 23 19 22

19 13 247 0,22 4,12


20 24 480 0,40 20 208,00 20 20 20 21 21 19 21 22 20 20 20 19 20 21 21 19 22 23

21 10 210 0,17 3,50


22 6 132 0,10 2,20
23 5 115 0,08 1,92
TOT 60 1.220 1,00 20,33

k=6
µ = ∑ xi ⋅ fi
i=1

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica

La media aritmetica può essere calcolata in diversi modi, a seconda di come sono
organizzati i dati:

3. Media aritmetica per dati organizzati in una distribuzione di frequenza


(utilizzando le frequenze relative):
Esempio: 60 studenti sui quali è stata osservata l'età:
ETÀ FREQ FREQ. REL.
x i *n i x i *f i 23 20 20 20 23 20 20 20 21 18 20 19 20 19 19 20 22 23 19 22

(x i ) (n i ) (f i )
20 21 20 20 20 20 21 19 21 19 18 21 19 22 19 20 19 23 19 22

18 2 36 0,03 0,60
19 13 247 0,22 4,12
20 20 20 20 20 21 21 19 21 22 20 20 20 19 20 21 21 19 22 23

20 24 480 0,40 8,00


21 10 210 0,17 3,50
22 6 132 0,10 2,20
23 5 115 0,08 1,92
TOT 60 1.220 1,00 20,33

( ) ( ) ( ) ( ) ( ) ( )
k=6
µ = ∑ xi ⋅ fi = 18 × 0,03 + 19 × 0,22 + 20 × 0,40 + 21× 0,17 + 22 × 0,10 + 23 × 0,08 = 20,3
i=1

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica per dati raggruppati in classi

Esempio:
227 studenti a cui è stato chiesto quanto tempo impiegassero per raggiungere l'Università
TEMPO PER RAGGIUNGERE Frequenze Frequenze Frequenze
L'UNIVERSITÀ assolute relative %
(in minuti) (n i ) (f i ) (p i )
0-20 84 0,37 37,0
20-40 81 0,36 35,7
40-60 44 0,19 19,4
>60 18 0,08 7,9
TOT 227 1,00 100,0

In questo caso è necessario individuare, per ciascuna classe, un valore "rappresentativo"


che, nel calcolo della media, è il valore centrale.
Nel caso di "classi aperte" (la prima o l'ultima), in cui non è specificato l'estremo inferiore o
l'estremo superiore della classe, occorrerà definire questi limiti in modo arbitrario, sulla
base delle informazioni che si hanno sui dati raccolti e sul fenomeno analizzato.
Nel nostro esempio, possiamo immaginare, come limite superiore dell'ultima classe, il
valore di 120 minuti.
Una volta individuati i valori centrali di ogni classe, il procedimento è analogo a quello
visto in precedenza.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica per dati raggruppati in classi

Esempio:
227 studenti a cui è stato chiesto quanto tempo impiegassero per raggiungere l'Università
TEMPO PER RAGGIUNGERE Frequenze Frequenze Frequenze
L'UNIVERSITÀ assolute relative %
(in minuti) (n i ) (f i ) (p i )
0-20 84 0,37 37,0
20-40 81 0,36 35,7
40-60 44 0,19 19,4
>60 * 18 0,08 7,9
TOT 227 1,00 100,0

µ=
(10 × 84 ) + ( 30 × 81) + ( 50 × 44 ) + ( 90 ×18 )
= 31,2 minuti
227

* Per quest'ultima classe è stato considerato, come valore massimo, 120 minuti.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica per dati raggruppati in classi

Esempio 2:
Distribuzione dei punteggi finali dei laureati nei corsi di Economia della Federico II, per l’anno
solare 2015. Determinare il punteggio medio
Voto ni
81-90 380
91-100 450
101-105 262
106-110 113
110 e lode 48
Tot 1.253

Poiché il Voto è una variabile discreta, il limite superiore di una classe non coincide con il limite
inferiore della classe successiva.
Questo può portare ad una qualche confusione, soprattutto nella determinazione dell'ampiezza
delle classi e del valore centrale. Ad esempio, qual è l'ampiezza della classe 101-105? Se si
risponde in modo automatico, si è portati a dire "quattro" (105-101) ma, in realtà, il valore 101 è
compreso e, dunque, l'ampiezza è "cinque" (101, 102, 103, 104, 105).
Per risolvere il "problema" si può riscrivere la tabella, facendo in modo che il valore superiore di
una classe coincida con il valore inferiore della classe successiva, come nel caso di variabili
continue; occorrerà, però, specificare se i limiti inferiori e superiori di ciascuna classe
appartengono o meno alla classe stessa, cioè se la classe è una classe "aperta" o "chiusa",
utilizzando una simbologia opportuna.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica per dati raggruppati in classi

Esempio 2:
Distribuzione dei punteggi finali dei laureati nei corsi di Economia della Federico II, per l’anno
solare 2015. Determinare il punteggio medio
Voto ni Voto ni
81-90 380 80 -| 90 380
91-100 450 90 -| 100 450
101-105 262 100 -| 105 262
106-110 113 105 -| 110 113
110 e lode 48 110 e lode 48
Tot 1.253 Tot 1.253

Nella seconda tabella, le classi sono "aperte" a sinistra (il limite inferiore non è compreso) e
"chiuse" a destra (il limite superiore è compreso). In questo caso, l'ampiezza di ciascuna classe
può essere calcolato come differenza tra limite superiore e limite inferiore di ciascuna classe, e il
valore centrale potrà essere calcolato come il punto centrale di questa ampiezza.
1 k
(
µ = ∑ xi ⋅ ni = 1 85 × 380 + 95 × 450 +102,5 × 262 +107,5 ×113 +110 × 48
n i=1 1.253
)
119.332,5
=
1
1.253
(
32.300 + 42.750 + 26.855 +12.147,5 + 5.280 =
1.253
= 95,2 )

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica: le proprietà

1. Internalità
La media aritmetica è sempre compresa tra il minimo e il massimo della distribuzione osservata.

2. La media aritmetica come baricentro


La somma degli scarti dalla media aritmetica è nulla.
3. Linearità
Se la variabile X ha media µ, allora la variabile Y=α+βX ha media pari a α +βµ. Questo implica che:
1. Se si aggiunge o si sottrae una costante α alla variabile X, la media sarà modificata dello stesso
ammontare (caso β=1)
2. Se la variabile X è moltiplicata per un coefficiente β costante, la media risulterà moltiplicata per lo
stesso ammontare (caso α =0)

4. Proprietà associativa
La media di una variabile osservata in più gruppi può essere ottenuta come media delle medie dei
singoli gruppi, tenuto conto della eventuale differente numerosità:
n1 n2 nk
µ = µ1 × + µ2 × + … + µk ×
n n n

5. Minimizzazione dei quadrati degli scarti


∑( )
n 2
La media aritmetica rende minima la somma degli scarti al quadrato: xi − µ = min
i=1

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica: le proprietà

1. Internalità
La media aritmetica è sempre compresa tra il minimo e il massimo della distribuzione osservata.
Altezza e Peso di 20 studenti di una scuola media
ALTEZZA PESO
ID. A-M(A) P-M(P)
(cm) (kg)
1 171 80 13,7 25,3
2 165 48 7,7 -6,7
3 154 44 -3,3 -10,7
4 140 34 -17,4 -20,7
5 141 35 -16,4 -19,7
6 149 53 -8,3 -1,7
7 173 61 15,7 6,3
8 161 72 3,7 17,3
9 162 49 4,7 -5,7
10 158 75 0,7 20,3
11 173 76 15,7 21,3
12 138 35 -19,4 -19,7
13 157 53 -0,3 -1,7
14 157 58 -0,3 3,3
15 148 48 -9,3 -6,7
16 165 50 7,7 -4,7
17 168 65 10,7 10,3
18 154 65 -3,3 10,3
19 155 50 -2,3 -4,7
20 158 43 0,7 -11,7
SOMMA 3147,0 1094,0 0,00 0,00
MIN 138,0 34,0
MAX 173,0 80,0
MEDIA 157,4 54,7
LEZIONE 2 – GLI INDICI DI POSIZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica: le proprietà

2. La media aritmetica come baricentro


La somma degli scarti dalla media aritmetica è nulla.
Altezza e Peso di 20 studenti di una scuola media
ALTEZZA PESO
ID. A-M(A) P-M(P)
(cm) (kg)
1 171 80 13,7 25,3
2 165 48 7,7 -6,7
3 154 44 -3,3 -10,7
4 140 34 -17,4 -20,7
5 141 35 -16,4 -19,7
6 149 53 -8,3 -1,7
7 173 61 15,7 6,3
8 161 72 3,7 17,3
9 162 49 4,7 -5,7
10 158 75 0,7 20,3
11 173 76 15,7 21,3
12 138 35 -19,4 -19,7
13 157 53 -0,3 -1,7
14 157 58 -0,3 3,3
15 148 48 -9,3 -6,7
16 165 50 7,7 -4,7
17 168 65 10,7 10,3
18 154 65 -3,3 10,3
19 155 50 -2,3 -4,7
20 158 43 0,7 -11,7
SOMMA 3147,0 1094,0 0,00 0,00
MIN 138,0 34,0
MAX 173,0 80,0
MEDIA 157,4 54,7
LEZIONE 2 – GLI INDICI DI POSIZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica: le proprietà

2. La media aritmetica come baricentro


La somma degli scarti dalla media aritmetica è nulla.
Tempo impiegassero per raggiungere l'Università

TEMPO PER RAGGIUNGERE Frequenze Valore


L'UNIVERSITÀ assolute centrale (xi -µ)*ni
(in minuti) (n i ) (x i )
0-20 84 10 -1.783,6
20-40 81 30 -99,9
40-60 44 50 825,7
>60 18 90 1.057,8
TOT 227 0,0

µ=
(10 × 84) + ( 30 × 81) + (50 × 44) + (90 ×18) = 31,2 minuti
227

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica: le proprietà

3. Linearità
Se la variabile X ha media µ, allora la variabile Y=α+βX ha media pari a α +βµ.
Retribuzione mensile di 20 impiegati di un ufficio pubblico
RETRIBUZ.
ID. PREMIO
(€)
1 1.661 266,1 La Direzione decide di assegnare ad ogni impiegato un
2 2.215 321,5
3 1.737 273,7
premio "una tantum", pari ad un bonus di 100 euro più il
4 1.668 266,8 10% della retribuzione di ognuno.
5 1.791 279,1 Quanto sarà l'ammontare medio dei premi?
6 1.522 252,2
7 2.105 310,5
8 1.560 256
9 1.321 232,1
10 2.095 309,5
11 2.645 364,5
12 2.631 363,1
13 1.526 252,6
14 1.314 231,4
15 2.431 343,1
16 2.033 303,3
17 2.945 394,5
18 2.358 335,8
19 2.395 339,5
20 1.304 230,4
MEDIA 1962,9 296,3
a 100,0
b 0,10

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica: le proprietà

3. Linearità
Se la variabile X ha media µ, allora la variabile Y=α+βX ha media pari a α +βµ.
Retribuzione mensile di 20 impiegati di un ufficio pubblico
RETRIBUZ.
ID. PREMIO
(€)
1 1.661 266,1 La Direzione decide di assegnare ad ogni impiegato un
2 2.215 321,5
3 1.737 273,7
premio "una tantum", pari ad un bonus di 100 euro più il
4 1.668 266,8 10% della retribuzione di ognuno.
5 1.791 279,1 Quanto sarà l'ammontare medio dei premi?
6 1.522 252,2

( )
7 2.105 310,5
8 1.560 256 RETRIBUZ. = 1.661 ⇒ PREMIO = 100 + 0,1×1.661 = 266,1€
9 1.321 232,1
10 2.095 309,5
11 2.645 364,5
12 2.631 363,1
13 1.526 252,6
14 1.314 231,4
15 2.431 343,1
16 2.033 303,3
17 2.945 394,5
18 2.358 335,8
19 2.395 339,5
20 1.304 230,4
MEDIA 1962,9 296,3
a 100,0
b 0,10

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica: le proprietà

3. Linearità
Se la variabile X ha media µ, allora la variabile Y=α+βX ha media pari a α +βµ.
Retribuzione mensile di 20 impiegati di un ufficio pubblico
RETRIBUZ.
ID. PREMIO
(€)
1 1.661 266,1 La Direzione decide di assegnare ad ogni impiegato un
2 2.215 321,5
3 1.737 273,7
premio "una tantum", pari ad un bonus di 100 euro più il
4 1.668 266,8 10% della retribuzione di ognuno.
5 1.791 279,1 Quanto sarà l'ammontare medio dei premi?
6 1.522 252,2

( )
7 2.105 310,5
8 1.560 256 RETRIBUZ. = 1.661 ⇒ PREMIO = 100 + 0,1×1.661 = 266,1€
9 1.321 232,1

( )
10 2.095 309,5
11 2.645 364,5 MPREMIO = 100 + 0,1×1.962,9 = 296,3€
12 2.631 363,1
13 1.526 252,6
14 1.314 231,4
15 2.431 343,1
16 2.033 303,3
17 2.945 394,5
18 2.358 335,8
19 2.395 339,5
20 1.304 230,4
MEDIA 1962,9 296,3
a 100,0
b 0,10

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica: le proprietà

4. Proprietà associativa
La media di una variabile osservata in più gruppi può essere ottenuta come media delle medie dei
singoli gruppi, tenuto conto della eventuale differente numerosità:
Retribuzione mensile di 20 impiegati di un ufficio pubblico
RETRIBUZ. RETRIBUZ.
ID. LIVELLO ID. LIVELLO
(€) (€)
1 1.661 1 1 1.661 1
2 2.215 2 4 1.668 1
3 1.737 2 6 1.522 1
4 1.668 1 8 1.560 1
5 1.791 2 9 1.321 1
6 1.522 1 13 1.526 1
7 2.105 2 14 1.314 1
8 1.560 1 20 1.304 1
9 1.321 1 2 2.215 2
10 2.095 2 3 1.737 2
11 2.645 2 5 1.791 2
12 2.631 2 7 2.105 2
13 1.526 1 10 2.095 2
14 1.314 1 11 2.645 2
15 2.431 2 12 2.631 2
16 2.033 2 15 2.431 2
17 2.945 2 16 2.033 2
18 2.358 2 17 2.945 2
19 2.395 2 18 2.358 2
20 1.304 1 19 2.395 2
MEDIA 1.962,9

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica: le proprietà

4. Proprietà associativa
La media di una variabile osservata in più gruppi può essere ottenuta come media delle medie dei
singoli gruppi, tenuto conto della eventuale differente numerosità:
Retribuzione mensile di 20 impiegati di un ufficio pubblico
RETRIBUZ. RETRIBUZ.
ID. LIVELLO ID. LIVELLO
(€) (€)
1 1.661 1 1 1.661 1
2 2.215 2 4 1.668 1
3 1.737 2 6 1.522 1
4 1.668 1 8 1.560 1
5 1.791 2 9 1.321 1
6 1.522 1 13 1.526 1
7 2.105 2 14 1.314 1 1.661+1.668 + … +1.304 11.876
8 1.560 1 20 1.304 1
MLiv1 = = = 1.484,5
9 1.321 1 2 2.215 2
8 8
10 2.095 2 3 1.737 2
11 2.645 2 5 1.791 2
12 2.631 2 7 2.105 2
13 1.526 1 10 2.095 2
14 1.314 1 11 2.645 2
15 2.431 2 12 2.631 2
16 2.033 2 15 2.431 2
17 2.945 2 16 2.033 2
18 2.358 2 17 2.945 2 2.215 +1.737 + … + 2.395 27.381
19 2.395 2 18 2.358 2 MLiv2 = = = 2.281,8
20 1.304 1 19 2.395 2 12 12
MEDIA 1.962,9

M=
(1.484,5 × 8 ) + ( 2.281,8 ×12 ) 11.876,0 + 27.381,6
= = 1.962,9
20 20

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica: le proprietà

4. Proprietà associativa
La media di una variabile osservata in più gruppi può essere ottenuta come media delle medie dei
singoli gruppi, tenuto conto della eventuale differente numerosità:
Retribuzione mensile di 20 impiegati di un ufficio pubblico
RETRIBUZ. RETRIBUZ.
ID. LIVELLO ID. LIVELLO
(€) (€)
1 1.661 1 1 1.661 1
2 2.215 2 4 1.668 1
3 1.737 2 6 1.522 1
4 1.668 1 8 1.560 1
5 1.791 2 9 1.321 1
6 1.522 1 13 1.526 1
7 2.105 2 14 1.314 1 1.661+1.668 + … +1.304 11.876
8 1.560 1 20 1.304 1
MLiv1 = = = 1.484,5
9 1.321 1 2 2.215 2
8 8
10 2.095 2 3 1.737 2
11 2.645 2 5 1.791 2
12 2.631 2 7 2.105 2
13 1.526 1 10 2.095 2
14 1.314 1 11 2.645 2
15 2.431 2 12 2.631 2
16 2.033 2 15 2.431 2
17 2.945 2 16 2.033 2
18 2.358 2 17 2.945 2 2.215 +1.737 + … + 2.395 27.381
19 2.395 2 18 2.358 2 MLiv2 = = = 2.281,8
20 1.304 1 19 2.395 2 12 12
MEDIA 1.962,9

8 12
M = 1.484,5 × + 2.281,8 × = 1.962,9
20 20

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica: le proprietà

5. Minimizzazione dei quadrati degli scarti


La media aritmetica rende minima la somma degli scarti al quadrato:
Peso di 20 studenti di una scuola media
PESO
ID. (xi-µ) 2 (xi-40) 2 (xi-60) 2
(kg)
1 80 640,1 1.600,0 400,0
2 48 44,9 64,0 144,0
3 44 114,5 16,0 256,0
4 34 428,5 36,0 676,0
5 35 388,1 25,0 625,0
6 53 2,9 169,0 49,0
7 61 39,7 441,0 1,0
8 72 299,3 1.024,0 144,0
9 49 32,5 81,0 121,0
10 75 412,1 1.225,0 225,0
11 76 453,7 1.296,0 256,0
12 35 388,1 25,0 625,0
13 53 2,9 169,0 49,0
14 58 10,9 324,0 4,0
15 48 44,9 64,0 144,0
16 50 22,1 100,0 100,0
17 65 106,1 625,0 25,0
18 65 106,1 625,0 25,0
19 50 22,1 100,0 100,0
20 43 136,9 9,0 289,0
SOMMA 1.094,0 3.696,2 8.018,0 4.258,0
MEDIA 54,7

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica: le proprietà

5. Minimizzazione dei quadrati degli scarti


La media aritmetica rende minima la somma degli scarti al quadrato:
Peso di 20 studenti di una scuola media
PESO
ID. (xi-µ) 2 (xi-40) 2 (xi-60) 2
(kg)
1 80 640,1 1.600,0 400,0
2 48 44,9 64,0 144,0
3 44 114,5 16,0 256,0
4 34 428,5 36,0 676,0 Qualsiasi valore si consideri, diverso dalla
5 35 388,1 25,0 625,0
6 53 2,9 169,0 49,0 media aritmetica, produrrà, nella somma dei
7 61 39,7 441,0 1,0 quadrati degli scarti, un risultato superiore a
8 72 299,3 1.024,0 144,0
9 49 32,5 81,0 121,0
quello ottenuto utilizzando la media stessa.
10 75 412,1 1.225,0 225,0
11 76 453,7 1.296,0 256,0
12 35 388,1 25,0 625,0
13 53 2,9 169,0 49,0
14 58 10,9 324,0 4,0
15 48 44,9 64,0 144,0
16 50 22,1 100,0 100,0
17 65 106,1 625,0 25,0
18 65 106,1 625,0 25,0
19 50 22,1 100,0 100,0
20 43 136,9 9,0 289,0
SOMMA 1.094,0 3.696,2 8.018,0 4.258,0
MEDIA 54,7

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizio
Altezza Frequenza
132 1
138 1 La tabella riporta le altezze (in cm) di 240 studenti di una scuola
139 3
140 3 secondaria di primo grado.
141 1
142 3 1. Calcolare la media aritmetica
143 3
144 5 2. Raggruppare i dati in classi di uguale ampiezza (10 cm) e calcolare
145
146
6
5
di nuovo la media aritmetica utilizzando il valore centrale di ogni
147 5 classe.
148 9
149 9
150 11
151 9
152 8
153 6
154 11
155 17
156 10
157 8
158 11
159 11
160 9
161 14
162 10
163 10
164 7
165 7
166 3
167 2
168 8
169 2
170 4
171 2
172 1
173 2
174 1
175 1
180 1 LEZIONE 2 – GLI INDICI DI POSIZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizio
Altezza Frequenza
132 1
138 1 La tabella riporta le altezze (in cm) di 240 studenti di una scuola
139 3
140 3 secondaria di primo grado.
141 1
142 3 1. Calcolare la media aritmetica
143 3
144 5 2. Raggruppare i dati in classi di uguale ampiezza (10 cm) e calcolare
145
146
6
5
di nuovo la media aritmetica utilizzando il valore centrale di ogni
147 5 classe.
148 9

(132 ×1) + (138 ×1) + (139 × 3 ) + … + (175 ×1) + (180 ×1) 37.436
149 9
150 11
151 9
152 8
M= = = 156,0
153 6 240 240
154 11
155 17
156 10
157 8
158 11
159 11
160 9
161 14
162 10
163 10
164 7
165 7
166 3
167 2
168 8
169 2
170 4
171 2
172 1
173 2
174 1
175 1
180 1 LEZIONE 2 – GLI INDICI DI POSIZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizio
Altezza Frequenza
132 1
138 1 La tabella riporta le altezze (in cm) di 240 studenti di una scuola
139 3
140 3 secondaria di primo grado.
141 1
142 3 1. Calcolare la media aritmetica
143 3
144 5 2. Raggruppare i dati in classi di uguale ampiezza (10 cm) e calcolare
145 6
146 5
di nuovo la media aritmetica utilizzando il valore centrale di ogni
147 5 classe.
148 9
149 9 VALORE
150 11 CLASSI FREQUENZA xi*ni
CENTRALE
151 9
152 8 130|-140 5 135 675
153 6 140|-150 49 7.105
145
154 11
155 17 150|-160 102 155 15.810
156 10 160|-170 72 11.880
165
157 8
158 11 170|-180 11 175 1.925
159 11 180 1 180
160 9 180
161 14 240 37.575
162 10

(135 × 5) + (145 × 49) + (155 ×102) + (165 × 72) + (175 ×11) + (180 ×1) = 37.575 = 156,6
163 10
164 7
165 7 M=
166 3 240 240
167 2
168 8 COMMENTO: Il risultato è diverso dal valore reale della media, calcolato precedentemente
169 2
170 4 utilizzando i veri valori della distribuzione. È il "prezzo" che si paga per la maggiore sintesi che
171 2 una distribuzione in classi di valori presenta rispetto alla distribuzione di frequenza.
172 1
173 2
Se le classi sono formate in modo corretto, questa differenza può non essere particolarmente
174 1 rilevante.
175 1
180 1 LEZIONE 2 – GLI INDICI DI POSIZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica ponderata

Il medagliere di Tokyo 2020


PAESE TOT

1 USA 39 41 33 113
2 CINA 38 32 18 88
3 GIAPPONE 27 14 17 58
4 GRAN BRETAGNA 22 21 22 65
5 ROC (Russian Olympic Committee) 20 28 23 71
6 AUSTRALIA 17 7 22 46
7 OLANDA 10 12 14 36
8 FRANCIA 10 12 11 33
9 GERMANIA 10 11 16 37
10 ITALIA 10 10 20 40

La classifica viene convenzionalmente stilata secondo il numero di medaglie d’oro vinte e


non secondo il numero totale di medaglie. Questo spiega perché, ad esempio, il
Giappone preceda nella classifica la Gran Bretagna, che ha un numero complessivo di
medaglie più alto ma un numero minore di medaglie d’oro.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica ponderata

Il medagliere di Tokyo 2020


(Ordinato secondo il numero di medaglie d'oro)

PAESE TOT

1 USA 39 41 33 113 Se stiliamo la classifica sulla base delle


2 CINA 38 32 18 88
medaglie d’oro, non teniamo in nessun
3 GIAPPONE 27 14 17 58
4 GRAN BRETAGNA 22 21 22 65
conto gli argenti e i bronzi.
5 ROC (Russian Olympic Committee) 20 28 23 71
6 AUSTRALIA 17 7 22 46
7 OLANDA 10 12 14 36
8 FRANCIA 10 12 11 33
9 GERMANIA 10 11 16 37
10 ITALIA 10 10 20 40

(Ordinato secondo il numero complessivo di medaglie)

PAESE TOT

1 USA 39 41 33 113
Se stiliamo la classifica sulla base del
2 CINA 38 32 18 88
numero complessivo di medaglie, diamo
3 ROC (Russian Olympic Committee) 20 28 23 71
4 GRAN BRETAGNA 22 21 22 65 peso uguale a tutti i “metalli” (oro, argento
5 GIAPPONE 27 14 17 58 e bronzo).
6 AUSTRALIA 17 7 22 46
7 ITALIA 10 10 20 40
8 GERMANIA 10 11 16 37
9 OLANDA 10 12 14 36
10 FRANCIA 10 12 11 33

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica ponderata

Il medagliere di Tokyo 2020


PAESE TOT

1 USA 39 41 33 113
Se stiliamo la classifica sulla base delle
2 CINA 38 32 18 88
medaglie d’oro, non teniamo in nessun
3 GIAPPONE 27 14 17 58
4 GRAN BRETAGNA 22 21 22 65
conto gli argenti e i bronzi.
5 ROC (Russian Olympic Committee) 20 28 23 71
6 AUSTRALIA 17 7 22 46
7 OLANDA 10 12 14 36
8
9
10
FRANCIA
GERMANIA
ITALIA
10
10
10
12
11
10
11
16
20
33
37
40
Una possibile soluzione può essere quella di dare
(Ordinato secondo il numero complessivo di medaglie) pesi diversi alle diverse medaglie: per esempio, si
1
PAESE

USA 39 41 33
TOT

113
Se stiliamo la classifica sulla base del
può immaginare che una medaglia d’oro valga il
doppio di una medaglia d’argento che, a sua volta,
2 CINA 38 32 18 88
numero complessivo di medaglie, diamo
3 ROC (Russian Olympic Committee) 20 28 23 71
4 GRAN BRETAGNA 22 21 22 65
peso uguale a tutti i “metalli” (oro, argento
e bronzo).

valga 1,5 volte una medaglia di bronzo.


5 GIAPPONE 27 14 17 58
6 AUSTRALIA 17 7 22 46
7 ITALIA 10 10 20 40

(sono le proporzioni utilizzate dal CONI per definire i premi degli


8 GERMANIA 10 11 16 37
9 OLANDA 10 12 14 36
10 FRANCIA 10 12 11 33

atleti a Tokyo 2020: 180mila euro per una medaglia d'oro, 90mila
per un argento e 60mila per un bronzo)

Quindi, i pesi delle diverse medaglie sono in rapporto 18:9:6, e i fattori di ponderazione
(che per consuetudine devono sommare a 1) saranno:
18 9 6
ORO: = 0,545 ARGENTO: = 0,273 BRONZO: = 0,182
18 + 9 + 6 18 + 9 + 6 18 + 9 + 6

Utilizzando questi pesi, è possibile ricalcolare il medagliere.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica ponderata

Il medagliere di Tokyo 2020 (riponderato)


MEDIA
PAESE PONDERATA
TOT

1 USA 39x0,545 41x0,273 33x0,182 38,5 115,4


2 CINA 38x0,545 32x0,273 18x0,182 32,7 98,2
3 ROC (Russian Olympic Committee) 20x0,545 28x0,273 23x0,182 22,7 68,2
4 GRAN BRETAGNA 22x0,545 21x0,273 22x0,182 21,7 65,2
5 GIAPPONE 27x0,545 14x0,273 17x0,182 21,6 64,9
6 AUSTRALIA 17x0,545 7x0,273 22x0,182 15,2 45,5
7 ITALIA 10x0,545 10x0,273 20x0,182 11,8 35,5
8 GERMANIA 10x0,545 11x0,273 16x0,182 11,4 34,1
9 OLANDA 10x0,545 12x0,273 14x0,182 11,3 33,8
10 FRANCIA 10x0,545 12x0,273 11x0,182 10,7 32,2

Sulla base di questi


MEDIA MEDIA
nuovi valori, PAESE PAESE PONDERATA
TOT
PONDERATA
TOT
è possibile stilare la 1 USA 1 USA 39x0,545 41x0,273
39x0,545 33x0,182
41x0,273 33x0,182
38,5 38,5
115 115
classifica riponderata. 2 CINA 2 CINA 38x0,545 32x0,273
38x0,545 18x0,182
32x0,273 18x0,182
32,7 32,7
98 98
3 ROC (Russian
3 Olympic
ROCCommittee) 20x0,545
(Russian Olympic Committee) 28x0,273
20x0,545 23x0,182
28x0,273 23x0,182
22,7 22,7
68 68
4 GRAN BRETAGNA
4 GRAN BRETAGNA 22x0,545 21x0,273
22x0,545 22x0,182
21x0,273 22x0,182
21,7 21,7
65 65
5 GIAPPONE
5 GIAPPONE 27x0,545 14x0,273
27x0,545 17x0,182
14x0,273 17x0,182
21,6 21,6
65 65
6 AUSTRALIA
6 AUSTRALIA 17x0,545 17x0,545
7x0,273 22x0,182
7x0,273 22x0,182
15,2 15,2
46 46
7 ITALIA 7 ITALIA 10x0,545 10x0,273
10x0,545 20x0,182
10x0,273 20x0,182
11,8 11,8
35 35
8 GERMANIA
8 GERMANIA 10x0,545 11x0,273
10x0,545 16x0,182
11x0,273 16x0,182
11,4 11,4
34 34
9 OLANDA 9 OLANDA 10x0,545 12x0,273
10x0,545 14x0,182
12x0,273 14x0,182
11,3 11,3
34 34
10 FRANCIA
10 FRANCIA 10x0,545 12x0,273
10x0,545 11x0,182
12x0,273 11x0,182
10,7 10,7
32 32

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica ponderata

Il medagliere di Tokyo 2020


(Ordinato secondo il numero di medaglie d'oro)

PAESE TOT

1 USA 39 41 33 113
2 CINA 38 32 18 88
3 GIAPPONE 27 14 17 58
4 GRAN BRETAGNA 22 21 22 65
5 ROC (Russian Olympic Committee) 20 28 23 71
6 AUSTRALIA 17 7 22 46 (Ordinato secondo il numero di medaglie riponderate)
7 OLANDA 10 12 14 36
MEDIA MEDIA
8 FRANCIA 10 12 11 33 PAESE PAESE TOT TOT
PONDERATA PONDERATA
9 GERMANIA 10 11 16 37
10 ITALIA 10 10 20 40 1 USA 1 USA 39x0,545 41x0,273
39x0,545 33x0,182
41x0,273 33x0,182
38,5 115
38,5 115
2 CINA 2 CINA 38x0,545 32x0,273
38x0,545 18x0,182
32x0,273 18x0,182
32,7 98
32,7 98
3 ROC (Russian
3 Olympic
ROC Committee) 20x0,545
(Russian Olympic Committee)28x0,273
20x0,545 23x0,182
28x0,273 23x0,182
22,7 68
22,7 68
(Ordinato secondo il numero complessivo di medaglie) 4 GRAN BRETAGNA
4 GRAN BRETAGNA 22x0,545 21x0,273
22x0,545 22x0,182
21x0,273 22x0,182
21,7 65
21,7 65
5 GIAPPONE5 GIAPPONE 27x0,545 14x0,273
27x0,545 17x0,182
14x0,273 17x0,182
21,6 65
21,6 65
PAESE TOT 6 AUSTRALIA
6 AUSTRALIA 17x0,545 7x0,273
17x0,545 22x0,182
7x0,273 22x0,182
15,2 46
15,2 46
7 ITALIA 7 ITALIA 10x0,545 10x0,273
10x0,545 20x0,182
10x0,273 20x0,182
11,8 35
11,8 35
1 USA 39 41 33 113
8 GERMANIA8 GERMANIA 10x0,545 11x0,273
10x0,545 16x0,182
11x0,273 16x0,182
11,4 34
11,4 34
2 CINA 38 32 18 88
9 OLANDA 9 OLANDA 10x0,545 12x0,273
10x0,545 14x0,182
12x0,273 14x0,182
11,3 34
11,3 34
3 ROC (Russian Olympic Committee) 20 28 23 71
10 FRANCIA10 FRANCIA 10x0,545 12x0,273
10x0,545 11x0,182
12x0,273 11x0,182
10,7 32
10,7 32
4 GRAN BRETAGNA 22 21 22 65
5 GIAPPONE 27 14 17 58
6 AUSTRALIA 17 7 22 46
7 ITALIA 10 10 20 40
8 GERMANIA 10 11 16 37
9 OLANDA 10 12 14 36
10 FRANCIA 10 12 11 33

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica ponderata

Carriere di due studenti ad un Master


VOTI VOTI VOTO*CRED VOTO*CRED
Esame Crediti
STUDENTE 1 STUDENTE 2 STUDENTE 1 STUDENTE 2
1 6 30 22 Se 180
calcolassimo132
la media semplice dei voti dei
2 5 28 22 140 110
due studenti, otterremmo lo stesso valore:
3 12 22 28 264 336 394
4 8 28 25 224 µ=
200 = 26,3
5 9 27 25 243 225 15
6 9 30 28 In 270
questo modo,252 però, non terremmo conto del
7 7 24 30 diverso
168 "peso" degli 210esami: un buon risultato ottenuto
8 5 30 30 ad150
un esame più 150difficile deve valere di più dello
9 12 20 28 stesso
240 risultato ottenuto
336 ad un esame più semplice.
10 5 30 20 150
Oltretutto, i due100 studenti sembrano avere
11 10 23 28 230 280
caratteristiche abbastanza diverse: lo Studente 1 va
12 6 28 26 168 156
bene agli esami più semplici, meno bene a quelli
13 10 22 30 220 300
più difficili, mentre il contrario vale per lo Studente 2.
14 4 30 22 120 88
15 12 22 30 264 360
TOT 120 394 394 3031 3235

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica ponderata

Carriere di due studenti ad un Master


VOTI VOTI
Esame Crediti
STUDENTE 1 STUDENTE 2
1 6 30 22 Il voto medio andrà dunque calcolato
2 5 28 22 "pesando" i diversi esami. In particolare, si
3 12 22 28 utilizzeranno, come fattori di ponderazione, i
4 8 28 25
crediti attribuiti a ciascun esame.
5 9 27 25
La media sarà data da:
6 9 30 28
15
7 7 24 30
8 5 30 30
∑ x i ⋅ pi
9 12 20 28
µ= i =1
15
10 5 30 20 ∑ pi
11 10 23 28 i =1

12 6 28 26
13 10 22 30
14 4 30 22
15 12 22 30
TOT 120 394 394

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media aritmetica ponderata

Carriere di due studenti ad un Master


VOTI VOTI VOTO*CRED VOTO*CRED
Esame Crediti
STUDENTE 1 STUDENTE 2 STUDENTE 1 STUDENTE 2
1 6 30 22 180 132
2 5 28 22 140 110
3 12 22 28 264 336
4 8 28 25 224 200
5 9 27 25 243 225
6 9 30 28 270 252
7 7 24 30 168 210
8 5 30 30 150 150
9 12 20 28 240 336
10 5 30 20 150 100
11 10 23 28 230 280
12 6 28 26 168 156
13 10 22 30 220 300
14 4 30 22 120 88
15 12 22 30 264 360
TOT 120 394 394 3031 3235
15

∑x ⋅p i i
3.031 3.235
µ= i=1
15
µ1 = = 25,3 µ2 = = 27,0
120 120
∑p i
i=1

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le medie “robuste”: la mediana

Esempio:
15 studenti a cui è stato chiesto quanti soldi avessero con sé:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

€ 42 50 19 700 45 30 49 34 26 14 29 39 24 5 25

42 + 50 +19 + … + 5 + 25
Calcoliamo la media aritmetica: µ = = 75,4
15
E’ chiaro che in questo caso la media aritmetica non avrebbe alcun senso; è molto più
bassa di quanto possieda il soggetto più "ricco" (numero 4), ed è molto più alta di quanto
abbia in tasca il più “ricco” degli altri 14 studenti.
In altri termini, la media aritmetica non è in grado di rappresentare né l’uno né gli altri.
Il motivo è che la distribuzione presenta un valore chiaramente “anomalo” (potrebbe anche
trattarsi di un errore di digitazione, volevamo scrivere 70 e abbiamo scritto 700), che rende la
media aritmetica inattendibile e richiede indici che siano, invece, più “resistenti” a questi
valori.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le medie “robuste”: la mediana

Le medie robuste sono indici che tengono conto dell'ordinamento di una distribuzione, e
risultano uguali ai valori che, nella distribuzione ordinata, occupano posizioni caratteristiche.
La mediana, ad esempio, è il valore che occupa la posizione centrale di una
distribuzione ordinata in modo non decrescente.
NOTA: Una distribuzione non decrescente è una distribuzione in cui un valore può essere uguale a quello che lo precede ma
non può essere più piccolo. Una distribuzione ordinata in senso crescente, invece, è una distribuzione in cui ogni valore è
maggiore di quello che lo precede.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Distribuzione iniziale

42 50 19 700 45 30 49 34 26 14 29 39 24 5 25

Distribuzione ordinata 14 10 3 13 15 9 11 6 8 12 1 5 7 2 4
in modo non decrescente
5 14 19 24 25 26 29 30 34 39 42 45 49 50 700

Nella distribuzione ordinata, si individua la posizione centrale, e se ne osserva il valore,


che rappresenterà, dunque, la mediana della distribuzione.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le medie “robuste”: la mediana

Le medie robuste sono indici che tengono conto dell'ordinamento di una distribuzione, e
risultano uguali ai valori che, nella distribuzione ordinata, occupano posizioni caratteristiche.
La mediana, ad esempio, è il valore che occupa la posizione centrale di una
distribuzione ordinata in modo non decrescente.
NOTA: Una distribuzione non decrescente è una distribuzione in cui un valore può essere uguale a quello che lo precede ma
non può essere più piccolo. Una distribuzione ordinata in senso crescente, invece, è una distribuzione in cui ogni valore è
maggiore di quello che lo precede.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Distribuzione iniziale

42 50 19 700 45 30 49 34 26 14 29 39 24 5 25

Distribuzione ordinata 14 10 3 13 15 9 11 6 8 12 1 5 7 2 4
in modo non decrescente
5 14 19 24 25 26 29 30 34 39 42 45 49 50 700

Nella distribuzione ordinata, si individua la posizione centrale, e se ne osserva il valore,


che rappresenterà, dunque, la mediana della distribuzione.
Nel nostro esempio, la posizione mediana è l'8a, che corrisponde allo studente 6. Il
valore mediano è 30 euro.
NOTA: Un errore molto comune è quello di confondere la posizione mediana con il valore mediano. Per evitare
confusione, occorre ricordare che la mediana è un indice sintetico della variabile considerata, ed è quindi
espressa nell’unità di misura della variabile (come la media).

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le medie “robuste”: la mediana

La mediana
La mediana, Me, è il valore assunto dall'unità statistica che occupa la posizione
centrale della distribuzione ordinata in modo non decrescente.
E’ un indice “robusto” in quanto non dipende da variazioni che si verificano nelle
code della distribuzione (dove si possono trovare i c.d. “valori anomali”).

I passi per il calcolo della mediana


1. Si ordina la distribuzione in modo non decrescente

2. Si individua la posizione mediana:


• n dispari (la posizione mediana è unica): ( )
P Me =
n +1
2
• n pari (due posizioni mediane): ( ) n n
P Me = ; +1
2 2

3. Si osserva il valore che occupa la posizione mediana


(Se n è pari, si può fare la media aritmetica dei due valori centrali, oppure, in particolare quando n è grande, si
può considerare il valore di una delle due posizioni).

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le medie “robuste”: la mediana I passi per il calcolo della mediana


1. Si ordina la distribuzione in modo non decrescente
2. Si individua la posizione mediana:
3. Si osserva il valore che occupa la posizione mediana
La mediana

Esempio:
Frequenza Freq. Cum. 1. In questo esempio, la distribuzione è già ordinata.
Età
(n) (N)
2. Poiché n è dispari (227), la posizione mediana è
18 6 6
unica, ed è la 114°.
19 51 57
3. Osservando la colonna delle frequenze cumulate,
20 73 130
possiamo calcolare il valore mediano. Infatti, è facile
21 41 171
osservare che lo studente che occupa la 114°
22 21 192 posizione della distribuzione ordinata ha 20 anni.
23 16 208
24 11 219 Med(X) = 20 anni
25 8 227
TOT 227 /

Nota: Se n fosse stato pari, per esempio 226 (uno studente in meno) o 228 (uno studente in più), non
sarebbe cambiato assolutamente nulla.
Qualsiasi età avesse avuto lo studente eliminato (o lo studente aggiunto), le due posizioni mediane
avrebbero "puntato" a due unità con lo stesso valore della variabile (in questo caso, 20 anni), e il valore
mediano sarebbe stato uguale al caso precedente.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le medie “robuste”: la mediana

La mediana per dati raggruppati in classi


Quando i dati sono raggruppati in classi, occorrerà prima individuare la classe
mediana e, poi, il valore mediano all'interno della classe.
Più precisamente, una volta individuata la classe mediana, il valore mediano sarà
individuato dalla formula:
N −N
2 Cl Prec
( )
Me = Linf + ×c
nCl
avendo indicato con:
( Med)

Linf il limite inferiore della classe mediana

NCl(Prec) la frequenza cumulata fino alla classe precedente la classe mediana


nCl(Med) la frequenza della classe mediana

c L'ampiezza della classe mediana

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le medie “robuste”: la mediana I passi per il calcolo della mediana


1. Si ordina la distribuzione in modo non decrescente
2. Si individua la posizione mediana:
3. Si osserva il valore che occupa la posizione mediana
La mediana per dati raggruppati in classi

Esempio:
Tempo per 1. Anche in questo caso, la distribuzione è già
Frequenza Freq. Cum.
raggiungere la Facoltà (n) (N) ordinata.
(in minuti)
0-20 84 84 2. Poiché n è dispari (227), la posizione mediana
20-40 81 165 è unica, ed è la 114°.
40-60 44 209 3. Osservando la colonna delle frequenze
>60 18 227 cumulate, possiamo individuare la classe
TOT 227 / mediana, che sarà la seconda, 20-40 minuti.
All'interno di questa classe, dovremo individuare
il valore mediano.

N − NCl
2 (Prec ) 114 − 84
Me = Linf + × c = 20 + ⋅ 20 = 27,4 minuti
nCl 81
( Med)

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le medie “robuste”: la mediana

Le proprietà della mediana

• La mediana minimizza gli scarti presi in valore assoluto: ∑ x − Med = min


i
i

• La mediana (a differenza della media) è sempre un valore realmente osservato nella


popolazione.

• La mediana è rappresentativa della posizione della distribuzione anche in presenza di valori


“estremi”, notevolmente diversi da tutti gli altri (robustezza o resistenza della mediana).
Questo perché il calcolo della mediana tiene conto solo dell’ordinamento delle osservazioni,
limitandosi a considerare la modalità dell’elemento collocato al centro della graduatoria
ordinata.
Nota – Naturalmente, proprio perché determinata dalla modalità centrale, la mediana è
estremamente sensibile alle modifiche indotte nel corpo centrale della distribuzione, e va quindi
utilizzata con estrema cautela quando la differenza tra due popolazioni è rilevante proprio nel centro
della distribuzione ordinata delle modalità.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli altri indici robusti: i quartili, i decili, i percentili

Utilizzando la stessa logica che ci ha accompagnato nella determinazione del valore


mediano, è possibile individuare altri indici robusti, caratteristici di una distribuzione ordinata.
In particolare, a seconda che la distribuzione ordinata, anziché in due, come nel caso della
mediana, venga suddivisa in quattro, dieci o cento parti, i valori caratteristici di queste
divisioni verranno definiti, rispettivamente, quartili, decili e percentili.
Ad esempio, il primo quartile è quel valore della distribuzione ordinata che ha, alla sua
sinistra, il 25% dei valori e, alla sua destra, il rimanente 75%, e così via. Il secondo quartile è,
ovviamente la mediana.
Il primo decile è quel valore della distribuzione ordinata che ha, alla sua sinistra, il 10% dei
valori e, alla sua destra, il rimanente 90%, e così via. Il quinto decile è, ovviamente la
mediana.
Il primo percentile è quel valore della distribuzione ordinata che ha, alla sua sinistra, l'1% dei
valori e, alla sua destra, il rimanente 99%, e così via. Il cinquantesimo percentile è,
ovviamente la mediana.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli altri indici robusti: i quartili, i decili, i percentili

Esempio
Frequenza Freq. Rel. Freq. Perc. Freq. Cum. Freq. Rel. Cum. Freq. Perc. Cum.
Età
(n) (f) (p) (N) (F) (P)
18 6 0,026 2,64 6 0,026 2,643
19 51 0,225 22,47 57 0,251 25,110
20 73 0,322 32,16 130 0,573 57,269
21 41 0,181 18,06 171 0,753 75,330
22 21 0,093 9,25 192 0,846 84,581
23 16 0,070 7,05 208 0,916 91,630
24 11 0,048 4,85 219 0,965 96,476
25 8 0,035 3,52 227 1,000 100,000
TOT 227 1,000 100,00 / / /

Calcolare:
• Il 3° quartile
• Il 1° decile
• Il 90° percentile

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli altri indici robusti: i quartili, i decili, i percentili

Esempio
Frequenza Freq. Rel. Freq. Perc. Freq. Cum. Freq. Rel. Cum. Freq. Perc. Cum.
Età
(n) (f) (p) (N) (F) (P)
18 6 0,026 2,64 6 0,026 2,643
19 51 0,225 22,47 57 0,251 25,110
20 73 0,322 32,16 130 0,573 57,269
21 41 0,181 18,06 171 0,753 75,330
22 21 0,093 9,25 192 0,846 84,581
23 16 0,070 7,05 208 0,916 91,630
24 11 0,048 4,85 219 0,965 96,476
25 8 0,035 3,52 227 1,000 100,000
TOT 227 1,000 100,00 / / /

Calcolare:
• Il 3° quartile (risp.: 21)
• Il 1° decile (risp.: 19)
• Il 90° percentile (risp.: 23)

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli altri indici robusti: i quartili, i decili, i percentili

Esempio con dati raggruppati in classi


Tempo per Freq. Rel. Freq. Perc.
Frequenza Freq. Rel. Freq. Perc. Freq. Cum.
raggiungere la Facoltà Cum. Cum.
(n) (f) (p) (N)
(in minuti) (F) (P)

0-20 84 0,370 37,0 84 0,370 37,0


20-40 81 0,357 35,7 165 0,727 72,7
40-60 44 0,194 19,4 209 0,921 92,1
>60 18 0,079 7,9 227 1,000 100,0
TOT 227 1,000 100,0 / / /

Si applica, adattandola, la stessa formula vista per la mediana:


k⋅N − NCl
Linf il limite inferiore della classe che contiene il quantile q (Prec )
Qu = Linf + ×c
k lo specifico quantile cercato
nCl
(Qu)

q Il numero di quantili (4 se quartili; 10 se decili; 100 se percentili, ecc.)


NCl la frequenza cumulata fino alla classe precedente la classe quantile
(Pr ec)
nCl la frequenza della classe quantile
(Qu)
c l'ampiezza della classe quantile

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli altri indici robusti: i quartili, i decili, i percentili

Esempio con dati raggruppati in classi


Tempo per Freq. Rel. Freq. Perc.
Frequenza Freq. Rel. Freq. Perc. Freq. Cum.
raggiungere la Facoltà Cum. Cum.
(n) (f) (p) (N)
(in minuti) (F) (P)

0-20 84 0,370 37,0 84 0,370 37,0


20-40 81 0,357 35,7 165 0,727 72,7
40-60 44 0,194 19,4 209 0,921 92,1
>60 18 0,079 7,9 227 1,000 100,0
TOT 227 1,000 100,0 / / /

Calcolare:
• Il 3° quartile k⋅N − NCl
• Il 2° decile q (Prec )
Qu = Linf + ×c
• Il 90° percentile nCl
(Qu)

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli altri indici robusti: i quartili, i decili, i percentili

Esempio con dati raggruppati in classi


Tempo per Freq. Rel. Freq. Perc.
Frequenza Freq. Rel. Freq. Perc. Freq. Cum.
raggiungere la Facoltà Cum. Cum.
(n) (f) (p) (N)
(in minuti) (F) (P)

0-20 84 0,370 37,0 84 0,370 37,0


20-40 81 0,357 35,7 165 0,727 72,7
40-60 44 0,194 19,4 209 0,921 92,1
>60 18 0,079 7,9 227 1,000 100,0
TOT 227 1,000 100,0 / / /

Calcolare:
• Il 3° quartile (risp.: 42,4) k⋅N − NCl
• Il 2° decile (risp.: 10,8) q (Prec )
Qu = Linf + ×c
• Il 90° percentile (risp.: 57,9) nCl
(Qu)

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli altri indici robusti: i quartili, i decili, i percentili

Esercizio
Si riporta, di seguito, la distribuzione dei punteggi finali dei laureati nei corsi di Economia
della Federico II, per l’anno solare 2015.
Freq. Frq. Cum. Supponendo che un’azienda voglia chiamare per un
Voto
(n) (N) colloquio i 200 laureati più bravi, qual è il voto minimo
81-90 380 380 per poter accedere al colloquio?
91-100 450 830
101-105 262 1092
106-110 113 1205
110 e lode 48 1253
TOT 1.253 /

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli altri indici robusti: i quartili, i decili, i percentili

Esercizio
Si riporta, di seguito, la distribuzione dei punteggi finali dei laureati nei corsi di Economia
della Federico II, per l’anno solare 2015.
Freq. Frq. Cum. Supponendo che un’azienda voglia chiamare per un
Voto
(n) (N) colloquio i 200 laureati più bravi, qual è il voto minimo
81-90 380 380 per poter accedere al colloquio?
91-100 450 830

(1.253 − 200) +1= 1.054


101-105 262 1092
106-110 113 1205
110 e lode 48 1253 Nella distribuzione ordinata, parteciperanno al colloquio
TOT 1.253 / i laureati che vanno dalla posizione 1.054 in poi.
Osservando la colonna delle frequenze cumulate, la classe che contiene il 1.054-
esimo laureato è 101-105.
Dobbiamo ora calcolare il voto di laurea di questo studente, che costituirà il voto
minimo per partecipare al colloquio.
1.054 − 830
101+ ×5 = 105,25 105
262
NOTA: Considerando che è (200/1253)=0,16, gli studenti che accederanno al colloquio costituiscono il 16% dei più
bravi. Il valore cercato corrisponderà, dunque, all’84esimo percentile.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli altri indici robusti: la Moda

La moda, Mo, di una distribuzione di frequenza è la modalità cui corrisponde la


massima frequenza, assoluta o relativa.
E ’ un indice di immediata interpretazione e può essere calcolata anche per le
mutabili.
Nel caso di variabili raggruppate in classi, si considera generalmente la sola classe
modale. Se le classi hanno ampiezze diverse, la Moda sarà il valore a cui corrisponde
la massima densità di frequenza.
Frequenza
Età
(n)
18 6 Mo = 20 anni
19 51
20 73
21 41
22 21
23 16
24 11
25 8
TOT 227

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lʼuso degli indici statistici elementari

OBIETTIVI DI QUALITA’ DEI SERVIZI DI TELEFONIA VOCALE FORNITI SU RETE FISSA PER L’ANNO 2018
Indicatore Misura Obiettivo 2018
Percentile 95% del tempo di fornitura (1) 10 giorni
Tempo di fornitura Percentile 99% del tempo di fornitura (1) 19 giorni
dell’allacciamento iniziale Percentuale degli ordini validi completati entro la
97,40%
data concordata con il cliente
Tasso di Rapporto tra numero di segnalazioni di
malfunzionamento per malfunzionamenti effettivi e numero medio di linee 9,60%
linea di accesso d’accesso RTG
Percentile 80% del tempo di riparazione dei
42 ore
malfunzionamenti (2)
Percentile 95% del tempo di riparazione dei
Tempo di riparazione dei 90 ore
malfunzionamenti (2)
malfunzionamenti
Percentuale delle riparazioni dei malfunzionamenti
completate entro il tempo massimo 92,50%
contrattualmente previsto
Rapporto tra la somma del numero dei giorni di
Percentuale di telefoni
funzionamento di tutti i telefoni pubblici osservati
pubblici a pagamento (a
nel periodo considerato e il numero di giorni dello 96,50%
monete e a schede) in
stesso periodo moltiplicato per il numero di telefoni
servizio
pubblici sottoposti ad osservazione
Rapporto tra il numero dei reclami ricevuti nel
Fatture contestate periodo considerato e il numero di fatture emesse 1,20%
nello stesso periodo
Rapporto tra il numero delle fatture contestate
Accuratezza della riconosciute fondate emesse nel periodo
0,28%
fatturazione considerato e il numero di fatture emesse nello
stesso periodo
Tempo minimo di navigazione su risponditore
70 secondi
automatico per accedere alla scelta “operatore”
Tempi di risposta alle
Tempo medio di risposta dell’operatore alle
chiamate ai servizi di 70 secondi
chiamate entranti
assistenza clienti
Percentuale di chiamate entranti in cui il tempo di
45%
risposta dell’operatore è inferiore a 20 secondi
(1) Per "Percentile 95% (o 99%) del tempo di fornitura" si intende il numero di giorni entro cui è stato soddisfatto il 95% (o il 99%) delle richieste.
(2) Per "Percentile 80% (o 95%) dei tempi di riparazione dei malfunzionamenti" si intende il numero di ore, a partire dalla segnalazione dei clienti, entro cui è stato riparato l'80% (o il 95%) dei malfunzionamenti.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Quale indice di posizione scegliere?

La scelta dell’indice di posizione dipende dal tipo e dalle caratteristiche della distribuzione.
Più che individuare l’indice “migliore in assoluto” (che non esiste), è importante anche
valutare le differenze tra le diverse misure, che possono fornire ulteriori, importanti
informazioni anche, ad esempio, sulla forma della distribuzione;
Volendo comunque definire delle caratteristiche dei diversi indici di posizione, possiamo
dire che: (Piccolo, pag. 95)
• La moda è utile quando occorre “minimizzare gli scontenti”, e quindi in tutte quelle
situazioni in cui il consenso e il numero delle singole unità ha significato per la decisione.
In breve, la moda è un indice per governare;
• La mediana minimizza i costi complessivi ed è resistente ai valori estremi. Quindi, la
mediana è un indice per decisioni che implicano costi elevati nei casi estremi;
• La media aritmetica è il baricentro dei dati e propone, quindi, un valore che equi-
ripartisce il fenomeno tra le unità statistiche, pervenendo così a decisioni nelle quali
contano, a parità numerica, gli estremi molto più dei valori centrali. Quindi, la media
aritmetica è un indice di equilibrio generale.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (1)

In un ascensore di un grande Centro commerciale è scritto:


Carico max: 1000 kg, e per motivi di sicurezza l’ascensore non
parte se tale peso è superato.
Supponiamo che siano già dentro 13 persone, il cui peso medio
è di 69,5 kg, e che un altro signore di 90 kg stia entrando:
l’ascensore partirà?

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (2)

Si riporta di seguito la distribuzione per fasce di età della


popolazione della Circoscrizione di Fuorigrotta (Fonte, Censimento 2011):
Età ni
<5 anni 3.273 Definire:
5-10 anni 3.572 • l'unità statistica
10-15 anni 3.934 • il tipo di variabili osservate
15-20 anni 4.397 Calcolare:
20-25 anni 4.906 • la media, la mediana e la moda
25-30 anni 5.926 • il primo e il terzo quartile
30-35 anni 5.466 • il decimo e il novantesimo percentile
35-45 anni 10.935 Disegnare:
45-55 anni 10.176 • l'istogramma
55-65 anni 9.403
>65 anni 14.470 NOTA: Per semplicità, si consideri, come età massima, il valore di 85 anni.
76.458

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (3)

Giorni di allacciamento per nuove utenze telefoniche

Giorni per Frequenza


allacciamento (n i )

1-5 40.480
6-10 63.020
11-15 54.280
16-20 31.510
21-25 20.010
26-30 11.730
31-39 8.970
230.000

Determinare:
• Il valore medio;
• il valore mediano;
• la classe modale;
• il primo quartile;
• il 90°percentile;
• il 99°percentile.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (4)

Un’azienda possiede 6 filiali dislocate lungo un percorso lineare,


le cui caratteristiche sono descritte nella tabella seguente:
Filiale A B C D E F
Distanza in Km 0 20 50 90 170 230
(immaginiamo che le distanze siano calcolate come distanza dagli uffici della Direzione centrale,
e che questa si trovi nella stessa struttura della Filiale A):

L’azienda decide di costruire un magazzino centrale, che consenta di minimizzare le


distanze da percorrere.
Si determini la distanza ottimale alla quale dovrebbe essere costruito il magazzino.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (4)

Un’azienda possiede 6 filiali dislocate lungo un percorso lineare,


le cui caratteristiche sono descritte nella tabella seguente:
Filiale A B C D E F
Distanza in Km 0 20 50 90 170 230
(immaginiamo che le distanze siano calcolate come distanza dagli uffici della Direzione centrale,
e che questa si trovi nella stessa struttura della Filiale A):

L’azienda decide di costruire un magazzino centrale, che consenta di minimizzare le


distanze da percorrere.
Si determini la distanza ottimale alla quale dovrebbe essere costruito il magazzino.

0 20° km 50° km 90° km 170° km 230° km

Magazzino
centrale

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (5)

Un’azienda possiede 6 filiali dislocate lungo un percorso lineare,


le cui caratteristiche sono descritte nella tabella seguente:
Filiale A B C D E F
Distanza in Km 0 20 50 90 170 230
Numero di rifornimenti annuali 30 20 45 25 15 35
(immaginiamo che le distanze siano calcolate come distanza dagli uffici della Direzione centrale,
e che questa si trovi nella stessa struttura della Filiale A):

L’azienda decide di costruire un magazzino centrale, che consenta di minimizzare le


distanze da percorrere.
Si determini la distanza ottimale alla quale dovrebbe essere costruito il magazzino.

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (6, per i/le più bravi/e)

L'ALTALENA
Tommaso è al parco con i genitori e con loro si diverte a giocare su
un'altalena che ha i due bracci di lunghezze diverse.
La madre si siede sul braccio più lungo, il padre su quello più corto, e l'asse resta
perfettamente in equilibrio. Poi si scambiamo di posto, ma questa volta Tommaso si
siede in braccio alla mamma e, ancora una volta, l'asse rimane in perfetto equilibrio.

Sapendo che il papà di Tommaso pesa 76 chili e la mamma 64, quanto pesa
Tommaso?

LEZIONE 2 – GLI INDICI DI POSIZIONE


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 3:
La media geometrica
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli indici sintetici di posizione: la media

Una media secondo Chisini

La media di una variabile X è quel valore M, compreso tra minimo e massimo di una
distribuzione di frequenza, che, rispetto ad una funzione sintetica delle osservazioni,
ne lascia inalterato il valore:

(
f x1, x2 ,…, xn = f M, M,…, M) ( )
La media M è, dunque, quel valore che eguaglia la funzione f(.) quando alle
osservazioni si sostituisce il valore costante M.
Il punto cruciale è, quindi, specificare f(.) in funzione della natura della variabile (additiva,
moltiplicativa, inversa, …).

LEZIONE 3 – LA MEDIA GEOMETRICA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media geometrica

In alcune situazioni, la relazione che esiste tra i termini di una distribuzione non è di tipo
additivo ma di tipo moltiplicativo.
Coorte Immatricolati CLEC 2009-10
Immatricolati CLEC Iscritti 1° anno Iscritti 2° anno Iscritti 3° anno
Laureati in regola
2009-10 2009-10 2010-11 2011-12

553 373 278 146 61

Tassi
373 278 146 61
di “sopravvivenza”: T1 = = 0,675 ; T2 = = 0,745 ; T3 = = 0,525 ; T4 = = 0,418
553 373 278 146
Domanda: Qual è il tasso medio di sopravvivenza?

LEZIONE 3 – LA MEDIA GEOMETRICA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media geometrica

In alcune situazioni, la relazione che esiste tra i termini di una distribuzione non è di tipo
additivo ma di tipo moltiplicativo.
Coorte Immatricolati CLEC 2009-10
Immatricolati CLEC Iscritti 1° anno Iscritti 2° anno Iscritti 3° anno
Laureati in regola
2009-10 2009-10 2010-11 2011-12

553 373 278 146 61

Tassi
373 278 146 61
di “sopravvivenza”: T1 = = 0,675 ; T2 = = 0,745 ; T3 = = 0,525 ; T4 = = 0,418
553 373 278 146
Domanda: Qual è il tasso medio di sopravvivenza?
E' chiaro che, in questo esempio, la somma di due tassi darebbe, come risultato, una
quantità indefinita. Tra i dati, cioè, non esiste una relazione di tipo additivo e, dunque, non
avrebbe alcun senso utilizzare la media aritmetica.
Il prodotto di due tassi produce, invece, ancora un tasso.
373 278 278
T1 × T2 = × = = 0,503 Tasso di sopravvivenza “biperiodale”
553 373 553

Tra i dati esiste, dunque, una relazione di tipo moltiplicativo.

LEZIONE 3 – LA MEDIA GEOMETRICA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media geometrica

In alcune situazioni, la relazione che esiste tra i termini di una distribuzione non è di tipo
additivo ma di tipo moltiplicativo.

( )
n
Relazione di moltiplicatività: f x , x ,…, x = x ⋅ x ⋅…⋅ x = ∏ x
1 2 n 1 2 n i
i=1

Criterio del Chisini:


x1 ⋅ x2 ⋅…⋅ xn = µ ⋅ µ ⋅…⋅ µ ⇒ x1 ⋅ x2 ⋅…⋅ xn = µ n ⇒ µ = n x1 ⋅ x2 ⋅…⋅ xn

La media geometrica di n termini è, dunque, uguale alla radice n-esima del loro prodotto.

LEZIONE 3 – LA MEDIA GEOMETRICA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media geometrica

In alcune situazioni, la relazione che esiste tra i termini di una distribuzione non è di tipo
additivo ma di tipo moltiplicativo.
Coorte Immatricolati CLEC 2009-10
Immatricolati CLEC Iscritti 1° anno Iscritti 2° anno Iscritti 3° anno
Laureati in regola
2009-10 2009-10 2010-11 2011-12

553 373 278 146 61

Tassi
373 278 146 61
di “sopravvivenza”: T1 = = 0,675 ; T2 = = 0,745 ; T3 = = 0,525 ; T4 = = 0,418
553 373 278 146
Domanda: Qual è il tasso medio di sopravvivenza?

Mg = 4 0,675 × 0,745 × 0,525 × 0,418 = 4 0,110 = 0,576

Prova: 553 × 0,576 × 0,576 × 0,576 × 0,576 = 61

LEZIONE 3 – LA MEDIA GEOMETRICA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media geometrica

Esercizio:

Si consideri un capitale iniziale unitario depositato in banca, che rimane depositato per
n anni a tassi di interesse i1, i2, …, in, non necessariamente uguali.

Capitale iniziale: ……………………………….…….. 1


Montante alla fine del primo anno: ……………… 1+i1

Capitale allʼinizio del secondo anno: ……….…... 1+i1


Montante alla fine del secondo anno: …..……... (1+i1) + [(1+i1 )·i2] = (1+i1) · (1+i2 )
:
Montante alla fine delʼn-esimo anno: …….…….. (1+i1) · (1+i2 ) · … · (1+in )

Domanda: Qual è quel tasso di interesse fisso, i, che avrebbe prodotto, dopo n anni,
lo stesso montante?

LEZIONE 3 – LA MEDIA GEOMETRICA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media geometrica

Esercizio:
Si consideri un capitale iniziale unitario depositato in banca, che rimane depositato per 5 anni ai
seguenti tassi di interesse i1, i2, …, in:
i1 = 0,07 i2 = 0,06 i3 = 0,07 i4 = 0,04 i5 = 0,05

Qual è quel tasso di interesse fisso, i, che dopo 5 anni, produce lo stesso montante?

1. Con i tassi variabili, al termine dei 5 anni, il montante MVAR sarà:


( ) ( ) ( ) ( ) ( )
MVAR = 1+ i1 × 1+ i2 × 1+ i3 × 1+ i4 × 1+ i5

= (1+ 0,07 ) × (1+ 0,06 ) × (1+ 0,07 ) × (1+ 0,04 ) × (1+ 0,05 ) = 1,325

2. Calcoliamo il tasso di interesse medio:

Ig = 5 0,07 × 0,06 × 0,07 × 0,04 × 0,05 = 0,000000588 = 0,0567


5

3. Calcoliamo ora il montante MF che otterremmo se utilizzassimo, per 5 anni, lo stesso tasso:

( )
5
MFIX = 1+ 0,0567 = 1,318

I due montanti sono diversi. Il tasso di interesse così individuato non Perché?
rappresenta, dunque, il tasso di interesse medio.

LEZIONE 3 – LA MEDIA GEOMETRICA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media geometrica

Esercizio:
Si consideri un capitale iniziale unitario depositato in banca, che rimane depositato per 5 anni ai
seguenti tassi di interesse i1, i2, …, in:
i1 = 0,07 i2 = 0,06 i3 = 0,07 i4 = 0,04 i5 = 0,05

Qual è quel tasso di interesse fisso, i, che dopo 5 anni, produce lo stesso montante?

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
Obiettivo: 1+ i1 × 1+ i2 × 1+ i3 × 1+ i4 × 1+ i5 = 1+ i × 1+ i × 1+ i × 1+ i × 1+ i
Montante ottenuto dopo 5 anni, con tassi variabili. Montante ottenuto dopo 5 anni, con tasso fisso.

Ricordando la formula generale del Chisini, è facile vedere come, in realtà, le grandezze di cui
stiamo cercando la media non sono i tassi di interesse quanto piuttosto i montanti.

(1+ i ) × (1+ i ) × (1+ i ) × (1+ i ) × (1+ i ) = (1+ i ) × (1+ i ) × (1+ i ) × (1+ i ) × (1+ i )
1 2 3 4 5

x1 x2 x3 x4 x5 M M M M M

( ) ( ) ( ) ( ) ( ) ( )
5
Soluzione: 1+ i1 × 1+ i2 × 1+ i3 × 1+ i4 × 1+ i5 = 1+ i

( ) (1+ i ) × (1+ i ) × (1+ i ) × (1+ i ) × (1+ i ) = 1,07 ×1,06 ×1,07 ×1,04 ×1,05 =
⇒ 1+ i = 5
1 2 3 4 5
5 5
1,3252 = 1,0579

⇒ i = (1,0579 -1) = 0,0579 Prova: (1+ 0,0579) = 1,325


5

LEZIONE 3 – LA MEDIA GEOMETRICA


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 4:
Gli indici di variabilità
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli indici di variabilità


La variabilità di un fenomeno è la sua attitudine ad assumere differenti modalità.

Un indice di variabilità è una misura di tale attitudine, e dovrebbe possedere le seguenti


caratteristiche:
• Essere nullo se e solo se tutte le unità presentano la stessa modalità del carattere;
• Aumentare all’aumentare della diversità tra le unità.

La variabilità può essere misurata:


1. Rispetto a un centro;
2. Come misura delle differenze tra tutte le possibili coppie di unità osservate (Variabilità
reciproca)

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabilità rispetto a un centro

Esempio:
Distribuzioni di frequenza dei 21 esami svolti da due studenti giunti al termine del loro percorso di studi:
Studente A Studente B
Voto Frequenza Voto Frequenza
(x) (n) (x) (n)
18 3 18 0
19 2
∑x ⋅n i i
504 19 0
∑x ⋅n i i
504
µA = i
= = 24 µB = i
= = 24
20
21
0
2
∑n i
21 20
21
0
1
∑n i
21
i i
22 0 22 0
23 2 23 3
24 2 24 11
25 2 25 6
26 2 26 0
27 0 27 0
28 2 28 0
29 2 29 0
30 2 30 0

18 19 20 21 22 23 24 25 26 27 28 29 30 18 19 20 21 22 23 24 25 26 27 28 29 30

Le due distribuzioni hanno la stessa variabile osservata, lo stesso numero di osservazioni, la stessa
media, eppure sono profondamente diverse, perché diversa è la dispersione dei valori.

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabilità rispetto a un centro

Esempio:
Distribuzioni di frequenza dei 21 esami svolti da due studenti giunti al termine del loro percorso di studi:

Studente A Studente B

18 19 20 21 22 23 24 25 26 27 28 29 30 18 19 20 21 22 23 24 25 26 27 28 29 30

Un indice di variabilità può essere costruito come somma delle differenze tra ciascuna osservazione
e la propria media aritmetica, considerata come "centro" rappresentativo della distribuzione. Ma,
per la proprietà baricentrica della media aritmetica, tale somma risulterebbe nulla.
Per risolvere il problema algebrico, è possibile elevare al quadrato ogni differenza, ottenendo un
primo, importante, indice di variabilità, la devianza:

∑( ) ∑( )
n 2 k 2
Per distribuzioni semplici xi − µ ; xi − µ ⋅ ni Per dati organizzati in frequenze
i=1 i=1

Dividendo la devianza per il numero di osservazioni, n, si ottiene la varianza:

∑( ) ∑( )
n 2 k 2
xi − µ xi − µ ⋅ ni
Per distribuzioni semplici Per dati organizzati in frequenze
i=1
; i=1

n n
LEZIONE 4 – GLI INDICI DI VARIABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La varianza

Esempio:
Gli Occupati in Italia nel periodo 1997-2009 (Fonte: ISTAT, Dati in migliaia)
Occupati 2
Anno x i -µ (x i -µ)
(x i )
1997 20.207 -1.773 3.143.256
1998 20.435 -1.545 2.386.787
1999 20.692 -1.288 1.658.746
2000 21.080 -900 809.862
2001 21.604 -376 141.318
2002 21.913 -67 4.479
2003 22.241 261 68.161
2004 22.404 424 179.841
2005 22.563 583 339.979
2006 22.988 1.008 1.016.219
2007 23.417 1.437 2.065.190
2008 23.170 1.190 1.416.283
2009 23.025 1.045 1.092.186
TOT 285.739 0 14.322.307

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La varianza

Esempio:
Gli Occupati in Italia nel periodo 1997-2009 (Fonte: ISTAT, Dati in migliaia)
Occupati n
285.739
Anno x i -µ (x i -µ) 2 µ = ∑ xi = = 21.980
(x i )
i=1 13
1997 20.207 -1.773 3.143.256
1998 20.435 -1.545 2.386.787
1999 20.692 -1.288 1.658.746
2000 21.080 -900 809.862
2001 21.604 -376 141.318
2002 21.913 -67 4.479
2003 22.241 261 68.161
2004 22.404 424 179.841
2005 22.563 583 339.979
2006 22.988 1.008 1.016.219
2007 23.417 1.437 2.065.190
2008 23.170 1.190 1.416.283
2009 23.025 1.045 1.092.186
TOT 285.739 0 14.322.307

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La varianza

Esempio:
Gli Occupati in Italia nel periodo 1997-2009 (Fonte: ISTAT, Dati in migliaia)
Occupati n
285.739
Anno x i -µ (x i -µ) 2 µ = ∑ xi = = 21.980
(x i )
i=1 13
1997 20.207 -1.773 3.143.256
1998 20.435 -1.545 2.386.787
1999 20.692 -1.288 1.658.746
2000 21.080 -900 809.862
2001 21.604 -376 141.318
2002 21.913 -67 4.479
2003 22.241 261 68.161
2004 22.404 424 179.841
2005 22.563 583 339.979
2006 22.988 1.008 1.016.219
2007 23.417 1.437 2.065.190
2008 23.170 1.190 1.416.283
2009 23.025 1.045 1.092.186
TOT 285.739 0 14.322.307

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La varianza

Esempio:
Gli Occupati in Italia nel periodo 1997-2009 (Fonte: ISTAT, Dati in migliaia)
Occupati n
285.739
Anno x i -µ (x i -µ) 2 µ = ∑ xi = = 21.980
(x i )
i=1 13
1997 20.207 -1.773 3.143.256

( ) ( )
n
1998 20.435 -1.545 2.386.787 2
Dev X = ∑ xi − µ = 14.322.307
1999 20.692 -1.288 1.658.746
i=1
2000 21.080 -900 809.862
( )
1 n
( ) 14.322.307
2
2001 21.604 -376 141.318 Var X = ∑ xi − µ = = 1.101.716
2002 21.913 -67 4.479 n i=1 13
2003 22.241 261 68.161
2004 22.404 424 179.841
2005 22.563 583 339.979
2006 22.988 1.008 1.016.219
2007 23.417 1.437 2.065.190
2008 23.170 1.190 1.416.283
2009 23.025 1.045 1.092.186
TOT 285.739 0 14.322.307
Poiché per il calcolo della varianza abbiamo elevato al quadrato ciascuna differenza dalla media, anche l'unità
di misura in cui è espresso l'indice sarà al quadrato (e, quindi, poco interpretabile).
Per ripristinare l'unità di misura originaria, dobbiamo calcolare la radice quadrata della varianza. Questo
importantissimo indice di variabilità prende il nome di Scarto quadratico medio, ed esprime, nell'unità di
misura della variabile X, la dispersione media dei dati attorno al valore centrale.

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La varianza e lo scarto quadratico medio

Esempio:
Gli Occupati in Italia nel periodo 1997-2009 (Fonte: ISTAT, Dati in migliaia)
Occupati n
285.739
Anno x i -µ (x i -µ) 2 µ = ∑ xi = = 21.980
(x i )
i=1 13
1997 20.207 -1.773 3.143.256

( ) ( )
n
1998 20.435 -1.545 2.386.787 2
Dev X = ∑ xi − µ = 14.322.307
1999 20.692 -1.288 1.658.746
i=1
2000 21.080 -900 809.862
( )
1 n
( ) 14.322.307
2
2001 21.604 -376 141.318 Var X = ∑ xi − µ = = 1.101.716
2002 21.913 -67 4.479 n i=1 13
2003 22.241 261 68.161
( ) 1 n
( ) 14.322.307
2
2004 22.404 424 179.841 Sqm X = ∑ x −µ
n i=1 i
=
13
= 1.049,6
2005 22.563 583 339.979
2006 22.988 1.008 1.016.219
2007 23.417 1.437 2.065.190
2008 23.170 1.190 1.416.283
2009 23.025 1.045 1.092.186
TOT 285.739 0 14.322.307

Quindi, nel periodo considerato, il numero medio di Occupati in Italia è stato di 21milioni 980mila,
con una dispersione media, attorno a questo valore centrale, di 1milione 49mila unità.

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La varianza e lo scarto quadratico medio

Esempio:
L'età degli studenti del Corso di Statistica (Dati organizzati in una distribuzione di frequenza)
Frequenza 2
Età (xi -µ) · ni
(n)
18 6 42,8 ∑x ⋅n i i (18 × 6 ) + (19 × 51) + ( 20 × 73 ) + … + ( 25 × 8 )
19 51 142,2 µ= i
= = 20,7
20 73 32,7 ∑n i
227
i
21 41 4,5
22 21 37,2
23 16 86,9
24 11 122,0
25 8 150,0
TOT 227 618,2

NOTA– Se rifate i calcoli con la calcolatrice (e non con un software


tipo Excel) e volete trovarvi con i numeri che seguiranno, occorre
utilizzare, per la media, un’approssimazione più precisa. Con 5
decimali, il valore della media è 20,66960.

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La varianza e lo scarto quadratico medio

Esempio:
L'età degli studenti del Corso di Statistica (Dati organizzati in una distribuzione di frequenza)
Frequenza 2
Età (xi -µ) · ni
(n)
18 6 42,8 ∑x ⋅n i i (18 × 6 ) + (19 × 51) + ( 20 × 73 ) + … + ( 25 × 8 )
19 51 142,2 µ= i
= = 20,7
20 73 32,7 ∑n i
227
i
21 41 4,5
( ) ( )
n 2
22 21 37,2 Dev X = ∑ xi − µ = 618,2
i=1
23 16 86,9
24 11 122,0
( ) 1 n
( ) 618,2
2

25 8 150,0 Var X = ∑ x −µ
n i=1 i
=
227
= 2,72
TOT 227 618,2

( ) 1 n
( )
2
Sqm X = ∑ x −µ
n i=1 i
= 2,72 = 1,65 anni

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La varianza e lo scarto quadratico medio

Un metodo alternativo per il calcolo di σ2

La varianza di una variabile X può essere calcolata, oltre che con la formula tradizionale,
anche come la media dei quadrati meno il quadrato della media, cioè:

( ) ( )
2
σ = M X − ⎡M X ⎤
2 2
X ⎣ ⎦
Questo consente di evitare il calcolo degli scarti dalla media, rendendo, quindi, la formula
molto più semplice.
D’altra parte, come accade spesso, il “prezzo” che si paga è dato dalla impossibilità di
associare alla formula un ragionamento, come invece è possibile fare con la formula
tradizionale.

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La varianza e lo scarto quadratico medio

( ) ( )
2
Un metodo alternativo per il calcolo di σ2 σ = M X − ⎡M X ⎤
2 2
X ⎣ ⎦
Esempio:
Gli Occupati in Italia nel periodo 1997-2009 (Fonte: ISTAT, Dati in migliaia)
Occupati
Anno x2
(x i )
1997 20.207 408.322.849
1998 20.435 417.589.225
1999 20.692 428.158.864
2000 21.080 444.366.400
2001 21.604 466.732.816
2002 21.913 480.179.569
2003 22.241 494.662.081
2004 22.404 501.939.216
2005 22.563 509.088.969
2006 22.988 528.448.144
2007 23.417 548.355.889
2008 23.170 536.848.900
2009 23.025 530.150.625
TOT 285.739 6.294.843.547

µ=21.980

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La varianza e lo scarto quadratico medio

( ) ( )
2
Un metodo alternativo per il calcolo di σ2 σ = M X − ⎡M X ⎤
2 2
X ⎣ ⎦
Esempio:
Gli Occupati in Italia nel periodo 1997-2009 (Fonte: ISTAT, Dati in migliaia)
Occupati
Anno x2

( ) ( )
(x i ) 2
1997 20.207 408.322.849 σ = M X − ⎡M X ⎤
2 2

1998 20.435 417.589.225


X ⎣ ⎦
1999 20.692 428.158.864
( )
2
= 484.218.734 − 21.980
2000 21.080 444.366.400
2001 21.604 466.732.816
2002 21.913 480.179.569 = 1.098.334
2003 22.241 494.662.081 NOTA: La differenza rispetto al valore calcolato
2004 22.404 501.939.216 in precedenza è legato all'approssimazione.
2005 22.563 509.088.969 Utilizzando più cifre decimali o, meglio ancora,
2006 22.988 528.448.144 un foglio di calcolo elettronico, i risultati
2007 23.417 548.355.889 sarebbero stati identici.
2008 23.170 536.848.900
2009 23.025 530.150.625
TOT 285.739 6.294.843.547

µ=21.980 ( )
M X2 =
6.294.843.547
13
= 484.218.734

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La varianza e lo scarto quadratico medio

( ) ( )
2
Un metodo alternativo per il calcolo di σ2 σ = M X − ⎡M X ⎤
2 2
X ⎣ ⎦
Esempio:
L'età degli studenti del Corso di Statistica (Dati organizzati in una distribuzione di frequenza)
Età Frequenza 2 2
x x ·n
(x) (n)
18 6 324 1.944
19 51 361 18.411
20 73 400 29.200
21 41 441 18.081
22 21 484 10.164
23 16 529 8.464
24 11 576 6.336
25 8 625 5.000
TOT 227 3.740 97.600

µ=20,6696

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La varianza e lo scarto quadratico medio

( ) ( )
2
Un metodo alternativo per il calcolo di σ2 σ = M X − ⎡M X ⎤
2 2
X ⎣ ⎦
Esempio:
L'età degli studenti del Corso di Statistica (Dati organizzati in una distribuzione di frequenza)
Età Frequenza 2 2
x x ·n
( ) ( )
(x) (n) 2
σ = M X − ⎡M X ⎤
2 2
18 6 324 1.944 X ⎣ ⎦
19 51 361 18.411
( )
2
= 429,9559 − 20,6696
20 73 400 29.200
21 41 441 18.081 = 2,72
22 21 484 10.164
23 16 529 8.464 NOTA: In questo caso, avendo usato quattro
24 11 576 6.336 cifre decimali, il valore della varianza coincide
25 8 625 5.000 con quello calcolato usando la formula
"classica".
TOT 227 3.740 97.600

µ=20,6696 ( )
M X2 =
97.600
227
= 429,9559

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il confronto fra misure di variabilità

Il coefficiente di variazione
Esempio:
Distribuzione dei pesi di 100 neo-mamme e dei 100 loro neonati
MAMME NEONATI
Qual è il carattere che risulta più variabile?
Peso Peso
n n
(kg) (kg)
45 - 50 4 1,5 - 2,0 5
50 - 55 12 2,0 - 2,5 12
55 - 60 22 2,5 - 3,0 25
60 - 65 40 3,0 - 3,5 35
65 - 70 19 3,5 - 4,0 18
70 - 75 3 4,0 - 4,5 5
TOT 100 TOT 100

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il confronto fra misure di variabilità

Il coefficiente di variazione
Esempio:
Distribuzione dei pesi di 100 neo-mamme e dei 100 loro neonati
MAMME NEONATI
Qual è il carattere che risulta più variabile?
Peso Peso
n n
(kg) (kg) E’ chiaro che il confronto dei due sqm non avrebbe senso,
45 - 50 4 1,5 - 2,0 5 perché, pur essendo le variabili espresse nella stessa unità di
50 - 55 12 2,0 - 2,5 12 misura, le distribuzioni sono molto diverse in media, e,
55 - 60 22 2,5 - 3,0 25 dunque, uno scarto medio di 5,6kg da una media di 60kg
60 - 65 40 3,0 - 3,5 35 potrebbe essere meno rilevante di uno scarto medio di
65 - 70 19 3,5 - 4,0 18 0,6kg da una media di 3,1kg.
70 - 75 3 4,0 - 4,5 5 Occorre, quindi, relativizzare l’indice, renderlo indipendente
TOT 100 TOT 100 dalla sua unità di misura.
Il modo più semplice per rendere un indice indipendente
Media 60,9 Media 3,070
dall’unità di misura in cui è espresso, renderlo, cioè un
Var 31,53 Var 0,358 numero “puro”, adimensionale, è dividerlo per un altro
Sqm 5,6 Sqm 0,598 indice espresso nella stessa unità di misura.
Nel caso dello sqm, quest’indice è la media aritmetica. L’indice ottenuto dividendo lo sqm per la media
aritmetica è un indice adimensionale che prende il nome di Coefficiente di variazione.
σM 5,6 σN 0,598
CVMamme = = = 0,092 CVNeonati = = = 0,195
µM 60,9 µN 3,070

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il confronto fra misure di variabilità

Il coefficiente di variazione
Esempio:
Distribuzione dei pesi di 100 neo-mamme e dei 100 loro neonati
MAMME NEONATI
Qual è il carattere che risulta più variabile?
Peso Peso
n n
(kg) (kg) L’indice ottenuto dividendo lo sqm per la media
45 - 50 4 1,5 - 2,0 5 aritmetica è un indice adimensionale che prende il nome
50 - 55 12 2,0 - 2,5 12 di Coefficiente di variazione.
55 - 60 22 2,5 - 3,0 25
Come era forse prevedibile, relativamente ai rispettivi
60 - 65 40 3,0 - 3,5 35
65 - 70 19 3,5 - 4,0 18
pesi medi, il peso dei neonati è più variabile del peso
delle mamme.
70 - 75 3 4,0 - 4,5 5
TOT 100 TOT 100 NOTA:
Il CV consente di confrontare la variabilità tra caratteri
Media 60,9 Media 3,070 espressi in unità di misura differenti o anche espressi nella
Var 31,53 Var 0,358 stessa unità di misura ma differenti in media. D’altra parte,
Sqm 5,6 Sqm 0,598 per le sue caratteristiche, in alcune situazioni può risultare
CV 0,092 CV 0,195 poco adatto o affidabile. Ricordiamo, infatti, che:
• Non ha senso per valori di µ<0;
• Non è definito per µ=0;
• Tende ad “esplodere” per µ≈0

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Altri indici di variabilità

1 n
.) Scostamento semplice dalla mediana: ………………. S Me = ∑ xi − Me ⋅ ni
n i=1
( )

.) Differenza interquartile: ………………………………..…. Δ Q = Q3 − Q1

∑ x −x i j
.) Differenza semplice media (Indice di mutua variabilità): …. Δ = i≠ j=1

n⋅ n −1 ( )

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli indici di mutua variabilità: la differenza semplice media


Esempio:
Gli introiti pubblicitari per le principali TV nazionali (Modificato da Borra, Di Ciaccio, Statistica)
Introiti
TV pubblicitari
(in milioni di euro)

Rete 1 1.889 11.879


Rete 2 1.857 µ= = 1.319,9
9
Rete 3 1.524
Rete 4 697
Rete 5 1.994
Rete 6 1.798
Rete 7 1.320
Rete 8 461
Rete 9 339
TOT 11.879

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli indici di mutua variabilità: la differenza semplice media


Esempio:
Gli introiti pubblicitari per le principali TV nazionali (Modificato da Borra, Di Ciaccio, Statistica)
Introiti
TV pubblicitari X2
(in milioni di euro)

Rete 1 1.889 3.568.321 11.879


Rete 2 1.857 3.448.449 µ= = 1.319,9
9

( )
Rete 3 1.524 2.322.576
( )
2
Rete 4 697 485.809 σ = M X − ⎡M X ⎤
2 2
X ⎣ ⎦
Rete 5 1.994 3.976.036
19.103.837
( )
2
Rete 6 1.798 3.232.804
= − 1.319,9 = 380.539
Rete 7 1.320 1.742.400 9
Rete 8 461 212.521
Rete 9 339 114.921
σ X = σ X2 = 380.539 = 616,9 mln

TOT 11.879 19.103.837


Media 1.319,9 2.122.648,6
Varianza 380.541,9
Sqm 616,9

∑ x −x i j
Differenza semplice media: Δ= i≠ j=1

n⋅ n −1 ( )
LEZIONE 4 – GLI INDICI DI VARIABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli indici di mutua variabilità: la differenza semplice media


Introiti
TV pubblicitari
(in milioni di euro)

Rete 1 1.889
n

∑ x −x
Rete 2 1.857
Rete 3 1.524 i j
Rete 4 697
Δ= i≠ j=1
Rete 5
Rete 6
Rete 7
1.994
1.798
1.320
( )
n⋅ n −1
Rete 8 461
Rete 9 339
TOT 11.879

Tabella per il calcolo di D


TV Rete 1 Rete 2 Rete 3 Rete 4 Rete 5 Rete 6 Rete 7 Rete 8 Rete 9

Rete 1 0 32 365 1.192 -105 91 569 1.428 1.550


Rete 2 -32 0 333 1.160 -137 59 537 1.396 1.518
Rete 3 -365 -333 0 827 -470 -274 204 1.063 1.185
Rete 4 -1.192 -1.160 -827 0 -1.297 -1.101 -623 236 358
Rete 5 105 137 470 1.297 0 196 674 1.533 1.655
Rete 6 -91 -59 274 1.101 -196 0 478 1.337 1.459
Rete 7 -569 -537 -204 623 -674 -478 0 859 981
Rete 8 -1.428 -1.396 -1.063 -236 -1.533 -1.337 -859 0 122
Rete 9 -1.550 -1.518 -1.185 -358 -1.655 -1.459 -981 -122 0

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli indici di mutua variabilità: la differenza semplice media


Introiti
TV pubblicitari
(in milioni di euro)

Rete 1 1.889
n

∑ x −x
Rete 2 1.857
Rete 3 1.524 i j
Rete 4 697
Δ= i≠ j=1
Rete 5
Rete 6
Rete 7
1.994
1.798
1.320
n⋅ n −1 ( )
Rete 8 461
Rete 9 339
TOT 11.879

Tabella per il calcolo di D


TV Rete 1 Rete 2 Rete 3 Rete 4 Rete 5 Rete 6 Rete 7 Rete 8 Rete 9

∑ (x − x ) = 0
Rete 1 0 32 365 1.192 -105 91 569 1.428 1.550 n

Rete 2 -32 0 333 1.160 -137 59 537 1.396 1.518 i j


i≠ j=1
Rete 3 -365 -333 0 827 -470 -274 204 1.063 1.185
Rete 4 -1.192 -1.160 -827 0 -1.297 -1.101 -623 236 358 n

Rete 5 105 137 470 1.297 0 196 674 1.533 1.655 ∑ x −x i j


= 54.808
Rete 6 -91 -59 274 1.101 -196 0 478 1.337 1.459 i≠ j=1

Rete 7 -569 -537 -204 623 -674 -478 0 859 981 n

Rete 8 -1.428 -1.396 -1.063 -236 -1.533 -1.337 -859 0 122 ∑ x −x i j


54.808
Δ= i≠ j=1
= = 761,2
( )
Rete 9 -1.550 -1.518 -1.185 -358 -1.655 -1.459 -981 -122 0
n⋅ n −1 9×8
NOTA: Questa tabella ha n2 celle, di cui n pari a zero per costruzione. Il
numero di celle potenzialmente diverse da zero è, dunque, n2 -n=n(n-1).

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli indici di mutua variabilità: la differenza semplice media


Introiti
TV pubblicitari
(in milioni di euro)

Rete 1 1.889
n

∑ x −x
Rete 2 1.857
Rete 3 1.524 i j
Rete 4 697
Δ= i≠ j=1
= 761,2
Rete 5
Rete 6
Rete 7
1.994
1.798
1.320
n⋅ n −1 ( )
Rete 8 461
Rete 9 339
TOT 11.879

E' possibile dimostrare che il massimo di D è pari a due volte la media aritmetica:

max ( Δ ) = 2µ
Si può, quindi, calcolare un indice normalizzato, R, compreso tra zero e uno e, dunque, di
immediata interpretazione, dividendo il valore ottenuto per il suo massimo (vedremo, più avanti, che
questo indice normalizzato è pari al coefficiente di concentrazione del Gini):

Δ 761,2
R= = = 0,288
2µ 2 ×1.319,9

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (1)


Si riporta di seguito la tabella con il Reddito medio pro capite (in
migliaia di euro) e il numero di Rapine (per 100mila abitanti) delle dieci
province lombarde.
Reddito Rapine
Provincia
(X) (Y)
Bergamo 20,6 35,9 Calcolare:
Brescia 21,6 64,7 • Media
Como 20,8 32,4 • Mediana
Cremona 20,9 33,5 • Devianza
Lecco 21,8 29,6
• Varianza
Lodi 16,9 44,0
• Sqm
Mantova 22,9 20,0
• CV
Milano 29,1 92,9
Pavia 18,4 41,0
Sondrio 17,3 4,0
TOT 210,3 398,0

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (2)


Si riporta di seguito la distribuzione della durata (in secondi)
di 1.185 brani musicali trasmessi da una emittente radiofonica.

Durata
(in secondi)
n Calcolare:
30 - 60 5
• la durata media
60 - 150 135 • la durata mediana
150 - 180 150 • la classe modale
180 - 300 570 • il primo e il terzo quartile
300 - 450 280 • la varianza (nei due modi studiati)
450 - 950 45 • lo scarto quadratico medio
TOT 1185 • il coefficiente di variazione

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (3)


Si riporta di seguito la distribuzione dei valori medi mensili (in euro)
delle azioni di due società quotate alla Borsa Valori di Milano nel 2017.
Si determini, motivando la risposta, quale titolo ha presentato la
maggiore “volatilità”.
GEN FEB MAR APR MAG GIU LUG AGO SET OTT NOV DIC

10,51 8,61 10,01 8,29 12,89 10,73 8,13 11,67 7,46 12,72 12,72 9,35
5,43 8,55 8,30 4,20 6,14 6,54 4,10 8,53 4,85 7,90 6,31 4,91

LEZIONE 4 – GLI INDICI DI VARIABILITÀ


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 5:
La Concentrazione
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione

• La concentrazione studia come un carattere quantitativo e trasferibile si


distribuisce tra le unità che lo possiedono;

• Si ha concentrazione minima quando l’ammontare complessivo della variabile è


ripartito in ugual misura tra tutte le unità che, quindi, detengono un ammontare
pari alla media aritmetica;

• Si ha concentrazione massima quando l’ammontare complessivo della variabile


è detenuto da un ’ unica unità statistica (che ha, quindi, n volte la media
aritmetica) mentre le rimanenti (n-1) unità hanno nulla;

• Un indice di concentrazione misura la concentrazione nei casi reali, in rapporto a


questi due casi limite.

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione: il diagramma di Lorenz

Esempio: il Reddito

Le osservazioni vanno ordinate in senso non decrescente: x1 ≤ x2 ≤ … ≤ xn

qi i
1 pi = Frazione cumulata dei primi i redditieri
n
qn-1 Retta di
equiripartizione i

∑x j
j=1 Frazione cumulata del reddito posseduto
qi = n dai primi i redditieri
∑x j
j=1

Equiripartizione: pi = qi ∀i
q2
q1

p1 p2 … pn-1 1 pi

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione: il diagramma di Lorenz

Esempio: il Reddito

Le osservazioni vanno ordinate in senso non decrescente: x1 ≤ x2 ≤ … ≤ xn

qi i
1 pi = Frazione cumulata dei primi i redditieri
n
qn-1 Retta di
equiripartizione i

∑x j
Frazione cumulata del reddito posseduto
ne

j=1
qi =
zio

n dai primi i redditieri


∑x
ra

j
nt

j=1
ce
on

Equiripartizione: pi = qi ∀i
C

q2
di

Spezzata di
Massima
a

massima
q1

re

concentrazione
concentrazione: q1 = q2 = … = qn−1 = 0 ; qn = 1 xi
A

i
p1 p2 … pn-1 1 pi

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione: il diagramma di Lorenz

Esempio: il Reddito

Le osservazioni vanno ordinate in senso non decrescente: x1 ≤ x2 ≤ … ≤ xn

qi i
1 pi = Frazione cumulata dei primi i redditieri
n
qn-1 Retta di
equiripartizione i

∑x j
j=1 Frazione cumulata del reddito posseduto
qi =
ne

n dai primi i redditieri


zio

∑x
tra

j
en

j=1
nc
co

Equiripartizione: pi = qi ∀i
di
a
re

Massima

A

q2 concentrazione: q1 = q2 = … = qn−1 = 0 ; qn = 1 xi
q1
i
p1 p2 … pn-1 1 pi Situazioni reali: q1 ≤ q2 ≤ … ≤ qn ≤ 1

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione: il diagramma di Lorenz

Esempio: il Reddito

Le osservazioni vanno ordinate in senso non decrescente: x1 ≤ x2 ≤ … ≤ xn

qi Il rapporto di concentrazione di Gini


1 (rapporto tra segmenti)

qn-1 Retta di
∑(p − q )
n−1
equiripartizione
i i
R= i=1
ne

n−1

∑p
zio

i
tra

i=1
en
nc
co
di
a
re
A

q2
q1

p1 p2 … pn-1 1 pi

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione: il diagramma di Lorenz

Esempio: il Reddito

Le osservazioni vanno ordinate in senso non decrescente: x1 ≤ x2 ≤ … ≤ xn

qi Il rapporto di concentrazione di Gini


1 (rapporto tra segmenti)

qn-1 Retta di
∑(p − q )
n−1
equiripartizione
i i
R= i=1
ne

n−1

∑p
zio

i
tra

i=1
en
nc

Rappresenta la differenza tra il valore della q in caso di


pi − qi
co

equiripartizione (uguale al corrispondente valore di p) e


di

il valore q osservato. E’, dunque, una misura assoluta di


a

quanto ci si “allontana” dalla situazione teorica di


re

equiripartizione.
A

q2
q1
pi − qi E’ una misura normalizzata della misura precedente, in
p1 p2 … pn-1 1 pi quanto ottenuta rapportando la stessa al suo massimo
pi valore possibile.

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione: il diagramma di Lorenz

Esempio: il Reddito

Le osservazioni vanno ordinate in senso non decrescente: x1 ≤ x2 ≤ … ≤ xn

qi Il rapporto di concentrazione di Gini


1 (rapporto tra segmenti)

qn-1 Retta di
∑(p − q )
n−1
equiripartizione
i i Indice normalizzato
R= i=1

0 ≤ R ≤1
ne

n−1

∑ pi
zio
tra

i=1
en

2 n−1

nc

Formula alternativa: R = 1− q1
co

n −1 i=1
di
a
re
A

q2
q1

p1 p2 … pn-1 1 pi

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

∑(p − q )
n−1
La concentrazione i i
2 n−1
R= i=1
n−1
= 1− ∑
n −1 i=1
q1
Esempio: ∑p i
Gli introiti pubblicitari per le principali TV nazionali (Modificato da Borra, Di Ciaccio, Statistica) i=1

Introiti
TV pubblicitari
(in milioni di euro)

Rete 1 1.889
Rete 2 1.857
Rete 3 1.524
Rete 4 697
Rete 5 1.994
Rete 6 1.798
Rete 7 1.320
Rete 8 461
Rete 9 339
TOT 11.879

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

∑(p − q )
n−1
La concentrazione i i
2 n−1
R= i=1
n−1
= 1− ∑
n −1 i=1
q1
Esempio: ∑p i
Gli introiti pubblicitari per le principali TV nazionali (Modificato da Borra, Di Ciaccio, Statistica) i=1

Introiti
TV pubblicitari
(in milioni di euro)
Individuiamo le pi e le qi
Rete 1 1.889
Rete 2 1.857
Rete 3 1.524 • Chi sono le pi ? Le TV
Rete 4 697 (i “possessori” del “bene”)
Rete 5 1.994
Rete 6 1.798 • Chi sono le qi ? Gli Introiti pubblicitari
(il “bene” da ripartire)
Rete 7 1.320
Rete 8 461
Hai ordinato i dati?
Rete 9 339 • Quanto vale p1 ?
TOT 11.879

• Quanto vale q1 ?

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

∑(p − q )
n−1
La concentrazione i i
2 n−1
R= i=1
n−1
= 1− ∑
n −1 i=1
q1
Esempio: ∑p i
Gli introiti pubblicitari per le principali TV nazionali (Modificato da Borra, Di Ciaccio, Statistica) i=1

Introiti
TV pubblicitari pi qi pi -qi
(in milioni di euro)
Individuiamo le pi e le qi
Rete 9 339 0,11 0,0285 0,0826
Rete 8 461 0,22 0,0673 0,1549
Rete 4 697 •0,33 0,1260
Chi sono le pi ? 0,2073 Le TV
Rete 7 1.320 0,44 0,2371 0,2073 (i “possessori” del “bene”)
Rete 3 1.524 0,56 0,3654 0,1901
Rete 6 1.798 •0,67
Chi sono le qi ?
0,5168 0,1499 Gli Introiti pubblicitari
(il “bene” da ripartire)
Rete 2 1.857 0,78 0,6731 0,1047
Rete 1 1.889 0,89 0,8321 0,0567
Rete 5 1.994 • Quanto vale p1 ?
11.879 4,00 2,8465 1,1535

• Quanto vale q1 ?

Tabella ordinata

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

∑(p − q )
n−1
La concentrazione i i
2 n−1
R= i=1
n−1
= 1− ∑
n −1 i=1
q1
Esempio: ∑p i
Gli introiti pubblicitari per le principali TV nazionali (Modificato da Borra, Di Ciaccio, Statistica) i=1

Introiti
TV pubblicitari pi qi pi -qi
(in milioni di euro)
Quanto vale p1 ?
Rete 9 339 0,11 0,0285 Il valore
0,0826
di pi esprime la frazione cumulata delle prime i
Rete 8 461 0,22 0,0673 TV più
0,1549
“povere” del carattere, ossia quelle che hanno
Rete 4 697 0,33 0,1260 meno introiti. Quindi, poiché le unità osservate sono le
0,2073
Rete 7 1.320 0,44 0,2371 singole TV e il totale delle TV è n=9, pi sarà uguale a:
0,2073
Rete 3 1.524 0,56 0,3654 i 1
0,1901
Rete 6 1.798 0,67 0,5168 p1 =0,1499
1
= = 0,11
9 9
Rete 2 1.857 0,78 0,6731 0,1047
Rete 1 1.889 0,89 0,8321 0,0567
Quanto vale p2 ?
Rete 5 1.994
Per p2 (e poi per tutte le pi successive) il discorso è
11.879 4,00 2,8465 analogo;
1,1535 bisogna solo ricordare che parliamo di
frazioni cumulate. Avremo, quindi:
i1 + i2 1+1
p2 = = = 0,22
9 9

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

∑(p − q )
n−1
La concentrazione i i
2 n−1
R= i=1
n−1
= 1− ∑
n −1 i=1
q1
Esempio: ∑p i
Gli introiti pubblicitari per le principali TV nazionali (Modificato da Borra, Di Ciaccio, Statistica) i=1

Introiti
TV pubblicitari pi qi pi -qQuanto
i vale q1 ?
(in milioni di euro)
Il valore di qi esprime la frazione cumulata
Rete 9 339 0,11 0,0285 0,0826
della quantità del carattere detenuto dalle
Rete 8 461 0,22 0,0673 0,1549
prime i reti più “povere”. Avremo quindi:
Rete 4 697 0,33 0,1260 0,2073 x1 339
Rete 7 1.320 0,44 0,2371 q1 =
0,2073 = = 0,0285
Rete 3 1.524 0,56 0,3654 0,1901 ∑x i
11.879
i
Rete 6 1.798 0,67 0,5168 0,1499
Rete 2 1.857 0,78 0,6731 0,1047
Rete 1 1.889 0,89 0,8321
Quanto
0,0567
vale q2 ?
Per q2 (e poi per tutte le qi successive) il
Rete 5 1.994
discorso è analogo; bisogna solo ricordare
11.879 4,00 2,8465 1,1535
che parliamo di quantità cumulate. Avremo,
quindi:
x1 + x2 339 + 461
q2 = = = 0,0673
∑x i
11.879
i

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

∑(p − q )
n−1
La concentrazione i i
2 n−1
R= i=1
n−1
= 1− ∑
n −1 i=1
q1
Esempio: ∑p i
Gli introiti pubblicitari per le principali TV nazionali (Modificato da Borra, Di Ciaccio, Statistica) i=1

Introiti
TV pubblicitari pi qi pi -qi
(in milioni di euro)

Rete 9 339 0,11 0,0285 0,0826


Rete 8 461 0,22 0,0673 0,1549
Rete 4 697 0,33 0,1260 0,2073
Rete 7 1.320 0,44 0,2371 0,2073
Rete 3 1.524 0,56 0,3654 0,1901
Rete 6 1.798 0,67 0,5168 0,1499
Rete 2 1.857 0,78 0,6731 0,1047
Rete 1 1.889 0,89 0,8321 0,0567
Rete 5 1.994
11.879 4,00 2,8465 1,1535

∑(p − q )
n−1

i i
1,1535 2 n−1 2
1 R= i=1
n−1
=
4
= 0,288 2 R = 1− ∑
n −1 i=1
q1 = 1− × 2,8465 = 1− 0,7116 = 0,288
8
∑p i
i=1

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione per dati raggruppati

La concentrazione come rapporto tra aree

Oltre che come rapporto tra segmenti, la


concentrazione può anche essere calcolata come
qi rapporto tra aree, e precisamente tra l’area di
concentrazione e il suo valore massimo, ottenendo
1 così, anche in questo caso, un indice normalizzato.

L’area di concentrazione non può essere


qn-1 calcolata direttamente, ma può facilmente essere
ne

ricavata per differenza, sottraendo all’area del


zio

triangolo monometrico (che è pari ad ½, essendo


tra

base e altezza pari a 1 per costruzione) quella


en

sottostante all’area di concentrazione stessa, che,


nc

come è facile osservare, è pari alla somma delle


co

aree di n trapezi (in realtà, n-1 trapezi e un


di
ea

triangolo, che può comunque esser considerato


Ar

q3 un trapezio degenere con la base minore pari a


q2
q1 zero).
p1 p2 … pn-1 1

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione per dati raggruppati

La concentrazione come rapporto tra aree

Area di concentrazione: 1 − ∑ Aree


Trapezi
2
qi
1 Area Trapezio: ( BASE + base) × h
2

qn-1
ne
zio
tra
en
nc
co
di
ea
Ar

q3
q2
q1
p1 p2 … pn-1 1

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione per dati raggruppati

La concentrazione come rapporto tra aree

Area di concentrazione: 1 − ∑ Aree


Trapezi
2
qi
1 Area Trapezio: (q
i+1 )(
+ qi ⋅ pi+1 − pi )
2

qn-1 Totale Aree Trapezi: ∑


(
n−1q i+1 )(
+ qi ⋅ pi+1 − pi )
ne

i=0 2
zio

( )( )
tra

1 n−1 qi+1 + qi ⋅ pi+1 − pi


Area Concentrazione: −∑
en

2 i=0 2
nc
co

qi+1
di

Rapporto Area di Concentrazione


ea

qi
di Concentrazione: Area massima
Ar

q2
q1
p1 p2 … pi pi+1 pn-1 1

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione per dati raggruppati

La concentrazione come rapporto tra aree

qi
1

Rapporto Area di Concentrazione


qn-1 di Concentrazione: Area massima

NOTA: L'area massima non andrebbe confusa con l'area del


triangolo monometrico.
Infatti, il triangolo che la delimita è un triangolo scaleno, con
Area base pari a pn-1, valore diverso da 1.
qi+1
massima Tuttavia, quando n è grande, il punto pn-1 è molto vicino al limite
qi del triangolo monometrico. Per convenzione, quindi, anche
l'area massima viene considerata pari ad ½.
q2
q1
p1 p2 … pi pi+1 pn-1 1

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione per dati raggruppati

La concentrazione come rapporto tra aree

Area di concentrazione: 1 − ∑ Aree


Trapezi
2
qi
1 Area Trapezio: (q
i+1 )(
+ qi ⋅ pi+1 − pi )
2

qn-1 Totale Aree Trapezi: ∑


(
n−1q i+1 )(
+ qi ⋅ pi+1 − pi )
ne

i=0 2
zio

( )( )
tra

1 n−1 qi+1 + qi ⋅ pi+1 − pi


Area Concentrazione: −∑
en

2 i=0 2
nc
co

qi+1
di

Rapporto Area di Concentrazione


ea

qi
di Concentrazione: Area massima
Ar

q2
q1 1
!
p1 p2 … pi pi+1 pn-1 1 2

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione per dati raggruppati

La concentrazione come rapporto tra aree

qi
1
n−1 q + q
Area di concentrazione: 1 − ∑ i i+1 (
⋅ pi+1 − pi )( )
2 i=0 2

qn-1
Rapporto di concentrazione:
ne
zio

( )( )
tra

11 n−1 qii ++ q
n−1 q qi+1 ⋅⋅ p
pi+1 −− p
pii
−− ∑
en

i+1 i+1

( )( )
n−1
n−1
nc

22 i=0 22
R ==
R i=0
1− ∑ q
== 1− qii ++ q
qi+1 ⋅⋅ p
pi+1 −− p
pii
co

i+1 i+1
qi+1 11 i=0
i=0
di

22
ea

qi

( ) ( )
n−1
Ar

Formula alternativa: R = ∑ ⎡ p × q − p × q ⎤
q2
q1 i=1
⎣ i i+1 i+1 i ⎦

p1 p2 … pi pi+1 pn-1 1

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione per dati raggruppati


( ) ( )
n−1
R = ∑ ⎡ pi × qi+1 − pi+1 × qi ⎤
i=1
⎣ ⎦

Esempio:
La concentrazione degli addetti nelle Imprese italiane (da Borra, Di Ciaccio, Statistica; Dati in migliaia)
Classe Numero imprese Numero addetti Numero addetti
di addetti (x 1.000) (stimato) (reale)

0-2 2.043,0 Individuiamo


2.043,0 le pi e2.718,3
le qi
3-9 636,0 3.816,0 2.845,6
10-19 103,2 1.496,4 1.352,0
Le Imprese
20-49 43,4 • Chi1.497,3
sono le pi ? 1.281,2
(i “possessori” del “bene”)
50-99 11,8 879,1 808,7
100-499 8,3 2.485,9
• Chi sono le qi ? Gli Addetti
1.588,3
500-999 0,8 599,6 (il “bene” da ripartire)
529,4
TOT 2.847 12.817 11.124
2.043
• Quanto vale p1 ? p1 = = 0,718
2.847

• Quanto vale q1 ? Se non abbiamo altri dati, l’unico modo per


ottenere il totale degli addetti per ogni
classe è stimarlo, moltiplicando il valore
centrale della classe per il numero di
imprese rilevate per quella classe di addetti.

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione per dati raggruppati


( ) ( )
n−1
R = ∑ ⎡ pi × qi+1 − pi+1 × qi ⎤
i=1
⎣ ⎦

Esempio:
La concentrazione degli addetti nelle Imprese italiane (da Borra, Di Ciaccio, Statistica; Dati in migliaia)
Classe Numero imprese Numero addetti Numero addetti
di addetti (x 1.000) (stimato) (reale)

0-2 2.043,0 2.043,0 Molto2.718,3


spesso, però, si dispone di informazioni sui
3-9 636,0 3.816,0 dati 2.845,6
reali, che, ovviamente, migliorano
10-19 103,2 1.496,4 l’attendibilità
1.352,0 dell’indagine.
20-49 43,4 1.497,3 1.281,2
50-99 11,8 879,1 808,7
100-499 8,3 2.485,9 1.588,3
500-999 0,8 599,6 529,4
TOT 2.847 12.817 11.124

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione per dati raggruppati


( ) ( )
n−1
R = ∑ ⎡ pi × qi+1 − pi+1 × qi ⎤
i=1
⎣ ⎦

Esempio:
La concentrazione degli addetti nelle Imprese italiane (da Borra, Di Ciaccio, Statistica; Dati in migliaia)
Classe Numero imprese Numero addetti Numero addetti Per esempio,
di addetti (x 1.000) (stimato) (reale) da rilevazioni ISTAT
0-2 2.043,0 2.043,0 2.718,3
3-9 636,0 3.816,0 2.845,6
10-19 103,2 1.496,4 1.352,0
Ovviamente, tra un dato stimato
20-49 43,4 1.497,3 1.281,2
e un dato reale, scegliamo il
50-99 11,8 879,1 808,7 dato reale.
100-499 8,3 2.485,9 1.588,3
500-999 0,8 599,6 529,4
TOT 2.847 12.817 11.124

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione per dati raggruppati


( ) ( )
n−1
R = ∑ ⎡ pi × qi+1 − pi+1 × qi ⎤
i=1
⎣ ⎦

Esempio:
La concentrazione degli addetti nelle Imprese italiane (da Borra, Di Ciaccio, Statistica; Dati in migliaia)
Classe Numero Numero addetti pi · qi+1 pi+1· qi
pi qi a-b
di addetti imprese (reale) (a) (b)
0-2 2.043,0 2.718,3 0,7177 0,2444 0,3590 0,2300 0,1290
3-9 636,0 2.845,6 0,9412 0,5002 0,5852 0,4889 0,0963
10-19 103,2 1.352,0 0,9774 0,6217 0,7203 0,6172 0,1031
20-49 43,4 1.281,2 0,9927 0,7369 0,8037 0,7346 0,0691
50-99 11,8 808,7 0,9968 0,8096 0,9494 0,8094 0,1400
100-499 8,3 1.588,3 0,9997 0,9524 0,9997 0,9524 0,0473
500-999 0,8 529,4 1,0000 1,0000
TOT 2.847 11.124 / / 4,4172 3,8324 0,5848

Quanto vale p1? Il valore di pi esprime la frazione cumulata delle prime i


imprese più “povere” del carattere, ossia quelle che hanno 2.043
meno addetti. Poiché i dati sono raggruppati in classi, ci p1 = = 0,718
riferiremo al totale delle imprese della prima classe (2.043)
2.847
rispetto al totale delle imprese e avremo:

Quanto vale p2? Per p2 (e poi per tutte le pi successive) il discorso è analogo; 2.043 + 636
bisogna solo ricordare che parliamo di frazioni cumulate. p2 = = 0,941
Quindi avremo:
2.847

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione per dati raggruppati


( ) ( )
n−1
R = ∑ ⎡ pi × qi+1 − pi+1 × qi ⎤
i=1
⎣ ⎦

Esempio:
La concentrazione degli addetti nelle Imprese italiane (da Borra, Di Ciaccio, Statistica; Dati in migliaia)
Classe Numero Numero addetti pi · qi+1 pi+1· qi
pi qi a-b
di addetti imprese (reale) (a) (b)
0-2 2.043,0 2.718,3 0,7177 0,2444 0,3590 0,2300 0,1290
3-9 636,0 2.845,6 0,9412 0,5002 0,5852 0,4889 0,0963
10-19 103,2 1.352,0 0,9774 0,6217 0,7203 0,6172 0,1031
20-49 43,4 1.281,2 0,9927 0,7369 0,8037 0,7346 0,0691
50-99 11,8 808,7 0,9968 0,8096 0,9494 0,8094 0,1400
100-499 8,3 1.588,3 0,9997 0,9524 0,9997 0,9524 0,0473
500-999 0,8 529,4 1,0000 1,0000
TOT 2.847 11.124 / / 4,4172 3,8324 0,5848

Quanto vale q1? Il valore di qi esprime la frazione cumulata della quantità 2.718,3
q1 = = 0,244
del carattere (gli addetti) detenuto dalle prime i imprese 11.124
più “povere”. Avremo quindi:

Quanto vale q2? Per p2 (e poi per tutte le pi successive) il discorso è analogo; 2.718,3 + 2.845,6
bisogna solo ricordare che parliamo di frazioni cumulate.
q2 =
11.124
Quindi avremo:
= 0,500

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione per dati raggruppati


( ) ( )
n−1
R = ∑ ⎡ pi × qi+1 − pi+1 × qi ⎤
i=1
⎣ ⎦

Esempio:
La concentrazione degli addetti nelle Imprese italiane (da Borra, Di Ciaccio, Statistica; Dati in migliaia)
Classe Numero Numero addetti pi · qi+1 pi+1· qi
pi qi a-b
di addetti imprese (reale) (a) (b)
0-2 2.043,0 2.718,3 0,7177 0,2444 0,3590 0,2300 0,1290
3-9 636,0 2.845,6 0,9412 0,5002 0,5852 0,4889 0,0963
10-19 103,2 1.352,0 0,9774 0,6217 0,7203 0,6172 0,1031
20-49 43,4 1.281,2 0,9927 0,7369 0,8037 0,7346 0,0691
50-99 11,8 808,7 0,9968 0,8096 0,9494 0,8094 0,1400
100-499 8,3 1.588,3 0,9997 0,9524 0,9997 0,9524 0,0473
500-999 0,8 529,4 1,0000 1,0000
TOT 2.847 11.124 / / 4,4172 3,8324 0,5848

( ) ( )
n−1
R = ∑ ⎡ pi × qi+1 − p+1 × qi ⎤
i=1
⎣ ⎦

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La concentrazione per dati raggruppati


( ) ( )
n−1
R = ∑ ⎡ pi × qi+1 − pi+1 × qi ⎤
i=1
⎣ ⎦

Esempio:
La concentrazione degli addetti nelle Imprese italiane (da Borra, Di Ciaccio, Statistica; Dati in migliaia)
Classe Numero Numero addetti pi · qi+1 pi+1· qi
pi qi a-b
di addetti imprese (reale) (a) (b)
0-2 2.043,0 2.718,3 0,7177 0,2444 0,3590 0,2300 0,1290
3-9 636,0 2.845,6 0,9412 0,5002 0,5852 0,4889 0,0963
10-19 103,2 1.352,0 0,9774 0,6217 0,7203 0,6172 0,1031
20-49 43,4 1.281,2 0,9927 0,7369 0,8037 0,7346 0,0691
50-99 11,8 808,7 0,9968 0,8096 0,9494 0,8094 0,1400
100-499 8,3 1.588,3 0,9997 0,9524 0,9997 0,9524 0,0473
500-999 0,8 529,4 1,0000 1,0000
TOT 2.847 11.124 / / 4,4172 3,8324 0,5848

( ) ( )
n−1
R = ∑ ⎡ pi × qi+1 − p+1 × qi ⎤ = 0,585
i=1
⎣ ⎦

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (1)


Si riporta di seguito la distribuzione degli Iscritti nelle varie Università
italiane per il 2017, divisi per area di studio.

Area di studio Totale iscritti

Scientifica 174.463
Medica 229.138
Ingegneria 338.686
Economico-Statistica 394.174
Giuridica 431.252
Letteraria 196.204
Altra 30.195
TOT 1.794.112

Si determini una misura della concentrazione degli iscritti nelle varie aree di studio.

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (2)


Si riporta di seguito la distribuzione degli Abitanti negli 8.094 Comuni
italiani.

Abitanti Numero Comuni

Fino a 1.000 1.970


1.001-5.000 3.872
5.001-10.000 1.171
10.001-30.000 775
30.001-50.000 157
50.001-100.000 94
100.001-250.000 42
250.001-500.000 7
Oltre 500.000 6
TOT 8.094
Si determini una misura della concentrazione della Popolazione nei vari Comuni (si
consideri, come dimensione massima, 1 milione di abitanti).

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (3)


Si riporta di seguito la distribuzione dei Contribuenti italiani divisi per fasce di
reddito (dati 2012, Fonte Ministero dell’Economia e delle Finanze).
Si determini una misura della concentrazione del reddito.
Nota: per semplicità, si ponga il valore massimo pari a 600mila euro.

Classi di reddito Contribuenti

0-1.000 2.275.202
1.000-2.000 1.211.674
2.000-5.000 2.556.592
5.000-10.000 7.804.113
10-000-20.000 13.355.976
20.000-40.000 11.117.210
40.000-60.000 1.651.195
60.000-100-000 888.064
100.000-200.000 320.852
Oltre 200.000 77.273
TOT 41.258.151

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lʼuso degli indici statistici

Il rapporto sulla povertà nei Paesi OECD

L'OCSE, Organizzazione per la Cooperazione e lo Sviluppo Economico [in inglese Organisation


for Economic Co-operation and Development (OECD)] è stata istituita con la Convenzione
sull'Organizzazione per la Cooperazione e lo Sviluppo Economici, firmata il 14 dicembre 1960, e
ha sostituito l'OECE, creata nel 1948 per gestire il "Piano Marshall" per la ricostruzione post-bellica
dell'economia europea.
Ne fanno parte oggi 34 Paesi (Australia, Austria, Belgio, Canada, Cile, Danimarca, Estonia,
Finlandia, Francia, Germania, Giappone, Gran Bretagna, Grecia, Irlanda, Islanda, Israele, Italia,
Lussemburgo, Messico, Norvegia, Nuova Zelanda, Paesi Bassi, Polonia, Portogallo, Repubblica
Ceca, Repubblica di Corea, Repubblica Slovacca, Slovenia, Spagna, Stati Uniti, Svezia, Svizzera,
Turchia, Ungheria), che si riconoscono nella democrazia e nell`economia di mercato.
L'Organizzazione inoltre mantiene stretti contatti con oltre 70 Paesi non membri (che possono
partecipare come osservatori ai lavori dei Comitati o a determinati programmi) e con altre
Organizzazioni Internazionali.
Gli obiettivi dell`OCSE sono di sostenere la crescita economica sostenibile, aumentare
l`occupazione, innalzare il tenore di vita, mantenere la stabilità finanziaria, assistere lo sviluppo
delle economie dei Paesi non membri, contribuire alla crescita del commercio internazionale.
Grazie alle attività dell`OCSE, i Paesi membri possono comparare le differenti esperienze, cercare
risposta ai problemi comuni, identificare le best practices e coordinare le politiche nazionali ed
internazionali.

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lʼuso degli indici statistici

Il rapporto sulla disuguaglianza nei Paesi OECD

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lʼuso degli indici statistici

Il rapporto di concentrazione di Gini nel mondo

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lʼuso degli indici statistici

Il rapporto di concentrazione di Gini nei Paesi UE


PAESE Indice di Gini P90 vs P10
 Slovenia 24,9  5,4
 Rep. Ceca 25,9  5,7
 Belgio 26,0  7,2
 Slovacchia 26,5  6,7
 Finlandia 27,1  5,7
 Austria 27,9  7,6
 Svezia 28,0  7,3
 Paesi Bassi 28,2  6,6
 Danimarca 29,1  8,1
 Germania 29,1  6,9
 Polonia 29,1  7,3
 Ungheria 30,4  7,9
 Croazia 31,1  8,6
 Francia 32,7  8,6
 Irlanda 32,9  8,2
 Lussemburgo 33,8  9,1
 Lettonia 34,2 10,4
 Estonia 34,6  9,0
 Spagna 34,9 13,8
 Italia 35,4 14,3
 Portogallo 35,5 11,4
 Romania 35,9 14,5
 Grecia 36,0 13,8
 Bulgaria 37,4 14,4
 Lituania 37,4 13,6
Cipro nd nd
Malta nd nd

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lʼuso degli indici statistici

Il rapporto di concentrazione di Gini nei Paesi UE e il rapporto P90/P10


PAESE Indice di Gini P90 vs P10
 Slovenia 24,9  5,4
 Rep. Ceca 25,9  5,7
 Belgio 26,0  7,2
 Slovacchia 26,5  6,7
 Finlandia 27,1  5,7
 Austria 27,9  7,6
 Svezia 28,0  7,3
 Paesi Bassi 28,2  6,6
 Danimarca 29,1  8,1 | | |
 Germania 29,1  6,9 P10 Me P90
 Polonia 29,1  7,3 2.600€ 16.500€ 38.000€
 Ungheria 30,4  7,9
 Croazia 31,1  8,6
 Francia 32,7  8,6
 Irlanda 32,9  8,2
 Lussemburgo 33,8  9,1
 Lettonia 34,2 10,4
 Estonia 34,6  9,0
 Spagna 34,9 13,8
 Italia 35,4 14,3
 Portogallo 35,5 11,4
 Romania 35,9 14,5
 Grecia 36,0 13,8
 Bulgaria 37,4 14,4
 Lituania 37,4 13,6
Cipro nd nd
Malta nd nd

LEZIONE 5 – LA CONCENTRAZIONE
Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 6:
Miscellanea
(Boxplot; Indici di forma; Numeri indici semplici)
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli indici di forma


• Gli indici di posizione e di variabilità di una distribuzione di frequenza non esauriscono le
informazioni contenute nei dati;
• Due variabili statistiche possono avere la stessa posizione e la stessa variabilità ma differire per il
peso dei valori più grandi o più piccoli rispetto al valore centrale, a causa del comportamento
differenziato delle “code” della distribuzione (Piccolo, Statistica, pag. 121).

Distribuzione simmetrica rettangolare Distribuzione simmetrica campanulare

Media=Mediana=Moda Media=Mediana=Moda

Distribuzione asimmetrica positiva Distribuzione asimmetrica negativa

Moda<Mediana<Media Media<Mediana<Moda

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli indici di forma

Simmetria: …………………………. Media=Mediana=Moda

Asimmetria positiva: …………….. Moda<Mediana<Media

Asimmetria negativa: …………… Media<Mediana<Moda

ATTENZIONE: Una distribuzione simmetrica ha sempre Media, Mediana e Moda coincidenti


ma non è vero il contrario; anche se media, mediana e moda coincidono non è detto
che la distribuzione sia simmetrica (quindi, conviene sempre guardare l’istogramma).

µ − Me
Indice di asimmetria relativo: I1 =
σ

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I valori "anomali"
Età Frequenza
25 3 Media= 28,5 anni
26 6 Q1= 26 anni
27 8
28 5
Mediana= 27 anni
29 5 Q3= 29 anni
30 3
61 1
TOT 31

Valori anomali:
La caratterizzazione di un valore come “anomalo” è, ovviamente, assolutamente arbitraria; non
esistono criteri “oggettivi” per definire un valore come anomalo. D’altra parte, è chiaro che un
valore anomalo si troverà nelle code della distribuzione ordinata, quindi o molto più a destra di Q3 o
molto più a sinistra di Q1.

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I valori "anomali"
Età Frequenza
25 3 Media= 28,5 anni
26 6 Q1= 26 anni
27 8
28 5
Mediana= 27 anni
29 5 Q3= 29 anni
30 3 DI = Differenza interquartile (Q3-Q1) = 3 anni
61 1
TOT 31

Valori anomali:
La caratterizzazione di un valore come “anomalo” è, ovviamente, assolutamente arbitraria; non
esistono criteri “oggettivi” per definire un valore come anomalo. D’altra parte, è chiaro che un
valore anomalo si troverà nelle "code" della distribuzione ordinata, quindi o molto più a destra di Q3
o molto più a sinistra di Q1.
Un metodo empirico generalmente accettato definisce questa distanza come un multiplo della
differenza interquartile (Q3-Q1).
Più precisamente, un dato viene considerato come anomalo se si trova a sinistra di Q1 o a destra
di Q3 per più di 1,5 volte la differenza interquartile.
Nel nostro esempio questi limiti valgono rispettivamente:

( ) (
Q1 − 1,5 × DI = 26 − 1,5 × 3 = 21,5 ) ( ) (
Q3 + 1,5 × DI = 29 − 1,5 × 3 = 33,5 )
da cui risulta che non ci sono valori anomali nella coda sinistra (non ci sono valori inferiori a 21, 5 anni),
mentre se ne trova uno nella coda destra (61 anni).

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Un “riepilogo grafico” sulla variabilità: il boxplot


Età Frequenza
25 3 Media= 28,5 anni
26 6 Q1= 26 anni
27 8
28 5
Mediana= 27 anni
29 5 Q3= 29 anni
30 3 DI = Differenza interquartile (Q3-Q1) = 3 anni
61 1
TOT 31

a) Senza il valore anomalo b) Con il valore anomalo

31

Min Q1 Q2 Q3 Max

24 25 26 27 28 29 30 31 20 30 40 50 60 70

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Un “riepilogo grafico” sulla variabilità: il boxplot


Età Frequenza
25 3 Media= 28,5 anni
26 6 Q1= 26 anni
27 8
28 5
Mediana= 27 anni
29 5 Q3= 29 anni
30 3 DI = Differenza interquartile (Q3-Q1) = 3 anni
61 1
TOT 31

30

%
20

10

0
24 25 26 27 28 29 30 31 25 26 27 28 29 30

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi di Boxplot
(Indagine del Sole 24ore sulla "Qualità della vita" nelle Province italiane, anno 2007)

Reddito p.c. (in €) Reddito p.c. (in €, per Zona geografica)

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi di Boxplot
(Indagine del Sole 24ore sulla "Qualità della vita" nelle Province italiane, anno 2007)

Reddito p.c. (in €, per Zona geografica) Sale cinematografiche (per 100mila ab., per Zona)

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi di Boxplot
(Indagine del Sole 24ore sulla "Qualità della vita" nelle Province italiane, anno 2007)

Reddito p.c. e Consumi p.c. (in €) Reddito p.c. e Consumi p.c. (in €, per Zona geografica)

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

Nello studio di un fenomeno, in particolare nelle Scienze economiche, si è spesso interessati a


studiare la sua evoluzione nel tempo.
La rilevazione sistematica nel tempo dell'andamento di un certo fenomeno consente di definire
una serie storica.
Una serie storica è, dunque, una sequenza di osservazioni y1, y2, …, yT di un certo fenomeno Y
osservato in T tempi.
La cadenza della serie storica può essere diversa, a seconda del fenomeno osservato e degli
obiettivi di analisi che ci si prefigge: quotidiana, settimanale, mensile, annuale...

Esempi di serie storiche a cadenza…


Quotidiana Andamento di un titolo azionario

Settimanale Vendite di un certo prodotto in un Supermercato


Mensile Inflazione
Annuale Prodotto Interno Lordo (PIL)

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

Esempio: Il PIL in Italia e in Europa

(mld di euro)
PIL ITALIA PIL EU27
(mld di €) (mld di €)
2007 1.614,8 11.313,1
2008 1.637,7 11.369,7
2009 1.577,3 10.880,8
2010 1.611,3 11.120,2
2011 1.648,8 11.322,5
2012 1.624,4 11.388,9
2013 1.612,8 11.516,9
2014 1.627,4 11.781,4
2015 1.655,4 12.211,5
2016 1.695,8 12.550,2
2017 1.736,6 13.066,3
2018 1.771,6 13.519,8

La valutazione delle differenze tra i diversi


valori può risultare poco agevole sia per il
numero di anni osservati sia per la differente
scala utilizzata.

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

Esempio: Il PIL in Italia e in Europa

(mld di euro)
PIL ITALIA PIL EU27 Scegliendo un anno t come riferimento, è possibile ridefinire tutti i
(mld di €) (mld di €) valori come rapporti percentuali, mediante la trasformazione:
2007 1.614,8 11.313,1 yi
2008 1.637,7 11.369,7 y i* = *100
yt
2009 1.577,3 10.880,8
2010 1.611,3 11.120,2 1.614,8 * 11.313,1
y IT* ,2007 = ×100 = 97,9 y EU27,2007 = ×100 = 99,9
2011 1.648,8 11.322,5 1.648,8 11.322,5
2012 1.624,4 11.388,9 1.637,7 11.369,7
y IT* ,2008 = ×100 = 99,3 *
y EU27,2008 = ×100 = 100,4
2013 1.612,8 11.516,9 1.648,8 11.322,5
2014 1.627,4 11.781,4 : :
2015 1.655,4 12.211,5 : :
2016 1.695,8 12.550,2
2017 1.736,6 13.066,3
2018 1.771,6 13.519,8

La serie risultante non dipende più dall'unità di misura, essendo costituita da rapporti tra due numeri espressi nella
stessa unità di misura.
Sarà, dunque, possibile confrontare sia serie dello stesso fenomeno osservate su unità diverse (per esempio, il
confronto tra le serie del PIL nei diversi Paesi dell'UE) sia serie riguardanti fenomeni espressi in unità di misura diverse
(per esempio, le serie del PIL tra Paesi con unità monetarie diverse).

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

Esempio: Il PIL in Italia e in Europa

(mld di euro) (2011=100)


PIL ITALIA PIL EU27 PIL ITALIA PIL EU27
(mld di €) (mld di €) (2011=100) (2011=100)
2007 1.614,8 11.313,1 2007 97,9 99,9
2008 1.637,7 11.369,7 2008 99,3 100,4
2009 1.577,3 10.880,8 2009 95,7 96,1
2010 1.611,3 11.120,2 2010 97,7 98,2
2011 1.648,8 11.322,5 2011 100,0 100,0
2012 1.624,4 11.388,9 2012 98,5 100,6
2013 1.612,8 11.516,9 2013 97,8 101,7
2014 1.627,4 11.781,4 2014 98,7 104,1
2015 1.655,4 12.211,5 2015 100,4 107,9
2016 1.695,8 12.550,2 2016 102,9 110,8
2017 1.736,6 13.066,3 2017 105,3 115,4
2018 1.771,6 13.519,8 2018 107,4 119,4

La serie risultante non dipende più dall'unità di misura, essendo costituita da rapporti tra due numeri espressi nella
stessa unità di misura.
Sarà, dunque, possibile confrontare sia serie dello stesso fenomeno osservate su unità diverse (per esempio, il
confronto tra le serie del PIL nei diversi Paesi dell'UE) sia serie riguardanti fenomeni espressi in unità di misura diverse
(per esempio, le serie del PIL tra Paesi con unità monetarie diverse).

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

Esempio: Il PIL in Italia e in Europa

(2011=100)
PIL ITALIA PIL EU27
(2011=100) (2011=100)
2007 97,9 99,9
2008 99,3 100,4
2009 95,7 96,1
2010 97,7 98,2
2011 100,0 100,0
2012 98,5 100,6
2013 97,8 101,7
2014 98,7 104,1
2015 100,4 107,9
2016 102,9 110,8
2017 105,3 115,4
2018 107,4 119,4

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

Esempio: Il PIL in Italia e in Europa

(mld di euro)
2011 2012 2013 2014 2015 2016 2017 2018 2019 2020
EU27 11.322,5 11.388,9 11.516,9 11.781,4 12.211,5 12.550,2 13.066,3 13.519,8 13.983,5 13.348,7
Austria 310,1 318,7 323,9 333,1 344,3 357,6 369,3 385,4 397,6 377,3
Belgium 376,0 386,2 392,9 403,0 416,7 430,1 445,1 460,4 476,3 451,2
Bulgaria 41,3 42,0 41,9 42,9 45,7 48,6 52,3 56,1 61,2 60,6
Croatia 44,9 44,0 43,8 43,4 44,6 46,6 49,2 52,0 54,2 49,3
Cyprus 19,8 19,4 18,0 17,4 17,9 18,9 20,1 21,4 22,3 20,8
Czechia 165,2 162,6 159,5 157,8 169,6 177,4 194,1 210,9 225,6 215,3
Denmark 247,9 254,6 258,7 265,8 273,0 283,1 294,8 302,3 310,5 312,5
Estonia 16,8 18,1 19,0 20,2 20,8 21,9 23,9 25,9 28,1 27,2
Finland 198,0 201,0 204,3 206,9 211,4 217,5 226,3 233,5 240,1 236,2
France 2.058,4 2.088,8 2.117,2 2.149,8 2.198,4 2.234,1 2.297,2 2.363,3 2.437,6 2.302,9
Germany 2.693,6 2.745,3 2.811,4 2.927,4 3.026,2 3.134,7 3.267,2 3.367,9 3.473,4 3.367,6
Greece 203,3 188,4 179,6 177,3 176,1 174,2 177,2 179,7 183,4 165,8
Hungary 102,0 100,0 102,0 106,1 112,7 116,1 126,9 135,9 146,1 135,9
Ireland 171,7 175,5 179,4 194,9 262,8 270,1 296,9 326,0 356,5 372,9
Italy 1.648,8 1.624,4 1.612,8 1.627,4 1.655,4 1.695,8 1.736,6 1.771,6 1.790,9 1.651,6
Latvia 20,3 22,2 23,0 23,6 24,6 25,4 27,0 29,1 30,4 29,3
Lithuania 31,3 33,4 35,0 36,6 37,3 38,9 42,3 45,5 48,8 48,9
Luxembourg 43,2 44,1 46,5 49,8 52,1 54,9 56,8 60,1 63,5 64,1
Malta 6,9 7,4 7,9 8,8 10,0 10,6 11,7 12,6 13,6 12,7
Netherlands 650,4 653,0 660,5 671,6 690,0 708,3 738,1 774,0 813,1 800,1
Poland 379,9 387,9 392,3 409,0 430,5 427,1 467,4 497,8 533,6 523,0
Portugal 176,1 168,3 170,5 173,1 179,7 186,5 195,9 205,2 213,9 202,4
Romania 131,8 132,7 143,7 150,7 160,1 170,1 187,8 204,5 223,0 218,2
Slovakia 71,3 73,6 74,4 76,3 79,8 81,1 84,5 89,4 93,9 91,6
Slovenia 37,1 36,3 36,5 37,6 38,9 40,4 43,0 45,9 48,4 46,3
Spain 1.063,8 1.031,1 1.020,3 1.032,2 1.077,6 1.113,8 1.161,9 1.204,2 1.244,8 1.121,7
Sweden 412,8 430,0 441,9 438,8 455,5 466,3 480,0 470,7 476,9 474,7

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

Esempio: Il PIL in Italia e in Europa

(mld di euro) 2011,


EU27
2011
11.322,5
2012
11.388,9
anno
2013
11.516,9
di
2014
11.781,4
2015
12.211,5
2016
12.550,2
2017
13.066,3
2018
13.519,8
2019
13.983,5
2020
13.348,7
Austria 310,1 318,7riferimento
323,9 333,1 344,3 357,6 369,3 385,4 397,6 377,3
Belgium 376,0 386,2 392,9 403,0 416,7 430,1 445,1 460,4 476,3 451,2
Bulgaria 41,3 42,0 41,9 42,9 45,7 48,6 52,3 56,1 61,2 60,6
Croatia 44,9 44,0 43,8 43,4 44,6 46,6 49,2 52,0 54,2 49,3
Cyprus 19,8 19,4 18,0 17,4 17,9 18,9 20,1 21,4 22,3 20,8
Czechia 165,2 162,6 159,5 157,8 169,6 177,4 194,1 210,9 225,6 215,3
Denmark 247,9 254,6 258,7 265,8 273,0 283,1 294,8 302,3 310,5 312,5
Estonia 16,8 18,1 19,0 20,2 20,8 21,9 23,9 25,9 28,1 27,2
Finland 198,0 201,0 204,3 206,9 211,4 217,5 226,3 233,5 240,1 236,2
France 2.058,4 2.088,8 2.117,2 2.149,8 2.198,4 2.234,1 2.297,2 2.363,3 2.437,6 2.302,9
Germany 2.693,6 2.745,3 2.811,4 2.927,4 3.026,2 3.134,7 3.267,2 3.367,9 3.473,4 3.367,6
Greece 203,3 188,4 179,6 177,3 176,1 174,2 177,2 179,7 183,4 165,8
Hungary 102,0 100,0 102,0 106,1 112,7 116,1 126,9 135,9 146,1 135,9
Ireland 171,7 175,5 179,4 194,9 262,8 270,1 296,9 326,0 356,5 372,9
Italy 1.648,8 1.624,4 1.612,8 1.627,4 1.655,4 1.695,8 1.736,6 1.771,6 1.790,9 1.651,6
Latvia 20,3 22,2 23,0 23,6 24,6 25,4 27,0 29,1 30,4 29,3
Lithuania 31,3 33,4 35,0 36,6 37,3 38,9 42,3 45,5 48,8 48,9
Luxembourg 43,2 44,1 46,5 49,8 52,1 54,9 56,8 60,1 63,5 64,1
Malta 6,9 7,4 7,9 8,8 10,0 10,6 11,7 12,6 13,6 12,7
Netherlands 650,4 653,0 660,5 671,6 690,0 708,3 738,1 774,0 813,1 800,1
Poland 379,9 387,9 392,3 409,0 430,5 427,1 467,4 497,8 533,6 523,0
Portugal 176,1 168,3 170,5 173,1 179,7 186,5 195,9 205,2 213,9 202,4
Romania 131,8 132,7 143,7 150,7 160,1 170,1 187,8 204,5 223,0 218,2
Slovakia 71,3 73,6 74,4 76,3 79,8 81,1 84,5 89,4 93,9 91,6
Slovenia 37,1 36,3 36,5 37,6 38,9 40,4 43,0 45,9 48,4 46,3
Spain 1.063,8 1.031,1 1.020,3 1.032,2 1.077,6 1.113,8 1.161,9 1.204,2 1.244,8 1.121,7
Sweden 412,8 430,0 441,9 438,8 455,5 466,3 480,0 470,7 476,9 474,7

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

Esempio: Il PIL in Italia e in Europa

(2011=100)
2011 2012 2013 2014 2015 2016 2017 2018 2019 2020
EU27 100,0 100,6 101,7 104,1 107,9 110,8 115,4 119,4 123,5 117,9
Austria 100,0 102,7 104,4 107,4 111,0 115,3 119,1 124,3 128,2 121,7
Belgium 100,0 102,7 104,5 107,2 110,8 114,4 118,4 122,4 126,7 120,0
Bulgaria 100,0 101,9 101,5 103,9 110,7 117,9 126,8 136,0 148,4 146,9
Croatia 100,0 98,0 97,5 96,6 99,3 103,8 109,6 115,6 120,7 109,7
Cyprus 100,0 98,2 90,9 88,0 90,3 95,6 101,6 108,2 112,5 105,2
Czechia 100,0 98,4 96,5 95,5 102,6 107,4 117,5 127,7 136,5 130,3
Denmark 100,0 102,7 104,4 107,2 110,1 114,2 118,9 122,0 125,3 126,1
Estonia 100,0 107,3 113,1 119,9 123,5 130,3 141,8 154,1 167,0 161,4
Finland 100,0 101,5 103,2 104,5 106,8 109,9 114,3 117,9 121,3 119,3
France 100,0 101,5 102,9 104,4 106,8 108,5 111,6 114,8 118,4 111,9
Germany 100,0 101,9 104,4 108,7 112,3 116,4 121,3 125,0 129,0 125,0
Greece 100,0 92,7 88,3 87,2 86,6 85,7 87,1 88,4 90,2 81,6
Hungary 100,0 98,0 100,0 104,0 110,5 113,8 124,4 133,2 143,2 133,2
Ireland 100,0 102,2 104,5 113,5 153,1 157,3 172,9 189,9 207,7 217,2
Italy 100,0 98,5 97,8 98,7 100,4 102,9 105,3 107,4 108,6 100,2
Latvia 100,0 109,4 113,1 116,3 120,9 124,9 132,8 143,5 149,8 144,4
Lithuania 100,0 106,7 111,9 116,8 119,2 124,2 135,0 145,3 155,9 156,2
Luxembourg 100,0 102,2 107,7 115,4 120,6 127,1 131,6 139,1 147,1 148,6
Malta 100,0 106,4 114,7 126,4 144,4 152,6 169,2 181,9 196,3 183,4
Netherlands 100,0 100,4 101,6 103,3 106,1 108,9 113,5 119,0 125,0 123,0
Poland 100,0 102,1 103,3 107,7 113,3 112,4 123,1 131,1 140,5 137,7
Portugal 100,0 95,6 96,8 98,3 102,1 105,9 111,3 116,5 121,5 115,0
Romania 100,0 100,7 109,0 114,3 121,5 129,0 142,4 155,1 169,1 165,5
Slovakia 100,0 103,2 104,4 107,0 111,9 113,7 118,5 125,3 131,7 128,4
Slovenia 100,0 97,8 98,4 101,6 104,8 109,1 116,1 123,8 130,6 124,9
Spain 100,0 96,9 95,9 97,0 101,3 104,7 109,2 113,2 117,0 105,4
Sweden 100,0 104,2 107,0 106,3 110,3 112,9 116,3 114,0 115,5 115,0

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

I Numeri indici semplici


a) Base fissa
Una serie di numeri indici a base fissa esprime l'intensità di un fenomeno, in ogni periodo di tempo,
come quota dell'intensità rispetto ad un periodo di riferimento scelto come base.
Andamento del prezzo della benzina (Gen 2020-Luglio 2021)
PREZZO Numeri indici % Numeri indici %
PERIODO
(€/Litro) (Gen 2020=100) (Gen 2021=100)
Gennaio 2020 1,586 100,0 108,3
Febbraio 2020 1,549 97,6 105,7
Marzo 2020 1,487 93,7 101,4
Aprile 2020 1,409 88,8 96,1
Maggio 2020 1,365 86,1 93,2
Giugno 2020 1,385 87,3 94,5
Luglio 2020 1,403 88,4 95,7
Agosto 2020 1,399 88,2 95,5
Settembre 2020 1,392 87,7 95,0
Ottobre 2020 1,388 87,5 94,7
Novembre 2020 1,391 87,7 94,9
Dicembre 2020 1,424 89,8 97,2
Gennaio 2021 1,465 92,4 100,0
Febbraio 2021 1,511 95,3 103,1
Marzo 2021 1,568 98,8 107,0
Aprile 2021 1,576 99,3 107,5
Maggio 2021 1,590 100,2 108,5
Giugno 2021 1,614 101,7 110,1
Luglio 2021 1,651 104,1 112,7

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

I Numeri indici semplici


a) Base fissa
Una serie di numeri indici a base fissa esprime l'intensità di un fenomeno, in ogni periodo di tempo,
come quota dell'intensità rispetto ad un periodo di riferimento scelto come base.
Andamento del prezzo della benzina (Gen 2020-Luglio 2021)
PREZZO Numeri indici % Numeri indici %
PERIODO
(€/Litro) (Gen 2020=100) (Gen 2021=100)
Gennaio 2020 1,586 100,0 108,3
Febbraio 2020 1,549 97,6 105,7
Marzo 2020 1,487 93,7 101,4
Aprile 2020 1,409 88,8 96,1
Maggio 2020 1,365 86,1 93,2
Giugno 2020 1,385 87,3 94,5
Luglio 2020 1,403 88,4 95,7
Agosto 2020 1,399 88,2 95,5
Settembre 2020 1,392 87,7 95,0
Ottobre 2020 1,388 87,5 94,7
Novembre 2020 1,391 87,7 94,9
Dicembre 2020 1,424 89,8 97,2
Gennaio 2021 1,465 92,4 100,0
Febbraio 2021 1,511 95,3 103,1
Marzo 2021 1,568 98,8 107,0
Aprile 2021 1,576 99,3 107,5
Maggio 2021 1,590 100,2 108,5
Giugno 2021 1,614 101,7 110,1
Luglio 2021 1,651 104,1 112,7

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

I Numeri indici semplici


a) Base fissa
Una serie di numeri indici a base fissa esprime l'intensità di un fenomeno, in ogni periodo di tempo,
come quota dell'intensità rispetto ad un periodo di riferimento scelto come base.
Il periodo di tempo preso come base di riferimento della serie dovrebbe cercare di rappresentare
una situazione di "normalità", caratterizzata dall'assenza di eventi che possano avere influito in
modo rilevante e anomalo sull'andamento del fenomeno.
È inoltre opportuno, in linea generale, scegliere come base uno tra i periodi centrali della serie,
che possa essere rappresentativo sia per le prime sia per le ultime osservazioni della serie. Per
questo motivo, passato un certo tempo, si renderà necessario calcolare la serie dei numeri indici
rispetto ad una base aggiornata.
I numeri indici a base fissa sono rapporti tra i valori osservati in una serie di occasioni con il valore
osservato in un'occasione di riferimento. Le occasioni possono essere tempi ma anche luoghi.

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

I Numeri indici semplici a base fissa


Population aged 25-34 with tertiary educational attainment (Euro Area, 2019)
2019 2019 2019
COUNTRY
(%) (2030 Goal=100) (Italy=100)
Austria 41,6 92,5 150,0
Belgium 47,3 105,1 170,4
Cyprus n.a. % di laureati
n.a. n.a. nella popolazione 25-34 anni
Estonia 42,8 95,0 154,1
Finland 41,8 92,9 150,7
France 48,1 Obiettivo173,2
106,8 UE per il 2030:
Germany 33,3 73,9 119,9
Greece 42,4 94,2 152,8
Ireland 55,4 123,2 199,9
Italy 27,7 61,7 100,0
Latvia 43,8 97,4 157,9
Lithuania 55,2 122,6 198,9
Luxembourg 55,0 122,2 198,2
Malta n.a. n.a. n.a.
Netherland 49,1 109,1 177,0
Portugal 37,4 83,0 134,7
Slovakia 39,2 87,0 141,1
Slovenia 44,1 98,0 159,0
Spain 46,5 103,4 167,6
Switzerland 52,7 117,1 189,9
United Kingdom 51,8 115,1 186,7
LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

I Numeri indici semplici a base fissa


Population aged 25-34 with tertiary educational attainment (Euro Area, 2019)
2019 2019 2019
COUNTRY
(%) (2030 Goal=100) (Italy=100)
Austria 41,6 92,5 150,0
Belgium 47,3 105,1 170,4
Cyprus n.a. n.a. n.a.
Estonia 42,8 95,0 154,1 % di laureati nella popolazione 25-34 anni
Finland 41,8 92,9 150,7
France 48,1 106,8 173,2 Obiettivo UE per il 2030:
Germany 33,3 73,9 119,9
Greece 42,4 94,2 152,8
Ireland 55,4 123,2 199,9
Italy 27,7 61,7 100,0
Latvia 43,8 97,4 157,9
Lithuania 55,2 122,6 198,9
Luxembourg 55,0 122,2 198,2
Malta n.a. n.a. n.a.
Netherland 49,1 109,1 177,0
Portugal 37,4 83,0 134,7
Slovakia 39,2 87,0 141,1
Slovenia 44,1 98,0 159,0
Spain 46,5 103,4 167,6
Switzerland 52,7 117,1 189,9
United Kingdom 51,8 115,1 186,7
LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

I Numeri indici semplici


b) Base mobile
Una serie di numeri indici a base mobile esprime l'intensità di un fenomeno, in ogni periodo di
tempo, come rapporto con l'intensità del periodo di tempo immediatamente precedente.

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

I Numeri indici semplici a base mobile


Covid-19: Andamento mensile nuovi casi
NUM. IND
MESE NUOVI CASI
(base mobile)
MAR2020 104.664
APR2020 99.671 95,2
MAG2020 27.556 27,6
GIU2020 7.559 27,4
LUG2020 6.959 92,1
AGO2020 21.702 311,9
SET2020 45.624 210,2
OTT2020 364.607 799,2
NOV2020 922.207 252,9
DIC2020 508.914 55,2
GEN2021 445.584 87,6
FEB2021 372.503 83,6
MAR2021 648.322 174,0
APR2021 439.628 67,8
MAG2021 195.273 44,4
GIU2021 42.614 21,8
LUG2021 90.174 211,6

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

I Numeri indici semplici a base mobile


Covid-19: Andamento mensile nuovi casi
NUM. IND
MESE NUOVI CASI
(base mobile)
MAR2020 104.664
APR2020 99.671 95,2
MAG2020 27.556 27,6
GIU2020 7.559 27,4
LUG2020 6.959 92,1
AGO2020 21.702 311,9
SET2020 45.624 210,2
OTT2020 364.607 799,2
NOV2020 922.207 252,9
DIC2020 508.914 55,2
GEN2021 445.584 87,6
FEB2021 372.503 83,6
MAR2021 648.322 174,0
APR2021 439.628 67,8
MAG2021 195.273 44,4
GIU2021 42.614 21,8
LUG2021 90.174 211,6

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I numeri indici (Borra, Di Ciaccio – Statistica, cap. 5)

I Numeri indici semplici


Esercizio di riepilogo
PREZZO Numeri indici % Numeri indici %
PERIODO
(€/Litro) (Gen 2020=100) (Gen 2021=100)
Gennaio 2020 1,586 Dalla
100,0tabella relativa
108,3 all'andamento del prezzo della benzina nel
Febbraio 2020 1,549 97,6
periodo Gennaio105,7
2020-Luglio 2021, si determini:
Marzo 2020 1,487 93,7 101,4
Aprile 2020 1,409
la serie dei numeri
• 88,8 96,1
indici semplici a base fissa, scegliendo come
Maggio 2020 1,365 base il mese di93,2
86,1 Settembre 2020;
Giugno 2020 1,385 la serie dei numeri
• 87,3 94,5 indici semplici a base mobile.
Luglio 2020 1,403 88,4 95,7
Agosto 2020 1,399 88,2 95,5
Settembre 2020 1,392 87,7 95,0
Ottobre 2020 1,388 87,5 94,7
Novembre 2020 1,391 87,7 94,9
Dicembre 2020 1,424 89,8 97,2
Gennaio 2021 1,465 92,4 100,0
Febbraio 2021 1,511 95,3 103,1
Marzo 2021 1,568 98,8 107,0
Aprile 2021 1,576 99,3 107,5
Maggio 2021 1,590 100,2 108,5
Giugno 2021 1,614 101,7 110,1
Luglio 2021 1,651 104,1 112,7

LEZIONE 6 – MISCELLANEA (BOXPLOT; INDICI DI FORMA; NUMERI INDICI SEMPLICI)


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 7:
Associazione tra caratteri
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Distribuzioni statistiche multiple

• In quasi tutti i casi reali, oltre a studiare la distribuzione e le caratteristiche delle


singole variabili, è importante analizzare il contemporaneo presentarsi delle
modalità di più variabili.
• Lo studio diventa necessariamente più complesso (ma anche più interessante),
perché l'analisi simultanea di più variabili comporta approfondimenti geometrici
e analitici che vanno al di là degli obiettivi di questo Corso.
• Ci limiteremo, dunque, alla discussione del caso più semplice, in cui i caratteri da
analizzare simultaneamente siano soltanto due, definendo gli indici più adatti a
misurarne l'intensità del legame, sia che si tratti di variabili qualitative
(connessione) sia che si tratti di variabili quantitative (correlazione).

• Una distribuzione doppia è:


• Quantitativa, se entrambe le componenti sono quantitative;
• Qualitativa, se entrambe le componenti sono qualitative;
• Mista, se una componente è quantitativa e l'altra è qualitativa.

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le distribuzioni doppie

Esempio di distribuzione doppia quantitativa:


Campione di 5.000 contribuenti sui quali sono stati rilevati il Reddito e i Consumi pro capite annui (in €)
Consumi p.c. (in €)
0-5mila 5-10mila 10-20mila 20-40mila 40-100mila TOT
0-10mila 450 100 0 0 0 550
Reddito p.c. (in €)

20
10-15mila 300 350 100 0 0 750
20-25mila 150 300 550 150 0 1.150
25-40mila 50 400 900 700 0 2.050
40-100mila 0 50 100 300 50 500
TOT 950 1.200 1.650 1.150 50 5.000

Questa distribuzione è caratterizzata da:


• una variabile X, con r modalità, sulle righe (in questo esempio, il Reddito);
• una variabile Y, con c modalità, sulle colonne (in questo esempio, i Consumi);
• una distribuzione marginale per la X;
• una distribuzione marginale per la Y;
• r distribuzioni di Y condizionate alle modalità di X;
• c distribuzioni di X condizionate alle modalità di Y.

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le distribuzioni doppie

Esempio di distribuzione doppia quantitativa:


Campione di 5.000 contribuenti sui quali sono stati rilevati il Reddito e i Consumi pro capite annui (in €)
Consumi p.c. (in €)
0-5mila 5-10mila 10-20mila 20-40mila 40-100mila TOT
0-10mila 450 100 0 0 0 550
Reddito p.c. (in €)

20
10-15mila 300 350 100 0 0 750 Distribuzione marginale
20-25mila 150 300 550 150 0 1.150 della X
25-40mila 50 400 900 700 0 2.050
40-100mila 0 50 100 300 50 500
TOT 950 1.200 1.650 1.150 50 5.000
Distribuzione marginale della Y

Questa distribuzione è caratterizzata da:


• una variabile X, con r modalità, sulle righe (in questo esempio, il Reddito);
• una variabile Y, con c modalità, sulle colonne (in questo esempio, i Consumi);
• una distribuzione marginale per la X;
• una distribuzione marginale per la Y;
• r distribuzioni di Y condizionate alle modalità di X;
• c distribuzioni di X condizionate alle modalità di Y.

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le distribuzioni doppie

Esempio di distribuzione doppia quantitativa:


Campione di 5.000 contribuenti sui quali sono stati rilevati il Reddito e i Consumi pro capite annui (in €)
Consumi p.c. (in €)
0-5mila 5-10mila 10-20mila 20-40mila 40-100mila TOT
0-10mila 450 100 0 0 0 550
Reddito p.c. (in €)

20
10-15mila 300 350 100 0 0 750 Distribuzione
condizionata della Y,
20-25mila 150 300 550 150 0 1.150
per X=10-15mila€
25-40mila 50 400 900 700 0 2.050
40-100mila 0 50 100 300 50 500
TOT 950 1.200 1.650 1.150 50 5.000

Distribuzione condizionata della X, per Y=20-40mila€


Questa distribuzione è caratterizzata da:
• una variabile X, con r modalità, sulle righe (in questo esempio, il Reddito);
• una variabile Y, con c modalità, sulle colonne (in questo esempio, i Consumi);
• una distribuzione marginale per la X;
• una distribuzione marginale per la Y;
• r distribuzioni di Y condizionate alle modalità di X;
• c distribuzioni di X condizionate alle modalità di Y.

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lo studio dell’associazione

La tabella riepilogativa per la scelta dell'indice

Caratteri
2 2 1 variabile
Approccio mutabili variabili 1 mutabile

Simmetrico
(Interdipendenza) ? ? ?
Asimmetrico
(Dipendenza) ? ? ?
Nell'approccio "simmetrico", si studia come due caratteri si influenzano
reciprocamente, in una relazione, quindi, di interdipendenza, o dipendenza reciproca;
Nell'approccio "asimmentrico", invece, si studia come uno dei due caratteri influenzi
l'altro; si dà, cioè, una "direzione" alla relazione, che non sarà più una relazione di
interdipendenza ma di dipendenza di una variabile dall'altra.

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lo studio dell’associazione

1. La relazione di interdipendenza tra mutabili


Caratteri
2 2 1 variabile
Approccio mutabili variabili 1 mutabile

Simmetrico
(Interdipendenza) ?
Asimmetrico
(Dipendenza)

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

1. L'interdipendenza tra mutabili

Simbologia
Voto all'esame
Basso Medio Alto TOT c
Tizio 13 33 38 84 ni. = ∑ nij
Docente

Caio 38 102 40 180 j=1


i-esimo elemento del marginale di riga.
Sempronio 90 45 20 155 E ʼ la somma delle frequenze delle
TOT 141 180 98 419 modalità di tutte le colonne
relativamente alla sola modalità di
posto i della variabile in riga.

nij r c
Generico elemento, n.. = ∑ ∑ nij
di riga i e colonna j. i=1 j=1
r
Totale delle frequenze.
n. j = ∑ nij
E ʼ la somma delle frequenze di tutte le
celle, o anche la somma degli elementi dei
i=1 marginali di riga o di quelli dei marginali di
j-esimo elemento del marginale di colonna. colonna.
Eʼ la somma delle frequenze delle modalità di
tutte le righe relativamente alla sola modalità
di posto j della variabile in colonna.

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

1. L'interdipendenza tra mutabili

Tabella di contingenza
Voto all'esame
Basso Medio Alto TOT
Tizio 13 33 38 84
Docente

Caio 38 102 40 180


Sempronio 90 45 20 155
TOT 141 180 98 419

E’ possibile affermare, sulla base dei valori osservati in tabella, che esiste una
relazione tra il docente e il voto?
Messa in altri termini, se voi doveste sostenere questo esame, a cui volete avere un
voto alto, e vi fosse consentito scegliere il docente, quale docente scegliereste?

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

1. L'interdipendenza tra mutabili

Tabella di contingenza e distribuzioni condizionate


Voto all'esame
Basso Medio Alto TOT
Tizio 13 33 38 84
% 15,5% 39,3% 45,2% 100,0%
Docente

Caio 38 102 40 180


% 21,1% 56,7% 22,2% 100,0%
Sempronio 90 45 20 155
% 58,1% 29,0% 12,9% 100,0%
TOT 141 180 98 419
% 33,7% 43,0% 23,4% 100,0%

La situazione di indipendenza è quella in cui tutte le distribuzioni condizionate (per


esempio, di riga) sono uguali tra loro, e quindi anche uguali alla distribuzione marginale
(in questo caso, di colonna).
nij n. j
Indipendenza = ∀i, j
ni. n..
ni. × n. j
Frequenze teoriche n̂ij =
(in caso di indipendenza) n..

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

1. L'interdipendenza tra mutabili

Frequenze osservate e frequenze teoriche

Tabella delle frequenze osservate Tabella delle frequenze teoriche


Basso Medio Alto TOT Basso Medio Alto TOT
Tizio 13 33 38 84 Tizio 28,3 36,1 19,6 84
% 15,5% 39,3% 45,2% 100,0% % 33,7% 43,0% 23,4% 100,0%
Caio 38 102 40 180 Caio 60,6 77,3 42,1 180
% 21,1% 56,7% 22,2% 100,0% % 33,7% 43,0% 23,4% 100,0%
Sempronio 90 45 20 155 Sempronio 52,2 66,6 36,3 155
% 58,1% 29,0% 12,9% 100,0% % 33,7% 43,0% 23,4% 100,0%
TOT 141 180 98 419 TOT 141 180 98 419
% 33,7% 43,0% 23,4% 100,0% % 33,7% 43,0% 23,4% 100,0%

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

1. L'interdipendenza tra mutabili

L'indice chi-quadrato

Tabella delle frequenze osservate Tabella delle frequenze teoriche


Basso Medio Alto TOT Basso Medio Alto TOT
Tizio 13 33 38 84 Tizio 28,3 36,1 19,6 84
% 15,5% 39,3% 45,2% 100,0% % 33,7% 43,0% 23,4% 100,0%
Caio 38 102 40 180 Caio 60,6 77,3 42,1 180
% 21,1% 56,7% 22,2% 100,0% % 33,7% 43,0% 23,4% 100,0%
Sempronio 90 45 20 155 Sempronio 52,2 66,6 36,3 155
% 58,1% 29,0% 12,9% 100,0% % 33,7% 43,0% 23,4% 100,0%
TOT 141 180 98 419 TOT 141 180 98 419
% 33,7% 43,0% 23,4% 100,0% % 33,7% 43,0% 23,4% 100,0%

( n − n̂ )
2

= ∑∑
ij ij
χ 2

i j n̂ij
(13 − 28,3) + (33 − 36,1) + (38 −19,6) + (38 − 60,6) + (102 − 77,3) + (40 − 42,1) + (90 − 52,2) + (45 − 66,6) + (20 − 36,3)
2 2 2 2 2 2 2 2 2

=
28,3 36,1 19,6 60,6 77,3 42,1 52,2 66,6 36,3

= 83,78 Qual è la sua interpretazione?

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

1. L'interdipendenza tra mutabili

L'indice chi-quadrato

Tabella delle frequenze osservate Tabella delle frequenze teoriche


Basso Medio Alto TOT Basso Medio Alto TOT
Tizio 13 33 38 84 Tizio 28,3 36,1 19,6 84
% 15,5% 39,3% 45,2% 100,0% % 33,7% 43,0% 23,4% 100,0%
Caio 38 102 40 180 Caio 60,6 77,3 42,1 180
% 21,1% 56,7% 22,2% 100,0% % 33,7% 43,0% 23,4% 100,0%
Sempronio 90 45 20 155 Sempronio 52,2 66,6 36,3 155
% 58,1% 29,0% 12,9% 100,0% % 33,7% 43,0% 23,4% 100,0%
TOT 141 180 98 419 TOT 141 180 98 419
% 33,7% 43,0% 23,4% 100,0% % 33,7% 43,0% 23,4% 100,0%

( n − n̂ )
2

= ∑∑
ij ij
χ 2
= 83,78 Qual è la sua interpretazione?
i j n̂ij
L’indice chi-quadrato è un indice assoluto, che dipende dal numero di osservazioni e dalle dimensioni
della tabella e, quindi, risulta di difficile interpretazione. Molto meglio sarebbe un indice normalizzato,
con un campo di variazione indipendente dalle dimensioni della tabella e dal numero di osservazioni.
La normalizzazione di un indice positivo è molto semplice, se se ne conosce il valore massimo, risultando,
infatti, pari al rapporto tra il valore dell’indice e, appunto, il suo valore massimo.

( )
Max χ 2 = n × min ⎡ r −1 ; c −1 ⎤
⎣ ⎦ ( )( )
LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

1. L'interdipendenza tra mutabili

L'indice chi-quadrato

Tabella delle frequenze osservate Tabella delle frequenze teoriche


Basso Medio Alto TOT Basso Medio Alto TOT
Tizio 13 33 38 84 Tizio 28,3 36,1 19,6 84
% 15,5% 39,3% 45,2% 100,0% % 33,7% 43,0% 23,4% 100,0%
Caio 38 102 40 180 Caio 60,6 77,3 42,1 180
% 21,1% 56,7% 22,2% 100,0% % 33,7% 43,0% 23,4% 100,0%
Sempronio 90 45 20 155 Sempronio 52,2 66,6 36,3 155
% 58,1% 29,0% 12,9% 100,0% % 33,7% 43,0% 23,4% 100,0%
TOT 141 180 98 419 TOT 141 180 98 419
% 33,7% 43,0% 23,4% 100,0% % 33,7% 43,0% 23,4% 100,0%

( n − n̂ )
2

= ∑∑
ij ij
χ 2
= 83,78
i j n̂ij

( ) ( )( )
Max χ 2 = n × min ⎡ r −1 ; c −1 ⎤ = 419 ✕ 2 = 838
⎣ ⎦

χ2 83,78
Indice normalizzato V di Cramer: V= = = 0,316
( )
Max χ 2 838

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

1. L'interdipendenza tra mutabili

L'indice Phi di Fisher

L’indice Φ di Fisher è un indice molto utilizzato quando almeno una delle due dimensioni
della tabella (righe o colonne) risulti pari a 2; in questo caso, infatti, l’indice Φ risulta
normalizzato.
Quando entrambe le dimensioni della tabella sono >2 (come nel nostro esempio), l’indice
Φ non ha molto senso e si preferisce di gran lunga il V di Cramer.

χ2
Φ=

?
n
χ2 83,78
Nel nostro esempio: Φ = = = 0,447
n 419

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

1. L'interdipendenza tra mutabili

Esempio 2
Consideriamo ancora i 419 studenti dell'esempio precedente e l'esame da loro svolto, ma
supponiamo che, invece di distinguere gli studenti rispetto al docente con cui hanno
sostenuto l'esame, li dividessimo in base al giorno della settimana (lunedì, martedì o
mercoledì) in cui lo hanno sostenuto.
Cosa ci aspettiamo dall'indice di associazione?
Basso Medio Alto TOT
Lunedì 53 68 39 160
Martedì 41 53 26 120
Mercoledì 47 59 33 139
TOT 141 180 98 419

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

1. L'interdipendenza tra mutabili

Esempio 2
Consideriamo ancora i 419 studenti dell'esempio precedente e l'esame da loro svolto, ma
supponiamo che, invece di distinguere gli studenti rispetto al docente con cui hanno
sostenuto l'esame, li dividessimo in base al giorno della settimana (lunedì, martedì o
mercoledì) in cui lo hanno sostenuto.
Cosa ci aspettiamo dall'indice di associazione?
Tabella delle frequenze osservate Tabella delle frequenze teoriche
Basso Medio Alto TOT Basso Medio Alto TOT
Lunedì 53 68 39 160 Lunedì 53,8 68,7 37,4 160
% 33,1% 42,5% 24,4% 100,0% % 33,7% 43,0% 23,4% 100,0%
Martedì 41 53 26 120 Martedì 40,4 51,6 28,1 120
% 34,2% 44,2% 21,7% 100,0% % 33,7% 43,0% 23,4% 100,0%
Mercoledì 47 59 33 139 Mercoledì 46,8 59,7 32,5 139
% 33,8% 42,4% 23,7% 100,0% % 33,7% 43,0% 23,4% 100,0%
TOT 141 180 98 419 TOT 141 180 98 419
% 33,7% 43,0% 23,4% 100,0% % 33,7% 43,0% 23,4% 100,0%

c2 = 0,31 V= 0,019

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

1. L'interdipendenza tra mutabili

Esempio 3
382 laureati sui quali sono stati osservati il Voto di laurea e la Frequenza alle lezioni
Voto di laurea
<96 96-105 106-110 110 e lode TOT
Frequenza

<30% 43 82 29 13 167
30-50% 27 68 31 33 159
>50% 0 19 13 24 56
TOT 70 169 73 70 382

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

1. L'interdipendenza tra mutabili

Esempio 3
382 laureati sui quali sono stati osservati il Voto di laurea e la Frequenza alle lezioni

Tabella delle frequenze osservate Tabella delle frequenze teoriche


<96 96-105 106-110 110 e lode TOT <96 96-105 106-110 110 e lode TOT
<30% 43 82 29 13 167 <30% 30,6 73,9 31,9 30,6 167
% 25,7% 49,1% 17,4% 7,8% 100,0% % 18,3% 44,2% 19,1% 18,3% 100,0%
30-50% 27 68 31 33 159 30-50% 29,1 70,3 30,4 29,1 159
% 17,0% 42,8% 19,5% 20,8% 100,0% % 18,3% 44,2% 19,1% 18,3% 100,0%
>50% 0 19 13 24 56 >50% 10,3 24,8 10,7 10,3 56
% 0,0% 33,9% 23,2% 42,9% 100,0% % 18,3% 44,2% 19,1% 18,3% 100,0%
TOT 70 169 73 70 382 TOT 70 169 73 70 382
% 18,3% 44,2% 19,1% 18,3% 100,0% % 18,3% 44,2% 19,1% 18,3% 100,0%

( n − n̂ )
2

χ 2
= ∑∑
ij

n̂ij
ij
= 47,56 ( ) ⎣ ( )( )
Max χ 2 = n × min ⎡ r −1 ; c −1 ⎤

i j

χ2 47,56
V= = = 0,249
Max χ 2 ( ) 382 × 2

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lo studio dell’associazione

2. La relazione di dipendenza tra mutabili


Caratteri
2 2 1 variabile
Approccio mutabili variabili 1 mutabile

Simmetrico χ2 ; V
(Interdipendenza)
Φ
Asimmetrico
(Dipendenza) ?

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

2. La dipendenza tra mutabili

Gli indici di miglioramento della previsione


Voto all'esame
Basso Medio Alto TOT
Tizio 13 33 38 84
Docente

Caio 38 102 40 180


Sempronio 90 45 20 155
TOT 141 180 98 419

Vediamo uscire uno studente dall’aula: che voto avrà avuto?


Non avendo alcuna informazione se non la tabella delle frequenze, è chiaro che punteremo
sulla modalità modale, ossia quella che presenta la frequenza massima.
D’altra parte, anche questa scelta comporterà un possibile errore, che però sarà più piccolo di
quelli associati alle altre possibili scelte.

(
P Voto medio = ) 180
419
= 0,430 ( )
P Errore = 1− 0,430 = 0,570

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

2. La dipendenza tra mutabili

Gli indici di miglioramento della previsione


Voto all'esame
Basso Medio Alto TOT
Tizio 13 33 38 84
Docente

Caio 38 102 40 180


Sempronio 90 45 20 155
TOT 141 180 98 419

Vediamo uscire uno studente dall’aula: che voto avrà avuto?

(
P Voto medio = ) 180
419
= 0,430 ( )
P Errore = 1− 0,430 = 0,570

Ma se sulla sua cartella leggiamo “Appunti delle lezioni del prof. Sempronio” ?…
In questo caso abbiamo delle informazioni ulteriori, che potrebbero portarci a ”correggere” la
scelta precedente. Il ragionamento è analogo a quanto fatto in precedenza (scelta della
modalità modale) ma l’insieme dei casi possibili è ora costituito dai soli studenti che hanno
sostenuto l’esame con il prof. Sempronio (distribuzione condizionata).

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

2. La dipendenza tra mutabili

Gli indici di miglioramento della previsione


Voto all'esame
Docente

Vediamo uscire uno studente dall’aula: che voto avrà avuto?

(
P Voto medio = ) 180
419
= 0,430 ( )
P Errore = 1− 0,430 = 0,570

Ma se sulla sua cartella leggiamo “Appunti delle lezioni del prof. Sempronio”?…
In questo caso abbiamo delle informazioni ulteriori, che potrebbero portarci a ”correggere” la
scelta precedente. Il ragionamento è analogo a quanto fatto in precedenza (scelta della
modalità modale) ma l’insieme dei casi possibili è ora costituito dai soli studenti che hanno
sostenuto l’esame con il prof. Sempronio (distribuzione condizionata).
L’informazione sulla seconda mutabile

(
P Voto medio =
90
155
= 0,581 ) ( )
P Errore = 1− 0,581= 0,419 (il docente) migliora, dunque, la
prevedibilità della prima (l’esito
dell’esame).

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

2. La dipendenza tra mutabili

Gli indici di miglioramento della previsione

Gli indici “asimmetrici” per lo studio della dipendenza di una mutabile da unʼaltra (il più
importante dei quali è probabilmente l’indice lamda di Goodman e Kruskal) misurano il
miglioramento apportato dalla conoscenza di un carattere X nella prevedere i valori di un
carattere Y.
Quanto più è forte la dipendenza tra i caratteri, tanto più la conoscenza di uno consentirà
di prevedere lʼaltro ( 0 ≤ λ ≤1), fino alla situazione di dipendenza “massima” in cui la
conoscenza di un carattere implica la previsione dell’altro senza possibilità di errore (l=1);
dʼaltra parte, se i due caratteri sono indipendenti, la conoscenza di uno non fornisce
alcuna informazione sui valori dell’altro, e quindi non ne migliora la prevedibilità (l=0).

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (1)

Sorte
Deceduti Sopravvissuti TOT
Prima 122 203 325
Classe

Seconda 167 118 285


Terza 528 178 706
TOT 817 499 1316

La tabella riporta le conseguenze del naufragio del Titanic (14 aprile 1912),
incrociando la Sorte dei passeggeri con il Tipo di sistemazione sulla nave.
Si definisca una misura appropriata della eventuale associazione tra i caratteri.

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (2)

Titolo di studio della MOGLIE


Elementare Media inf. Media sup. Laurea TOT
Elementare 3.175 1.459 713 438 5.785
Tit. studio
MARITO

Media inf. 754 31.465 18.006 3.422 53.647


Media sup. 323 6.517 65.117 13.498 85.455
Laurea 278 1.345 7.432 20.641 29.696
TOT 4.530 40.786 91.268 37.999 174.583

La tabella riporta gli incroci tra il titolo di studio degli uomini e delle donne che hanno
contratto matrimonio in Italia nel 2012 (Fonte: Istat).
Si definisca una misura appropriata della eventuale associazione tra i caratteri.

LEZIONE 7 – ASSOCIAZIONE TRA CARATTERI


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 8:
La Correlazione
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lo studio dell’associazione

3. La relazione di interdipendenza tra variabili


Caratteri
2 2 1 variabile
Approccio mutabili variabili 1 mutabile

χ2 ; V
Simmetrico
(Interdipendenza)
Φ
?
Asimmetrico
(Dipendenza)
l

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
Distribuzione del Reddito pro capite e dei Consumi per beni
durevoli nelle 110 province italiane (Anno 2017, Sole 24ore) È possibile calcolare l'associazione tra
Reddito Consumi variabili quantitative utilizzando gli indici
Provincia pro capite beni durevoli che abbiamo definito per le mutabili?
(€ x1.000) (€)
AG 13,5 1.378
AL
AN
24,6
26,5
2.627
2.452 SI.
AO 31,4 2.671 Ricordando, infatti, lo schema della “gerarchia
AR 25,4 2.625 informativa” dei caratteri, possiamo
AP 22,9 2.401
trasformare le variabili in mutabili ordinabili,
AT 22,6 2.505
AV 15,1 1.598 definendo delle classi di valori, e utilizzare gli
BA 18,4 1.838 indici di associazione tra mutabili che
BT 13,6 1.493 conosciamo.
BL 29,1 2.590
BN 14,1 1.595
BG 27,8 2.617
: : :
: : :
VR 28,8 2.842
VV 13,8 1.620
VI 29,1 2.794
VT 18,4 2.004

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
Distribuzione del Reddito pro capite e
dei Consumi per beni durevoli nelle 110 È possibile calcolare l'associazione tra variabili quantitative
province italiane (Anno 2017, Sole 24ore)
utilizzando gli indici che abbiamo definito per le mutabili?
Reddito Consumi
Provincia pro capite beni durevoli

AG
(€ x1.000)

13,5
(€)
1.378
SI.
AL 24,6 2.627
Ricordando, infatti, lo schema della “gerarchia informativa” dei caratteri,
AN 26,5 2.452 possiamo trasformare le variabili in mutabili ordinabili, definendo delle classi di
AO 31,4 2.671 valori, e utilizzare gli indici di associazione tra mutabili che conosciamo.
AR 25,4 2.625
AP 22,9 2.401
AT 22,6 2.505
AV 15,1 1.598
BA 18,4 1.838
BT 13,6 1.493
BL 29,1 2.590
BN 14,1 1.595
BG 27,8 2.617
: : :
: : :
VR 28,8 2.842
VV 13,8 1.620
VI 29,1 2.794
VT 18,4 2.004

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
Distribuzione del Reddito pro capite e
dei Consumi per beni durevoli nelle 110 È possibile calcolare l'associazione tra variabili quantitative
province italiane (Anno 2017, Sole 24ore)
utilizzando gli indici che abbiamo definito per le mutabili?
Reddito Consumi
Provincia pro capite beni durevoli

AG
(€ x1.000)

13,5
(€)
1.378
SI.
AL 24,6 2.627
Ricordando, infatti, lo schema della “gerarchia informativa” dei caratteri,
AN 26,5 2.452 possiamo trasformare le variabili in mutabili ordinabili, definendo delle classi di
AO 31,4 2.671 valori, e utilizzare gli indici di associazione tra mutabili che conosciamo.
AR 25,4 2.625
AP 22,9 2.401
AT 22,6 2.505
AV 15,1 1.598
BA 18,4 1.838
BT 13,6 1.493
BL 29,1 2.590

Ma possiamo fare
BN 14,1 1.595
BG 27,8 2.617
: : :

molto meglio
: : :
VR 28,8 2.842
VV 13,8 1.620
VI 29,1 2.794
VT 18,4 2.004

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
Distribuzione del Reddito pro capite e dei Consumi
per beni durevoli nelle 110 province italiane.
(Anno 2017, Sole 24ore)

Reddito Consumi
Provincia pro capite beni durevoli
(€ x1.000) (€)
AG 13,5 1.378
AL 24,6 2.627 Diagramma di dispersione
AN 26,5 2.452
AO 31,4 2.671
AR 25,4 2.625
AP 22,9 2.401
AT 22,6 2.505
AV 15,1 1.598
BA 18,4 1.838
BT 13,6 1.493
BL 29,1 2.590
BN 14,1 1.595
BG 27,8 2.617
: : :
: : :
VR 28,8 2.842
VV 13,8 1.620
VI 29,1 2.794
VT 18,4 2.004

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
Distribuzione del Reddito pro capite e dei Consumi
per beni durevoli nelle 110 province italiane.
(Anno 2017, Sole 24ore)

Reddito Consumi
Provincia pro capite beni durevoli
(€ x1.000) (€)
AG 13,5 1.378
AL 24,6 2.627 Diagramma di dispersione
AN 26,5 2.452
AO 31,4 2.671
AR 25,4 2.625
II I
AP 22,9 2.401
AT 22,6 2.505
AV 15,1 1.598
BA 18,4 1.838
BT 13,6 1.493
BL 29,1 2.590
BN 14,1 1.595 III IV
BG 27,8 2.617
: : :
: : :
VR 28,8 2.842
VV 13,8 1.620
VI 29,1 2.794
VT 18,4 2.004

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
Distribuzione del Reddito pro capite e dei Consumi
per beni durevoli nelle 110 province italiane.
(Anno 2017, Sole 24ore)

Reddito Consumi
Provincia pro capite beni durevoli
(€ x1.000) (€)
AG 13,5 1.378 Diagramma di dispersione

AL 24,6 2.627
AN 26,5 2.452 II I
AO 31,4 2.671
AR 25,4 2.625
AP 22,9 2.401
AT 22,6 2.505
III IV
AV 15,1 1.598
BA 18,4 1.838
BT 13,6 1.493
BL 29,1 2.590
BN 14,1 1.595
BG 27,8 2.617

∑( x − x ) ⋅ (y )
n
: : : −y
( ) ( )( ) ( )
n i i
: : :
VR 28,8 2.842 Cod XY = ∑ xi − x ⋅ y i − y Cov XY = i=1

i=1 n
VV 13,8 1.620
VI 29,1 2.794
VT 18,4 2.004

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
Distribuzione del Reddito pro capite e dei Consumi
per beni durevoli nelle 110 province italiane.
(Anno 2017, Sole 24ore)

Reddito Consumi
X-M(X) Y-M(Y)
Provincia pro capite beni durevoli Ax B
(A) (B)
(€ x1.000) (€)

( ) ( )( )
n
Cod XY = ∑ xi − x ⋅ y i − y
AG 13,5 1.378 -9,1 -849 7.746,7
AL 24,6 2.627 2,0 400 790,2
AN 26,5 2.452 3,9 225 872,0 i=1

AO 31,4 2.671 8,8 444 3.896,3 = 285.992,4


AR 25,4 2.625 2,8 398 1.104,6

∑( x − x ) ⋅ (y )
n
AP 22,9 2.401 0,3 174 47,9
−y
( )
AT 22,6 2.505 0,0 278 -6,8 i i
AV 15,1 1.598 -7,5 -629 4.732,9 Cov XY = i=1

BA 18,4 1.838 -4,2 -389 1.643,3 n


BT 13,6 1.493 -9,0 -734 6.624,0 = 2.599,9
BL 29,1 2.590 6,5 363 2.350,6
BN 14,1 1.595 -8,5 -632 5.387,5 Anche in questo caso ci troviamo di
BG 27,8 2.617 5,2 390 2.018,4 fronte ad un indice assoluto, di scarsa
: : : : : :
o nulla utilità interpretativa.
: : : : : :
VR 28,8 2.842 6,2 615,0 3797,9 Anche in questo caso dovremo
VV 13,8 1.620 -8,8 -607,0 5356,5 cercare di ottenere un indice
VI 29,1 2.794 6,5 567,0 3671,6 normalizzato.
VT 18,4 2.004 -4,2 -223,0 942,1
0,0 0,0 285.992,4

NOTA: Ricordo che i valori nelle tabelle sono valori arrotondati, quindi diversi dai valori reali. Ad esempio, la differenza X-M(X) per la provincia
di Asti (AT) vale -0,0245454545454464, valore che, arrotondato, diventa 0,0 (senza il segno "-", perché lo zero non ha segno). Il prodotto tra il
valore reale e la differenza Y-M(Y) dà il valore riportato nell'ultima colonna.

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
Distribuzione del Reddito pro capite e dei Consumi per beni durevoli
nelle 110 province italiane.
(Anno 2017, Sole 24ore)
Reddito Consumi
X-M(X) Y-M(Y)
Provincia pro capite beni durevoli Ax B
(A) (B)
(€ x1.000) (€)
AG 13,5 1.378 -9,1 -849 7.746,7
AL 24,6 2.627 2,0 400 790,2

( ) ( )( )
AN 26,5 2.452 3,9 225 872,0 n
AO
AR
31,4
25,4
2.671
2.625
8,8
2,8
444
398
3.896,3
1.104,6
Cod XY = ∑ xi − x ⋅ y i − y = 285.992,4
AP 22,9 2.401 0,3 174 47,9 i=1
AT 22,6 2.505 0,0 278 -6,8

∑( x − x ) ⋅ (y )
AV 15,1 1.598 -7,5 -629 4.732,9
n
BA 18,4 1.838 -4,2 -389 1.643,3 −y
( )
BT 13,6 1.493 -9,0 -734 6.624,0 i i
BL 29,1 2.590 6,5 363 2.350,6 Cov XY = i=1
= 2.599,9
BN
BG
14,1
27,8
1.595
2.617
-8,5
5,2
-632
390
5.387,5
2.018,4
n
: : : : : :
: : : : : :
VR 28,8 2.842 6,2 615,0 3797,9
VV 13,8 1.620 -8,8 -607,0 5356,5
VI 29,1 2.794 6,5 567,0 3671,6
VT 18,4 2.004 -4,2 -223,0 942,1
0,0 0,0 285.992,4

Proprietà di Cauchy-Schwartz:
La covarianza tra due variabili X e Y, in valore assoluto, è sempre minore o uguale al prodotto dei due
scarti quadratici medi:
σ XY ≤ σ X ⋅ σ Y
Se dividiamo, dunque, la covarianza per il suo valore massimo, otteniamo un indice normalizzato,
che prende il nome di coefficiente di correlazione lineare di Bravais-Pearson.

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
Distribuzione del Reddito pro capite e dei Consumi per beni durevoli
nelle 110 province italiane.
(Anno 2017, Sole 24ore)
Reddito Consumi
X-M(X) Y-M(Y)
Provincia pro capite beni durevoli Ax B
(A) (B)
(€ x1.000) (€)
AG 13,5 1.378 -9,1 -849 7.746,7
AL 24,6 2.627 2,0 400 790,2

( ) ( )( )
AN 26,5 2.452 3,9 225 872,0 n
AO
AR
31,4
25,4
2.671
2.625
8,8
2,8
444
398
3.896,3
1.104,6
Cod XY = ∑ xi − x ⋅ y i − y = 285.992,4
AP 22,9 2.401 0,3 174 47,9 i=1
AT 22,6 2.505 0,0 278 -6,8

∑( x − x ) ⋅ (y )
AV 15,1 1.598 -7,5 -629 4.732,9
n
BA 18,4 1.838 -4,2 -389 1.643,3 −y
( )
BT 13,6 1.493 -9,0 -734 6.624,0 i i
BL 29,1 2.590 6,5 363 2.350,6 Cov XY = i=1
= 2.599,9
BN
BG
14,1
27,8
1.595
2.617
-8,5
5,2
-632
390
5.387,5
2.018,4
n
: : : : : :

( )=
: : : : : :
VR
VV
28,8
13,8
2.842
1.620
6,2
-8,8
615,0
-607,0
3797,9
5356,5
Cov XY 2.599,9
VI 29,1 2.794 6,5 567,0 3671,6 rXY = = 0,83
VT 18,4 2.004 -4,2 -223,0 942,1 σ X ⋅σ Y 6,3 × 500,1
0,0 0,0 285.992,4

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

L'interpretazione di r
Il coefficiente di correlazione misura la possibilità di rappresentare la relazione tra due
variabili mediante una funzione lineare.
Un coefficiente di correlazione pari a ±1 indica quindi una associazione massima, in senso
rispettivamente diretto e inverso.
Da un punto di vista analitico, l’associazione massima implica la possibilità di prevedere il
valore di una variabile a partire dalla conoscenza dei valori dell’altra, senza possibilità di
errore.
Da un punto di vista geometrico, nel diagramma di dispersione i punti sono perfettamente
allineati e giacciono quindi su un’unica retta (crescente o decrescente).

Y Y
r =1
r=1 r = -1
r=-1

Variabili con associazione massima X Variabili con associazione massima X


di tipo diretto. di tipo inverso.

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

L'interpretazione di r
Il coefficiente di correlazione misura la possibilità di rappresentare la relazione tra due
variabili mediante una funzione lineare.
Un coefficiente di correlazione pari a 0 deve essere interpretato con attenzione. Infatti,
questo valore indica solo la mancanza di legame lineare tra le variabili osservate, ma non
la loro indipendenza. In altri termini, tra le variabili potrebbe esistere una relazione che la
funzione lineare non riesce a rappresentare (per esempio, parabolica).
Quindi, mentre l’indipendenza tra due variabili presuppone necessariamente anche la
non correlazione, non è affatto detto il contrario, perché due variabili non correlate (e
quindi con r=0) potrebbero essere fortemente legate da un legame di ordine superiore a
quello lineare.
Y Y
r=0
r=0 r=0
r=0

Variabili indipendenti X Variabili incorrelate X


(e, quindi, anche incorrelate) (ma non indipendenti)

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I paradossi di r : la correlazione “spuria”


Così come è possibile osservare un coefficiente r=0 anche in caso di variabili non
indipendenti, allo stesso modo, e forse anche più frequentemente, è possibile trovare
coefficienti di correlazione chiaramente diversi da zero tra variabili che logicamente non
dovrebbero avere alcun legame.
Esempi:
• La successione oraria dei prezzi dei cavoletti di Bruxelles venduti nel mercato di Londra e la
corrispondente altezza del Tamigi;
• Il numero di turisti canadesi che giungono a Roma e il numero di gelati venduti nel bar della piazza di
Viareggio;
• Il numero di cicogne che si osservano passare su un paese del Nord America e il numero di bambini
nati…
La questione non è affatto banale, perché, mentre in molti casi la cosa è talmente illogica
che non richiede particolare approfondimenti, in altri il valore del coefficiente viene preso
proprio a prova “oggettiva” di una relazione che si vorrebbe esistesse (ma che, in realtà,
non c’è).
La spiegazione è nel fatto che quando noi vediamo due variabili “muoversi”
contemporaneamente, pensiamo che siano unite da qualche legame
“diretto”.

X Y

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I paradossi di r : la correlazione “spuria”


Così come è possibile osservare un coefficiente r=0 anche in caso di variabili non
indipendenti, allo stesso modo, e forse anche più frequentemente, è possibile trovare
coefficienti di correlazione chiaramente diversi da zero tra variabili che logicamente non
dovrebbero avere alcun legame.
Esempi:
• La successione oraria dei prezzi dei cavoletti di Bruxelles venduti nel mercato di Londra e la
corrispondente altezza del Tamigi;
• Il numero di turisti canadesi che giungono a Roma e il numero di gelati venduti nel bar della piazza di
Viareggio;
• Il numero di cicogne che si osservano passare su un paese del Nord America e il numero di bambini
nati…
La questione non è affatto banale, perché, mentre in molti casi la cosa è talmente illogica
che non richiede particolare approfondimenti, in altri il valore del coefficiente viene preso
proprio a prova “oggettiva” di una relazione che si vorrebbe esistesse (ma che, in realtà,
non c’è).
La spiegazione è nel fatto che quando noi vediamo due variabili “muoversi”
Z contemporaneamente, pensiamo che siano unite da qualche legame
“diretto”.
In realtà, molto spesso le due variabili osservate non hanno alcun legame
X Y diretto tra loro ma sono entrambe legate ad una terza variabile (non
osservata), quali, ad esempio, tipicamente il Tempo o il Reddito.

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I paradossi di r : la correlazione “spuria”

La statistica consente di misurare la correlazione tra due variabili X e Y, “al netto”


dell’influenza di una terza variabile, Z.
Il coefficiente di correlazione così ottenuto prende il nome di Coefficiente di correlazione
parziale:

Z rXY − rXZ ⋅ rYZ


rXY.Z =
(1− r ) ⋅ (1− r )
2
XZ
2
YZ

X Y

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione

r = 0.883

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione

r = -0.761

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione

r = 0,045

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Si riportano i valori delle misure relative al Peso (X) e all'Altezza (Y) di 15 studenti di una scuola
media, con alcuni indici descrittivi. Calcolare il coefficiente di correlazione.
PESO ALTEZZA X-M(X) Y-M(Y)
STUD AxB
(kg) (cm) A B
1 35,0 148,0 -12,3 -6,2 76,5
2 38,0 146,0 -9,3 -8,2 76,5
3 41,0 147,0 -6,3 -7,2 45,6
4 58,0 158,0 10,7 3,8 40,5
5 65,0 166,0 17,7 11,8 208,5
6 46,0 149,0 -1,3 -5,2 6,9
7 43,0 150,0 -4,3 -4,2 18,2
8 49,0 154,0 1,7 -0,2 -0,3
9 42,0 164,0 -5,3 9,8 -52,3
10 63,0 162,0 15,7 7,8 122,2
11 60,0 158,0 12,7 3,8 48,1
12 29,0 137,0 -18,3 -17,2 315,3
13 46,0 160,0 -1,3 5,8 -7,7
14 48,0 158,0 0,7 3,8 2,5
15 47,0 156,0 -0,3 1,8 -0,6
TOT 710,0 2.313,0 0,0 0,0 900,0

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Si riportano i valori delle misure relative al Peso (X) e all'Altezza (Y) di 15 studenti di una scuola
media, con alcuni indici descrittivi. Calcolare il coefficiente di correlazione.
PESO ALTEZZA X-M(X) Y-M(Y)
STUD AxB
(kg) (cm) A B
1 35,0 148,0 -12,3 -6,2 76,5
2 38,0 146,0 -9,3 -8,2 76,5
3 41,0 147,0 -6,3 -7,2 45,6
4 58,0 158,0 10,7 3,8 40,5
5 65,0 166,0 17,7 11,8 208,5
6 46,0 149,0 -1,3 -5,2 6,9
7 43,0 150,0 -4,3 -4,2 18,2
8 49,0 154,0 1,7 -0,2 -0,3
9 42,0 164,0 -5,3 9,8 -52,3
10 63,0 162,0 15,7 7,8 122,2
11 60,0 158,0 12,7 3,8 48,1
12 29,0 137,0 -18,3 -17,2 315,3
13 46,0 160,0 -1,3 5,8 -7,7
14 48,0 158,0 0,7 3,8 2,5
15 47,0 156,0 -0,3 1,8 -0,6
TOT 710,0 2.313,0 0,0 0,0 900,0

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Si riportano i valori delle misure relative al Peso (X) e all'Altezza (Y) di 15 studenti di una scuola
media, con alcuni indici descrittivi. Calcolare il coefficiente di correlazione.
PESO ALTEZZA X-M(X) Y-M(Y)
STUD AxB
(kg) (cm) A B
1 35,0 148,0 -12,3 -6,2 76,5
2 38,0 146,0 -9,3 -8,2 76,5
3 41,0 147,0 -6,3 -7,2 45,6
4 58,0 158,0 10,7 3,8 40,5
5 65,0 166,0 17,7 11,8 208,5
6 46,0 149,0 -1,3 -5,2 6,9
7 43,0 150,0 -4,3 -4,2 18,2
8 49,0 154,0 1,7 -0,2 -0,3
9 42,0 164,0 -5,3 9,8 -52,3
10 63,0 162,0 15,7 7,8 122,2
11 60,0 158,0 12,7 3,8 48,1
12 29,0 137,0 -18,3 -17,2 315,3
13 46,0 160,0 -1,3 5,8 -7,7
14 48,0 158,0 0,7 3,8 2,5
15 47,0 156,0 -0,3 1,8 -0,6
TOT 710,0 2.313,0 0,0 0,0 900,0

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Si riportano i valori delle misure relative al Peso (X) e all'Altezza (Y) di 15 studenti di una scuola
media, con alcuni indici descrittivi. Calcolare il coefficiente di correlazione.
PESO ALTEZZA X-M(X) Y-M(Y)
STUD AxB
(kg) (cm) A B
1 35,0 148,0 -12,3 -6,2 76,5
2 38,0 146,0 -9,3 -8,2 76,5
3 41,0 147,0 -6,3 -7,2 45,6
4 58,0 158,0 10,7 3,8 40,5
5 65,0 166,0 17,7 11,8 208,5
6 46,0 149,0 -1,3 -5,2 6,9
7 43,0 150,0 -4,3 -4,2 18,2
8 49,0 154,0 1,7 -0,2 -0,3 13
9 42,0 164,0 -5,3 9,8 -52,3 9
10 63,0 162,0 15,7 7,8 122,2
11 60,0 158,0 12,7 3,8 48,1
12 29,0 137,0 -18,3 -17,2 315,3
13 46,0 160,0 -1,3 5,8 -7,7
14 48,0 158,0 0,7 3,8 2,5
15 47,0 156,0 -0,3 1,8 -0,6
TOT 710,0 2.313,0 0,0 0,0 900,0

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Grafico relativo al Peso (X) e all'Altezza (Y) di 1.496 studenti di una scuola media.

Peso: FEMMINE
MASCHI
Q1 = 41 kg
Q3 = 58 kg
DI = Q3-Q1 = 17kg

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Grafico relativo al Peso (X) e all'Altezza (Y) di 1.496 studenti di una scuola media.

Peso: FEMMINE
MASCHI
Q1 = 41 kg
Q3 = 58 kg
DI = Q3-Q1 = 17kg
Limiti valori anomali:
( ) ( )
Linf = Q1 − 1,5×DI = 41− 1,5×17 = 15,5
Lsup = Q3 + (1,5×DI) = 58 + (1,5×17) = 83,5

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Grafico relativo al Peso (X) e all'Altezza (Y) di 1.496 studenti di una scuola media.

Peso: FEMMINE
MASCHI
Q1 = 41 kg
Q3 = 58 kg
DI = Q3-Q1 = 17kg
Limiti valori anomali:
( ) ( )
Linf = Q1 − 1,5×DI = 41− 1,5×17 = 15,5
Lsup = Q3 + (1,5×DI) = 58 + (1,5×17) = 83,5

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
BOXPLOT relativI al Peso (X) di 1.496 studenti di una scuola media.

Peso:
Q1 = 41 kg
Q3 = 58 kg
Q3-Q1 = 17kg
Limite valori anomali:
Linf = 15,5 kg
Lsup = 83,5 kg

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
ISTOGRAMMI relativI al Peso (X) di 1.496 studenti di una scuola media.

PESO:

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Si riportano i valori delle misure relative al Peso (X) e all'Altezza (Y) di 15 studenti di una scuola
media, con alcuni indici descrittivi. Calcolare il coefficiente di correlazione.
PESO ALTEZZA X-M(X) Y-M(Y)
STUD AxB
(kg) (cm) A B
1 35,0 148,0 -12,3 -6,2 76,5
2 38,0 146,0 -9,3 -8,2 76,5
3 41,0 147,0 -6,3 -7,2 45,6
4 58,0 158,0 10,7 3,8 40,5
5 65,0 166,0 17,7 11,8 208,5
6 46,0 149,0 -1,3 -5,2 6,9
7 43,0 150,0 -4,3 -4,2 18,2
8 49,0 154,0 1,7 -0,2 -0,3
9 42,0 164,0 -5,3 9,8 -52,3
10 63,0 162,0 15,7 7,8 122,2
11 60,0 158,0 12,7 3,8 48,1
12 29,0 137,0 -18,3 -17,2 315,3
13 46,0 160,0 -1,3 5,8 -7,7
14 48,0 158,0 0,7 3,8 2,5
15 47,0 156,0 -0,3 1,8 -0,6
TOT 710,0 2.313,0 0,0 0,0 900,0

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione
r=
Cov XY ( )
σ X ⋅σ Y
Esercizio:
Si riportano i valori delle misure relative al Peso (X) e all'Altezza (Y) di 15 studenti di una scuola
media, con alcuni indici descrittivi. Calcolare il coefficiente di correlazione.
PESO ALTEZZA X-M(X) Y-M(Y)
STUD AxB
(kg) (cm) A B
1 35,0 148,0 -12,3 -6,2 76,5
∑( x − x ) ⋅ (y )
n
2 38,0 146,0 -9,3 -8,2 76,5 −y
( )
i i
3 41,0 147,0 -6,3 -7,2 45,6
Cov XY = i=1
4 58,0 158,0 10,7 3,8 40,5 n
5 65,0 166,0 17,7 11,8 208,5
900
6 46,0 149,0 -1,3 -5,2 6,9 = = 60
7 43,0 150,0 -4,3 -4,2 18,2 15
8 49,0 154,0 1,7 -0,2 -0,3
9 42,0 164,0 -5,3 9,8 -52,3
60,0
10 63,0 162,0 15,7 7,8 122,2 r= = 0,79
11 60,0 158,0 12,7 3,8 48,1 7,6 ×10,0
12 29,0 137,0 -18,3 -17,2 315,3
13 46,0 160,0 -1,3 5,8 -7,7
14 48,0 158,0 0,7 3,8 2,5
15 47,0 156,0 -0,3 1,8 -0,6
TOT 710,0 2.313,0 0,0 0,0 900,0

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione

Un modo alternativo per il calcolo di Cov(XY):


Come per la varianza, anche per la Covarianza esiste una formula alternativa che
semplifica i calcoli. Si può infatti dimostrare che la Covarianza fra due variabili X ed Y può
essere calcolata come differenza tra la media dei prodotti e il prodotto delle medie:

( ) ( )
Cov XY = M XY − ⎡ M X ⋅ M Y ⎤
⎣ ⎦ ( ) ()

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione Cov XY ( )
( ) ( )
⎣ ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥

r=
σ X ⋅σ Y

Un modo alternativo per il calcolo di Cov(XY):


PESO ALTEZZA
STUD X2 Y2 XY
(kg) (cm)
1 35,0 148,0 1.225 21.904 5.180,0
2 38,0 146,0 1.444 21.316 5.548,0
3 41,0 147,0 1.681 21.609 6.027,0
4 58,0 158,0 3.364 24.964 9.164,0
5 65,0 166,0 4.225 27.556 10.790,0
6 46,0 149,0 2.116 22.201 6.854,0
7 43,0 150,0 1.849 22.500 6.450,0
8 49,0 154,0 2.401 23.716 7.546,0
9 42,0 164,0 1.764 26.896 6.888,0
10 63,0 162,0 3.969 26.244 10.206,0
11 60,0 158,0 3.600 24.964 9.480,0
12 29,0 137,0 841 18.769 3.973,0
13 46,0 160,0 2.116 25.600 7.360,0
14 48,0 158,0 2.304 24.964 7.584,0
15 47,0 156,0 2.209 24.336 7.332,0
TOT 710,0 2.313,0 35.108,0 357.539,0 110.382,0

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione Cov XY ( )
( ) ( )
⎣ ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥

r=
σ X ⋅σ Y

Un modo alternativo per il calcolo di Cov(XY):


PESO ALTEZZA 2 2
STUD X Y XY
(kg) (cm)
1 35,0 148,0 1.225 21.904 5.180,0
2 38,0 146,0 1.444 21.316 5.548,0
3 41,0 147,0 1.681 21.609 6.027,0
4 58,0 158,0 3.364 24.964 9.164,0
5 65,0 166,0 4.225 27.556 10.790,0
6 46,0 149,0 2.116 22.201 6.854,0
7 43,0 150,0 1.849 22.500 6.450,0
8 49,0 154,0 2.401 23.716 7.546,0
9 42,0 164,0 1.764 26.896 6.888,0
10 63,0 162,0 3.969 26.244 10.206,0
11 60,0 158,0 3.600 24.964 9.480,0
12 29,0 137,0 841 18.769 3.973,0
13 46,0 160,0 2.116 25.600 7.360,0
14 48,0 158,0 2.304 24.964 7.584,0
15 47,0 156,0 2.209 24.336 7.332,0
TOT 710,0 2.313,0 35.108,0 357.539,0 110.382,0

( ) 35.108
( ) ( )
2 2
2 ⎡ ⎤
σ =M X − M X =
2
− 47,333 = 2.340,5 − 2.240,4 = 100,1
X ⎣ ⎦ 15

( ) () 357.539
( )
2 2
σ Y2 = M Y 2 − ⎡ M Y ⎤ = − 154,200 = 23.835,9 − 23.777,6 = 58,3
⎣ ⎦ 15

( ) ( )
Cov XY = M XY − ⎡ M X ⋅ M Y ⎤ =
⎣ ( ) ()

110.382
15
(
− 47,333 ×154,200 = 7.358,80 − 7.298,75 = 60,0 )
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione Cov XY ( )
( ) ⎣ ( ) ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥

r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO 2 2
PROV AL MQ X Y XY
(X)
(Y)
AG 9.864,3 878,0 97.304.414 770.884 8.660.855,4
AL 20.555,0 981,3 422.508.025 962.950 20.170.621,5
AN 22.310,9 1.291,1 497.776.259 1.666.939 28.805.603,0
AO 24.583,3 1.575,2 604.338.639 2.481.255 38.723.614,2
AP 18.179,3 903,8 330.486.948 816.854 16.430.451,3
AQ 16.165,1 1.136,2 261.310.458 1.290.950 18.366.786,6
AR 19.780,3 1.187,9 391.260.268 1.411.106 23.497.018,4
AT 18.540,8 1.136,2 343.761.265 1.290.950 21.066.057,0
AV 13.169,7 852,2 173.440.998 726.245 11.223.218,3
BA 14.770,7 1.678,5 218.173.578 2.817.362 24.792.620,0
TOT 177.919,4 11.620,4 3.340.360.853 14.235.497 211.736.846
Media 17.791,9 1.162,0 334.036.085,3 1.423.549,7 21.173.684,6
Var 17.482.956 73.213 / / /
Sqm 4.181,3 270,6 / / /
Cov 498.738,6 / / /
r 0,441 / / /

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione Cov XY ( )
( ) ⎣ ( ) ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥

r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO 2 2
PROV AL MQ X Y XY
(X)
(Y)
AG 9.864,3 878,0 97.304.414 770.884 8.660.855,4
AL 20.555,0 981,3 422.508.025 962.950 20.170.621,5
AN 22.310,9 1.291,1 497.776.259 1.666.939 28.805.603,0
AO 24.583,3 1.575,2 604.338.639 2.481.255 38.723.614,2
AP 18.179,3 903,8 330.486.948 816.854 16.430.451,3
AQ 16.165,1 1.136,2 261.310.458 1.290.950 18.366.786,6
AR 19.780,3 1.187,9 391.260.268 1.411.106 23.497.018,4
AT 18.540,8 1.136,2 343.761.265 1.290.950 21.066.057,0
AV 13.169,7 852,2 173.440.998 726.245 11.223.218,3
BA 14.770,7 1.678,5 218.173.578 2.817.362 24.792.620,0
TOT 177.919,4 11.620,4 3.340.360.853 14.235.497 211.736.846
Media 17.791,9 1.162,0 334.036.085,3 1.423.549,7 21.173.684,6
Var 17.482.956 73.213 / / /
Sqm 4.181,3 270,6 / / /
Cov 498.738,6 / / /
r 0,441 / / /

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione Cov XY ( )
( ) ⎣ ( ) ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥

r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO 2 2
PROV AL MQ X Y XY
(X)
(Y)
AG 9.864,3 878,0 97.304.414 770.884 8.660.855,4
AL 20.555,0 981,3 422.508.025 962.950 20.170.621,5
AN 22.310,9 1.291,1 497.776.259 1.666.939 28.805.603,0
AO 24.583,3 1.575,2 604.338.639 2.481.255 38.723.614,2
AP 18.179,3 903,8 330.486.948 816.854 16.430.451,3
AQ 16.165,1 1.136,2 261.310.458 1.290.950 18.366.786,6
AR 19.780,3 1.187,9 391.260.268 1.411.106 23.497.018,4
AT 18.540,8 1.136,2 343.761.265 1.290.950 21.066.057,0
AV 13.169,7 852,2 173.440.998 726.245 11.223.218,3
BA 14.770,7 1.678,5 218.173.578 2.817.362 24.792.620,0
TOT 177.919,4 11.620,4 3.340.360.853 14.235.497 211.736.846
Media 17.791,9 1.162,0 334.036.085,3 1.423.549,7 21.173.684,6
Var 17.482.956 73.213 / / /
Sqm 4.181,3 270,6 / / /
Cov 498.738,6 / / /
r 0,441 / / /

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione Cov XY ( )
( ) ( )
⎣ ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥

r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO
PROV AL MQ X2 Y2 XY
(X)
(Y)
AG 9.864,3 878,0 97.304.414 770.884 8.660.855,4
AL 20.555,0 981,3 422.508.025 962.950 20.170.621,5
AN 22.310,9 1.291,1 497.776.259 1.666.939 28.805.603,0
AO 24.583,3 1.575,2 604.338.639 2.481.255 38.723.614,2
AP 18.179,3 903,8 330.486.948 816.854 16.430.451,3
AQ 16.165,1 1.136,2 261.310.458 1.290.950 18.366.786,6
AR 19.780,3 1.187,9 391.260.268 1.411.106 23.497.018,4
AT 18.540,8 1.136,2 343.761.265 1.290.950 21.066.057,0
AV 13.169,7 852,2 173.440.998 726.245 11.223.218,3
BA 14.770,7 1.678,5 218.173.578 2.817.362 24.792.620,0
TOT 177.919,4 11.620,4 3.340.360.853 14.235.497 211.736.846
Media 17.791,9 1.162,0 334.036.085,3 1.423.549,7 21.173.684,6

( ) ()
10
1 177.919,4 73.213 1 /10 11.620,4
MVarX =
Sqm 10
⋅ ∑ 17.482.956
xi =
4.181,310
= 17.791,9
270,6
; / MY
/
= ∑
⋅ yi =
/
10 i=1 10 /
/
= 1.162,0
i=1
Cov 498.738,6 / / /

( ) ( ) 3.340.360.853
( )
2 2
r2 ⎡ ⎤ 0,441 / / /
σX = M X − M X =
2
− 17.791,9 = 17.482.956 ⇒ σ X = 17.482.956 = 4.181,3
⎣ ⎦ 10

( ) ()
14.235.497
( )
2 2
σ Y2 = M Y 2 − ⎡ M Y ⎤ = − 1.162 = 73.213 ⇒ σ Y = 73.213 = 270,6
⎣ ⎦ 10

( ) ( ) ( ) ()
Cov XY = M XY − ⎡ M X ⋅ M Y ⎤ =
⎣ ⎦
211.736.846
10
− 17.791,9 ×1.162,0 = 498.738,6 ( )
Cov ( XY ) 498.738,6
rXY = = = 0,441
σ X ⋅σ Y 4.181,3 ⋅ 270,6
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione Cov XY ( )
( ) ( )
⎣ ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥

r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO
PROV AL MQ X2 Y2 XY
(X)
(Y)
AG 9.864,3 878,0 97.304.414 770.884 8.660.855,4
AL 20.555,0 981,3 422.508.025 962.950 20.170.621,5
AN 22.310,9 1.291,1 497.776.259 1.666.939 28.805.603,0
AO 24.583,3 1.575,2 604.338.639 2.481.255 38.723.614,2
AP 18.179,3 903,8 330.486.948 816.854 16.430.451,3
AQ 16.165,1 1.136,2 261.310.458 1.290.950 18.366.786,6
AR 19.780,3 1.187,9 391.260.268 1.411.106 23.497.018,4
AT 18.540,8 1.136,2 343.761.265 1.290.950 21.066.057,0
AV 13.169,7 852,2 173.440.998 726.245 11.223.218,3
BA 14.770,7 1.678,5 218.173.578 2.817.362 24.792.620,0
TOT 177.919,4 11.620,4 3.340.360.853 14.235.497 211.736.846
Media 17.791,9 1.162,0 334.036.085,3 1.423.549,7 21.173.684,6

( ) ()
10
1 177.919,4 73.213 1 /10 11.620,4
MVarX =
Sqm 10
⋅ ∑ 17.482.956
xi =
4.181,310
= 17.791,9
270,6
; / MY
/
= ∑
⋅ yi =
/
10 i=1 10 /
/
= 1.162,0
i=1
Cov 498.738,6 / / /

( ) ( ) 3.340.360.853
( )
2 2
r2 ⎡ ⎤ 0,441 / / /
σX = M X − M X =
2
− 17.791,9 = 17.482.956 ⇒ σ X = 17.482.956 = 4.181,3
⎣ ⎦ 10

( ) ()
14.235.497
( )
2 2
σ Y2 = M Y 2 − ⎡ M Y ⎤ = − 1.162 = 73.213 ⇒ σ Y = 73.213 = 270,6
⎣ ⎦ 10

( ) ( ) ( ) ()
Cov XY = M XY − ⎡ M X ⋅ M Y ⎤ =
⎣ ⎦
211.736.846
10
− 17.791,9 ×1.162,0 = 498.738,6 ( )
Cov ( XY ) 498.738,6
rXY = = = 0,441
σ X ⋅σ Y 4.181,3 ⋅ 270,6
LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione Cov XY ( )
( ) ⎣ ( ) ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥

r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO 2 2
PROV AL MQ X Y XY
(X)
(Y)
AG 9.864,3 878,0 97.304.414 770.884 8.660.855,4
AL 20.555,0 981,3 422.508.025 962.950 20.170.621,5
AN 22.310,9 1.291,1 497.776.259 1.666.939 28.805.603,0
AO 24.583,3 1.575,2 604.338.639 2.481.255 38.723.614,2
AP 18.179,3 903,8 330.486.948 816.854 16.430.451,3
AQ 16.165,1 1.136,2 261.310.458 1.290.950 18.366.786,6
AR 19.780,3 1.187,9 391.260.268 1.411.106 23.497.018,4
AT 18.540,8 1.136,2 343.761.265 1.290.950 21.066.057,0
AV 13.169,7 852,2 173.440.998 726.245 11.223.218,3
BA 14.770,7 1.678,5 218.173.578 2.817.362 24.792.620,0
TOT 177.919,4 11.620,4 3.340.360.853 14.235.497 211.736.846
Media 17.791,9 1.162,0 334.036.085,3 1.423.549,7 21.173.684,6
Var 17.482.956 73.213 / / /
Sqm 4.181,3 270,6 / / /
Cov 498.738,6 / / /
r 0,441 / / /

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione Cov XY ( )
( ) ⎣ ( ) ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥

r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO
PROV AL MQ X2 Y2 XY
(X)
(Y) r=0,441
AG 9.864,3 878,0 97.304.414 770.884 8.660.855,4
AL 20.555,0 981,3 422.508.025 962.950 20.170.621,5
AN 22.310,9 1.291,1 497.776.259 1.666.939 28.805.603,0
AO 24.583,3 1.575,2 604.338.639 2.481.255 38.723.614,2
AP 18.179,3 903,8 330.486.948 816.854 16.430.451,3
AQ 16.165,1 1.136,2 261.310.458 1.290.950 18.366.786,6
AR 19.780,3 1.187,9 391.260.268 1.411.106 23.497.018,4
AT 18.540,8 1.136,2 343.761.265 1.290.950 21.066.057,0
AV 13.169,7 852,2 173.440.998 726.245 11.223.218,3
BA 14.770,7 1.678,5 218.173.578 2.817.362 24.792.620,0
TOT 177.919,4 11.620,4 3.340.360.853 14.235.497 211.736.846
Media 17.791,9 1.162,0 334.036.085,3 1.423.549,7 21.173.684,6
Var 17.482.956 73.213 / / /
E’ importante ricordare
Sqm 4.181,3
498.738,6
che il risultato di un’analisi costituisce,
270,6 / / / più che il punto di arrivo, il punto di
Cov / / /
partenza
r di ulteriori
0,441 approfondimenti./ In altri/ termini, il / risultato dovrebbe essere coerente con
quanto le nostre conoscenze, l’esperienza e il buon senso ci suggeriscono (il che, ovviamente,
non vuol dire che non si possano comunque verificare casi in cui i risultati, corretti, rivelino una
radicale modifica, non prevista, dello scenario considerato).
Nel nostro caso, ad esempio, il valore del coefficiente di correlazione sembra essere minore di
quanto probabilmente ci saremmo aspettati. Perché?

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione Cov XY ( )
( ) ⎣ ( ) ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥

r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO
PROV AL MQ X2 Y2 XY
(X)
(Y) r=0,441
AG 9.864,3 878,0 97.304.414 770.884 8.660.855,4
AL 20.555,0 981,3 422.508.025 962.950 Cosa succede se eliminiamo Bari?
20.170.621,5
AN 22.310,9 1.291,1 497.776.259 1.666.939 28.805.603,0
AO 24.583,3 1.575,2 604.338.639 2.481.255 38.723.614,2
AP 18.179,3 903,8 330.486.948 816.854 16.430.451,3
AQ 16.165,1 1.136,2 261.310.458 1.290.950 18.366.786,6
AR 19.780,3 1.187,9 391.260.268 1.411.106 23.497.018,4
AT 18.540,8 1.136,2 343.761.265 1.290.950 21.066.057,0
AV 13.169,7 852,2 173.440.998 726.245 11.223.218,3
BA 14.770,7 1.678,5 218.173.578 2.817.362 24.792.620,0
TOT 177.919,4 11.620,4 3.340.360.853 14.235.497 211.736.846
Media 17.791,9 1.162,0 334.036.085,3 1.423.549,7 21.173.684,6
Var 17.482.956 73.213 / / /
Sqm 4.181,3 270,6 / / /
Cov 498.738,6 / / /
r 0,441 / / /

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione Cov XY ( )
( ) ( )
⎣ ( ) ()
Cov XY = M XY − ⎡⎢ M X ⋅ M Y ⎤⎥

r=
σ X ⋅σ Y
Esercizio:
Si riportano i valori Reddito pro capite e del Prezzo casa al mq di 10 province italiane. Calcolare il coefficiente di
correlazione.
PREZZO CASA
REDDITO
PROV AL MQ
(X)
(Y) r=0,793
AG 9.864,3 878,0
AL 20.555,0 981,3
AN 22.310,9 1.291,1
AO 24.583,3 1.575,2
AP 18.179,3 903,8
AQ 16.165,1 1.136,2
AR 19.780,3 1.187,9
AT 18.540,8 1.136,2
AV 13.169,7 852,2
TOT 163.148,7 9.941,9
Media 18.127,6 1.104,7
Var 18.298.607 48.418
Sqm 4.277,7 220,0
L’eliminazione
Cov
dall’analisi
746.789,8
della Provincia di Bari ha portato ad un evidente miglioramento dei
risultati.
r 0,793
ATTENZIONE, però: questo non vuol dire che ogni volta che otteniamo un risultato diverso da
quanto ci aspettavamo siamo autorizzati ad eliminare osservazioni fino a quando non otteniamo il
risultato cercato! Una unità può essere eliminata dall’analisi solo se risulta essere non omogenea
all’insieme osservato rispetto alle caratteristiche rilevate; in caso contrario, eliminarla
significherebbe eliminare una parte della variabilità “naturale” del fenomeno, e i risultati sarebbero
del tutto inattendibili.

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione

Esercizio:
La tabella riporta i dati relativi alla Superficie di vendita e al Fatturato di un
gruppo di 14 Centri Commerciali appartenenti ad una rete di franchising.
Determinare il valore del coefficiente di correlazione r.
SUPERFICIE (m2) FATTURATO (€x1.000)
CENTRO X2 Y2 XY
(X) (Y)
1 1.726 5.681 2.979.076 32.273.761 9.805.406
2 1.642 3.895 2.696.164 15.171.025 6.395.590
3 2.816 6.653 7.929.856 44.262.409 18.734.848
4 5.555 6.543 30.858.025 42.810.849 36.346.365
5 1.292 3.418 1.669.264 11.682.724 4.416.056
6 2.208 6.563 4.875.264 43.072.969 14.491.104
7 1.313 3.660 1.723.969 13.395.600 4.805.580
8 1.102 2.694 1.214.404 7.257.636 2.968.788
9 3.151 5.468 9.928.801 29.899.024 17.229.668
10 1.516 2.898 2.298.256 8.398.404 4.393.368
11 5.161 10.674 26.635.921 113.934.276 55.088.514
12 4.567 7.585 20.857.489 57.532.225 34.640.695
13 5.841 11.760 34.117.281 138.297.600 68.690.160
14 3.008 4.085 9.048.064 16.687.225 12.287.680
TOT 40.898 81.577 156.831.834 574.675.727 290.293.822
MEDIA 2.921 5.827 11.202.274 41.048.266 20.735.273
VAR 2.668.363,6 7.095.169,6 / / /
SQM 1.633,5 2.663,7 / / /
COV 3.713.150 / / /
CORR 0,853 / / /

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La correlazione

Esercizio:
Il responsabile delle vendite di un Centro commerciale ha rilevato gli
incassi giornalieri del negozio di Profumeria e del negozio di
Abbigliamento per l’infanzia nella prima settimana di Ottobre.
Costruire il diagramma di dispersione e determinare una misura normalizzata della relazione tra le variabili.
ABBIGLIAM.
PROFUMERIA
CENTRO INFANZIA
(X)
(Y)
LUNEDI 2.000 3.200
MARTEDÌ 2.700 2.700
MERCOLEDÌ 2.400 2.900
GIOVEDÌ 1.900 3.200
VENERDÌ 2.300 2.500
SABATO 3.200 3.600
DOMENICA 3.600 3.900
TOT 18.100 22.000

LEZIONE 8 – LA CORRELAZIONE
Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 9:
L'associazione in tabelle
miste
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lo studio dell’associazione

Tabella riepilogativa

Caratteri
2 2 1 variabile
Approccio mutabili variabili 1 mutabile

Simmetrico χ2 ; V Cov (XY)


(Interdipendenza) rXY
Φ

Asimmetrico
(Dipendenza)
l ?

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste

Esempio: il Reddito nelle Province italiane secondo la Zona geografica


X (Zona geografica): Mutabile indipendente Y (Reddito): Variabile dipendente

In questo caso, stiamo considerando la variabile


Reddito come una mutabile, perdendo parte
dell’informazione aggiuntiva che le seconde
generalmente hanno rispetto alle prime.
Inoltre, l’indice calcolato è un indice simmetrico,
mentre a noi interessa misurare la dipendenza
del Reddito dalla Zona geografica.

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste

Esempio: il Reddito nelle Province italiane secondo la Zona geografica


X (Zona geografica): Mutabile indipendente Y (Reddito): Variabile dipendente

Una variabile Y è indipendente in media da una mutabile X se, al variare delle


modalità di X, le medie condizionate di Y rimangono costanti.
Le medie condizionate si calcolano considerando, di volta in volta, le sole unità
riferibili alla modalità condizionante. Ad esempio, la media condizionata del
Reddito nel Nord-Est è:
12,5 × 0 +17,5 × 0 + 25,0 ×14 + 40,0 × 6 350 + 240
M Y|X=Nord−Est = = = 29,5 ⇒ 29.500 €
( ) 20 20

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste

Esempio: il Reddito nelle Province italiane secondo la Zona geografica


X (Zona geografica): Mutabile indipendente Y (Reddito): Variabile dipendente

Una variabile Y è indipendente in media da una mutabile X se, al variare delle modalità di X, le
medie condizionate di Y rimangono costanti.

12,5 × 0 +17,5 × 0 + 25,0 ×14 + 40,0 × 6 350 + 240


M Y|X=Nord−Est = = = 29,5000
( ) 20 20
12,5 × 0 +17,5 × 0 + 25,0 × 23 + 40,0 × 3 575 +120
M Y|X=Nord−Ovest = = = 26,7308
( ) 26 26
12,5 × 0 +17,5 × 4 + 25,0 ×19 + 40,0 × 2 70 + 475 + 80
M Y|X=Centro = = = 25,0000
( ) 25 25
12,5 ×14 +17,5 × 23 + 25,0 × 2 + 40,0 × 0 175 + 403 + 50
MSud _ Isole. = = = 16,0897
39 39

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste

Esempio: il Reddito nelle Province italiane secondo la Zona geografica


X (Zona geografica): Mutabile indipendente Y (Reddito): Variabile dipendente

M Y|X=Nord−Est = 29.500 € ; M Y|X=Nord−Ovest = 26.731 € ; M Y|X=Centro = 25.000 € ; MSud _ Isole. 16.090 €


( ) ( ) ( )
La media generale può essere calcolata o utilizzando le frequenze marginali o come
media ponderata delle medie dei singoli gruppi:
12,5 ×14 +17,5 × 27 + 25,0 × 58 + 40,0 ×11 175 + 473 +1.450 + 440
MY = = = 23,0682 ⇒ 23.068,2 €
() 20 110
20 26 25 39
M Y = 29,5000 × + 26,7308 × + 25,0000 × +16,0897 × = 23,0681 ⇒ 23.068,1 € (differenza dovuta agli
() 110 110 110 110 arrotondamenti)

Posto che le medie dei gruppi sono diverse e, dunque, la relazione tra Reddito e Zona
? geografica esiste, è possibile, sulla base dei soli valori medi, definirne l'intensità?
LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le valutazione della differenza tra valori medi

M1 M2 X

Consideriamo una variabile X misurata su due gruppi di individui, e consideriamo le due


medie parziali M1 e M2: è possibile dare una valutazione di questa differenza?

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le valutazione della differenza tra valori medi

In questo caso, la differenza tra i valori


medi è senz’altro significativa, perché
non c’è sovrapposizione fra le
distribuzioni ed esiste, quindi, una
inequivocabile associazione tra medie
e gruppi.

M1 M2 X

In questo caso, invece, la differenza tra


i valori medi non è significativa, perché
c’è sovrapposizione fra le distribuzioni
(la c.d. "area grigia"). I valori medi, in
altri termini, potrebbero appartenere
sia all’uno che all’altro gruppo.

M1 M2

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le valutazione della differenza tra valori medi

Il principio di decomposizione della devianza

Esempio
(con due variabili quantitative dipendenti e una mutabile indipendente)
Y
Consideriamo n individui su cui siano state osservate due variabili (X
e Y) e una mutabile. Le due variabili possono essere rappresentate
attraverso un diagramma di dispersione in cui riportare gli n punti,
dei quali è possibile individuare il baricentro (+) che avrà come +
coordinate i valori medi delle due variabili.
La Devianza totale della nube di punti può essere calcolata, come
sappiamo, come somma dei quadrati delle distanze di ciascun
punto dalla media generale (baricentro).

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le valutazione della differenza tra valori medi

Il principio di decomposizione della devianza

Esempio
(con due variabili quantitative dipendenti e una mutabile indipendente)
Y
Consideriamo n individui su cui siano state osservate due variabili (X
e Y) e una mutabile. Le due variabili possono essere rappresentate
attraverso un diagramma di dispersione in cui riportare gli n punti,
dei quali è possibile individuare il baricentro (+) che avrà come +
coordinate i valori medi delle due variabili.
La Devianza totale della nube di punti può essere calcolata, come
sappiamo, come somma dei quadrati delle distanze di ciascun
punto dalla media generale (baricentro).
Supponiamo adesso che, sulla base dei valori della mutabile, gli
n individui possano essere divisi in tre gruppi. X

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le valutazione della differenza tra valori medi

Il principio di decomposizione della devianza

Esempio
(con due variabili quantitative dipendenti e una mutabile indipendente)
Y
Consideriamo n individui su cui siano state osservate due variabili (X
e Y) e una mutabile. Le due variabili possono essere rappresentate +
attraverso un diagramma di dispersione in cui riportare gli n punti, +
dei quali è possibile individuare il baricentro (+) che avrà come +
coordinate i valori medi delle due variabili.
La Devianza totale della nube di punti può essere calcolata, come
sappiamo, come somma dei quadrati delle distanze di ciascun +
punto dalla media generale (baricentro).
Supponiamo adesso che, sulla base dei valori della mutabile, gli
n individui possano essere divisi in tre gruppi. X
Ciascun gruppo avrà un proprio baricentro. Sarà dunque possibile calcolare la dispersione interna dei
gruppi, calcolando la somma dei quadrati delle distanze delle unità di ciascun gruppo dal proprio
baricentro.
D’altra parte, questa è solo una parte della variabilità totale, l’altra essendo rappresentata dalla
dispersione tra i gruppi, ossia dal quadrato della distanza dei singoli baricentri dal baricentro generale.

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le valutazione della differenza tra valori medi

Il principio di decomposizione della devianza (teorema di Huyghens)

Esempio
(con due variabili quantitative dipendenti e una mutabile indipendente)

Y Y Y

+ +
+ +
+ + +

+ +

Dev Tot( ) X
Dev W( )
X
Dev B ()
X

Misura la dispersione generale degli n Misura la dispersione entro Misura la dispersione tra
punti attorno al baricentro generale. (Within) i gruppi. (Between) i gruppi.

( )
Dev Tot = Dev W + Dev B ( ) ()
LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il principio di decomposizione della devianza


Y

+
Raggruppamento dei punti Raggruppamento dei punti
secondo una mutabile A. secondo una mutabile B.
Y Y

+ +

X X
A parità di Devianza totale (la disposizione dei punti è immutata), la ridefinizione dei gruppi porta
ad una diversa ripartizione tra Devianza Within e Devianza Between.
E’ evidente che, nel raggruppamento secondo la mutabile B, i gruppi sono più dispersi al loro
interno ma anche più “vicini” tra loro (in termini di distanza tra i baricentri): questo implica un
aumento della Devianza Within (W) e una diminuzione della Devianza Between (B), a parità di
Devianza totale.

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste

X (Zona geografica): Mutabile indipendente Y (Reddito): Variabile dipendente


Classi di reddito

() ( )
2
Eʼ la devianza totale. Esprime la dispersione della nube di punti
Dev Y = ∑ y i − y ⋅ ni
i
attorno alla media generale.

Eʼ la devianza Within, o entro i gruppi. Esprime la dispersione dei k


( ) ( ) ⋅n
2
Dev W = ∑ ∑ y ij − y i ij
gruppi attorno alle rispettive medie. Si ottiene sommando le k
i j devianze interne ai k gruppi.

() ( )
2
Eʼ la devianza Between o fra i gruppi. Esprime la dispersione delle
Dev B = ∑ y j − y ⋅ nj
j
medie dei k gruppi attorno alla media generale.

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste

X (Zona geografica): Mutabile indipendente Y (Reddito): Variabile dipendente


Classi di reddito

M Y = 23.068 € ; M Y|X=NE = 29.500 € ; M Y|X=NO = 26.731 € ; M Y|X=Ce = 25.000 € ; M Y!X=Su . 16.090 €


() ( ) ( ) ( ) ( )

() ( )
4 2
Dev T = ∑ y j − y ⋅ n. j
j=1

( ) ( ) ( ) ( )
2 2 2 2
= 12, 5000 − 23, 0682 ×14 + 17, 5000 − 23, 0682 × 27 + 25, 0000 − 23, 0682 × 58 + 40, 0000 − 23, 0682 ×11
= 1.563, 6159 + 837,1310 + 216, 4474 + 3.153, 5444 = 5.770, 7387

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste

X (Zona geografica): Mutabile indipendente Y (Reddito): Variabile dipendente


Classi di reddito

M Y = 23.068 € ; M Y|X=NE = 29.500 € ; M Y|X=NO = 26.731 € ; M Y|X=Ce = 25.000 € ; M Y!X=Su . 16.090 €


() ( ) ( ) ( ) ( )

()
Dev T = 5.770, 7387

Dev ( B ) = ∑ ( y − y ) ⋅ n
4 2

j i.
j=1

( ) ( ) ( ) ( )
2 2 2 2
= 29, 5000 − 23, 0682 × 20 + 26,7308 − 23, 0682 × 26 + 25, 0000 − 23, 0682 × 25 + 16, 0897 − 23, 0682 × 39
= 827, 3610 + 348,7806 + 93, 2963 +1.899, 2790 = 3.168, 7169

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste

X (Zona geografica): Mutabile indipendente Y (Reddito): Variabile dipendente


Classi di reddito

M Y = 23.068 € ; M Y|X=NE = 29.500 € ; M Y|X=NO = 26.731 € ; M Y|X=Ce = 25.000 € ; M Y!X=Su . 16.090 €


() ( ) ( ) ( ) ( )

()
Dev T = 5.770, 7387 ; Dev ( B ) = 3.168, 7169

Dev (W ) = Dev ( NE ) + Dev ( NO) + Dev ( Ce) + Dev ( Su)

( ) ( ) ( ) ( ) ( )
2 2 2 2
Dev NE = 12, 5000 − 29, 5000 × 0 + 17, 5000 − 29, 5000 × 0 + 25, 0000 − 29, 5000 ×14 + 40, 0000 − 29, 5000 × 6 = 945, 0000

Dev ( NO) = (12, 5000 − 26,7308 ) × 0 + (17, 5000 − 26,7308 ) × 0 + ( 25, 0000 − 26,7308 ) × 23 + ( 40, 0000 − 26,7308 ) × 3 = 597,1154
2 2 2 2

Dev ( Ce) = (12, 5000 − 25, 0000 ) × 0 + (17, 5000 − 25, 0000 ) × 4 + ( 25, 0000 − 25, 0000 ) ×19 + ( 40, 0000 − 25, 0000 ) × 2 = 675, 0000
2 2 2 2

Dev ( Su) = (12, 5000 −16, 0897 ) ×14 + (17, 5000 −16, 0897 ) × 23 + ( 25, 0000 −16, 0897 ) × 2 + ( 40, 0000 −16, 0897 ) × 0 = 384, 9359
2 2 2 2

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste

X (Zona geografica): Mutabile indipendente Y (Reddito): Variabile dipendente


Classi di reddito

M Y = 23.068 € ; M Y|X=NE = 29.500 € ; M Y|X=NO = 26.731 € ; M Y|X=Ce = 25.000 € ; M Y!X=Su . 16.090 €


() ( ) ( ) ( ) ( )

()
Dev T = 5.770, 7387 ; Dev ( B ) = 3.168, 7169

Dev (W ) = Dev ( NE ) + Dev ( NO) + Dev ( Ce) + Dev ( Su)

= 945, 0000 + 597,1154 + 675, 0000 + 384, 9359 = 2.602, 0513

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste

X (Zona geografica): Mutabile indipendente Y (Reddito): Variabile dipendente


Classi di reddito

M Y = 23.068 € ; M Y|X=NE = 29.500 € ; M Y|X=NO = 26.731 € ; M Y|X=Ce = 25.000 € ; M Y!X=Su . 16.090 €


() ( ) ( ) ( ) ( )

()
Dev T = 5.770, 7387 ; ()
Dev B = 3.168, 7169 ; ( )
Dev W = 2.602, 0513

Il rapporto di correlazione: η 2 =
()
Dev B
Dev ( T )

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste
Il rapporto di correlazione: η 2 =
()
Dev B
Dev ( T )

Il rapporto di correlazione eta quadrato misura quanta parte della variabilità della variabile
dipendente può essere attribuita alle diverse modalità della mutabile indipendente.
E’ un indice normalizzato, compreso tra zero e uno.
Vale zero quando il numeratore è nullo, quindi quando è nulla la varianza tra i gruppi; questo
accade solo se le medie dei gruppi sono tutte uguali tra loro, e cioè quando le diverse modalità della
mutabile non danno alcun contributo alla differenziazione dei gruppi.
Vale uno quando numeratore e denominatore sono uguali. In questo caso, è la variabilità entro i
gruppi ad essere nulla e questo accade solo se, in ogni gruppo, tutte le osservazioni hanno lo stesso
valore. In questo caso, la dipendenza della variabile dalla mutabile è massima, perché la
conoscenza della modalità della mutabile consente di prevedere, senza possibilità di errore, il valore
della variabile.
Come sempre, questi sono entrambi casi limite; nella realtà ci si trova sempre in situazioni intermedie,
che potranno però essere meglio interpretate se riferite ai due estremi.
3.168,7
Nel nostro esempio, il valore del rapporto di correlazione è: η 2 = = 0,549
5.770,7

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste

Esercizio
Nel corso di unʼindagine condotta su 320 dipendenti di aziende commerciali, sono stati
rilevati il Genere (X) e il Reddito medio netto annuo (Y), con i risultati riportati nella tabella
seguente:
18-20mila 20-22mila 22-24mila 24-26mila TOT
MASCHI 20 45 90 45 200
FEMMINE 30 15 60 15 120
TOT 50 60 150 60 320

Determinare una misura della dipendenza del Reddito dal Genere.

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste
Esercizio
Nel corso di unʼindagine condotta su 320 dipendenti di aziende commerciali, sono stati rilevati il
Genere (X) e il Reddito medio netto annuo (Y), con i risultati riportati nella tabella seguente:
18-20mila 20-22mila 22-24mila 24-26mila TOT
MASCHI 20 45 90 45 200
FEMMINE 30 15 60 15 120
TOT 50 60 150 60 320

(
M Maschi = ) 19 × 20 + 21× 45 + 23 × 90 + 25 × 45 380 + 945 + 2.070 +1.125 4.520
200
=
200
=
200
= 22,6

(
M Femmine = ) 19 × 30 + 21×15 + 23 × 60 + 25 ×15 570 + 315 +1.380 + 375 2.640
120
=
120
=
120
= 22,0

( )
M TOT =
22,6 × 200 + 22,0 ×120 4.520 + 2.640 7.160
320
=
320
=
320
= 22,4

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste
Esercizio
Nel corso di unʼindagine condotta su 320 dipendenti di aziende commerciali, sono stati rilevati il
Genere (X) e il Reddito medio netto annuo (Y), con i risultati riportati nella tabella seguente:
18-20mila 20-22mila 22-24mila 24-26mila TOT
MASCHI 20 45 90 45 200
FEMMINE 30 15 60 15 120
TOT 50 60 150 60 320

M (Maschi) = 22,6 ; M (Femmine) = 22,0 ; M (Tot) = 22,4

( ) ( ) ( ) ( ) ( )
2 2 2 2
Dev Tot = 19 − 22,4 × 50 + 21− 22,4 × 60 + 23 − 22,4 ×150 + 25 − 22,4 × 60
= 578,0 +117,6 + 54,0 + 405,6 = 1.155,2

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste
Esercizio
Nel corso di unʼindagine condotta su 320 dipendenti di aziende commerciali, sono stati rilevati il
Genere (X) e il Reddito medio netto annuo (Y), con i risultati riportati nella tabella seguente:
18-20mila 20-22mila 22-24mila 24-26mila TOT
MASCHI 20 45 90 45 200
FEMMINE 30 15 60 15 120
TOT 50 60 150 60 320

M (Maschi) = 22,6 ; M (Femmine) = 22,0 ; M (Tot) = 22,4

Dev (Tot) = 1.155,2

( ) ( ) ( ) ( ) ( )
2 2 2 2
Dev Maschi = 19 − 22,6 × 20 + 21− 22,6 × 45 + 23 − 22,6 × 90 + 25 − 22,6 × 45
= 259,2 +115,2 +14,4 + 259,2 = 648,0

( ) ( ) ( ) ( ) ( )
2 2 2 2
Dev Femmine = 19 − 22,0 × 30 + 21− 22,0 ×15 + 23 − 22,0 × 60 + 25 − 22,0 ×15
= 270 +15 + 60 +135 = 480,0

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste
Esercizio
Nel corso di unʼindagine condotta su 320 dipendenti di aziende commerciali, sono stati rilevati il
Genere (X) e il Reddito medio netto annuo (Y), con i risultati riportati nella tabella seguente:
18-20mila 20-22mila 22-24mila 24-26mila TOT
MASCHI 20 45 90 45 200
FEMMINE 30 15 60 15 120
TOT 50 60 150 60 320

M (Maschi) = 22,6 ; M (Femmine) = 22,0 ; M (Tot) = 22,4

Dev (Tot) = 1.155,2 ; Dev (W) = Dev (Maschi) + Dev (Femmine) = 648+480 = 1.128

() ( ) ( )
2 2
Dev B = 22,6 − 22,4 × 200 + 22,0 − 22,4 ×120 = 8,0 +19,2 = 27,2

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste
Esercizio
Nel corso di unʼindagine condotta su 320 dipendenti di aziende commerciali, sono stati rilevati il
Genere (X) e il Reddito medio netto annuo (Y), con i risultati riportati nella tabella seguente:
18-20mila 20-22mila 22-24mila 24-26mila TOT
MASCHI 20 45 90 45 200
FEMMINE 30 15 60 15 120
TOT 50 60 150 60 320

M (Maschi) = 22,6 ; M (Femmine) = 22,0 ; M (Tot) = 22,4

Dev (Tot) = 1.155,2 ; Dev (W) = 1.128 ; Dev (B) = 27,2

η2 =
( ) = 27,2 = 0,023
Dev B
Dev ( T ) 1.155,2

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste
Esercizio
Si riportano le caratteristiche del peso (in kg) di 5.000 bambini di un anno di età, divisi tra maschi e
femmine. Si determini quanta parte della variabilità del Peso può essere attribuita al Genere.

MASCHI FEMMINE
(N=2.764) (N=2.236)

MIN 8,29 7,75


MAX 12,40 11,85
MEDIA 9,75 9,40
MEDIANA 9,82 9,35
VAR 0,47 0,41

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste
Esercizio
Si riportano le caratteristiche del peso (in kg) di 5.000 bambini di un anno di età, divisi tra maschi e
femmine. Si determini quanta parte della variabilità del Peso può essere attribuita al Genere.

MASCHI FEMMINE
(N=2.764) (N=2.236)

MIN 8,29 7,75


η2 =
()
Dev B
MAX 12,40 11,85
( )
Dev Tot
MEDIA 9,75 9,40
MEDIANA 9,82 9,35 Dev ( Tot ) = Dev ( B ) + Dev (W )
VAR 0,47 0,41

M( Y ) =
( 9,75 × 2.764 ) + ( 9,40 × 2.236 ) 26.949,0 + 21.018,4
= = 9,59 kg
2.764 + 2.236 5.000

() ( ) ( ) ( )
2 2 2 2
Dev B = ∑ y i − y ⋅ ni = 9,75 − 9,59 × 2.764 + 9,40 − 9,59 × 2.236
i=1

= 0,0256 × 2.764 + 0,0361× 2.236 = 70,76 + 80,72 = 151,48

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste
Esercizio
Si riportano le caratteristiche del peso (in kg) di 5.000 bambini di un anno di età, divisi tra maschi e
femmine. Si determini quanta parte della variabilità del Peso può essere attribuita al Genere.

MASCHI FEMMINE
(N=2.764) (N=2.236)

MIN 8,29 7,75


η2 =
Dev B()
MAX 12,40 11,85
( )
Dev Tot
MEDIA 9,75 9,40
MEDIANA 9,82 9,35 Dev ( Tot ) = Dev ( B ) + Dev (W )
VAR 0,47 0,41

M (Y) = 22,6 ; Dev (B) = 151,48

( ) ( ) ( )
Dev W = Dev Maschi + Dev Femmine = 0,47 × 2.764 + 0,41× 2.236 = 1.299,1+ 916,8 = 2.215,90

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste
Esercizio
Si riportano le caratteristiche del peso (in kg) di 5.000 bambini di un anno di età, divisi tra maschi e
femmine. Si determini quanta parte della variabilità del Peso può essere attribuita al Genere.

MASCHI FEMMINE
(N=2.764) (N=2.236)

MIN 8,29 7,75


η2 =
Dev B()
MAX 12,40 11,85
( )
Dev Tot
MEDIA 9,75 9,40
MEDIANA 9,82 9,35 Dev ( Tot ) = Dev ( B ) + Dev (W )
VAR 0,47 0,41

M (Y) = 22,6 ; Dev (B) = 151,48 ; Dev (W) = 2.215,90

( ) () ( )
Dev Tot = Dev B + Dev W = 151,48 + 2.215,90 = 2.367,38

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le tabelle miste
Esercizio
Si riportano le caratteristiche del peso (in kg) di 5.000 bambini di un anno di età, divisi tra maschi e
femmine. Si determini quanta parte della variabilità del Peso può essere attribuita al Genere.

MASCHI FEMMINE
(N=2.764) (N=2.236)

MIN 8,29 7,75


η2 =
Dev B()
MAX 12,40 11,85
( )
Dev Tot
MEDIA 9,75 9,40
MEDIANA 9,82 9,35 Dev ( Tot ) = Dev ( B ) + Dev (W )
VAR 0,47 0,41

M (Y) = 22,6 ; Dev (B) = 151,48 ; Dev (W) = 2.215,90 ; Dev (Tot) = 2.367,38

η =
2 ( ) = 151,48 = 0,064
Dev B
Dev ( T ) 2.367,38

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizio di riepilogo

La tabella seguente riporta alcuni dati relativi a 14 Centri Commerciali


di proprietà italiana ed estera.
SUPERFICIE (m2) FATTURATO (€x1.000)
CENTRO PROPRIETÀ
(X) (Y)
1 1.726 5.681 EST
2 1.642 3.895 EST
3 2.816 6.653 ITA
4 5.555 6.543 ITA
5 1.292 3.418 EST
6 2.208 6.563 ITA
7 1.313 3.660 EST
8 1.102 2.694 ITA
9 3.151 5.468 EST
10 1.516 2.898 EST
11 5.161 10.674 EST
12 4.567 7.585 EST
13 5.841 11.760 EST
14 3.008 4.085 ITA
TOT 40.898 81.577

Si determini una misura normalizzata dell’associazione tra Fatturato e Proprietà.

LEZIONE 9 – L'ASSOCIAZIONE IN TABELLE MISTE


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 10:
Interpolazione e
Regressione
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lo studio dell’associazione

Tabella riepilogativa

Caratteri
2 2 1 variabile
Approccio mutabili variabili 1 mutabile

χ2 ; V CovXY
Simmetrico
(Interdipendenza)
Φ rXY ?
Asimmetrico
(Dipendenza)
l ? h2

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lo studio dell’associazione

Tabella riepilogativa

Caratteri
2 2 1 variabile
Approccio mutabili variabili 1 mutabile

Simmetrico χ2 ; V CovXY χ2 ; V
(Interdipendenza) rXY
Φ Φ

Asimmetrico
(Dipendenza)
l ? h2

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

L'interpolazione

Date due variabili, X e Y, rappresentabili come assi di un piano cartesiano, e data una
nuvola di punti sul piano, costituita dalle n coppie di valori osservati sulle unità statistiche, il
problema dell’interpolazione consiste nel trovare lʼequazione di una curva passante per i
punti del piano, oppure “vicino” ai punti stessi. Prezzo casa al mq
(in €) 2000

Lʼinterpolazione può essere di due tipi:


• Interpolazione matematica
AO

• Interpolazione statistica 1500

AN

AR
AQ AT

AL
1000
AP
AG
AV

500
5000 10000 15000 20000 25000 30000
Reddito p.c.
(in €)

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

L'interpolazione

Interpolazione matematica
Data una successione di n coppie di numeri xi,yi, che nel piano corrispondono ad altrettanti
punti P1, P2, …, Pn, e scelta una funzione di X contenente n parametri a0, a1, …, an-1,
l’interpolazione matematica consiste nel determinare il valore di questi parametri in modo
che la funzione passi per i punti dati. Prezzo casa al mq
(in €) 2000

Avendo tanti punti quanti sono i parametri, è


possibile scrivere un sistema di n equazioni con n
incognite (i parametri, appunto) che, in AO
generale, ammette una e una sola soluzione, 1500
che individua in modo univoco lʼinterpolante.
AN

AR
AQ AT

AL
1000
AP
AG
AV

500
5000 10000 15000 20000 25000 30000
Reddito p.c.
(in €)

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

L'interpolazione

Interpolazione statistica
L’interpolazione statistica abbandona il vincolo che la funzione passi per i punti, a favore di
una condizione, più realistica soprattutto quando si osservino molte unità, di passare fra i
punti.
A differenza di quanto accade nell’interpolazione Prezzo casa al mq
(in €) 2000
matematica, nell’interpolazione statistica non cʼè
una relazione fissa tra il numero dei parametri e il
numero dei punti, risultando sufficiente che i
secondi superino i primi. AO

1500
D’altra parte, mentre nell’interpolazione
matematica si ha un’unica soluzione, AN

nell’interpolazione statistica esistono infinite AR


AQ AT
funzioni (non necessariamente di tipo lineare)
che possono passare fra i punti. 1000
AL
AP
Eʼ quindi necessario stabilire delle condizioni cui
AG
AV

la funzione interpolante deve soddisfare per far


sì che il problema sia definito in modo univoco.
500
5000 10000 15000 20000 25000 30000
Reddito p.c.
(in €)

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

L'interpolazione

Metodo dei minimi quadrati (Gauss, 1795; Legendre, 1805)

(
Funzione interpolante: ŷ i = ϕ xi ,a0 ,a1,…,ak )
La condizione dei minimi quadrati determina i parametri incogniti in modo da rendere
minima la somma dei quadrati degli scarti fra valori interpolati e valori osservati:

( ) ( )
2 2 Y
S = ∑ ŷ i − y i = ∑ ⎡⎣ϕ xi ,a0 ,a1,…,ak − yi ⎤⎦ = min
i i

La soluzione individuata rende minima la somma dei quadrati


degli scarti rispetto a qualunque altra curva dello stesso tipo.

Quando è k=1, la funzione interpolante è la retta e lʼespressione Y

si riduce a:
ŷ = a0 + a1x
che può anche essere trovata nelle forme:

ŷ = a + bx ; ŷ = b0 + b1x

X
LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

L'interpolazione lineare Ŷ = b0 + b1X

Metodo dei minimi quadrati (Gauss, 1795; Legendre, 1805)

(
∂ ⎡ S b0 ,b1 ⎤ )∂ ⎡ S b0 ,b1 ⎤ ( )
( ) ( )
n
S b0 ,b1 = ∑ Yi − b0 − b1Xi
2
= min ⇒
⎣ ⎦ =0 ; ⎣ ⎦=0
i=1 ∂b0 ∂b1

Y
Richiamo del corso di Metodi matematici…
La derivata di una funzione quadratica è uguale a due volte la funzione
non derivata, moltiplicato la derivata della funzione:

( ( )) ( ) ( )
D f 2 x = 2f x ⋅ f ′ x

∑ (Y − b )
n 2
− b1Xi Calcoliamo la derivata di questa espressione
i=1
i 0
rispetto ai parametri b0 e b1. X

⎡ n 2⎤

∂b0
( ) ( )( )
⎢ ∑ Yi − b0 − b1Xi ⎥ = 2∑ Yi − b0 − b1Xi ⋅ −1 = −2∑ Yi − b0 − b1Xi
⎢⎣ i=1 ⎥⎦ i i
( )
∂ ⎡ n 2⎤
( ) ( )( )
⎢ ∑ Y − b0 − b1Xi ⎥ = 2∑ Yi − b0 − b1Xi ⋅ −Xi = −2Xi ∑ Yi − b0 − b1Xi
∂b1 ⎢⎣ i=1 i ⎥⎦ i i
( )

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

L'interpolazione lineare Ŷ = b0 + b1X

Metodo dei minimi quadrati (Gauss, 1795; Legendre, 1805)

(
∂ ⎡ S b0 ,b1 ⎤ )∂ ⎡ S b0 ,b1 ⎤ ( )
( ) ( )
n
S b0 ,b1 = ∑ Yi − b0 − b1Xi
2
= min ⇒
⎣ ⎦ =0 ; ⎣ ⎦=0
i=1 ∂b0 ∂b1

Y
Richiamo del corso di Metodi matematici…
La derivata di una funzione quadratica è uguale a due volte la funzione
non derivata, moltiplicato la derivata della funzione:

( ( )) ( ) ( )
D f 2 x = 2f x ⋅ f ′ x

∑ (Y − b )
n 2
− b1Xi Calcoliamo la derivata di questa espressione
i=1
i 0
rispetto ai parametri b0 e b1. X

⎡ n 2⎤

∂b0
( ) ( )( )
⎢ ∑ Yi − b0 − b1Xi ⎥ = 2∑ Yi − b0 − b1Xi ⋅ −1 = −2∑ Yi − b0 − b1Xi
⎢⎣ i=1 ⎥⎦ i i
( )
∂ ⎡ n 2⎤
( ) ( )( )
⎢ ∑ Y − b0 − b1Xi ⎥ = 2∑ Yi − b0 − b1Xi ⋅ −Xi = −2Xi ∑ Yi − b0 − b1Xi
∂b1 ⎢⎣ i=1 i ⎥⎦ i i
( )

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Metodo dei minimi quadrati (Gauss, 1795; Legendre, 1805)


L'interpolazione lineare (
∂ ⎡ S b0 ,b1 ⎤ ) ∂ ⎡ S b0 ,b1 ⎤ ( )
( ) ( )
n 2
S b0 ,b1 = ∑ Yi − b0 − b1Xi = min ⇒ ⎣ ⎦=0 ; ⎣ ⎦=0
Determinazione dei coefficienti b0 e b1 i=1 ∂b0 ∂b1
come soluzione del metodo dei minimi quadrati

⎪⎪ (
−2∑ Yi − b0 − b1Xi = 0 ) ⎧

b0 = Y − b1X

∑ X Y − (Y − b X ) nX − b ∑ X
1. ⎨ i 5. ⎨ 2
=0

⎪⎩ i
(
−2∑ Xi Yi − b0 − b1Xi = 0 ) ⎪
⎩ i
i i 1 1
i
i

⎧ b0 = Y − b1X
⎧ ⎛ ⎞ ⎪
⎪ −2 ⎜ ∑ Yi − nb0 − b1∑ Xi ⎟ = 0
( )
6. ⎨ 2

2. ⎨
⎪ ⎝ i ⎠ i ⎪ ∑ XiYi − nXY + b1n X − b1∑ Xi2 = 0
⎛ ⎞ ⎩ i i
⎪ −2 ⎜ ∑ Xi Yi − b0 ∑ Xi − b1∑ Xi2 ⎟ = 0
⎪ ⎧ b0 = Y − b1X
⎝ ⎠ ⎪
⎩ i i i


∑ Y − nb − b1∑ Xi = 0
7. ⎨ ∑XY ∑X 2

( )
i i 2 i
⎪⎪ i
i 0
i
⎪ i
− XY + b1 X − b1 i
=0
3. ⎨ ⎪⎩ n n
⎪ ∑XY − b ∑X − b∑X
i i 0 i 1
2
i
=0

⎪⎩ i i i b0 = Y − b1X



nY − nb0 − b1nX = 0 b0 = Y − b1X
8. ⎨
⎪ ∑XY ⎛ ∑ X2 ⎞
( )
i i i
− XY − b1 ⎜ i − X ⎟ =0
2
4. ⎨
∑ X Y − b nX − b ∑ X 2 i
=0 ⎪ ⎜ n ⎟
⎪ i i 0 1 i
⎪ n ⎜⎝ ⎟⎠
⎩ i i

⎧ b0 = Y − b1X
9. ⎨

( )
Cov XY
⎪⎩ ( )
Cov XY − b1Var X = 0 ( ) b1 =
Var ( X )

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

L'interpolazione lineare Ŷ = b0 + b1X

Metodo dei minimi quadrati (Gauss, 1795; Legendre, 1805)

(
∂ ⎡ S b0 ,b1 ⎤ ) ( )
∂ ⎡ S b0 ,b1 ⎤
( ) ( ) ( )
n n
2 2
⎣ ⎦ =0 ; ⎣ ⎦=0
S b0 ,b1 = ∑ Yi − Ŷi = ∑ Yi − b0 − b1Xi = min ⇒
i=1 i=1 ∂b0 ∂b1

Soluzioni: b0 = Y − b1X b1 =
( )
Cov XY Y

Var ( X )

La retta costruita con i valori di b0 e b1 ottenuti dalla


risoluzione del sistema, sarà dunque quella più “vicina” ai
punti, ossia quella che rende minima la somma dei quadrati
delle distanze tra valori osservati e valori teorici della
variabile dipendente Y.
X

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Regressione

X: variabile indipendente (data)


Y: variabile dipendente

Dipendenza funzionale (o deterministica): Y = f X;θ ( )


Da un punto di vista analitico, i valori della Y possono essere determinati senza errore a partire dai
soli valori della X;
Da un punto di vista grafico, la dipendenza funzionale Y
implica la definizione di una funzione che passi per tutti i
punti, e che quindi richiede la determinazione di tanti
parametri quanti sono i punti.

Dipendenza statistica: Y = f X;θ + e ( )


Il valore della variabile dipendente non è univocamente
determinato a partire dal solo valore della variabile
esplicativa, potendosi osservare, per ciascun di valore X, più
valori di Y; X
Da un punto di vista grafico, la dipendenza statistica implica una funzione che passi fra i punti
osservati. Il numero di parametri da determinare dipende, in questo caso, dal tipo di funzione
scelta e non dal numero di punti osservati.

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Regressione Y = b0 + b1X + e

X: variabile indipendente (data)


Y: variabile dipendente Y

Decidiamo di rappresentare la nube di punti con una funzione


che passi tra i punti stessi;
Tra tutte le possibili funzioni, scegliamo la funzione lineare;

Ŷ = b0 + b1X
Tra tutte le infinite possibili rette, scegliamo quella che ottimizza un
criterio che definiamo arbitrariamente, per esempio quella che
minimizza la somma dei quadrati degli scarti tra valori osservati e X
valori teorici:
( ) ( ) ( )
n 2 n 2
S b0 ,b1 = ∑ Yi − Ŷi = ∑ Yi − b0 − b1Xi = min
i=1 i=1

Il metodo dei minimi quadrati consente di ottenere le soluzioni di questo problema, soluzioni che
rappresentano i parametri della retta:
b0 = Y − b1X b1 =
Cov XY ( )
Var X ( )
Sostituendo questi valori nell’equazione della retta, per ogni valore dato di X otterremo il
corrispondente valore teorico di Y.

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il significato dei coefficienti di regressione Y = b0 + b1X + e

X: variabile indipendente (data)


Y: variabile dipendente

b0 = Y − b1X Y
Eʼ lʼintercetta sull’asse delle ordinate.
Può essere interpretato, quando ha senso, come il valore
di Y quando è X=0.

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il significato dei coefficienti di regressione Y = b0 + b1X + e

X: variabile indipendente (data)


Y: variabile dipendente

b0 = Y − b1X Y
Eʼ lʼintercetta sull’asse delle ordinate.
Può essere interpretato, quando ha senso, come il valore
di Y quando è X=0.
Y
Da questa espressione deriva, inoltre la seguente:
Y = b0 + b1X
che assicura che la retta di regressione passa sempre per il
punto di coordinate Xmedio;Ymedio. (baricentro della nube).
X X

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il significato dei coefficienti di regressione Y = b0 + b1X + e

X: variabile indipendente (data)


Y: variabile dipendente

b0 = Y − b1X Y
Eʼ lʼintercetta sull’asse delle ordinate.
Può essere interpretato, quando ha senso, come il valore
di Y quando è X=0.
Y
Da questa espressione deriva, inoltre la seguente:
Y = b0 + b1X
che assicura che la retta di regressione passa sempre per il
punto di coordinate Xmedio;Ymedio. (baricentro della nube).

b1 =
( )
Cov XY X X
Var ( X )

Eʼ il coefficiente angolare della retta di regressione in quanto funzione dell’angolo che la retta
forma con lʼasse delle ascisse. Esprime dunque la pendenza (positiva, negativa o nulla) della retta,
e anche quanto varia la variabile Y al variare unitario della variabile X (variazione marginale).

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in €
App. X2 Y2 XY 900000
(X) (Y)
1 80 212.000 6.400 44.944.000.000 16.960.000 800000
13
2 200 313.000 40.000 97.969.000.000 62.600.000 3

3 185 717.000 34.225 514.089.000.000 132.645.000 700000 14

4 140 431.000 19.600 185.761.000.000 60.340.000 10


15

5 95 270.000 9.025 72.900.000.000 25.650.000 600000

6 60 261.000 3.600 68.121.000.000 15.660.000


500000
7 210 431.000 44.100 185.761.000.000 90.510.000 4 7
8 65 140.000 4.225 19.600.000.000 9.100.000
400000
9 70 282.000 4.900 79.524.000.000 19.740.000
11 2
10 120 600.000 14.400 360.000.000.000 72.000.000 300000 9
5
6
11 100 303.000 10.000 91.809.000.000 30.300.000 1 12
12 90 220.000 8.100 48.400.000.000 19.800.000 200000
8
13 180 749.000 32.400 561.001.000.000 134.820.000
14 220 663.000 48.400 439.569.000.000 145.860.000 100000
15 150 623.000 22.500 388.129.000.000 93.450.000
0
TOT 1.965 6.215.000 301.875 3.157.577.000.000 929.435.000 0 50 100 150 200 250 300

Media 131,0 414.333,3 20.125,0 210.505.133.333,3 61.962.333,3


Sqm 54,4 197.061,0
Cov 7.684.666,7
b1 2.592,668
b0 74.693,9

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in €
App. X2 Y2 XY 900000
(X) (Y)
1 80 212.000 6.400 44.944.000.000 16.960.000 800000
13
2 200 313.000 40.000 97.969.000.000 62.600.000 3

3 185 717.000 34.225 514.089.000.000 132.645.000 700000 14

4 140 431.000 19.600 185.761.000.000 60.340.000 10


15

5 95 270.000 9.025 72.900.000.000 25.650.000 600000

6 60 261.000 3.600 68.121.000.000 15.660.000


500000
7 210 431.000 44.100 185.761.000.000 90.510.000 4 7
8 65 140.000 4.225 19.600.000.000 9.100.000
400000
9 70 282.000 4.900 79.524.000.000 19.740.000
11 2
10 120 600.000 14.400 360.000.000.000 72.000.000 300000 9
5
6
11 100 303.000 10.000 91.809.000.000 30.300.000 1 12
12 90 220.000 8.100 48.400.000.000 19.800.000 200000
8
13 180 749.000 32.400 561.001.000.000 134.820.000
14 220 663.000 48.400 439.569.000.000 145.860.000 100000
15 150 623.000 22.500 388.129.000.000 93.450.000
0
TOT 1.965 6.215.000 301.875 3.157.577.000.000 929.435.000 0 50 100 150 200 250 300

Media 131,0 414.333,3 20.125,0 210.505.133.333,3 61.962.333,3


Sqm 54,4 197.061,0
Cov 7.684.666,7
b1
b0
2.592,668
74.693,9 b1 =
( ) = 7.684.666,7 = 2.592,7
Cov XY
Qual è il significato di questo valore?
Var ( X )
2
54,4

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in € 2 2
App. X Y XY 900000
(X) (Y)
1 80 212.000 6.400 44.944.000.000 16.960.000 800000
13
2 200 313.000 40.000 97.969.000.000 62.600.000 3

3 185 717.000 34.225 514.089.000.000 132.645.000 700000 14

4 140 431.000 19.600 185.761.000.000 60.340.000 10


15

5 95 270.000 9.025 72.900.000.000 25.650.000 600000

6 60 261.000 3.600 68.121.000.000 15.660.000


500000
7 210 431.000 44.100 185.761.000.000 90.510.000 4 7
8 65 140.000 4.225 19.600.000.000 9.100.000
400000
9 70 282.000 4.900 79.524.000.000 19.740.000
11 2
10 120 600.000 14.400 360.000.000.000 72.000.000 300000 9
5
6
11 100 303.000 10.000 91.809.000.000 30.300.000 1 12
12 90 220.000 8.100 48.400.000.000 19.800.000 200000
8
13 180 749.000 32.400 561.001.000.000 134.820.000
14 220 663.000 48.400 439.569.000.000 145.860.000 100000
15 150 623.000 22.500 388.129.000.000 93.450.000
0
TOT 1.965 6.215.000 301.875 3.157.577.000.000 929.435.000 0 50 100 150 200 250 300

Media 131,0 414.333,3 20.125,0 210.505.133.333,3 61.962.333,3


Sqm 54,4 197.061,0
Cov 7.684.666,7
b1 2.592,668
b0 = Y − b1X
b0 74.693,9
( )
= 414.333,3 − 2.592,7 ×131 = 74.689,6 Qual è il significato di questo valore?

NB – Il valore esatto di b0, utilizzando, nei calcoli, tutte le


cifre decimali, è 74.693,9.

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in € 2 2
App. X Y XY 900000
(X) (Y)
1 80 212.000 6.400 44.944.000.000 16.960.000 800000
13
2 200 313.000 40.000 97.969.000.000 62.600.000 3

3 185 717.000 34.225 514.089.000.000 132.645.000 700000 14

4 140 431.000 19.600 185.761.000.000 60.340.000 10


15

5 95 270.000 9.025 72.900.000.000 25.650.000 600000

6 60 261.000 3.600 68.121.000.000 15.660.000


500000
7 210 431.000 44.100 185.761.000.000 90.510.000 4 7
8 65 140.000 4.225 19.600.000.000 9.100.000
400000
9 70 282.000 4.900 79.524.000.000 19.740.000
11 2
10 120 600.000 14.400 360.000.000.000 72.000.000 300000 9
5
6
11 100 303.000 10.000 91.809.000.000 30.300.000 1 12
12 90 220.000 8.100 48.400.000.000 19.800.000 200000
8
13 180 749.000 32.400 561.001.000.000 134.820.000
14 220 663.000 48.400 439.569.000.000 145.860.000 100000
15 150 623.000 22.500 388.129.000.000 93.450.000
0
TOT 1.965 6.215.000 301.875 3.157.577.000.000 929.435.000 0 50 100 150 200 250 300

Media 131,0 414.333,3 20.125,0 210.505.133.333,3 61.962.333,3


Sqm 54,4 197.061,0
Cov 7.684.666,7
b1 2.592,668
74.693,9
Ŷ = 74.693,9 + 2.592,7X
b0
N.B. – Le differenze tra i valori nella tabella e quelli
calcolati sono dovute al fatto che i primi sono
ottenuti utilizzando tutte le cifre decimali, senza
arrotondamenti.

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in €
App. Yteo Y-Yteo 900000
(X) (Y)
1 80 212.000 282.107 -70.107 800000
13
2 200 313.000 593.227 -280.227 3

3 185 717.000 554.337 162.663 700000 14

4 140 431.000 437.667 -6.667 10


15

5 95 270.000 320.997 -50.997 600000


593.227

6 60 261.000 230.254 30.746 554.337


500000
7 210 431.000 619.154 -188.154 4 7
8 65 140.000 243.217 -103.217 437.667
400000
9 70 282.000 256.181 25.819
11 2
10 120 600.000 385.814 214.186 300000 9
5
6
11 100 303.000 333.961 -30.961 282.000
1 12
12 90 220.000 308.034 -88.034 200000
8
13 180 749.000 541.374 207.626
14 220 663.000 645.081 17.919 100000
15 150 623.000 463.594 159.406
0
TOT 1.965 6.215.000 6.215.000 0,0 0 50 100 150 200 250 300

Ŷ = 74.693,9 + 2.592,7X

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in €
App. Yteo Y-Yteo 900000
(X) (Y)
1 80 212.000 282.107 -70.107 800000
13 Yˆ = 74.693,8 + 2.592,7X
2 200 313.000 593.227 -280.227 3

3 185 717.000 554.337 162.663 700000 14

4 140 431.000 437.667 -6.667 10


15

5 95 270.000 320.997 -50.997 600000

6 60 261.000 230.254 30.746


500000
7 210 431.000 619.154 -188.154 4 7
8 65 140.000 243.217 -103.217
400000
9 70 282.000 256.181 25.819
11 2
10 120 600.000 385.814 214.186 300000 9
5
6
11 100 303.000 333.961 -30.961 1 12
12 90 220.000 308.034 -88.034 200000
8
13 180 749.000 541.374 207.626
14 220 663.000 645.081 17.919 100000
15 150 623.000 463.594 159.406
0
TOT 1.965 6.215.000 6.215.000 0,0 0 50 100 150 200 250 300

Ŷ = 74.693,9 + 2.592,7X

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in €
App. Yteo Y-Yteo 900000
(X) (Y)
1 80 212.000 282.107 -70.107 800000
13 Yˆ = 74.693,8 + 2.592,7X
2 200 313.000 593.227 -280.227 3

3 185 717.000 554.337 162.663 700000 14

4 140 431.000 437.667 -6.667 10


15

5 95 270.000 320.997 -50.997 600000

6 60 261.000 230.254 30.746


500000
7 210 431.000 619.154 -188.154 4 7
8 65 140.000 243.217 -103.217
400000
9 70 282.000 256.181 25.819 Baricentro
(131mq;414.333€)
11 2
10 120 600.000 385.814 214.186 300000 9
5
6
11 100 303.000 333.961 -30.961 1 12
12 90 220.000 308.034 -88.034 200000
8
13 180 749.000 541.374 207.626
14 220 663.000 645.081 17.919 100000
74.693
15 150 623.000 463.594 159.406
0
TOT 1.965 6.215.000 6.215.000 0,0 0 50 100 150 200 250 300

Ŷ = 74.693,9 + 2.592,7X

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in €
App. Yteo Y-Yteo 900000
(X) (Y)
1 80 212.000 282.107 -70.107 800000
13
2 200 313.000 593.227 -280.227 3

3 185 717.000 554.337 162.663 700000 14

4 140 431.000 437.667 -6.667 10


15

5 95 270.000 320.997 -50.997 600000

6 60 261.000 230.254 30.746


500000
7 210 431.000 619.154 -188.154 4 7
8 65 140.000 243.217 -103.217
400000
9 70 282.000 256.181 25.819
11 2
10 120 600.000 385.814 214.186 300000 9
5
6
11 100 303.000 333.961 -30.961 1 12
12 90 220.000 308.034 -88.034 200000
8
13 180 749.000 541.374 207.626
14 220 663.000 645.081 17.919 100000
15 150 623.000 463.594 159.406
0
TOT 1.965 6.215.000 6.215.000 0,0 0 50 100 150 200 250 300

Ŷ = 74.693,9 + 2.592,7X
Qual è il prezzo previsto di un appartamento di 160mq?

(
Ŷ = 74.693,9 + 2.592,7 ×160 = 489.526 € )
LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in €
App. Yteo Y-Yteo 900000
(X) (Y)
1 80 212.000 282.107 -70.107 800000
13
2 200 313.000 593.227 -280.227 3

3 185 717.000 554.337 162.663 700000 14

4 140 431.000 437.667 -6.667 10


15

5 95 270.000 320.997 -50.997 600000

6 60 261.000 230.254 30.746


500000
7 210 431.000 619.154 -188.154 4 7
8 65 140.000 243.217 -103.217
400000
9 70 282.000 256.181 25.819
11 2
10 120 600.000 385.814 214.186 300000 9
5
6
11 100 303.000 333.961 -30.961 1 12
12 90 220.000 308.034 -88.034 200000
8
13 180 749.000 541.374 207.626
14 220 663.000 645.081 17.919 100000
15 150 623.000 463.594 159.406
0
TOT 1.965 6.215.000 6.215.000 0,0 0 50 100 150 200 250 300

Ŷ = 74.693,9 + 2.592,7X
Qual è il prezzo previsto di un appartamento di 260mq?

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Regressione ( )
Cov XY
b0 = Y − b1X b1 =
Var ( X )
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino i parametri della retta di regressione.
mq Prezzo in €
App. Yteo Y-Yteo 900000
(X) (Y)
1 80 212.000 282.107 -70.107 800000
13
2 200 313.000 593.227 -280.227 3

3 185 717.000 554.337 162.663 700000 14

4 140 431.000 437.667 -6.667 10


15

5 95 270.000 320.997 -50.997 600000

6 60 261.000 230.254 30.746


500000
7 210 431.000 619.154 -188.154 4 7
8 65 140.000 243.217 -103.217
400000
9 70 282.000 256.181 25.819
11 2
10 120 600.000 385.814 214.186 300000 9
5
6
11 100 303.000 333.961 -30.961 1 12
12 90 220.000 308.034 -88.034 200000
8
13 180 749.000 541.374 207.626
14 220 663.000 645.081 17.919 100000
15 150 623.000 463.594 159.406
0
TOT 1.965 6.215.000 6.215.000 0,0 0 50 100 150 200 250 300

Ŷ = 74.693,9 + 2.592,7X
Qual è il prezzo previsto di un appartamento di 260mq?
Se il valore della X è esterno all’intervallo dei valori considerati, il valore della Y non può essere previsto
applicando la funzione di regressione. In questo caso si tratterebbe di “estrapolazione” e non di “interpolazione”.

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La valutazione dell'adattamento Yˆ = b0 + b1X

Una volta ottenuta la retta di regressione, è


necessario valutare quanto bene questa si
adatti ai dati.
Se consideriamo la sola variabile Y, la Y
previsione più attendibile è data dalla media;
Lʼerrore complessivo di previsione sarà dato
dalla somma dei quadrati delle distanze tra i
valori della Y e i valori teorici (che coincidono,
in questo caso, con il valore medio);
Tale errore è dunque pari alla devianza di Y.

() ( )
2
Dev Y = ∑ Yi − Y
i

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La valutazione dell'adattamento Yˆ = b0 + b1X

Una volta ottenuta la retta di regressione, è


necessario valutare quanto bene questa si (Y −Y )
2
i
adatti ai dati.
Se consideriamo la sola variabile Y, la Y
previsione più attendibile è data dalla media;
Lʼerrore complessivo di previsione sarà dato
dalla somma dei quadrati delle distanze tra i
valori della Y e i valori teorici (che coincidono,
in questo caso, con il valore medio);
Tale errore è dunque pari alla devianza di Y.

() ( )
2
Dev Y = ∑ Yi − Y
i
Consideriamo ora il generico punto Yi. Questo partecipa all’errore complessivo con la quantità:

(Y − Y )
2

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La valutazione dell'adattamento Yˆ = b0 + b1X

Una volta ottenuta la retta di regressione, è


necessario valutare quanto bene questa si (Y −Y )
2
i
adatti ai dati.
Se consideriamo la sola variabile Y, la Y
previsione più attendibile è data dalla media;
Lʼerrore complessivo di previsione sarà dato
dalla somma dei quadrati delle distanze tra i
valori della Y e i valori teorici (che coincidono,
in questo caso, con il valore medio);
Tale errore è dunque pari alla devianza di Y.

() ( )
2
Dev Y = ∑ Yi − Y
i
Consideriamo ora il generico punto Yi. Questo partecipa all’errore complessivo con la quantità:

(Y − Y )
2

i
Con l’obiettivo di ridurre l’errore di previsione, consideriamo ora la variabile X (la Superficie in mq). La
retta interpolante si dispone nella direzione di “allungamento” della nube di punti, facendo
“perno” sul baricentro della nube, il punto medio, per il quale le retta di regressione deve passare;

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La valutazione dell'adattamento Yˆ = b0 + b1X

(Y −Yˆ )
2
i i

(Y −Y )
2

Consideriamo ancora il punto Yi:


i

(Yˆ −Y )
2

Y
i

Una parte dell’errore precedente viene ora


“rimossa” dalla retta di regressione, poiché il
valore “teorico” della Y calcolato con la retta di
regressione risulta ora più vicino al valore Yi
osservato.
Più precisamente, la parte di errore rimossa o
“spiegata” dalla regressione è data dalla quantità:

(Ŷ − Y )
2

D’altra parte, esiste una parte di errore “residua”, che rimane anche dopo la costruzione della retta di
regressione, ossia quella parte di errore che non viene spiegata dall’osservazione della variabile X;
Questa parte di errore è data dalla quantità:

(Y − Ŷ )
2

i i

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La valutazione dell'adattamento Yˆ = b0 + b1X

(Y −Yˆ )
2
i i

(Y −Y )
2
i

(Yˆ −Y )
2

L’indice R2 Y
i

Estendendo questo ragionamento a tutti i punti, una misura della


bontà dell’adattamento della retta ai dati può allora essere data
dal rapporto tra la devianza spiegata e la devianza totale, valore
compreso tra zero e uno (è un rapporto di una parte al suo totale) e
che prende il nome di coefficiente di determinazione R2.

∑( )
2
Ŷi − Y
DevREG
2
R = = i
(0 ≤ R ≤ 1)
2

DevTOT
∑ (Y − Y )
2

i
i
Quando è R2=0, la devianza spiegata è pari a zero. Questo vuol dire che lʼosservazione della variabile X non
ha aggiunto nulla a quanto già si sapeva dalla sola osservazione della Y. Dal punto di vista geometrico, la
retta di regressione coincide con la retta M(Y); dal punto di vista interpretativo, le variabili X e Y sono
incorrelate;
Quando è R2=1, la devianza spiegata è uguale alla devianza totale. Questo vuol dire che lʼosservazione della
variabile X spiega perfettamente la variabile Y, e ne rende possibile la previsione senza possibilità di errore.
Dal punto di vista geometrico, tutti i punti sono allineati e la retta di regressione passa per tutti i punti (siamo
quindi nel caso di una dipendenza funzionale, deterministica, esatta); dal punto di vista interpretativo, le
variabili X e Y sono massimamente correlate (in senso diretto o inverso).

Quando è 0≤R2 ≤1, la devianza spiegata è pari a una quota della devianza totale. Lʼosservazione della
variabile X migliora quindi la previsione della variabile Y, con una quota di errore residua dovuta in parte alle
variabili non osservate, in parte alla sempre presente quota di imponderabilità dei fenomeni osservati.

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La valutazione dell'adattamento
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Calcolare i parametri della retta di regressione e l'indice R2 di adattamento della retta ai dati.
mq Prezzo in €
App. Yteo (Y-Ymed)2 )2
(Yteo-Ymed900000 (Y-Yteo)2
(X) (Y)
800000
1 80 212.000 282.107 40.938.777.778 17.483.727.210 4.915.031.754 13
3
2 200 313.000 593.227 10.268.444.444 32.003.085.447
700000
78.527.393.139
14
3 185 717.000 554.337 91.607.111.111 19.601.133.620 26.459.127.32215
10
4 140 431.000 437.667 277.777.778 544.475.934
600000 44.453.442
5 95 270.000 320.997 20.832.111.111 8.711.614.942 2.600.724.704
500000
6 60 261.000 230.254 23.511.111.111 33.885.224.478 945.320.444 4 7

7 210 431.000 619.154 277.777.778 41.951.534.609


400000
35.401.954.462
8 65 140.000 243.217 75.258.777.778 29.280.705.777 10.653.805.643 2
11
9 70 282.000 256.181 17.512.111.111 25.012.283.333
300000 6 666.640.808
9
5

10 120 600.000 385.814 34.472.111.111 813.352.938 45.875.646.835


1 12
200000
11 100 303.000 333.961 12.395.111.111 6.459.770.030 8958.561.153

12 90 220.000 308.034 37.765.444.444 11.299.556.109


100000 7.749.978.661
13 180 749.000 541.374 112.001.777.778 16.139.342.188 43.108.537.570
0
14 220 663.000 645.081 61.835.111.111 53.244.368.7930 50
321.099.637
100 150 200 250 300
15 150 623.000 463.594 43.541.777.778 2.426.614.965 25.410.267.386
TOT 1.965 6.215.000 6.215.000 582.495.333.333 298.856.790.373 283.638.542.960

∑( )
2
Ŷi − Y
2
DevREG
R = = i

DevTOT
∑ (Y − Y )
2

i
i

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La valutazione dell'adattamento
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Calcolare i parametri della retta di regressione e l'indice R2 di adattamento della retta ai dati.
mq Prezzo in €
App. Yteo Y-Ymed Yteo-Ymed Y-Yteo
(X) (Y)
1 80 212.000 282.107 -202.333 -132.226 -70.107
2 200 313.000 593.227 -101.333 178.894 -280.227
3 185 717.000 554.337 302.667 140.004 162.663
4 140 431.000 437.667 16.667 23.334 -6.667
5 95 270.000 320.997 -144.333 -93.336 -50.997
6 60 261.000 230.254 -153.333 -184.079 30.746
7 210 431.000 619.154 16.667 204.821 -188.154
8 65 140.000 243.217 -274.333 -171.116 -103.217
9 70 282.000 256.181 -132.333 -158.153 25.819
10 120 600.000 385.814 185.667 -28.519 214.186
11 100 303.000 333.961 -111.333 -80.373 -30.961
12 90 220.000 308.034 -194.333 -106.299 -88.034
13 180 749.000 541.374 334.667 127.041 207.626
14 220 663.000 645.081 248.667 230.747 17.919
15 150 623.000 463.594 208.667 49.261 159.406
TOT 1.965 6.215.000 6.215.000 0,0 0,0 0,0

∑( )
2
Ŷi − Y
2
DevREG
R = = i

DevTOT
∑ (Y − Y )
2

i
i

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La valutazione dell'adattamento
Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Calcolare i parametri della retta di regressione e l'indice R2 di adattamento della retta ai dati.
mq Prezzo in €
App. Yteo (Y-Ymed)2 (Yteo-Ymed)2 (Y-Yteo)2
(X) (Y)
1 80 212.000 282.107 40.938.777.778 17.483.727.210 4.915.031.754
2 200 313.000 593.227 10.268.444.444 32.003.085.447 78.527.393.139
3 185 717.000 554.337 91.607.111.111 19.601.133.620 26.459.127.322
4 140 431.000 437.667 277.777.778 544.475.934 44.453.442
5 95 270.000 320.997 20.832.111.111 8.711.614.942 2.600.724.704
6 60 261.000 230.254 23.511.111.111 33.885.224.478 945.320.444
7 210 431.000 619.154 277.777.778 41.951.534.609 35.401.954.462
8 65 140.000 243.217 75.258.777.778 29.280.705.777 10.653.805.643
9 70 282.000 256.181 17.512.111.111 25.012.283.333 666.640.808
10 120 600.000 385.814 34.472.111.111 813.352.938 45.875.646.835
11 100 303.000 333.961 12.395.111.111 6.459.770.030 958.561.153
12 90 220.000 308.034 37.765.444.444 11.299.556.109 7.749.978.661
13 180 749.000 541.374 112.001.777.778 16.139.342.188 43.108.537.570
14 220 663.000 645.081 61.835.111.111 53.244.368.793 321.099.637
15 150 623.000 463.594 43.541.777.778 2.426.614.965 25.410.267.386
TOT 1.965 6.215.000 6.215.000 582.495.333.333 298.856.790.373 283.638.542.960
Devianza totale Devianza spiegata Devianza residua

∑( )
2
Ŷi − Y
2
DevREG 298.856.790.373
R = = i
= = 0,513
DevTOT
∑ (Y − Y ) 582.495.333.333
2

i
i

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

L'interpretazione dei risultati


Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Calcolare i parametri della retta di regressione e l'indice R2 di adattamento della retta ai dati.
mq Prezzo in €
App. 900000
(X) (Y)
1 80 212.000 800000 R2=0,513 13
2 200 313.000 3

3 185 717.000 700000 14

4 140 431.000 10
15

5 95 270.000 600000

6 60 261.000
500000
7 210 431.000 4 7
8 65 140.000
400000
9 70 282.000
11 2
10 120 600.000 300000 9
5
6
11 100 303.000 1 12
12 90 220.000 200000
8
13 180 749.000
14 220 663.000 100000
15 150 623.000
0
TOT 1.965 6.215.000 0 50 100 150 200 250 300

Ancora una volta, questo risultato deve costituire un punto di partenza per l’interpretazione e per
eventuali riflessioni. Il valore dell’indice sembra, infatti, particolarmente basso, comunque inferiore a
quanto sarebbe probabilmente legittimo aspettarsi dalla relazione tra queste due variabili.
Ferma restando la correttezza dei dati (che va sempre verificata), occorre dunque fare qualche
riflessione per migliorare il risultato.

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

L'interpretazione dei risultati


Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Calcolare i parametri della retta di regressione e l'indice R2 di adattamento della retta ai dati.
mq Prezzo in €
App.
(X) (Y)
1 80 212.000 R2=0,513
2 200 313.000
3 185 717.000
4 140 431.000
5 95 270.000
6 60 261.000
7 210 431.000
8 65 140.000
9 70 282.000
10 120 600.000
11 100 303.000
12 90 220.000
13 180 749.000
14 220 663.000
15 150 623.000
TOT 1.965 6.215.000

Proviamo allora a dividere le osservazioni in due gruppi, gli appartamenti fino a 150 mq, che
costituiscono un gruppo con un comportamento più omogeneo rispetto alla variabile Prezzo, e gli
appartamenti oltre i 150 mq che, invece, risultano molto più dispersi.

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

L'interpretazione dei risultati


Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Calcolare i parametri della retta di regressione e l'indice R2 di adattamento della retta ai dati.
mq Prezzo in €
App.
(X) (Y)
1 80 212.000 R2=0,513
4 140 431.000
5 95 270.000
6 60 261.000
8 65 140.000
9 70 282.000
10 120 600.000
11 100 303.000
12 90 220.000
15 150 623.000
2 200 313.000
3 185 717.000
7 210 431.000
13 180 749.000
14 220 663.000

Proviamo allora a dividere le osservazioni in due gruppi, gli appartamenti fino a 150 mq, che
costituiscono un gruppo con un comportamento più omogeneo rispetto alla variabile Prezzo, e gli
appartamenti oltre i 150 mq che, invece, risultano molto più dispersi.

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

L'interpretazione dei risultati


Esercizio:
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Calcolare i parametri della retta di regressione e l'indice R2 di adattamento della retta ai dati.
mq Prezzo in €
App.
(X) (Y)
1 80 212.000 R
R22=0,718
=0,513
4 140 431.000
5 95 270.000
6 60 261.000
8 65 140.000
9 70 282.000
10 120 600.000
11 100 303.000
12 90 220.000
15 150 623.000
2 200 313.000
3 185 717.000
Ŷ 7
Gruppo 1
= 100.687,1+ 4.483,4X
210 431.000
13 180 749.000
14 220 663.000

Come ci aspettavamo, limitando l’analisi agli appartamenti più piccoli, la regressione fornisce
risultati molto più soddisfacenti.
E’ probabile che, per gli appartamenti più grandi, altre variabili, oltre alla Superficie, influiscano sul
Prezzo (che addirittura sembra diminuire all’aumentare della superficie); mettere insieme i due
gruppi aveva, in un certo senso, “inquinato” i dati, producendo risultati insoddisfacenti.

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lʼassociazione tra variabili: Riepilogo

• Analisi dell’interdipendenza: ………… Grafici: diagramma di dispersione


Indici: Covarianza; Coefficiente di correlazione

• Analisi della dipendenza: …………….. Interpolazione e Regressione

• Dipendenza funzionale (o deterministica) e dipendenza statistica

• Regressione e causalità

• La scelta del tipo di funzione

• La funzione lineare: Y = b0 + b1X + ei

• La scelta dell’obiettivo: il Metodo dei minimi quadrati

• Le soluzioni per i parametri della retta di regressione: b0 = Y − b1X ; b1 =


( )
Cov XY
Var ( X )
• Interpolazione ed estrapolazione

• Analisi della bontà dell’adattamento: La decomposizione della devianza totale e


l’indice R2

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Regressione e Correlazione

a. Con Y variabile dipendente: (Y )


b0 = Y − b1 X
(Y ) ;
(Y )
b1 =
( )
Cov XY
Var ( X )

b. Con X variabile dipendente:


( X)
b0 = X − b1 Y
( X) ;
( ) Cov ( XY )
b =
X

Var ( Y )
1

I due coefficienti angolari possono essere considerati come una misura della dipendenza lineare
della variabile dipendente dalla variabile indipendente. Sono, quindi, due misure asimmetriche di
dipendenza.
Se, a partire da queste misure, volessimo costruire un indice simmetrico, la cosa più ovvia sarebbe
farne la media. Poiché si tratta di rapporti, però, non avrebbe senso utilizzare la media aritmetica
ma, come abbiamo visto, sarebbe corretto utilizzare la media geometrica. In questo caso,
trattandosi di due soli termini, la media geometrica risulta uguale alla radice quadrata del prodotto
dei due indici. Quindi:

Indice di interdipendenza

( )× ( ) ( ) ( ) =r
2
Cov XY Cov XY ⎡Cov XY ⎤ Cov XY
(Y ) ( X)
b1 × b1 = = ⎣ ⎦ = (Coefficiente di correlazione)
Var ( X ) Var ( Y ) ( )
Var X × Var Y () σ X ⋅σ Y

Il coefficiente di correlazione r, indice simmetrico di interdipendenza, può dunque essere


considerato come una media (geometrica) dei due indici asimmetrici di dipendenza
rappresentati dai coefficienti di regressione.

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo
Esercizio 1:
Il responsabile di un negozio operante nel settore dell’home entertainment ipotizza l’esistenza di una
relazione tra gli incassi realizzati ai botteghini e quelli derivanti dalla vendita di DVD.
Considerando i seguenti 10 film (stagione 2004-’05), si valuti l’ipotesi del responsabile determinando:
• Il diagramma di dispersione
• la retta di regressione e l’indice di determinazione lineare

Incasso al botteghino Incasso vendite DVD


Film
(€ x 1.000) (€)

Closer 5.611,4 42.340,1


Birth - Io sono Sean 3.933,8 25.420,2
Saw 5.161,9 34.475,7
The Aviator 5.874,6 40.150,1
Neverland - Un sogno per la vita 5.856,7 45.063,8
Il mercante di Venezia 3.845,5 20.419,9
Million dollar baby 5.643,5 36.129,3
Shark tale 7.655,2 57.472,3
Constantine 5.044,2 24.334,4
Cuore sacro 2.915,4 18.279,8
TOT 51.542,2 344.085,6

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo
Esercizio 2:
Si sono analizzati i voti riportati da 300 studenti agli esami di Metodi matematici e di Statistica.
Metodi matematici: Voto medio: 24,2 ; Sqm: 2,9
Statistica: Voto medio: 26,9 ; Sqm: 2,4
Sapendo che il coefficiente di correlazione è risultato pari a 0,78, qual è il voto previsto all’esame di
Statistica per uno studente che ha avuto 25 all'esame di Metodi matematici?

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo
Esercizio 3:
Si riporta la tabella con la Superficie (in metri quadrati) e il Fatturato (in migliaia di euro) di
14 Centri Commerciali appartenenti ad una nota catena di Franchising:

Superficie Fatturato Si determini:


2 2 2 2 2
Centro (m2) (€x1.000) X la Superficie XY
Y media e il Fatturato medio;Y (Y-YTEO) (YTEO-YMED) (Y-YMED)
A. TEO
(X) (Y)
B. quale, tra le due variabili, presenta la maggiore variabilità;
C01 720 1.867 518.400 3.485.689 1.344.240 1.955 7.748 16.323 46.563
C. il coefficiente di correlazione tra le due variabili;
C02 750 1.920 562.500 3.686.400 1.440.000 2.017 9.351 4.367 26.499
D. l’equazione della retta di regressione;
C03 800 2.481 640.000 6.155.361 1.984.800 2.119 130.683 1.348 158.575
E. il Fatturato previsto in un Centro di 1.000 metri quadrati;
C04 450 1.870 202.500 3.496.900 841.500 1.400 220.974 466.304 45.278
F. il Fatturato previsto in un Centro di 3.000 metri quadrati;
C05 540 2.160 291.600 4.665.600 1.166.400 1.585 330.677 247.835 5.962
G. una misura della bontà dell’adattamento della retta ai dati,
C06 750 1.422 562.500
calcolata2.022.084 1.066.500
come rapporto 2.017
tra devianze. 353.670 4.367 436.638
C07 900 3.150 810.000 9.922.500 2.835.000 2.325 680.472 58.713 1.138.946
C08 1500 3.600 2.250.000 12.960.000 5.400.000 3.559 1.709 2.178.190 2.301.939
C09 960 2.160 921.600 4.665.600 2.073.600 2.448 83.203 133.710 5.962
C10 720 1.062 518.400 1.127.844 764.640 1.955 797.492 16.323 1.042.003
C11 690 2.230 476.100 4.972.900 1.538.700 1.893 113.336 35.887 21.672
C12 1200 2.900 1.440.000 8.410.000 3.480.000 2.942 1.753 738.032 667.839
C13 450 1.120 202.500 1.254.400 504.000 1.400 78.356 466.304 926.956
C14 520 1.217 270.400 1.481.089 632.840 1.544 106.822 290.466 749.585
10.950 29.159 9.666.500 68.306.367 25.072.220 29.159 2.916.247 4.658.171 7.574.418

LEZIONE 10 – INTERPOLAZIONE E REGRESSIONE


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 11:
La Probabilità
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Probabilità

Come è stato dimostrato, il nostro cervello non sembra essere programmato per
risolvere questioni di probabilità.
Questo perché il risultato di un quesito probabilistico è spesso determinato dal calcolo
simultaneo di un certo numero di quantità frazionarie, cosa che generalmente risulta
abbastanza ostica.

Quello che, allora, tipicamente si fa per arrivare al risultato, è ripetere la prova un certo numero
di volte, osservando i risultati positivi e negativi.

In altri termini, si sostituisce il calcolo simultaneo con una sequenza, che risulta decisamente più
semplice da controllare, perché il nostro intuito funziona per abitudine e le nostre abitudini
vengono apprese in modo sequenziale, in cui il prima determina il dopo.

Esempio: l’alfabeto

abcdefghijklmnopqrstuvwxyz
Facile, no? Provate ora a dirlo al contrario…

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Probabilità

La probabilità è un concetto primitivo, perché innato e sempre presente nelle regole


di comportamento dell’essere umano;
D’altra parte, la probabilità è una misura, perché associa al concetto primitivo una valutazione
numerica;
Gli elementi che possono caratterizzare i diversi ambiti in cui è possibile applicare la probabilità
riguardano:

1 Incertezza 2 Ripetibilità 3 Equiprobabilità dei


del risultato dellʼesperimento risultati

Definizione classica Condizioni 1, 2 e 3 (Esperimento in condizioni di perfetta uniformità)


nA
La probabilità di un evento A è il rapporto tra il numero di esiti favorevoli e il numero di esiti
possibili, posto che tutti i risultati siano ugualmente probabili.
( )
P A =
n

Definizione frequentista Condizioni 1 e 2 3


In n esperimenti, tutti effettuati nelle medesime condizioni, la probabilità di un evento A è il ( )
P A = lim
fr A ( )
limite cui tende la frequenza relativa dellʼevento al crescere del numero di prove. n→∞ n

Definizione soggettivista Condizione 1 2 3 (Esperimento per eventi futuri)

La probabilità di un evento A è una misura del grado di fiducia che una persona ripone sul verificarsi di un
dato evento, avendo a disposizione informazioni sul fenomeno. Può essere quantificato nella somma che un
individuo coerente è disposto a scommettere in un gioco equo nel quale, al verificarsi di A, egli riceve dal
banco un importo unitario.

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Probabilità e Statistica

La teoria della probabilità deduce dal contenuto noto della popolazione il contenuto
probabile del campione.
Deduce, quindi, le proprietà di un processo fisico da un modello matematico.

Lʼinferenza statistica induce le caratteristiche della popolazione dallʼanalisi del contenuto


del campione osservato.
Inferisce, dunque, le proprietà del modello matematico a partire dall’analisi dei dati
campionari osservati, andando quindi “oltre” la teoria della probabilità, integrandola e
perfezionandola, al fine di poter scegliere tra i modelli matematici alternativi che possono
aver generato i risultati empirici osservati.

Il 40% degli studenti dei Corsi del DISES di


Napoli è fuorisede. Pop
Estraendo a caso 15 studenti, qual è la
probabilità che almeno 10 siano fuorisede? Induzione
Deduzione Estrazione
casuale Da unʼindagine effettuata su un campione di 250
studenti dei Corsi del DISES di Napoli, è risultato che
il 40% sono fuorisede.
C Qual è la percentuale di fuorisede dell'intera
popolazione di studenti dei Corsi di Ecxonomia del
DISES?

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esperimento, Evento, Spazio campionario

Ogni operazione il cui risultato non è prevedibile


Esperimento ……………….. con certezza.

Evento ………………………. Ogni risultato possibile di un esperimento.

Spazio campionario (Ω) .. Lʼinsieme di tutti i possibili risultati dell’esperimento.


( o Spazio degli eventi)

Eventi elementari ed eventi composti

Ω : {1, 2, …, 6} Eventi elementari


Lancio di un dado
Ω : {Pari; Dispari} Eventi composti

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Operazioni fra eventi

1. Somma logica o Unione C = A∪ B


Definiamo UNIONE tra due eventi A e B lʼevento C che si verifica quando si verifica
almeno uno dei due eventi A e B;

2. Prodotto logico o Intersezione C = A∩ B


Definiamo INTERSEZIONE tra due eventi A e B lʼevento C che si verifica se e solo se si
verificano contemporaneamente sia A che B;

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Visualizzazione degli eventi

Il diagramma di Venn

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Visualizzazione degli eventi: il diagramma di Venn

Intersezione di eventi Evento negazione


Ω A
A A∩B B A

Unione di eventi Eventi incompatibili

Ω A∪ B

A B A B

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Gli assiomi della probabilità (Kolmogorof, 1933)

( )
1. P Ei ≥ 0 ∀Ei ⊂ Ω
La probabilità di ciascun evento associato ad un esperimento è sempre maggiore o uguale a zero.

( )
2. P Ω = 1
Lo spazio campionario, ossia l’insieme dei possibili eventi associati ad un esperimento, costituisce
l’evento certo, e la sua probabilità è pari a 1.

( ) ( ) ( )
3. Ei ∩ E j = ∅ ⇒ P Ei ∪ E j = P Ei + P E j
Dati due eventi E1 e E2 la cui intersezione è l’insieme vuoto, allora la probabilità dell’unione dei due
eventi è pari alla somma delle singole probabilità.

Probabilità condizionata:

(
P B|A =
(
P A∩ B
) ( ) ) ( ) ( ) (
⇒ P A ∩ B = P A ⋅ P B|A = P B ⋅ P A|B ) () ( )
P A

Eventi indipendenti:

( ) () (
P B|A = P B ⇒ P A ∩ B = P A ⋅ P B ) ( ) ()

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Incompatibilità e Indipendenza

Eventi A e B

incompatibili Compatibili

( ) ( ) ()
P A∪ B = P A + P B ( ) ( ) () (
P A∪ B = P A + P B − P A∩ B )
P ( A ∩ B) = 0 P ( A ∩ B)

Indipendenti Dipendenti

I concetti di indipendenza e di
incompatibilità sono, dunque, molto differenti.
L’incompatibilità è una relazione tra eventi, una loro
( ) ()
P A ×P B ( ) ( )
P A × P B|A
P ( B ) × P ( A|B )
caratteristica intrinseca, che non varia, e può essere
rappresentata sui diagrammi di Venn.
L’indipendenza, invece, è una relazione tra le
probabilità degli eventi, e la si può evincere solo dal
calcolo, perché la misura di probabilità assegnata allo
spazio campione può variare in base alle informazioni
a disposizione.
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi

Esempio 1 (da Montanari, Agati, Calò, esercizio 6.1)

Nell’ambito dell’esame di ammissione ad una Accademia teatrale, si considerino i seguenti eventi:


A. il candidato ha meno di 35 anni;
B. il candidato ha una buona dizione;
C. il candidato ha già avuto esperienze nell’ambiente teatrale;

Scegliendo a caso uno tra i candidati, si definiscano i seguenti eventi:

1. il candidato non ha una buona dizione;


2. ha meno di 35 anni ed ha una buona dizione;
3. ha meno di 35 anni ma non ha una buona dizione;
4. non ha una buona dizione ma ha già avuto esperienze;
5. ha più di 35 anni, una buona dizione ed ha avuto esperienze;
6. ha almeno una delle tre caratteristiche;
7. ha una buona dizione dato che ha già avuto esperienze di lavoro;

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi

Esempio 1 (da Montanari, Agati, Calò, esercizio 6.1)

Nell’ambito dell’esame di ammissione ad una Accademia teatrale, si considerino i seguenti eventi:


A. il candidato ha meno di 35 anni;
B. il candidato ha una buona dizione;
C. il candidato ha già avuto esperienze nell’ambiente teatrale;

Scegliendo a caso uno tra i candidati, si definiscano i seguenti eventi:

1. il candidato non ha una buona dizione; ………………………….………………………… B


2. ha meno di 35 anni ed ha una buona dizione; ……………………………………………. A ∩ B
3. ha meno di 35 anni ma non ha una buona dizione; …………………………………….. A ∩ B
4. non ha una buona dizione ma ha già avuto esperienze; ………………………………. B ∩ C
5. ha più di 35 anni, una buona dizione ed ha avuto esperienze; ……………………….. A ∩ B ∩ C
6. ha almeno una delle tre caratteristiche; …………………………………………………… A ∪ B ∪ C
7. ha una buona dizione dato che ha già avuto esperienze di lavoro; ………………… B|C

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi

Esempio 2 (da Montanari, Agati, Calò, esercizio 6.16)

Sara è solita dedicare il sabato pomeriggio ad una delle seguenti attività:


A. Navigare in Internet con probabilità 0,24
B. Studiare ” ” 0,15
C. Uscire con le amiche ” ” 0,33
D. Ascoltare la musica preferita ” ” 0,12
E. Andare al cinema ” ” 0,16

Qual è la probabilità che Sara trascorra il prossimo sabato pomeriggio:

a. navigando in Internet o ascoltando la musica;

b. non studiando;
c. a casa;
d. studiando, posto che rimanga a casa.

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi

Esempio 2 (da Montanari, Agati, Calò, esercizio 6.16)

Sara è solita dedicare il sabato pomeriggio ad una delle seguenti attività:


A. Navigare in Internet con probabilità 0,24;
B. Studiare ” ” 0,15;
C. Uscire con le amiche ” ” 0,33;
D. Ascoltare la musica preferita ” ” 0,12;
E. Andare al cinema ” ” 0,16.

Qual è la probabilità che Sara trascorra il prossimo sabato pomeriggio:

a. )
navigando in Internet o ascoltando la musica; ………... P A ∪ D = 0,24 + 0,12 = 0,36 (
b. non studiando; ……………………………………………………..… P ( B ) = 1- 0,15 = 0,85
c. a casa; ………………………………………………..…….. P ( A ∪ B ∪ D) = 0,24 + 0,15 + 0,12 = 0,51
d. studiando, posto che rimanga a casa. ………….. P ( B|A ∪ B ∪ D) = 0,15 / (0,24 + 0,15 + 0,12)
= 0,29

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi

Esempio 3

MASCHI FEMMINE TOT


ESITO
18 34 52
POSITIVO
ESITO
22 26 48
NEGATIVO
TOT 40 60 100

La tabella riporta i risultati di 100 candidati ad un Concorso pubblico, divisi per Genere ed Esito
della prova. Si estrae a caso un candidato. Qual è la probabilità che:
a. Sia maschio?

b. Abbia superato la prova?

c. Abbia superato la prova posto che sia maschio?

d. Sia maschio posto che abbia superato la prova?

e. Abbia superato la prova oppure sia femmina?

f. Abbia superato la prova ma non sia maschio?

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi

Esempio 3

MASCHI FEMMINE TOT


ESITO
18 34 52
POSITIVO
ESITO
22 26 48
NEGATIVO
TOT 40 60 100

La tabella riporta i risultati di 100 candidati ad un Concorso pubblico, divisi per Genere ed Esito
della prova. Si estrae a caso un candidato. Qual è la probabilità che:
(
a. Sia maschio? ………………………………………………….. 18 + 22 100 = 0,40)
b. Abbia superato la prova? …………………………………. (18 + 34 ) 100 = 0,52

c. Abbia superato la prova posto che sia maschio? …… 18 40 = 0,45

d. Sia maschio posto che abbia superato la prova? …… 18 52 = 0,35

e. Abbia superato la prova oppure sia femmina? ……... 52 + 60 − 34 = 0,78


100 100 100
f. Abbia superato la prova ma non sia maschio? ……... 34 100 = 0,34

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi

Esempio 3

MASCHI FEMMINE TOT


ESITO
18 34 52
POSITIVO
ESITO
22 26 48
NEGATIVO
TOT 40 60 100

La tabella riporta i risultati di 100 candidati ad un Concorso pubblico, divisi per Genere ed Esito
della prova. E’ possibile considerare l’Esito come indipendente dal Genere?

A: Maschio B: Esito positivo

(
Indipendenza ⇒ P A ∩ B = P A × P B ) ( ) ()
( )
P A ∩ B = 0,18 ; P A = ( ) 18 + 22
100
= 0,40 ; P B =
18 + 34
100
()
= 0,52

( ) ()
P A × P B = 0,40 × 0,52 = 0,208 ( ) ( ) ()
P A∩ B ≠ P A × P B gli eventi
non sono indipendenti.
NOTA:
Se consideriamo questa tabella come una normale tabella di contingenza, le frequenze teoriche, in caso di indipendenza, si
ottengono moltiplicando i marginali e dividendo per il totale. Esattamente quello che prevede la probabilità.
LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi

Esempio 4 (da Montanari, Agati, Calò, esercizio 6.36)

In un cassetto ci sono 10 pile, di cui 7 funzionanti e 3 esaurite. Dal cassetto viene


presa, a caso, una prima pila e poi, senza reintrodurre nel cassetto la prima, ne viene
presa una seconda. Qual è la probabilità che le due pile siano:

a. Entrambe funzionanti? b. Entrambe esaurite? c. Una funzionante e una esaurita?

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi

Esempio 4 (da Montanari, Agati, Calò, esercizio 6.36)

In un cassetto ci sono 10 pile, di cui 7 funzionanti e 3 esaurite. Dal cassetto viene


presa, a caso, una prima pila e poi, senza reintrodurre nel cassetto la prima, ne viene
presa una seconda. Qual è la probabilità che le due pile siano:

a. Entrambe funzionanti? b. Entrambe esaurite? c. Una funzionante e una esaurita?

Evento A: La prima pila è funzionante Evento B: La seconda pila è funzionante

(
a. P A ∩ B = ) 7 6
× = 0,700 × 0,667 = 0,467
10 9

(
b. P A ∩ B = ) 3 2
× = 0,300 × 0,222 = 0,067
10 9

⎛ 7 3⎞ ⎛ 3 7⎞
⎡ ( ⎤) ( )
c. P ⎣ A ∩ B ∪ A ∩ B ⎦ ⎜ × ⎟ + ⎜ × ⎟ = 0,233 + 0,233 = 0,466
=
⎝ 10 9 ⎠ ⎝ 10 9 ⎠

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi

Esempio 5
Si lanciano contemporaneamente due dadi: qual è la probabilità che il risultato sia “6”?

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi

Esempio 5
Si lanciano contemporaneamente due dadi: qual è la probabilità che il risultato sia “6”?

1;1 1;2 1;3 1;4 1;5 1;6


2;1 2;2 2;3 2;4 2;5 2;6

Ω= 3;1
4;1
3;2
4;2
3;3
4;3
3;4
4;4
3;5
4;5
3;6
4;6
(
P risultato = "6 " = ) 5
36
= 0,139

5;1 5;2 5;3 5;4 5;5 5;6


6;1 6;2 6;3 6;4 6;5 6;6

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi

Esempio 6
Un sistema elettronico è formato da due sole componenti, A e B, che funzionano in
modo indipendente con probabilità rispettivamente pari a 0,910 e 0,750.
Il sistema funziona se almeno una delle due componenti è attiva; qual è la probabilità
che il sistema elettronico si blocchi?

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi

Esempio 6
Un sistema elettronico è formato da due sole componenti, A e B, che funzionano in
modo indipendente con probabilità rispettivamente pari a 0,910 e 0,750.
Il sistema funziona se almeno una delle due componenti è attiva; qual è la probabilità
che il sistema elettronico si blocchi?

( ) ()
P A = 0,910 ; P B = 0,750 A B
P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B )

) ( ) () (
P A ∩ B = P A ⋅ P B = 0,910 × 0,750 = 0,683

La probabilità che il sistema funzioni è: P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B )


= 0,910 + 0,750 - 0,683 = 0,977

( ) (
e, quindi, la probabilità che il sistema si blocchi è: P A ∩ B = 1− P A ∪ B = 1 - 0,977 = 0,023 )

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi

Esempio 7
Si supponga di estrarre, senza reinserirle nel mazzo, 3 carte da un mazzo di carte
francesi (52 carte, di cui 12 “figure”). Si calcoli la probabilità di ottenere:
a. Esattamente 2 figure b. Una figura alla seconda estrazione

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esempi

Esempio 7
Si supponga di estrarre, senza reinserirle nel mazzo, 3 carte da un mazzo di carte
francesi (52 carte, di cui 12 “figure”). Si calcoli la probabilità di ottenere:
a. Esattamente 2 figure b. Una figura alla seconda estrazione

(F) → Figura (F ) → Non Figura


(
a. P F,F,F = ) 12 11 40
⋅ ⋅
52 51 50
(
P F,F,F = ) 12 40 11
⋅ ⋅
52 51 50
( )
P F,F,F =
40 12 11
⋅ ⋅
52 51 50

{A} → Esattamente 2 Figure


( ) {( ) (
P A = P F,F,F ∪ F,F,F ∪ F,F,F ) ( )} = P (F,F,F ) + P (F,F,F) + P (F,F,F)
12 ⋅11⋅ 40 12 ⋅ 40 ⋅11 40 ⋅12 ⋅11 12 ⋅11⋅ 40
= + + = 3× = 0,12
52 ⋅ 51⋅ 50 52 ⋅ 51⋅ 50 52 ⋅ 51⋅ 50 52 ⋅ 51⋅ 50

{( ) ( )} = P ⎡⎣(F,F) + (F,F)⎤⎦ = 12
b. P F,F ∪ F,F
11 40 12
⋅ + ⋅
52 51 52 51
= 0,23

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo

Nel considerare l’efficacia di un vaccino anti influenzale, vengono selezionati


250 volontari; a 125 di questi viene somministrato il vaccino, agli altri placebo
(acqua). Dopo 6 mesi, si osserva quanti soggetti abbiano contratto l’influenza,
con i risultati riportati nella tabella seguente:
INFLUENZA INFLUENZA
TOT
SI NO

VACCINO 28 97 125

PLACEBO 54 71 125

TOT 82 168 250

Si prende un soggetto a caso tra i 250. Qual è la probabilità che:


1. Sia stato vaccinato?
2. Abbia avuto l’influenza?
3. Abbia avuto l’influenza, sapendo che è stato vaccinato?
4. Abbia avuto l’influenza, sapendo che ha ricevuto il placebo?
5. Sia stato vaccinato, sapendo che non ha avuto l’influenza?

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo

1. La probabilità che si verifichi l’evento A è pari a 0,60, la probabilità che si verifichi l’evento B
è 0,45, la probabilità che si verifichi almeno uno degli eventi è 0,80.
Qual è la probabilità che si verifichino entrambi gli eventi?

2. La probabilità che si verifichi l’evento A è pari a 0,60, la probabilità che si verifichi l’evento B
è 0,45, la probabilità che si verifichino entrambi è 0,30.
Qual è la probabilità che si verifichi almeno uno dei due eventi?

3. La probabilità che si verifichi l’evento A è pari a 0,60, la probabilità che si verifichi l’evento B
è 0,45, la probabilità che si verifichino entrambi è 0,30.
Qual è la probabilità che si verifichi l’evento A, sapendo che si è già verificato l’evento B?

LEZIONE 11 – LA PROBABILITÀ
Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 12:
Il teorema di Bayes
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Richiami di probabilità

• Probabilità condizionata: P B|A =


( )
P A∩ B
( ) P ( A) ⇒ P ( A ∩ B) = P ( A) ⋅ P (B|A) = P (B) ⋅ P ( A|B)
• Indipendenza tra eventi: P ( B|A) = P ( B ) ⇒ P ( A ∩ B ) = P ( A) ⋅ P ( B )
Voto all'esame
Basso Medio Alto TOT
Tizio 13 33 38 84
( ) 419
P Tizio =
84
= 0,200
Docente

Caio 38 102 40 180


P (Voto medio) =
Sempronio 90 45 20 155 180
= 0,430
TOT 141 180 98 419 419

P ( Tizio|Voto Medio) =
( ) 33
P Tizio ∩ Voto Medio
= 419 = 33 = 0,183
P (Voto Medio) 180 180
419

(
P Tizio ∩ Voto Medio = ) 33
419
= 0,079

( ) ( ) 180
= P T|VM × P VM =
33 180
×
419
= 0,079

33 84
= P (VM|T ) × P ( T ) = × = 0,079
84 419
LEZIONE 12 – IL TEOREMA DI BAYES
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Richiami di probabilità

• Probabilità condizionata: P B|A =


( )
P A∩ B
( ) P ( A) ⇒ P ( A ∩ B) = P ( A) ⋅ P (B|A) = P (B) ⋅ P ( A|B)
• Indipendenza tra eventi: P ( B|A) = P ( B ) ⇒ P ( A ∩ B ) = P ( A) ⋅ P ( B )
Voto all'esame
Basso Medio Alto TOT
Tizio 13 33 38 84
( ) 419
P Tizio =
84
= 0,200
Docente

Caio 38 102 40 180


P (Voto medio) =
Sempronio 90 45 20 155 180
= 0,430
TOT 141 180 98 419 419

P ( Tizio|Voto Medio) =
( ) 33
P Tizio ∩ Voto Medio
= 419 = 33 = 0,183
P (Voto Medio) 180 180
419

(
P Tizio ∩ Voto Medio = ) 33
419
= 0,079

( ) ( ) 180
= P T|VM × P VM =
33 180
×
419
= 0,079

33 84
= P (VM|T ) × P ( T ) = × = 0,079
84 419
LEZIONE 12 – IL TEOREMA DI BAYES
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il teorema delle probabilità totali

E1 E2
… Ek
Teorema delle probabilità totali
Sia E1, E2, …, Ek una partizione di eventi di Ω. Allora,
per ogni altro evento A appartenente ad Ω, si ha: A

( ) ( ) ( )
k
P A = ∑ P A|Ei ⋅ P Ei
i=1

Poiché gli eventi E1, E2, …, Ek sono una partizione di eventi di Ω, la somma delle loro
probabilità è pari a 1.
Il teorema delle probabilità totali afferma dunque che la probabilità di qualsiasi altro
evento A, appartenente ad Ω, è pari alla media aritmetica ponderata delle probabilità
condizionate P(A|Ei), con pesi dati dalle probabilità P(Ei).

( ) (
A ∩ E1 → P A ∩ E1 = P A|E1 ⋅ P E1 ) ( ) ( ) (
A ∩ E2 → P A ∩ E2 = P A|E2 ⋅ P E2 ) ( ) …

( ) ( ) ( ) ( ) ( ) ( ) (
P A = P A ∩ E1 + P A ∩ E2 + … + P A ∩ Ek = P A|E1 ⋅ P E1 + P A|E2 ⋅ P E2 + … + P A|Ek ⋅ P Ek ) ( ) ( ) ( )
= ∑ P ( A|E ) ⋅ P ( E )
k

i i
i=1

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il teorema di Bayes

Thomas Bayes (1702-1761)

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il teorema di Bayes

E1 E2 Ek
( ) (
) ( )
k
P A = ∑ P A|Ei ⋅ P Ei
i=1
A
= P( A ∩ E ) + P( A ∩ E ) + … + P( A ∩ E )
1 2 k

Esempi:
E1, E2, …, Ek A
Il teorema delle probabilità totali considera gli eventi Ei come Malattie Sintomi
le cause che determinano lʼevento A. Nelle situazioni reali è Docenti Esito esame
verosimile immaginare che sia le P(Ei) sia le P(A|Ei) siano note. Macchine Pezzi difettosi
: :

In realtà, in molti casi ci si può porre lʼobiettivo di calcolare la probabilità che sia stato
lʼevento Ei a determinare lʼevento A, posto che lʼevento A si sia verificato, quindi la P(Ei|A).

) (( ))
P Ei ∩ A
Dalla probabilità condizionata: P Ei |A = (
, e dalla regola moltiplicativa:
P A
P Ei ∩ A = P A|Ei ⋅ P Ei , ( ) ( ) ( )
ricaviamo dunque il Teorema di Bayes: P Ei |A = ( ) ( ) ( )
P A|Ei ⋅ P Ei

∑ P ( A|E ) ⋅ P ( E )
k

i i
i=1

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il teorema di Bayes

E1 E2 Ek

(
P Ei |A =) )( (
P A|Ei ⋅ P Ei )
A
∑ P ( A|E ) ⋅ P ( E )
k

i i
i=1

P(Ei): Probabilità a priori


Non dipendono dal risultato empirico dellʼevento A e riflettono il grado di conoscenza sulle
singole cause.

P(A|Ei): Probabilità probative o verosimiglianze


Rappresentano le probabilità con cui le singole cause Ei generano lʼevento A, e possono
essere note o determinate empiricamente dallʼesperimento.

P(Ei|A): Probabilità a posteriori


Sapendo che A si è verificato, è la probabilità con cui lʼevento Ei ha agito nel determinare
lʼevento A.

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il teorema di Bayes

E1 E2 Ek

(
P Ei |A =) )( (
P A|Ei ⋅ P Ei )
A
∑ P ( A|E ) ⋅ P ( E )
k

i i
i=1

Quindi…
Il teorema di Bayes può essere interpretato come un meccanismo che consente di
correggere le informazioni a priori, P(Ei), sulla base delle osservazioni sperimentali, P(A|Ei),
fornendo, appunto, le probabilità a posteriori, P(Ei|A).
Nella formula si combinano informazioni a priori e verosimiglianze. Quanto più la
probabilità a posteriori P(Ei|A) è diversa dalla probabilità a priori P(Ei), tanto più si può dire
che la verosimiglianza ha modificato le informazioni a priori sulle cause Ei.

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1
Diagnostica industriale
E1 E2 Ek

Esempio 1
A
Supponiamo che un pezzo di un assemblato sia sottoposto a
controllo, allo scopo di verificare se è difettoso o no.

Evento E1: Pezzo BUONO Evento E2: Pezzo DIFETTOSO

Se il pezzo supera il test, verrà dunque considerato come “Buono”, altrimenti no.

Evento TP: Test POSITIVO Evento TN: Test NEGATIVO (Evento A)

Quali sono gli eventi E1, E2, …, Ek, e qual è l'evento A?

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1
Diagnostica industriale
E1 Pezzo buono
Esempio 1
vo
Supponiamo che un pezzo di un assemblato sia sottoposto a negati
Test
controllo, allo scopo di verificare se è difettoso o no.
Pezzo difettoso E2
Evento E1: Pezzo BUONO Evento E2: Pezzo DIFETTOSO

Se il pezzo supera il test, verrà dunque considerato come “Buono”, altrimenti no.

Evento TP: Test POSITIVO Evento TN: Test NEGATIVO (Evento A)


Sappiamo che la percentuale di pezzi difettosi è dellʼ1%.
Sappiamo anche che il test dà una risposta esatta nel 99% dei casi se il pezzo è difettoso,
mentre classifica in modo errato come difettosi il 2% dei pezzi buoni.
P(Pezzo buono) = 0,99 P(Pezzo difettoso) = 0,01
P(Test negativo|Pezzo buono) = 0,02 P(Test negativo|Pezzo difettoso) = 0,99

Supponiamo che un pezzo venga sottoposto a verifica e non superi il test. Qual è la
probabilità che sia realmente difettoso?

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1
Diagnostica industriale
E1 Pezzo buono
Esempio 1
vo
P(PB) = 0,99 P(PD) = 0,01 negati
Test
P(TN|PB) = 0,02 P(TN|PD) = 0,99 Pezzo difettoso E2

Supponiamo che un pezzo venga sottoposto a verifica e non superi il test. Qual è la
probabilità che sia realmente difettoso?

P ( PD|TN ) =
( )
P PD ∩ TN
=
(
P PD ∩ TN ) =
( ) ( )
P PD × P TN|PD
P ( TN ) P ( PB ∩ TN ) + P ( PD ∩ TN ) P ( PD) × P ( TN|PD) + P ( PB ) × P ( TN|PB )

0,01× 0,99 0,0099


= = = 0,333
0,01× 0,99 + 0,99 × 0,02 0,0099 + 0,0198

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1
Diagnostica industriale
Esempio 1 E1 Pezzo buono
vo
Supponiamo che un pezzo di un assemblato sia sottoposto a negati
controllo, allo scopo di verificare se è difettoso o no. Test

Evento E1: Pezzo BUONO Evento E2: Pezzo DIFETTOSO


Pezzo difettoso E2
Se il pezzo supera il test, verrà dunque considerato come “Buono”, altrimenti no.
Evento TP: Test POSITIVO Evento TN: Test NEGATIVO (Evento A)
Sappiamo che la percentuale di pezzi difettosi è dellʼ1%. Sappiamo anche che il test dà una risposta
esatta nel 99% dei casi se il pezzo è difettoso, mentre classifica in modo errato come difettosi il 2% dei
pezzi buoni.
Pezzo Pezzo
P(Pezzo buono) = 0,99 BUONO DIFETTOSO

P(Pezzo difettoso) = 0,01 Test


97.020 10
POSITIVO 97.030
P(Test negativo|Pezzo buono) = 0,02
Test
P(Test negativo|Pezzo difettoso) = 0,99 NEGATIVO
1.980 990 2.970

99.000 1.000 100.000


(
P PD|TN = )
990
2.970
= 0,33

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1
Diagnostica industriale
Esempio 1 E1 Pezzo buono
vo
P(PB) = 0,99 P(PD) = 0,01 negati
Test
P(TN|PB) = 0,02 P(TN|PD) = 0,99 Pezzo difettoso E2

Supponiamo che un pezzo venga sottoposto a verifica e non superi il test. Qual è la
probabilità che sia realmente difettoso?

P ( PD|TN ) =
( )
P PD ∩ TN
=
(
P PD ∩ TN ) =
( ) ( )
P PD × P TN|PD
P ( TN ) P ( PB ∩ TN ) + P ( PD ∩ TN ) P ( PD) × P ( TN|PD) + P ( PB ) × P ( TN|PB )

0,01× 0,99 0,0099


= = = 0,333
0,01× 0,99 + 0,99 × 0,02 0,0099 + 0,0198

Sebbene il test appaia “affidabile”, in quanto classifica correttamente il 98% e il 99% dei
pezzi buoni e difettosi, in realtà non è tale poiché solo il 33% dei pezzi che non superano il
test risultano realmente difettosi!

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1
Diagnostica industriale
Esempio 1 E1 Pezzo buono
vo
P(PB) = 0,99 P(PD) = 0,01
negati
Test
P(TP|PB) = 0,98 P(TN|PD) = 0,99
Pezzo difettoso E2
P(TN|PB) = 0,02 P(TP|PD) = 0,01

1 solo pezzo su 100 è difettoso

Il pezzo difettoso viene “quasi certamente” individuato,


correttamente, come difettoso.

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1
Diagnostica industriale
Esempio 1 E1 Pezzo buono
vo
P(PB) = 0,99 P(PD) = 0,01
negati
Test
P(TP|PB) = 0,98 P(TN|PD) = 0,99
Pezzo difettoso E2
P(TN|PB) = 0,02 P(TP|PD) = 0,01

1 solo pezzo su 100 è difettoso

Il pezzo difettoso viene “quasi certamente” individuato,


correttamente, come difettoso.
Il test classifica come “difettosi” anche il 2% dei 99 pezzi
buoni.
Quindi, dei tre pezzi (su 100 prodotti) che il test indica
come difettosi, solo uno lo è realmente, come indicato
dal teorema di Bayes.

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1
Diagnostica industriale
Esempio 1 E1 Pezzo buono
vo
P(PB) = 0,99 P(PD) = 0,01
negati
Test
P(TP|PB) = 0,98 P(TN|PD) = 0,99
Pezzo difettoso E2
P(TN|PB) = 0,02 P(TP|PD) = 0,01

1 solo pezzo su 100 è difettoso. Il pezzo difettoso viene “quasi


certamente” individuato, correttamente, come difettoso. Il
test classifica come “difettosi” anche il 2% dei 99 pezzi buoni.
Quindi, dei tre pezzi (su 100 prodotti) che il test indica come
difettosi, solo uno lo è realmente, come indicato dal
teorema di Bayes.

(
P PD|TN =
( ) (
P PD × P TN|PD )
) P (PD) × P (TN|PD) + P (PB) × P (TN|PB)
0,01× 0,99 0,0099
= = = 0,333
0,01× 0,99 + 0,99 × 0,02 0,0099 + 0,0198

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1
Diagnostica industriale
Esempio 1 E1 Pezzo buono
vo
P(PB) = 0,99 P(PD) = 0,01
negati
Test
P(TP|PB) = 0,98 P(TN|PD) = 0,99
Pezzo difettoso E2
P(TN|PB) = 0,02 P(TP|PD) = 0,01

1 solo pezzo su 100 è difettoso. Il pezzo difettoso viene “quasi


certamente” individuato, correttamente, come difettoso. Il
test classifica come “difettosi” anche il 2% dei 99 pezzi buoni.
Quindi, dei tre pezzi (su 100 prodotti) che il test indica come
difettosi, solo uno lo è realmente, come indicato dal
teorema di Bayes.

Quando la “difettosità” è rara, per diagnosticarla in modo


corretto occorrerà un test molto potente, ossia con un
valore di P(TN|PD) molto elevato e/o con un valore di
P(TN|PB) molto basso.

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1
Diagnostica industriale
Esempio 1 E1 Pezzo buono
vo
Supponiamo che un pezzo di un assemblato sia sottoposto a negati
controllo, allo scopo di verificare se è difettoso o no. Test

Evento E1: Pezzo BUONO Evento E2: Pezzo DIFETTOSO


Pezzo difettoso E2
Se il pezzo supera il test, verrà dunque considerato come “Buono”, altrimenti no.
Evento TP: Test POSITIVO Evento TN: Test NEGATIVO (Evento A)
Sappiamo che la percentuale di pezzi difettosi è lʼ1%. Sappiamo anche che il test dà una risposta esatta
nel 99% dei casi se il pezzo è difettoso, mentre classifica in modo errato come difettosi il 2% dei pezzi buoni.

P(Pezzo buono) = 0,99


P(Pezzo difettoso) = 0,01
P(Test negativo|Pezzo buono) = 0,02
P(Test negativo|Pezzo difettoso) = 0,99

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1
Diagnostica industriale
Esempio 1 E1 Pezzo buono
vo
Supponiamo che un pezzo di un assemblato sia sottoposto a negati
controllo, allo scopo di verificare se è difettoso o no. Test

Evento E1: Pezzo BUONO Evento E2: Pezzo DIFETTOSO


Pezzo difettoso E2
Se il pezzo supera il test, verrà dunque considerato come “Buono”, altrimenti no.
Evento TP: Test POSITIVO Evento TN: Test NEGATIVO (Evento A)
Sappiamo che la percentuale di pezzi difettosi è lʼ1%. Sappiamo anche che il test dà una risposta esatta nel
99% dei casi se il pezzo è difettoso, mentre classifica in modo errato come difettosi lo 0,1% dei pezzi buoni.

P(Pezzo buono) = 0,99 Pezzo Pezzo


BUONO DIFETTOSO
P(Pezzo difettoso) = 0,01
Test
P(Test negativo|Pezzo buono) = 0,001 POSITIVO 98.901 10 98.911

P(Test negativo|Pezzo difettoso) = 0,99 Test


99 990 1.089
NEGATIVO

99.000 1.000 100.000


(
P PD|TN =
990
1.089
)= 0,91

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1
Diagnostica industriale
E1 E2 Ek

Esempio 2 (Macchine e Produzione, Orsi, 1995, pag. 45)

M1 30% della produzione 1,0% di pezzi difettosi A


M2 25% della produzione 1,2% di pezzi difettosi
M3 45% della produzione 2,0% di pezzi difettosi

In una giornata si producono 10.000 pezzi. Si sceglie un pezzo a caso, e questo risulta difettoso.
Qual è la probabilità che il pezzo provenga da M1, M2 o M3?

Quanti (e quali) sono gli eventi “a priori” Ei?

Qual è lʼevento compatibile A?

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1
Diagnostica industriale
M1 M2 M3
Esempio 2 (Macchine e Produzione, Orsi, 1995, pag. 45)

o)
M1 30% della produzione 1,0% di pezzi difettosi difettos
o
A (Pezz
M2 25% della produzione 1,2% di pezzi difettosi
M3 45% della produzione 2,0% di pezzi difettosi

In una giornata si producono 10.000 pezzi. Si sceglie un pezzo a caso, e questo risulta difettoso.
Qual è la probabilità che il pezzo provenga da M1, M2 o M3?

Cosa sappiamo: ( )
P M1 = 0,30 ; P ( M ) = 0,25 ; P ( M ) = 0,45
2 3
…………….. (Probabilità a priori)

P ( A|M ) = 0,010 ; P ( A|M ) = 0,012 ; P ( A|M ) = 0,020


1 2 3
…..….. (Verosimiglianze)

Cosa cerchiamo: P ( M |A) ; P ( M |A) ; P ( M |A)


1 2 3
………………………………………..… (Probabilità a posteriori)

(
P Mi |A =
( ) P ( M ∩ A)
P Mi ∩ A
) P ( A) = ∑ P ( M ∩ A) i
=
( ) ( )
P A|Mi ⋅ P Mi

i ∑ P ( A|M ) ⋅ P ( M ) i i
i i

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1
Diagnostica industriale
M1 M2 M3
Esempio 2 (Macchine e Produzione, Orsi, 1995, pag. 45)

o)
M1 30% della produzione 1,0% di pezzi difettosi difettos
o
A (Pezz
M2 25% della produzione 1,2% di pezzi difettosi
M3 45% della produzione 2,0% di pezzi difettosi
In una giornata si producono 10.000 pezzi. Si sceglie un pezzo a caso, e questo risulta difettoso. Qual è
la probabilità che il pezzo provenga da M1, M2 o M3?

( ) ( ) ( ) ( )
P M1 = 0,30 ; P M2 = 0,25 ; P M3 = 0,45 ; P A|M1 = 0,010 ; P A|M2 = 0,012 ; P A|M3 = 0,020 ( ) ( )
Soluzione:
( ) ( ) ( )
P M1 ∩ A = P A|M1 × P M1 = 0,010 × 0,30 = 0,003
P ( M ∩ A) = P ( A|M ) × P ( M ) = 0,012 × 0,25 = 0,003
2 2 2
( ) ( ) (
P A = P M1 ∩ A + P M2 ∩ A + P M3 ∩ A ) ( )
P ( M ∩ A) = P ( A|M ) × P ( M ) = 0,020 × 0,45 = 0,009
3 3 3
= 0,003 + 0,003 + 0,009 = 0,015

Quindi:

) ( P ( A) ) = 0,003 ) ( P ( A) ) = 0,003 ) ( P ( A) ) = 0,015


P M1 ∩ A P M2 ∩ A P M3 ∩ A
(
P M1|A =
0,015
= 0,20 (
P M2 |A =
0,015
= 0,20 (
P M3 |A =
0,009
= 0,60

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1

E1 E2 Ek
Esempio (Virus e diagnosi, Piccolo, 2004, pag. 203)

Tasso di penetrazione 1
di un Virus nella popolazione: 1000 A

TEST CLINICO:
98% dei casi diagnostica correttamente la presenza del Virus
1% dei casi diagnostica il Virus a soggetti sani (c.d. “falso positivo”)
Una persona si sottopone al test e risulta positivo. Qual è la probabilità che abbia il Virus?

Quanti (e quali) sono gli eventi “a priori” Ei?

Qual è lʼevento compatibile A?

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1

NO VIRUS VIRUS
Esempio (Virus e diagnosi, Piccolo, 2004, pag. 203)

Tasso di penetrazione 1
di un Virus nella popolazione: 1000 TP
TEST CLINICO:
98% dei casi diagnostica correttamente la presenza del Virus
1% dei casi diagnostica il Virus a soggetti sani (c.d. “falso positivo”)
Una persona si sottopone al test e risulta positivo. Qual è la probabilità che abbia il Virus?

V0 → Il soggetto NON HA il Virus TP → Test diagnostica VIRUS


V1 → Il soggetto HA il Virus

( )
Cosa sappiamo: P V1 = 0,001 ; P V0 = 0,999 ( ) P ( TP|V ) = 0,98 ; P ( TP|V ) = 0,01
1 0

P (V ∩ TP) P (V ) × P ( TP|V )
Cosa cerchiamo: P (V |TP) = 1 1 1
=
P ( TP) P (V ) × P ( TP|V ) + P (V ) × P ( TP|V )
1
1 1 0 0

(
Quindi: P V1|TP = ) 0,001× 0,98
=
0,00098
=
0,00098
0,001× 0,98 + 0,999 × 0,01 0,00098 + 0,00999 0,01097
= 0,089

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1

NO VIRUS VIRUS
Esempio (Virus e diagnosi, Piccolo, 2004, pag. 203)

Tasso di penetrazione 1
di un Virus nella popolazione: 1000 TP
TEST CLINICO:
98% dei casi diagnostica correttamente la presenza del Virus
1% dei casi diagnostica il Virus a soggetti sani (c.d. falso positivo )
Una persona si sottopone al test e risulta positivo. Qual è la probabilità che abbia il Virus?

V0 → Il soggetto NON HA il Virus TP → Test diagnostica VIRUS


V1 → Il soggetto HA il Virus

( )
Cosa sappiamo: P V1 = 0,001 ; P V0 = 0,999 ( ) P ( TP|V ) = 0,98 ; P ( TP|V ) = 0,01
1 0

P (V ∩ TP) P (V ) × P ( TP|V )
Cosa cerchiamo: P (V |TP) = 1 1 1
=
P ( TP) P (V ) × P ( TP|V ) + P (V ) × P ( TP|V )
1
1 1 0 0

(
Quindi: P V1|TP = ) 0,001× 0,98
=
0,00098
=
0,00098
0,001× 0,98 + 0,999 × 0,01 0,00098 + 0,00999 0,01097
= 0,089

Il risultato, che non si può certamente considerare soddisfacente, dipende dalla probabilità a priori,
P(V1), che è molto bassa. In questi casi, per migliorare lʼattendibilità del test (non potendo agire
sulle probabilità a priori), occorre migliorare la performance, per esempio riducendo la P(TP|V0).

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1

NO VIRUS VIRUS
Esempio (Virus e diagnosi, Piccolo, 2004, pag. 203)

Tasso di penetrazione 1
di un Virus nella popolazione: 1000 TP
TEST CLINICO:
98% dei casi diagnostica correttamente la presenza del Virus
1% dei casi diagnostica il Virus a soggetti sani (c.d. falso positivo )
Una persona si sottopone al test e risulta positivo. Qual è la probabilità che abbia il Virus?

V0 → Il soggetto NON HA il Virus TP → Test diagnostica VIRUS


V1 → Il soggetto HA il Virus
Supponiamo di migliorare le
( )
Cosa sappiamo: P V1 = 0,001 ; P V0 = 0,999 ( ) P ( TP|V ) = 0,98 ; P ( TP|V ) = 0,01
1 0 performance del test clinico,
riducendo la P(TP|V0) a 0,0001.
P (V ∩ TP) P (V ) × P ( TP|V )
Cosa cerchiamo: P (V |TP) = 1 1 1
=
P ( TP) P (V ) × P ( TP|V ) + P (V ) × P ( TP|V )
1
1 1 0 0

(
Quindi: P V1|TP = ) 0,001× 0,98
=
0,00098
=
0,00098
0,001× 0,98 + 0,999 × 0,0001 0,00098 + 0,0000999 0,00108
= 0,907

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1

NO VIRUS VIRUS
Esempio (Virus e diagnosi, Piccolo, 2004, pag. 203)

Tasso di penetrazione 1
di un Virus nella popolazione: 1000 TP
TEST CLINICO:
98% dei casi diagnostica correttamente la presenza del Virus
1% dei casi diagnostica il Virus a soggetti sani (c.d. “falso positivo”)
Una persona si sottopone al test e risulta positivo.

Cosa si fa?

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1

NO VIRUS VIRUS
Esempio (Virus e diagnosi, Piccolo, 2004, pag. 203)

Tasso di penetrazione 1
di un Virus nella popolazione: 1000 TP
TEST CLINICO:
98% dei casi diagnostica correttamente la presenza del Virus
1% dei casi diagnostica il Virus a soggetti sani (c.d. “falso positivo”)

Una persona si sottopone al test e risulta positivo. Cosa si fa?

1a strategia: Si ripete (anche più volte) lo stesso test sui soli soggetti risultati “positivi”.
VIRUS NO VIRUS TOT

TEST
98 999 1.097
POSITIVO
TEST
2 98.901 98.903
NEGATIVO

TOT 100 99.900 100.000

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1

NO VIRUS VIRUS
Esempio (Virus e diagnosi, Piccolo, 2004, pag. 203)

Tasso di penetrazione 1
di un Virus nella popolazione: 1000 TP
TEST CLINICO:
98% dei casi diagnostica correttamente la presenza del Virus
1% dei casi diagnostica il Virus a soggetti sani (c.d. “falso positivo”)

Una persona si sottopone al test e risulta positivo. Cosa si fa?

1a strategia: Si ripete (anche più volte) lo stesso test sui soli soggetti risultati “positivi”.
VIRUS NO VIRUS TOT VIRUS NO VIRUS TOT
TEST
98 999 1.097 TEST
POSITIVO 96 10 106
POSITIVO
TEST
2 98.901 98.903 TEST
NEGATIVO 2 989 991
NEGATIVO
TOT 100 99.900 100.000
TOT 98 999 1.097

(
P V1|TP = ) 96
106
= 0,906

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1

NO VIRUS VIRUS
Esempio (Virus e diagnosi, Piccolo, 2004, pag. 203)

Tasso di penetrazione 1
di un Virus nella popolazione: 1000 TP
TEST CLINICO:
98% dei casi diagnostica correttamente la presenza del Virus
1% dei casi diagnostica il Virus a soggetti sani (c.d. “falso positivo”)

Una persona si sottopone al test e risulta positivo. Cosa si fa?

2a strategia: Come secondo test si utilizza un test più potente, sia nel senso della sua
sensibilità (riduzione dei “falsi negativi”) che della sua specificità (riduzione dei “falsi
positivi”) ma più costoso, e quindi non utilizzabile come test di screening.

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1

Esempio E1 E2 Ek
Un manager ha nel proprio ufficio tre
segretarie, Sara, Mara e Chiara, i cui A
telefoni risultano liberi con probabilità,
rispettivamente: 0,7, 0,2 e 0,3.
Si compone a caso uno dei tre numeri:
1. Qual è la probabilità di trovare la linea libera?
2. La linea è libera: qual è la probabilità che risponda Chiara?

Quanti (e quali) sono gli eventi “a priori” Ei?

Qual è lʼevento compatibile A?

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1

Esempio
Sara Mara Chiara
Un manager ha nel proprio ufficio tre
segretarie, Sara, Mara e Chiara, i cui
telefoni risultano liberi con probabilità, a l i bera
Line
rispettivamente: 0,7, 0,2 e 0,3.
Si compone a caso uno dei tre numeri:
1. Qual è la probabilità di trovare la linea libera?
2. La linea è libera: qual è la probabilità che risponda Chiara?

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1

Esempio
Sara Mara Chiara
Un manager ha nel proprio ufficio tre
segretarie, Sara, Mara e Chiara, i cui
telefoni risultano liberi con probabilità, a l i bera
Line
rispettivamente: 0,7, 0,2 e 0,3.
Si compone a caso uno dei tre numeri:
1. Qual è la probabilità di trovare la linea libera?
2. La linea è libera: qual è la probabilità che risponda Chiara?

Cosa sappiamo: ( ) ( ) (
P Sara = P Mara = P Chiara = ) 31
P ( LL|Sara ) = 0,7 ; P ( LL|Mara ) = 0,2 (
; P LL|Chiara = 0,3 )
( ) ( ) (
Cosa cerchiamo: P LL = P Sara ∩ LL + P Mara ∩ LL + P Chiara ∩ LL ) ( )
( ) (
P Sara × P LL | Sara ) ( ) (
P Mara × P LL | Mara ) ( ) (
P Chiara × P LL | Chiara )

( ) ( ) ( ) ( ) (
P LL = ⎡ P Sara × P LL|Sara ⎤ + ⎡ P Mara × P LL|Mara ⎤ + ⎡ P Chiara × P LL|Chiara ⎤
⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ) ( ) ( )
1 1 1
= × 0,7 + × 0,2 + × 0,3 = 0,2331+ 0,0667 + 0,0999 = 0,3997
3 3 3

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

( ( )
P Ei ∩ A
) P ( A)
P ( E ) × P ( A|E )
Il teorema di Bayes
i i
P Ei |A = =
∑ P ( E ) × P ( A|E )
k

i i
i=1

Esempio
Sara Mara Chiara
Un manager ha nel proprio ufficio tre
segretarie, Sara, Mara e Chiara, i cui
telefoni risultano liberi con probabilità, a l i bera
Line
rispettivamente: 0,7, 0,2 e 0,3.
Si compone a caso uno dei tre numeri:
1. Qual è la probabilità di trovare la linea libera?
2. La linea è libera: qual è la probabilità che risponda Chiara?

Cosa sappiamo: ( ) ( ) (
P Sara = P Mara = P Chiara = ) 31
P ( LL|Sara ) = 0,7 ; P ( LL|Mara ) = 0,2 (
; P LL|Chiara = 0,3 )
( ) ( ) (
Cosa cerchiamo: P LL = P Sara ∩ LL + P Mara ∩ LL + P Chiara ∩ LL ) ( )
( ) (
P Sara × P LL | Sara ) ( ) (
P Mara × P LL | Mara ) ( ) (
P Chiara × P LL | Chiara )

( )
P LL =
3
1 1 1
× 0,7 + × 0,2 + × 0,3 = 0,2331+ 0,0667 + 0,0999 = 0,3997
3 3
1

(
P Chiara|LL = ) ( ) (
P Chiara × P LL|Chiara
= 3
× 0,3
= 0,250
)
P LL ( ) 0,3997
LEZIONE 12 – IL TEOREMA DI BAYES
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (1)

Una ditta di Computer ha, per i propri hard disk, tre fornitori, F1, F2 e
F3, che provvedono rispettivamente al 50%, 40% e 10% dei pezzi.
Dalla esperienza passata, si sa che le percentuali di pezzi difettosi
riscontrate nelle varie forniture possono essere stimate nello 0,9% per
F1, 0,7% per F2 e 1,3% per F3.
Durante le normali procedure di controllo di qualità, viene selezionato un computer
del quale viene valutato l’hard disk.
1. Qual è la probabilità che l’hard disk sia difettoso?
2. Posto che il pezzo sia difettoso, qual è il fornitore che più verosimilmente lo ha
inviato?

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (2)

Una ditta di Computer ha, per i propri hard disk, tre fornitori, F1, F2 e F3,
che provvedono rispettivamente al 50%, 40% e 10% dei pezzi.
Dalla esperienza passata, si sa che le percentuali di pezzi difettosi
riscontrate nelle varie forniture possono essere stimate nello 0,1% per F1,
5% per F2 e 10% per F3.

Durante le normali procedure di controllo di qualità, viene selezionato un computer del


quale viene valutato l’hard disk.
1. Qual è la probabilità che l’hard disk sia difettoso?
2. Posto che il pezzo sia difettoso, qual è il fornitore che più verosimilmente lo ha
inviato?

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (3)

In piena pandemia da Covid-19 (Ottobre 2020), si stimava che, in Italia,


la percentuale di popolazione positiva al virus fosse attorno al 3%.
Per diagnosticare la positività si effettuava un tampone nasofaringeo
che dava esito positivo nel 75% dei soggetti effettivamente infetti, ma
anche nel 5% dei soggetti sani.

Qual era la probabilità che, ad Ottobre 2020, un soggetto positivo al


tampone avesse effettivamente il virus?
Commentate il risultato, provate a spiegare perché questo risulti, probabilmente, inferiore a quanto ci
si attendeva e definite una possibile strategia alternativa.

LEZIONE 12 – IL TEOREMA DI BAYES


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 13:
Le variabili casuali
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le variabili casuali

• Il concetto di variabile casuale è strettamente legato a quello di esperimento, a quello,


cioè, di una prova il cui risultato è incerto.

• Eʼ diverso, dunque, dal concetto di variabile definita su una popolazione, di cui io posso
conoscere o meno il valore che questa assume sulle singole unità, ma rispetto alla quale
non cʼè nulla di incerto.

• Eʼ lo stesso concetto che possiamo associare al lancio di una moneta. Prima di lanciare la
moneta, la probabilità che esca testa può essere posta pari a p, quella che esca croce
pari a (1-p). Ma una volta lanciata la moneta, una volta realizzato lʼevento, questo può
essere noto o meno (immaginiamo di avere la moneta nel pugno stretto), ma non cʼè più
incertezza: la probabilità che il risultato sia testa è 1 (se effettivamente è uscito testa) o 0
(se è uscito croce).

• Una variabile casuale X è dunque associata ai possibili risultati x1, x2, …, xn di un


esperimento o, più esattamente, alla possibilità di associare ad ognuno di questi risultati
la corrispondente probabilità:
P X=x( )
• In alcuni casi la cosa è abbastanza semplice (es., lancio di un dado), in altri meno.

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le variabili casuali

• Quando è possibile, invece di specificare le singole probabilità P(X) per i valori che la
variabile X può assumere, si preferisce esprimere la relazione funzionale che lega queste
probabilità e che viene sintetizzata attraverso la funzione f(x):

() (
f x =P X=x )
• Lʼimpiego della funzione di probabilità f(x) è indispensabile quando si ha a che fare con
v.c. di tipo continuo o con v.c. di tipo discreto con un numero elevato di possibili
modalità.

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le variabili casuali discrete

• Nel caso discreto, la funzione f(x) definisce la funzione di probabilità della v.c. X. Se X è
discreta, anche f(x) sarà discreta, nel senso che concentrerà la probabilità in un insieme
finito di valori di X. La funzione di probabilità f(x) di tipo discreto soddisfa le condizioni:

()
f x ≥0 ∑f (x ) = 1
i
i

• In molti casi, può essere necessario trovare la probabilità che la v.c. X assuma un
valore inferiore o uguale ad un dato valore xk. Tale probabilità viene definita
probabilità cumulata ed è descritta dalla funzione di ripartizione, che viene indicata
con F(xk).
• Quindi, se x1, x2, …, xn sono i valori possibili di X, ordinati in senso crescente, la
probabilità cumulata sarà:

( ) ( ) ( )
F xk = f x1 + f x2 + … + f xk ( )

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le variabili casuali discrete

Esempio:
Lancio di tre monete (oppure, tre lanci di una moneta)
Variabile casuale associata: Numero di "Teste" ottenute
Valori possibili che la variabile casuale può assumere: 0, 1, 2, 3

( ) ( ) (
f x0 = P X = 0 = P C ∩ C ∩ C = ) 21 × 21 × 21 = 81
f ( x ) = P ( X = 1) = P ⎡( T ∩ C ∩ C ) ∪ ( C ∩ T ∩ C ) ∪ ( C ∩ C ∩ T ) ⎤ = + + =
1 1 1 3
1 ⎣ ⎦ 8 8 8 8

f ( x ) = P ( X = 2 ) = P ⎡( T ∩ T ∩ C ) ∪ ( C ∩ T ∩ T ) ∪ ( T ∩ C ∩ T ) ⎤ = + + =
1 1 1 3
2 ⎣ ⎦ 8 8 8 8

f ( x ) = P ( X = 3) = P (T ∩ T ∩ T ) = × × =
1 1 1 1
3
2 2 2 8

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le variabili casuali continue

• Una variabile casuale continua è una v.c. che può assumere un numero infinito di valori
compresi in un intervallo di ampiezza finita o infinita.

• Una v.c. continua è, concettualmente, unʼastrazione mentale, ma unʼastrazione che risulta


molto utile in quanto consente di semplificare lʼanalisi senza unʼeccessiva perdita di realismo.

• A differenza di quanto accade nel caso discreto, non è possibile ottenere la probabilità
che la variabile assuma un qualsiasi valore interno allʼintervallo sommando le probabilità
dei singoli punti che lo compongono, in quanto i punti sono infiniti e una somma infinita di
valori finiti non può dare lʼunità.

• Il c.d. paradosso della continuità viene risolto ricorrendo al concetto di area, assegnando
probabilità a singoli intervalli piuttosto che a singoli punti e rappresentando le probabilità
come delle aree su degli intervalli.

• Una variabile casuale X è, allora, continua se esiste una funzione f (x) tale che:
b

( )
P a ≤ X ≤ b = ∫ f x dx
a
()
dove a e b sono numeri reali qualsiasi, con a<b.

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le variabili casuali continue

• La funzione f(x) viene definita funzione di densità di probabilità (f.d.p.) o densità di


probabilità di X. In questo caso, tuttavia, la funzione non può essere interpretata come la
P(X=x), in quanto tale probabilità, per v.c. di tipo continuo, sarà sempre nulla.
Si può, d'altra parte, determinare la probabilità di osservare un valore compreso
nell’intervallo (x, x+Δx), cioè:
(
P x ≤ X ≤ x + Δx )
• Eʼ invece possibile definire la funzione di ripartizione:
x

() (
F x =P X≤x = ) ∫ f ( x ) dx
−∞
che conserva il suo significato.

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Speranza matematica (o valore atteso)

Una variabile casuale può essere interamente descritta dalla sua funzione di densità.
Eʼ possibile, dʼaltra parte, definire dei parametri, o grandezze caratteristiche, di una
distribuzione di probabilità, che hanno la capacità di riassumere in modo immediato e
sintetico lʼinformazione relativa alla distribuzione.
Questi parametri vengono definiti in termini di valori attesi, o speranze matematiche, e
rappresentano una sintesi dei diversi risultati dell’esperimento.

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Speranza matematica (o valore atteso)

Esempio 1: (da Orsi, 1995, pagg. 90-91)

Un amico ci propone un gioco i cui risultati possono essere A, B o C, con probabilità


di realizzarsi pari, rispettivamente, a 0,1, 0,2 e 0,7.
Più precisamente, se esce A, si vincono 20 euro, se esce B si vincono 10 euro, mentre se esce C si
perdono 10 euro.
Ci si chiede quale sarà il guadagno, o la perdita, che ci si deve attendere per un numero elevato
di giocate.

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Speranza matematica (o valore atteso)

Esempio 1: (da Orsi, 1995, pagg. 90-91)


Un amico ci propone un gioco i cui risultati possono essere A, B o C, con probabilità di realizzarsi
pari, rispettivamente, a 0,1, 0,2 e 0,7. Più precisamente, se esce A, si vincono 20 euro, se esce B si vincono
10 euro, mentre se esce C si perdono 10 euro. Ci si chiede quale sarà il guadagno, o la perdita, che ci si
deve attendere per un numero elevato di giocate.

Eʼ chiaro che il risultato del gioco sarà dato dall’ammontare che si vince quando si presenta A o B, ognuno
moltiplicato per le rispettive probabilità, sommato all’ammontare che si perde quando si presenta C,
ponderato con la corrispondente probabilità.
( ) ( ) (
Avremo, dunque: 20 × 0,1 + 10 × 0,2 + −10 × 0,7 = −3€ )
Il gioco ha, cioè, un valore atteso negativo, e più precisamente una perdita di 3€ a partita.
I 3 euro non rappresentano lʼammontare che si perde in una singola giocata ma ciò che si perderebbe in media,
per partita, se si giocasse un numero elevato di volte (infatti, nella singola giocata o si vincono 10 o 20 euro o se ne
perdono 10, ma non se ne potranno mai perdere 3).
Questa somma, tuttavia, rappresenta una sintesi dei diversi risultati del gioco, i quali portano a perdere, in media, 3
euro ogni giocata, e quindi non si avrà interesse a giocare perché il gioco non è equo.

Il valore atteso, o speranza matematica, di una v.c. X discreta sarà quindi dato da: E X = ( ) ∑ x ⋅f(x )
i
i i

Analogamente, il valore atteso di una v.c. continua è dato da: E X = ( ) ∫ x ⋅ f ( x ) dx


−∞

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Speranza matematica (o valore atteso)

Esempio 2: (da Orsi, 1995, pagg. 92-93)


Una slot machine dispone di due quadranti: in ogni quadrante possono
comparire 3 diversi tipi di figure: mele, campane e ciliegie.
La macchina è strutturata in modo che i due quadranti girino in modo indipendente.
Dopo aver osservato attentamente il gioco, si stabilisce che le probabilità di uscita di ogni figura
sono le seguenti:
P(Mele)=0,1 ; P(Campane)=0,4 ; P(Ciliegie)=0,5
Ogni giocata costa 1 euro. Il risultato sarà una delle 9 possibili coppie di figure, coppie che si
verificano con probabilità diverse. La macchina paga i seguenti premi:
• 10 euro per (mele, mele);
• 2 euro per (campane, campane);
• 1 euro per (ciliegie, ciliegie);
• 0 euro per ogni altro risultato.

Qual è il guadagno atteso per ogni euro giocato?

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Speranza matematica (o valore atteso)

Esempio 2: (da Orsi, 1995, pagg. 92-93)


Una slot machine dispone di due quadranti: in ogni quadrante possono comparire 3 diversi tipi di figure:
mele, campane e ciliegie.
La macchina è strutturata in modo che i due quadranti girino in modo indipendente. Dopo aver osservato attentamente il gioco, si
stabilisce che le probabilità di uscita di ogni figura sono le seguenti:
P(Mele)=0,1 ; P(Campane)=0,4 ; P(Ciliegie)=0,5
Ogni giocata costa 1 euro. Il risultato sarà una delle 9 possibili coppie di figure, coppie che si verificano con probabilità diverse. La
macchina paga i seguenti premi:
10 euro per (mele, mele); 2 euro per (campane, campane); 1 euro per (ciliegie, ciliegie); 0 euro per ogni altro risultato.

Qual è il guadagno atteso per ogni euro giocato?

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Speranza matematica (o valore atteso)


Una slot machine dispone di due quadranti: in ogni quadrante possono comparire 3 diversi tipi di figure:
mele, campane e ciliegie. La macchina è strutturata in modo che i due quadranti girino in modo
indipendente. Dopo aver osservato attentamente il gioco, si stabilisce che le probabilità di uscita di ogni
figura sono le seguenti: P(Mele)=0,1 ; P(Campane)=0,4 ; P(Ciliegie)=0,5
Ogni giocata costa 1 euro. Il risultato sarà una delle 9 possibili coppie di figure, coppie che si verificano con probabilità diverse. La
macchina paga i seguenti premi:
• 10 euro per (mele,mele);
• 2 euro per (campane, campane); Qual è il guadagno atteso per ogni euro giocato?
• 1 euro per (ciliegie, ciliegie);
• 0 euro per ogni altro risultato.

Y: Guadagno Ω: Spazio f(x): Funzione


associato al risultato campionario di densità
RISULTATO

(mele, mele) (camp., camp.) (cil., cil.) (altro)

GUADAGNO 9€ 1€ 0€ -1 €

PROBABILITÀ 0,01 0,16 0,25 0,58

Il guadagno atteso per ogni giocata sarà dunque:

( ) ( ) ( ) ( ) (
E X = 9 × 0,01 + 1× 0,16 + 0 × 0,25 + −1× 0,58 = −0,33€ )
LEZIONE 13 – LE VARIABILI CASUALI
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Speranza matematica (o valore atteso)


Una slot machine dispone di due quadranti: in ogni quadrante possono comparire 3 diversi tipi di figure:
mele, campane e ciliegie. La macchina è strutturata in modo che i due quadranti girino in modo
indipendente. Dopo aver osservato attentamente il gioco, si stabilisce che le probabilità di uscita di ogni
figura sono le seguenti: P(Mele)=0,1 ; P(Campane)=0,4 ; P(Ciliegie)=0,5
Ogni giocata costa 1 euro. Il risultato sarà una delle 9 possibili coppie di figure, coppie che si verificano con probabilità diverse. La
macchina paga i seguenti premi:
• 10 euro per (mele,mele);
• 2 euro per (campane, campane); Qual è il guadagno atteso per ogni euro giocato?
• 1 euro per (ciliegie, ciliegie);
• 0 euro per ogni altro risultato.

Y: Guadagno associato al risultato Ω: Spazio campionario f(x): Funzione di densità


RISULTATO

( ) ( ) ( ) ( ) ( )
(mele, mele) (camp., camp.) (cil., cil.) (altro)

GUADAGNO 9€ 1€ 0€ -1 €
E X = 9 × 0,01 + 1× 0,16 + 0 × 0,25 + −1× 0,58
PROBABILITÀ 0,01 0,16 0,25 0,58 = −0,33€

Il guadagno atteso è un valore negativo, quindi una perdita: per ogni euro giocato si perdono, in media, 33 centesimi,
per cui per 100 giocate ci aspettiamo di perdere 33 euro.

Ancora una volta va precisato che la perdita di 0,33 euro per ogni euro giocato è quello che ci si attende in
media per un numero elevato di prove. Questo valore dà, cioè, una indicazione sul meccanismo del gioco, in
questo caso un gioco non equo poiché tende a produrre un guadagno sistematico per la macchina, pagando
un premio non proporzionale alla posta pagata ma inferiore. Questo non vuol dire che non si possa vincere! Se
ciò accade, però, è da considerarsi un evento fortuito, e si ha interesse ad abbandonare il gioco, poiché tale
gioco, alla lunga, tende a causare una perdita pari a 1/3 della somma pagata.

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Speranza matematica (o valore atteso)

Esempio 3:
Il test di ingresso per il Corso XYZ consiste in 80 domande, ciascuna con
cinque possibili risposte di cui una sola esatta. Il test prevede lʼassegnazione
di 1 punto per ogni risposta esatta, di –0,2 punti per ogni risposta sbagliata e di
0 punti in caso di mancata risposta.
1. Nel caso di una domanda di cui si ignori la risposta, conviene rischiare nel rispondere in
modo casuale oppure no?
2. Qual è il punteggio atteso di un candidato che risponda a tutte le 80 domande in
modo casuale?
3. Come dovrebbe essere strutturato il test affinché fosse perfettamente “equo” (e cioè
tale da non favorire né danneggiare lo studente)?

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Speranza matematica (o valore atteso)

Esempio 3:
Il test di ingresso per il Corso XYZ consiste in 80 domande, ciascuna con
cinque possibili risposte di cui una sola esatta. Il test prevede lʼassegnazione
di 1 punto per ogni risposta esatta, di –0,2 punti per ogni risposta sbagliata e di
0 punti in caso di mancata risposta.
1. Nel caso di una domanda di cui si ignori la risposta, conviene rischiare nel rispondere in
modo casuale oppure no?

Soluzione:
Conviene rischiare se il valore atteso del punteggio alla domanda è positivo, non conviene se è
negativo, è indifferente se è nullo.

() ( ) ( )
E Y = 1× 0,2 + −0,2 × 0,8 = 0,20 − 0,16 = 0,04 In questo caso, conviene rischiare!

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Speranza matematica (o valore atteso)

Esempio 3:
Il test di ingresso per il Corso XYZ consiste in 80 domande, ciascuna con
cinque possibili risposte di cui una sola esatta. Il test prevede lʼassegnazione
di 1 punto per ogni risposta esatta, di –0,2 punti per ogni risposta sbagliata e di
0 punti in caso di mancata risposta.
2. Qual è il punteggio atteso di un candidato che risponda a tutte le 80 domande in modo
casuale?

Soluzione:
Poiché a tutte le domande si applica lo stesso criterio, il punteggio è dato dal valore atteso del
punteggio alla singola domanda moltiplicato per il numero di domande.

()
E Y = 0,04 × 80 = 3,2

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Speranza matematica (o valore atteso)

Esempio 3:
Il test di ingresso per il Corso XYZ consiste in 80 domande, ciascuna con
cinque possibili risposte di cui una sola esatta. Il test prevede lʼassegnazione
di 1 punto per ogni risposta esatta, di –0,2 punti per ogni risposta sbagliata e di
0 punti in caso di mancata risposta.
3. Come dovrebbe essere strutturato il test affinché fosse perfettamente “equo” (e cioè tale
da non favorire né danneggiare lo studente)?

Soluzione:
Il test dovrebbe essere strutturato in modo che il valore atteso del punteggio alla singola risposta
risulti pari a zero. Questo avviene se, nel nostro esempio, ad ogni risposta sbagliata viene
assegnato un punteggio negativo pari a -0,25.

() ( ) ( )
E Y = 1× 0,2 + −0,25 × 0,8 = 0,20 − 0,20 = 0,00

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

A proposito di giochi equi…

Rosso e Nero alla Roulette

( ) (
P Rosso = P Nero = ) 18
37 → cʼè anche lo zero che è verde!
Il valore atteso della vincita (V) su uno dei due colori (R/N), per una puntata di 1 euro è dunque:
⎛ 18 ⎞ ⎛ 18 +1⎞
( )
E V = ⎜1× ⎟ + ⎜ −1×
⎝ 37 ⎠ ⎝ 37 ⎠
⎟ = 0,4865 − 0,5135 = −0,0270

NOTA 1: Ancora una volta il gioco è a favore del banco. Questo non deve meravigliare ma nemmeno deve trarre in
inganno il valore, in assoluto non molto elevato. In questo specifico tipo di gioco (Rosso/Nero alla roulette), non si punta
certo un euro, le somme giocate ad ogni "giro di ruota" da un giocatore accanito possono essere anche di diverse
migliaia di euro e, di conseguenza, anche le perdite possono essere rilevanti.
D'altra parte, il fatto che il gioco abbia un "costo" (il valore atteso negativo) non è di per sé un fatto da condannare. È il
prezzo che si paga per qualcosa che per molti rimane comunque un divertimento.

NOTA 2: Il valore atteso può essere interpretato anche come la quota che manca al nostro premio in caso di vincita
rispetto a quanto dovremmo ricevere in un gioco equo (inclusa la quota che abbiamo puntato).
Ad esempio, se io punto sul Rosso, la probabilità di vincita è: P Rosso =
18
37
(
= 0,4865 = ) 1
2,0555
(Quindi, in media vinco 100
volte ogni 206 puntate)

In caso di vincita con una puntata di 1 euro, dovrei dunque riceverne 2,0555 (incluso l'euro che ho puntato), invece ne
riceverò solo 2.
2
Il rapporto tra quello che ricevo e quello che dovrei avere in caso di gioco equo è: = 0,973 . Quello che "manca"
2,0555
è proprio rappresentato dal valore atteso della giocata (0,0270).
LEZIONE 13 – LE VARIABILI CASUALI
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

A proposito di giochi equi…

Lʼambo (e il terno, la quaterna…) al gioco del lotto

(
P Ambo = ) 5
×
90 89
4
= 0,00250 (su una singola ruota)

Quindi, su diecimila giocate, ci si aspetta di vincere 25 volte, cioè 1 volta su 400.


In caso di vincita sulla singola ruota, il “banco” paga 250 volte la posta, quindi se ho
puntato 1 euro ne vinco 250 (compreso quello che ho puntato).
Il valore atteso della vincita (V) per una puntata di 1 euro è dunque:

⎛ 1 ⎞ ⎛ 399 ⎞
( )
E V = ⎜ 250 ×

+
⎟ ⎜
400 ⎠ ⎝
−1× ⎟ = 0,6250 − 0,9975 = −0,3725
400 ⎠
In pratica, se centomila persone giocano sull'ambo, puntando ciascuno 1 euro, il
guadagno previsto dal banco è di oltre 37mila euro.

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

A proposito di giochi equi…

LOTTO
Puntata Vincita Valore
Esito Probabilità
(€) (€) atteso
Ambo 1/400 0,002500000 1 250 -0,3725
Terno 1/11.748 0,000085121 1 4.500 -0,6169
Quaterna 1/511.038 0,000001957 1 120.000 -0,7652
Cinquina 1/43.949.268 0,000000023 1 6.000.000 -0,8635

SUPERENALOTTO
Puntata Vincita media Valore
Esito Probabilità
(€) (€) (vedi Nota) atteso
3 punti 1/327 0,003058104 1 40 -0,8746
4 1/11.907 0,000083984 1 700 -0,9411
5 1/1.250.230 0,000000800 1 110.000 -0,9120
5+1 1/103.769.105 0,000000010 1 1.600.000 -0,9846
6 1/622.614.630 0,000000002 1 150.000.000 -0,7591
Nota – La puntata minima al superenalotto è di 1 euro, che consente, però, di giocare due “quadri” di numeri. Lʼimporto medio delle vincite
delle varie categorie è stato dunque moltiplicato per 2.

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo

Esercizio 1

Un’organizzazione caritatevole indice una lotteria con i seguenti premi:


• Un premio da 500 €
• Cinque premi da 100€
• Cinquanta premi da 50€
Si stabilisce di vendere 5.000 biglietti e che il profitto, da destinare ad azioni benefiche, sarà
ottenuto ponendo il prezzo del biglietto pari a tre volte il prezzo equo.
Quale sarà il prezzo del biglietto?

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo

Esercizio 2

Un agente assicurativo vende ad una donna di 35 anni una polizza


sulla vita di 10.000€, con un premio annuo di 130€.
Sapendo che il tasso di mortalità delle donne tra i 35 e i 36 anni è di 3/1.000,
quanto si aspetta di guadagnare la Compagnia nel primo anno di contratto di questa
polizza?

LEZIONE 13 – LE VARIABILI CASUALI


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 14:
La variabile casuale
Normale
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I modelli di probabilità

• Nello studio dei fenomeni reali, uno dei problemi che si pone è stabilire se, per la
descrizione del fenomeno osservato, si debba costruire un’apposita variabile casuale
oppure se non convenga fare riferimento a variabili casuali note per le loro
caratteristiche e proprietà.
• Tali variabili casuali note, sia discrete che continue, costituiscono altrettanti modelli
probabilistici che consentono di descrivere la realtà con un sufficiente grado di
approssimazione.
• La distribuzione di probabilità più importante della Statistica è certamente la
distribuzione Normale, proposta da Gauss nel 1809 come distribuzione in grado di
descrivere gli errori accidentali commessi nel calcolo del cammino dei corpi celesti.
• L’importanza della distribuzione Normale è legata alla considerazione che molti dei
fenomeni osservabili si distribuiscono in un modo che può essere considerato Normale,
ma anche al fatto che altre distribuzioni di probabilità, diverse dalla Normale, in molte
circostanze possono essere approssimate in modo soddisfacente dalla distribuzione
gaussiana.

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

(La distribuzione degli errori accidentali)

Consideriamo una macchina che produce dadi per bulloni. Il diametro dei dadi
deve essere pari a 20 mm.
Consideriamo ora un lotto di 10mila dadi prodotti dalla macchina.
Possiamo immaginare che tutti i 10mila dadi abbiano un diametro esattamente pari a 20,0000 mm,
o è più probabile che ci possano essere degli scostamenti, anche minimi? E, in questo caso, quale
sarà la loro distribuzione?
Frequenza
In un qualsiasi processo produttivo, è praticamente impossibile
prescindere da uno scostamento, anche piccolissimo, tra quello che ci si
aspetta e quello che si ottiene
Se l'errore è casuale, ossia generato da un insieme, anche numeroso, di
cause non controllabili, è possibile immaginare che:
• La maggior parte dei pezzi prodotti ha scarti piccoli, o piccolissimi,
rispetto al valore atteso;
• Gli scostamenti possono essere indifferentemente positivi o
negativi;
• Via via che ci si allontana dal valore atteso, gli
scostamenti diventano sempre meno frequenti, in modo
| simmetrico;
20mm X

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

(La distribuzione degli errori accidentali)

Consideriamo una macchina che produce dadi per bulloni. Il diametro dei dadi
deve essere pari a 20 mm.
Consideriamo ora un lotto di 10mila dadi prodotti dalla macchina.
Possiamo immaginare che tutti i 10mila dadi abbiano un diametro esattamente pari a 20,0000 mm,
o è più probabile che ci possano essere degli scostamenti, anche minimi? E, in questo caso, quale
sarà la loro distribuzione?
In un qualsiasi processo produttivo, è praticamente impossibile
f(x)
prescindere da uno scostamento, anche piccolissimo, tra quello che ci si
aspetta e quello che si ottiene
Se l'errore è casuale, ossia generato da un insieme, anche numeroso, di
cause non controllabili, è possibile immaginare che:
• La maggior parte dei pezzi prodotti ha scarti piccoli, o piccolissimi,
rispetto al valore atteso;
• Gli scostamenti possono essere indifferentemente positivi o
negativi;
• Via via che ci si allontana dal valore atteso, gli
scostamenti diventano sempre meno frequenti, in modo
| simmetrico;
20mm X
• Considerando intervalli sempre più piccoli, il grafico assumerà sempre più la forma di una curva
simmetrica, campanulare e unimodale;
• Tutto questo, dal punto di vista empirico, era probabilmente già noto anche prima di Gauss.
Quello che fece Gauss fu trovare la forma funzionale esatta che lega ciascuna X alla
corrispondente f(x), per ottenere questa curva.
LEZIONE 14 – LA VARIABILE CASUALE NORMALE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I modelli di probabilità

La distribuzione
Normale sulle vecchie
banconote da 10
marchi

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione Normale

Una variabile casuale X segue una distribuzione Normale, con media µ e varianza σ2, se la sua
funzione di densità di probabilità è data da:
( x− µ )
2

() 1 −
f x = ⋅e 2σ 2

2πσ 2
0,4500000
f(x) Titolo del grafico Caratteristiche della Curva Normale:
0,4000000

0,3500000 1. Forma campanulare, simmetrica, unimodale


0,3000000

0,2500000
2. Media, mediana e moda coincidenti
3. Proiezione dei punti di flesso a distanza ±σ dalla media
0,2000000

0,1500000
68%
4. Circa il 68% dei casi è compreso nell’intervallo µ±σ
0,1000000

0,0500000

0,0000000
µ-s µ µ+s
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione Normale

Una variabile casuale X segue una distribuzione Normale, con media µ e varianza σ2, se la sua
funzione di densità di probabilità è data da:
( x− µ )
2

() 1 −
f x = ⋅e 2σ 2

2πσ 2
0,4500000
f(x) Titolo del grafico Caratteristiche della Curva Normale:
0,4000000

0,3500000 1. Forma campanulare, simmetrica, unimodale


0,3000000

0,2500000
2. Media, mediana e moda coincidenti
3. Proiezione dei punti di flesso a distanza ±σ dalla media
0,2000000

0,1500000
95%
4. Circa il 68% dei casi è compreso nell’intervallo µ±σ
0,1000000

0,0500000
5. Circa il 95% dei casi è compreso nell’intervallo µ±2σ
0,0000000
µ-2s µ-s µ µ+s µ+2s
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione Normale

Una variabile casuale X segue una distribuzione Normale, con media µ e varianza σ2, se la sua
funzione di densità di probabilità è data da:
( x− µ )
2

() 1 −
f x = ⋅e 2σ 2

2πσ 2
0,4500000
f(x) Titolo del grafico Caratteristiche della Curva Normale:
0,4000000

0,3500000 1. Forma campanulare, simmetrica, unimodale


0,3000000

0,2500000
2. Media, mediana e moda coincidenti
3. Proiezione dei punti di flesso a distanza ±σ dalla media
0,2000000

0,1500000
99%
4. Circa il 68% dei casi è compreso nell’intervallo µ±σ
0,1000000

0,0500000
5. Circa il 95% dei casi è compreso nell’intervallo µ±2σ
0,0000000
µ-3s µ-2s µ-s µ µ+s µ+2s µ+3s
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

X 6. Oltre il 99% dei casi è compreso nell’intervallo µ±3σ

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione Normale

Una variabile casuale X segue una distribuzione Normale, con media µ e varianza σ2, se la sua
funzione di densità di probabilità è data da:
( x− µ )
2

() 1 −
f x = ⋅e 2σ 2

2πσ 2
0,4500000
f(x) Titolo del grafico Caratteristiche della Curva Normale:
0,4000000

0,3500000 1. Forma campanulare, simmetrica, unimodale


0,3000000

0,2500000
2. Media, mediana e moda coincidenti
0,2000000 3. Proiezione dei punti di flesso a distanza ±σ dalla media
0,1500000
4. Circa il 68% dei casi è compreso nell’intervallo µ±σ
0,1000000

0,0500000
5. Circa il 95% dei casi è compreso nell’intervallo µ±2σ
0,0000000
µ µ µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

X 6. Oltre il 99% dei casi è compreso nell’intervallo µ±3σ

7. Un aumento o una diminuzione della media determina uno slittamento della curva, a parità di forma,
sullʼasse delle X.

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione Normale

Una variabile casuale X segue una distribuzione Normale, con media µ e varianza σ2, se la sua
funzione di densità di probabilità è data da:
( x− µ )
2

() 1 −
f x = ⋅e 2σ 2

2πσ 2
0,4500000
f(x) Titolo del grafico Caratteristiche della Curva Normale:
0,4000000

0,3500000 1. Forma campanulare, simmetrica, unimodale


0,3000000

0,2500000
2. Media, mediana e moda coincidenti
0,2000000 3. Proiezione dei punti di flesso a distanza ±σ dalla media
0,1500000
4. Circa il 68% dei casi è compreso nell’intervallo µ±σ
0,1000000

0,0500000
5. Circa il 95% dei casi è compreso nell’intervallo µ±2σ
0,0000000
µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

X 6. Oltre il 99% dei casi è compreso nell’intervallo µ±3σ

7. Un aumento o una diminuzione della media determina uno slittamento della curva, a parità di forma,
sullʼasse delle X.
8. Un aumento o una diminuzione della varianza determina, rispettivamente, una minore o una maggiore
concentrazione di valori attorno al valore medio.

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione Normale
Esempio:
Una macchina produce biscotti il cui peso si distribuisce come una Normale, con
media pari a 5 grammi e scarto quadratico medio pari a 0,1 grammi.
Qual è la percentuale di biscotti il cui peso è compreso tra 5,12 e 5,20 grammi?

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione Normale
Esempio:
Una macchina produce biscotti il cui peso si distribuisce come una Normale, con
media pari a 5 grammi e scarto quadratico medio pari a 0,1 grammi.
Qual è la percentuale di biscotti il cui peso è compreso tra 5,12 e 5,20 grammi?
( x− µ )
2
0,4500000
Titolo del grafico
() 1 −
f(x)
0,4000000
X~N f x = ⋅e 2σ 2
µ = 5 gr s2 = 0,01
0,3500000
2πσ 2

0,3000000

0,2500000

0,2000000
(
Fr 5,12 ≤ X ≤ 5,20 )
0,1500000

0,1000000

0,0500000

0,0000000
5 X
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

Il primo problema (grafico) è identificare, sul grafico i punti X=5,12 e X=5,20.


Ricordiamo che la proiezione del punto di flesso cade ad una distanza pari a 1 scarto
quadratico medio dalla media. Nel nostro esempio, la proiezione del punto di flesso cade nel
punto X=5+0,1=5,1. Il punto X=5,12 sarà, dunque, "un po' più a destra" della proiezione del
punto di flesso, precisamente di una quantità pari a 1/5 del valore dello sqm (0,02). Lo stesso
ragionamento può essere fatto per il punto X=5,2, che si troverà ad una distanza dalla media
pari a 2 volte lo sqm.

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione Normale
Esempio:
Una macchina produce biscotti il cui peso si distribuisce come una Normale, con
media pari a 5 grammi e scarto quadratico medio pari a 0,1 grammi.
Qual è la percentuale di biscotti il cui peso è compreso tra 5,12 e 5,20 grammi?
( x− µ )
2
0,4500000
Titolo del grafico
() 1 −
f(x)
0,4000000
X~N f x = ⋅e 2σ 2
µ = 5 gr s2 = 0,01
0,3500000
2πσ 2

0,3000000

0,2500000

0,2000000
(
Fr 5,12 ≤ X ≤ 5,20 )
0,1500000

0,1000000

0,0500000

0,0000000
5 5,10 5,12 5,20 X
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione Normale
Esempio:
Una macchina produce biscotti il cui peso si distribuisce come una Normale, con
media pari a 5 grammi e scarto quadratico medio pari a 0,1 grammi.
Qual è la percentuale di biscotti il cui peso è compreso tra 5,12 e 5,20 grammi?
( x− µ )
2
0,4500000
Titolo del grafico
() 1 −
f(x)
0,4000000
X~N f x = ⋅e 2σ 2
µ = 5 gr s2 = 0,01
0,3500000
2πσ 2

0,3000000
( x− µ )
2
5,20

( ) ∫ 1 −
0,2500000
Fr 5,12 ≤ X ≤ 5,20 = ⋅e 2σ 2
dx
0,2000000
2πσ 2

0,1500000 5,12
0,1000000 Per semplificare il procedimento, possiamo ricorrere
0,0500000 alla standardizzazione della variabile X, con la
0,0000000
trasformazione: X−µ
5 5,12 5,20 X Z=
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

σ
Una variabile standardizzata conserva le caratteristiche distribuzionali della variabile da cui
proviene ma è una variabile adimensionale, ossia priva di unità di misura; ha sempre media nulla
e varianza unitaria. Inoltre, i valori standardizzati esprimono, per ciascuna unità, la distanza, in
termini di scarti quadratici medi, dalla media.

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Parentesi sulle variabili standardizzate


Esempio:
Si considerano 15 studenti di cui viene misurata l'altezza, in cm.
NUM X Z
1 188 1,232 Effettuiamo la standardizzazione della variabile X, quindi utilizziamo
2 168 -0,693 la trasformazione:
3 184 0,847 X−µ
Z=
4 163 -1,175 σ
5 190 1,425
Per i primi due studenti, i valori standardizzati sono:
6 170 -0,501
7 184 0,847 188,0 −175,2 12,8 168,0 −175,2 −7,2
z1 = = = 1,232 ; z2 = = = −0,693
8 178 0,270 10,387 10,387 10,387 10,387
9 182 0,655
10 162 -1,271
11 163 -1,175
12 183 0,751
13 167 -0,789
14 160 -1,463
15 186 1,040

MEDIA 175,200 0,000


VAR 107,893 1,000
SQM 10,387 1,000

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Parentesi sulle variabili standardizzate


Esempio:
Si considerano 15 studenti di cui viene misurata l'altezza, in cm.
NUM X Z
1 188 1,232 Effettuiamo la standardizzazione della variabile X, quindi utilizziamo
2 168 -0,693 la trasformazione:
3 184 0,847 X−µ
Z=
4 163 -1,175 σ
5 190 1,425
Per i primi due studenti, i valori standardizzati sono:
6 170 -0,501
7 184 0,847 188,0 −175,2 12,8 168,0 −175,2 −7,2
z1 = = = 1,232 ; z2 = = = −0,693
8 178 0,270 10,387 10,387 10,387 10,387
9 182 0,655
10 162 -1,271 Il segno, positivo o negativo, del valore standardizzato Z indica che
11 163 -1,175 quella unità ha, nella variabile originaria X, un valore
12 183 0,751 rispettivamente superiore o inferiore alla media.
13 167 -0,789 Il valore standardizzato , invece, indica di quanti sqm quel valore
14 160 -1,463 differisce dalla media.
15 186 1,040
Nel nostro esempio, il primo studente ha un'altezza superiore alla
MEDIA 175,200 0,000 media (segno positivo di Z), e la distanza del suo valore dalla
VAR 107,893 1,000 media, pari a 12,8cm (188-175,2), è pari a 1,232 volte (valore di Z)
SQM 10,387 1,000 lo scarto quadratico medio (10,387):
12,8 = 1,232 ×10,387
Analogo discorso può essere fatto per tutti gli altri studenti.

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione Normale standardizzaata


Esempio:
Una macchina produce biscotti il cui peso si distribuisce come una Normale, con
media pari a 5 grammi e scarto quadratico medio pari a 0,1 grammi.
Qual è la percentuale di biscotti il cui peso è compreso tra 5,12 e 5,20 grammi?
( x− µ )
2
0,4500000
Titolo del grafico
() 1 −
f(x)
0,4000000
X~N f x = ⋅e 2σ 2
µ = 5 gr s2 = 0,01
0,3500000
2πσ 2

0,3000000
( x− µ )
2
5,20

( ) ∫ 1 −
0,2500000
Fr 5,12 ≤ X ≤ 5,20 = ⋅e 2σ 2
dx
0,2000000
2πσ 2

0,1500000 5,12
0,1000000 Per semplificare il procedimento, possiamo ricorrere
0,0500000 alla standardizzazione della variabile X, con la
0,0000000
trasformazione: X−µ
5 5,12 5,20 X Z=
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

σ
Una variabile standardizzata conserva le caratteristiche distribuzionali della variabile da cui
proviene ma è una variabile adimensionale, ossia priva di unità di misura; ha sempre media nulla
e varianza unitaria. Inoltre, i valori standardizzati esprimono, per ciascuna unità, la distanza, in
termini di scarti quadratici medi, dalla media.

La distribuzione Normale standardizzata, indipendentemente dai parametri della variabile


di partenza, ha sempre media pari a zero e varianza pari a 1, e può quindi essere tabulata.

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione Normale standardizzaata

( x− µ )
2

X−µ z2

() 1
() 1
− −
Z= ∼ N ; µ Z = 0 ; σ Z2 = 1 ; σ Z = 1 f x = ⋅e 2σ 2
f z = ⋅e 2
σ 2πσ 2

0,4500000
Titolo del grafico
f(Z)
0,4000000 0,01
0,3500000

0,3000000 0,00
∫ ()
f z dz = 0,0040

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
00,01 Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione Normale standardizzaata

( x− µ )
2

X−µ z2

() 1
() 1
− −
Z= ∼ N ; µ Z = 0 ; σ Z2 = 1 ; σ Z = 1 f x = ⋅e 2σ 2
f z = ⋅e 2
σ 2πσ 2

0,4500000
Titolo del grafico
f(Z)
0,4000000 0,01
0,3500000

0,3000000 0,00
∫ ()
f z dz = 0,0040

0,02

()
0,2500000

0,2000000 ∫ f z dz = 0,0080
0,1500000 … 0,00

0,1000000 …
0,0500000

0,0000000
0 0,02 Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione Normale standardizzaata

( x− µ )
2

X−µ z2

() 1
() 1
− −
Z= ∼ N ; µ Z = 0 ; σ Z2 = 1 ; σ Z = 1 f x = ⋅e 2σ 2
f z = ⋅e 2
σ 2πσ 2

0,4500000
Titolo del grafico
f(Z)
0,4000000 0,01
0,3500000

0,3000000 0,00
∫ ()
f z dz = 0,0040

0,02

()
0,2500000

0,2000000 ∫ f z dz = 0,0080
0,1500000 0,00

0,1000000 …
0,0500000 3,99
0,0000000
0 3,99
Z ∫ ()
f z dz = 0,5000
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

0,00

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Tavola dlla distribuzione Normale standardizzaata

della distribuzione
Tavola della distribuzione Normale standardizzata
Normale Standardizzata

Area sottesa alla curva di densità Normale standardizzata calcolata tra 0 e Z


Z Area sottesa
0,00 0,01
alla0,02
curva di densità
0,03
normale
0,04
standardizzata
0,05 0,06
calcolata
0,07
tra 0 e0,08
Z 0,09
Z0,0 0,00
0,0000 0,01
0,0040 0,02
0,0080 0,03
0,0120 0,04
0,0160 0,05
0,0199 0,06
0,0239 0,07
0,0279 0,08
0,0319 0,09
0,0359
0,1
0,0 0,0398
0,0000 0,0438
0,0040 0,0478
0,0080 0,0517
0,0120 0,0557
0,0160 0,0596
0,0199 0,0636
0,0239 0,0675
0,0279 0,0714
0,0319 0,0753
0,0359
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,6
0,8
0,2257
0,2881
0,2291
0,2910
0,2324
0,2939
0,2357
0,2967
0,2389
0,2995
0,2422
0,3023
0,2454
0,3051
0,2486
0,3078
0,2517
0,3106
0,2549
0,3133
0,7
0,9 0,2580
0,3159 0,2611
0,3186 0,2642
0,3212 0,2673
0,3238 0,2704
0,3264 0,2734
0,3289 0,2764
0,3315 0,2794
0,3340 0,2823
0,3365 0,2852
0,3389
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9
1,0 0,3159
0,3413 0,3186
0,3438 0,3212
0,3461 0,3238
0,3485 0,3264
0,3508 0,3289
0,3531 0,3315
0,3554 0,3340
0,3577 0,3365
0,3599 0,3389
0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,0
1,2 0,3413
0,3849 0,3438
0,3869 0,3461
0,3888 0,3485
0,3907 0,3508
0,3925 0,3531
0,3944 0,3554
0,3962 0,3577
0,3980 0,3599
0,3997 0,3621
0,4015
1,1
1,3 0,3643
0,4032 0,3665
0,4049 0,3686
0,4066 0,3708
0,4082 0,3729
0,4099 0,3749
0,4115 0,3770
0,4131 0,3790
0,4147 0,3810
0,4162 0,3830
0,4177
1,4
1,2 0,3849
0,4192 0,3869
0,4207 0,3888
0,4222 0,3907
0,4236 0,3925
0,4251 0,3944
0,4265 0,3962
0,4279 0,3980
0,4292 0,3997
0,4306 0,4015
0,4319
1,5
1,3 0,4032
0,4332 0,4049
0,4345 0,4066
0,4357 0,4082
0,4370 0,4099
0,4382 0,4115
0,4394 0,4131
0,4406 0,4147
0,4418 0,4162
0,4429 0,4177
0,4441
1,6
1,4 0,4452
0,4192 0,4463
0,4207 0,4474
0,4222 0,4484
0,4236 0,4495
0,4251 0,4505
0,4265 0,4515
0,4279 0,4525
0,4292 0,4535
0,4306 0,4545
0,4319
1,7
1,5 0,4554
0,4332 0,4564
0,4345 0,4573
0,4357 0,4582
0,4370 0,4591
0,4382 0,4599
0,4394 0,4608
0,4406 0,4616
0,4418 0,4625
0,4429 0,4633
0,4441

1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
LEZIONE 14 – LA VARIABILE CASUALE NORMALE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Tavola dlla distribuzione Normale standardizzaata

della distribuzione
Tavola della distribuzione Normale standardizzata
Normale Standardizzata

Area sottesa alla curva di densità Normale standardizzata calcolata tra 0 e Z


Z Area sottesa
0,00 0,01
alla0,02
curva di densità
0,03
normale
0,04
standardizzata
0,05 0,06
calcolata
0,07
tra 0 e0,08
Z 0,09 2° cifra decimale di Z
Z0,0 0,00
0,0000 0,01
0,0040 0,02
0,0080 0,03
0,0120 0,04
0,0160 0,05
0,0199 0,06
0,0239 0,07
0,0279 0,08
0,0319 0,09
0,0359
0,00,1 0,0398
0,0000 0,0438
0,0040 0,0478
0,0080 0,0517
0,0120 0,0557
0,0160 0,0596
0,0199 0,0636
0,0239 0,0675
0,0279 0,0714
0,0319 0,0753
0,0359
0,10,2 0,0793
0,0398
0,0832
0,0438
0,0871
0,0478
0,0910
0,0517
0,0948
0,0557
0,0987
0,0596
0,1026
0,0636
0,1064
0,0675
0,1103
0,0714
0,1141
0,0753
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,8
0,70,9
0,2881
0,2580
0,2910
0,2611
0,2939
0,2642
0,2967
0,2673
0,2995
0,2704
0,3023
0,2734
0,3051
0,2764
0,3078
0,2794
0,3106
0,2823
0,3133
0,2852 Area
0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 compresa tra 0 e Z
0,91,0 0,3159
0,3413 0,3186
0,3438 0,3212
0,3461 0,3238
0,3485 0,3264
0,3508 0,3289
0,3531 0,3315
0,3554 0,3340
0,3577 0,3365
0,3599 0,3389
0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,01,2 0,3413
0,3849 0,3438
0,3869 0,3461
0,3888 0,3485
0,3907 0,3508
0,3925 0,3531
0,3944 0,3554
0,3962 0,3577
0,3980 0,3599
0,3997 0,3621
0,4015
1,11,3 0,3643
0,4032 0,3665
0,4049 0,3686
0,4066 0,3708
0,4082 0,3729
0,4099 0,3749
0,4115 0,3770
0,4131 0,3790
0,4147 0,3810
0,4162 0,3830
0,4177
1,21,4 0,3849
0,4192 0,3869
0,4207 0,3888
0,4222 0,3907
0,4236 0,3925
0,4251 0,3944
0,4265 0,3962
0,4279 0,3980
0,4292 0,3997
0,4306 0,4015
0,4319
1,31,5 0,4032
0,4332 0,4049
0,4345 0,4066
0,4357 0,4082
0,4370 0,4099
0,4382 0,4115
0,4394 0,4131
0,4406 0,4147
0,4418 0,4162
0,4429 0,4177
0,4441
1,41,6 0,4452
0,4192 0,4463
0,4207 0,4474
0,4222 0,4484
0,4236 0,4495
0,4251 0,4505
0,4265 0,4515
0,4279 0,4525
0,4292 0,4535
0,4306 0,4545
0,4319
1,51,7 0,4554
0,4332 0,4564
0,4345 0,4573
0,4357 0,4582
0,4370 0,4591
0,4382 0,4599
0,4394 0,4608
0,4406 0,4616
0,4418 0,4625
0,4429 0,4633
0,4441

1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
LEZIONE 14 – LA VARIABILE CASUALE NORMALE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione Normale standardizzaata

0,4500000
Titolo del grafico
f(x)
0,4000000
( x− µ )
2

() 1
0,3500000 −
0,3000000 X~N f x = ⋅e 2σ 2
µ = 5 gr s2 = 0,01
0,2500000 2πσ 2
( x− µ )
2
5,20

( ) ∫
0,2000000
1 −
0,1500000 Fr 5,12 ≤ X ≤ 5,20 = ⋅e 2σ 2
dx
0,1000000 2πσ 2
5,12
0,0500000

0,0000000
5 5,12 5,20 X
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

0,4500000
Titolo del grafico 1

() 1
f(z)
0,4000000 − z2
0,3500000
Z~N f z = ⋅e2
µ=0 s2 = 1
0,3000000

z2

( ) ∫
0,2500000
1
1 − z2
0,2000000 Fr z1 ≤ Z ≤ z2 = ⋅e 2
dz
0,1500000 2π
z1
0,1000000

0,0500000 5,12 − 5,00 5,20 − 5,00


z1 = = 1,20 z2 = = 2,00
0,0000000 0,10 0,10
0 z1 z2 Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Tavola dlla distribuzione Normale standardizzaata

Tavola della distribuzione Normale standardizzata


Tavola della distribuzione Normale Standardizzata

Area sottesa alla curva di densità Normale standardizzata


Area sottesa calcolata
alla curva di densità normale tra 0calcolata
standardizzata e Z tra 0 e Z
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
Z 0,00 0,01 0,02 0,03 0,040,0000
0,0
0,05
0,0040 0,0080
0,06
0,0120 0,0160
0,07
0,0199 0,0239
0,08
0,0279 0,0319
0,090,0359
0,0398 0,0438
0,0 0,0000 0,0040 0,0080 0,0120 0,0160
0,1
0,2 0,0793
0,01990,0478
0,08320,0871
0,0517
0,0239
0,0910
0,0557
0,0948
0,0596
0,0279
0,0987
0,0636
0,1026
0,0675
0,0319
0,1064
0,0714 0,0753
0,0359
0,1103 0,1141
0,1 0,0398 0,0438 0,0478 0,0517 0,0557
0,3 0,1179 0,05960,1255 0,0636
0,1217 0,1293 0,1331 0,0675
0,1368 0,14060,0714
0,1443 0,0753
0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,2 0,0793 0,0832 0,0871 0,0910 0,0948
0,5 0,1915 0,09870,1985 0,1026
0,1950 0,2019 0,2054 0,1064
0,2088 0,21230,1103
0,2157 0,1141
0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,3 0,1179 0,1217 0,1255 0,1293 0,1331
0,7 0,2580 0,13680,2642 0,1406
0,2611 0,2673 0,2704 0,1443
0,2734 0,2764 0,1480
0,2794 0,1517
0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,4 0,1554 0,1591 0,1628 0,1664 0,1700
0,9 0,3159
0,17360,3212 0,1772
0,3186 0,3238 0,3264
0,1808
0,3289 0,3315
0,1844
0,3340
0,1879
0,3365 0,3389

0,5 0,1915 0,1950 0,1985 0,2019 0,2054


1,0 0,3413
0,20880,3461 0,2123
0,3438 0,3485 0,3508
0,2157
0,3531 0,3554
0,2190
0,3577
0,2224
0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686 0,2454
0,3665 0,3708 0,3729 0,2486
0,3749 0,3770 0,2517
0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,27340,4066 0,2764
0,4049 0,4082 0,4099 0,2794
0,4115 0,41310,2823
0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357 0,3051
0,4345 0,4370 0,4382 0,3078
0,4394 0,44060,3106
0,4418 0,3133
0,4429 0,4441
0,4452 0,4463
0,9 0,3159 0,3186 0,3212 0,3238 1,6
0,3264
1,7 0,4554
0,32890,4474
0,45640,4573
0,4484
0,3315
0,4582
0,4495
0,4591
0,4505
0,3340
0,4599
0,4515
0,4608
0,4525
0,3365
0,4616
0,4535 0,4545
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817


1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830 0,3770
0,4826 0,4834 0,4838 0,3790
0,4842 0,3810
0,4846 0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,3944
0,4896 0,4898 0,3962
0,4901 0,4904 0,3980
0,4906 0,3997
0,4909 0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,49400,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956 0,4279
0,4955 0,4957 0,4959 0,4292
0,4960 0,4961 0,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976 0,4406
0,4975 0,4977 0,4977 0,4418
0,4978 0,4979 0,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991 0,4608
0,4991 0,4991 0,4992
0,4616
0,4992
0,4625
0,4992 0,4992
0,4633
0,4993 0,4993
0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,4678
0,4995 0,4995
0,4686
0,4996 0,4996
0,4693
0,4996
0,4699
0,4996 0,4996
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,4997 0,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4812
0,4999 0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione Normale standardizzaata

0,4500000
Titolo del grafico
f(x)
0,4000000
( x− µ )
2

() 1
0,3500000 −
0,3000000 X~N f x = ⋅e 2σ 2
µ = 5 gr s2 = 0,01
0,2500000 2πσ 2
( x− µ )
2
5,20

( ) ∫
0,2000000
1 −
0,1500000 Fr 5,12 ≤ X ≤ 5,20 = ⋅e 2σ 2
dx = 0,0923
0,1000000 2πσ 2
5,12
0,0500000

0,0000000
5 5,12 5,20 X
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

0,4500000
Titolo del grafico 1

() 1
f(z)
0,4000000 − z2
0,3500000
Z~N f z = ⋅e 2
µ=0 s2 = 1
0,3000000

( )
0,2500000

0,2000000 Fr 1,20 ≤ Z ≤ 2,00 = 0,4772 - 0,3849 = 0,0923


0,1500000

0,1000000

0,0500000

0,0000000
0 1,20 2,00 Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con
media pari a 2.850 ore e scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore?
b. duri meno di 2.500 ore?
c. duri più di 2.600 ore?
d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000

0,3500000

0,3000000
Dove si trova il punto X=3.000?
0,2500000
Punto La proiezione del punto di flesso si trova ad una
di flesso distanza dalla media pari ad uno scarto
0,2000000
quadratico medio. Nel nostro caso, si troverà nel
0,1500000
punto X=(2.850+160)=3.010.
0,1000000
Il punto X=3.000 si troverà, dunque, leggermente
0,0500000
più a sinistra.
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.850 2.850+160
3010

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000

0,3500000 (
P X > 3.000 )
0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.850 3.000

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
0,4500000
Titolo del grafico
f(x)
0,4000000

⎛ X − µ 3.000 − 2.850 ⎞
( )
0,3500000

0,3000000
P X > 3.000 = P ⎜ > ⎟
⎝ σ 160 ⎠
( )
0,2500000

0,2000000 = P Z > 0,94


0,1500000

0,1000000

0,0500000

0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.850 3.000

0,4500000
Titolo del grafico
f(z)
0,4000000

0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

0 0,94

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Tavola dlla distribuzione Normale standardizzaata

Tavola della distribuzione Normale standardizzata


Tavola della distribuzione Normale Standardizzata

Area sottesa alla curva di densità Normale standardizzata


Area sottesa calcolata
alla curva di densità normale tra 0calcolata
standardizzata e Z tra 0 e Z
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
Z 0,00 0,01 0,02 0,03 0,040,0000
0,0
0,05
0,0040 0,0080
0,06
0,0120 0,0160
0,07
0,0199 0,0239
0,08
0,0279 0,0319
0,090,0359
0,0398 0,0438
0,0 0,0000 0,0040 0,0080 0,0120 0,0160
0,1
0,2 0,0793
0,01990,0478
0,0832 0,0871
0,0517
0,0239
0,0910
0,0557
0,0948
0,0596
0,0279
0,0987
0,0636
0,1026
0,0675
0,0319
0,1064
0,0714 0,0753
0,0359
0,1103 0,1141
0,1 0,0398 0,0438 0,0478 0,0517 0,0557
0,3 0,1179 0,05960,1255 0,0636
0,1217 0,1293 0,1331 0,0675
0,1368 0,14060,0714
0,1443 0,0753
0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,2 0,0793 0,0832 0,0871 0,0910 0,0948
0,5 0,1915 0,09870,1985 0,1026
0,1950 0,2019 0,2054 0,1064
0,2088 0,21230,1103
0,2157 0,1141
0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,3 0,1179 0,1217 0,1255 0,1293 0,1331
0,7 0,2580 0,13680,2642 0,1406
0,2611 0,2673 0,2704 0,1443
0,2734 0,27640,1480
0,2794 0,1517
0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,4 0,1554 0,1591 0,1628 0,1664 0,1700
0,9 0,3159
0,17360,3212 0,1772
0,3186 0,3238 0,3264
0,1808
0,3289 0,3315
0,1844
0,3340
0,1879
0,3365 0,3389

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686 0,2454
0,3665 0,3708 0,3729 0,2486
0,3749 0,2517
0,3770 0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,2734
0,4049 0,4066 0,2764
0,4082 0,4099 0,2794
0,4115 0,2823
0,4131 0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357 0,3051
0,4345 0,4370 0,4382 0,3078
0,4394 0,3106
0,4406 0,4418 0,3133
0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
0,9 0,3159 0,3186 0,3212 0,3238 0,3264
1,7 0,4554
0,3289
0,4564 0,4573
0,3315
0,4582 0,4591
0,3340
0,4599
0,3365
0,4608 0,4616
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830 0,3770
0,4826 0,4834 0,4838 0,3790
0,4842 0,3810
0,4846 0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,3944
0,4896 0,4898 0,3962
0,4901 0,4904 0,3980
0,4906 0,3997
0,4909 0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,4940 0,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956 0,4279
0,4955 0,4957 0,4959 0,4292
0,4960 0,49610,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976 0,4406
0,4975 0,4977 0,4977 0,4418
0,4978 0,4979 0,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991 0,4608
0,4991 0,4991 0,4992
0,4616
0,4992
0,4625
0,4992 0,4992
0,4633
0,4993 0,4993
0,4993 0,4993
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,46780,4994
0,4995 0,4995
0,4994
0,4686
0,4996
0,4994
0,4996
0,4994
0,4693
0,4996
0,4994
0,4996
0,4995
0,4699
0,4996
0,4995 0,4995
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,49970,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4812
0,4999 0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857

2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
0,4500000
Titolo del grafico
f(x)
0,4000000

⎛ X − µ 3.000 − 2.850 ⎞
( )
0,3500000

0,3000000
P X > 3.000 = P ⎜ > ⎟
⎝ σ 160 ⎠
( )
0,2500000

0,2000000 ( )
P Z > 0,94 = 0,5000
=P −Z> 0,94 = 0,1736
0,3264
0,1500000

0,1000000

0,0500000

0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.850 3.000

0,4500000
Titolo del grafico
f(z)
0,4000000

0,3500000

0,3000000

0,2500000
0,3264

0,2000000

( )
0,1500000

0,1000000 P Z > 0,94 = 0,5000 − 0,3264 = 0,1736


0,0500000

0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

0 0,94

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico ⎛ X − µ 3.000 − 2.850 ⎞
f(x)
0,4000000

0,3500000 (
P X > 3.000
=P⎜
)
⎝ σ
>
160 ⎟⎠
0,3000000

0,2500000
(
= P Z > 0,94 )
( )
0,2000000

0,1500000 P X > 3.000 = 0,1736


0,1000000

0,0500000

0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.850 3.000

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000

0,3500000

0,3000000
Dove si trova il punto X=2.500?
0,2500000
Il punto cercato si trova a sinistra della media, per
un valore di 350 ore (2850-2500), pari ad oltre due
0,2000000
volte lo scarto quadratico medio.
0,1500000

0,1000000

0,0500000

0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.850

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000

0,3500000

0,3000000

( )
0,2500000

0,2000000
P X < 2.500
0,1500000

0,1000000

0,0500000

0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.500 2.850

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
0,4500000
Titolo del grafico
f(x)
0,4000000

⎛ X − µ 2.500 − 2.850 ⎞
( )
0,3500000

0,3000000
P X < 2.500 = P ⎜ < ⎟
⎝ σ 160 ⎠
( ) ( )
0,2500000

0,2000000 = P Z < −2,19 = P Z > 2,19


0,1500000

0,1000000

0,0500000

0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.500 2.850

0,4500000
Titolo del grafico
f(z)
0,4000000

0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

-2,19 0 2,19

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Tavola dlla distribuzione Normale standardizzaata

Tavola della distribuzione Normale standardizzata


Tavola della distribuzione Normale Standardizzata

Area sottesa alla curva di densità Normale standardizzata


Area sottesa calcolata
alla curva di densità normale tra 0calcolata
standardizzata e Z tra 0 e Z
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
Z 0,00 0,01 0,02 0,03 0,040,0000
0,0
0,05
0,0040 0,0080
0,06
0,0120 0,0160
0,07
0,0199 0,0239
0,08
0,0279 0,0319
0,090,0359
0,0398 0,0438
0,0 0,0000 0,0040 0,0080 0,0120 0,0160
0,1
0,2 0,0793
0,01990,0478
0,0832 0,0871
0,0517
0,0239
0,0910
0,0557
0,0948
0,0596
0,0279
0,0987
0,0636
0,1026
0,0675
0,0319
0,1064
0,0714 0,0753
0,0359
0,1103 0,1141
0,1 0,0398 0,0438 0,0478 0,0517 0,0557
0,3 0,1179 0,05960,1255
0,1217 0,0636
0,1293 0,1331 0,0675
0,1368 0,14060,0714
0,1443 0,0753
0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,2 0,0793 0,0832 0,0871 0,0910 0,0948
0,5 0,1915 0,09870,1985
0,1950 0,1026
0,2019 0,2054 0,1064
0,2088 0,21230,1103
0,2157 0,1141
0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,3 0,1179 0,1217 0,1255 0,1293 0,1331
0,7 0,2580 0,13680,2642
0,2611 0,1406
0,2673 0,2704 0,1443
0,2734 0,27640,1480
0,2794 0,1517
0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,4 0,1554 0,1591 0,1628 0,1664 0,1700
0,9 0,3159
0,17360,3212
0,3186
0,1772
0,3238 0,3264
0,1808
0,3289 0,3315
0,1844
0,3340
0,1879
0,3365 0,3389

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686
0,3665 0,2454
0,3708 0,3729 0,2486
0,3749 0,37700,2517
0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,27340,4066
0,4049 0,2764
0,4082 0,4099 0,2794
0,4115 0,41310,2823
0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357
0,4345 0,3051
0,4370 0,4382 0,3078
0,4394 0,44060,3106
0,4418 0,3133
0,4429 0,4441
0,4452 0,4463
0,9 0,3159 0,3186 0,3212 0,3238 1,6
0,3264
1,7 0,4554
0,32890,4474
0,4564 0,4573
0,4484
0,3315
0,4582
0,4495
0,4591
0,4505
0,3340
0,4599
0,4515
0,4608
0,4525
0,3365
0,4616
0,4535 0,4545
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830
0,4826 0,3770
0,4834 0,4838 0,3790
0,4842 0,48460,3810
0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,39440,4898
0,4896 0,3962
0,4901 0,4904 0,3980
0,4906 0,49090,3997
0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,4940 0,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956
0,4955 0,4279
0,4957 0,4959 0,4292
0,4960 0,49610,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976
0,4975 0,4406
0,4977 0,4977 0,4418
0,4978 0,49790,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991
0,4991
0,4608
0,4991 0,4992
0,4616
0,4992 0,4992
0,4625
0,4992
0,4633
0,4993 0,4993
0,4993 0,4993
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,46780,4994
0,4995 0,4995
0,4994
0,4686
0,4996
0,4994
0,4996
0,4994
0,4693
0,4996
0,4994
0,4996
0,4995
0,4699
0,4996
0,4995 0,4995
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,4997 0,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4999 0,4812
0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
0,4500000
Titolo del grafico
f(x)
0,4000000

⎛ X − µ 2.500 − 2.850 ⎞
( )
0,3500000

0,3000000
P X < 2.500 = P ⎜ < ⎟
⎝ σ 160 ⎠
( ) ( )
0,2500000

0,2000000 = P Z < −2,19 = P Z > 2,19


0,1500000

0,1000000 = 0,5000-0,4857 = 0,0143


0,0500000

0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.500 2.850

0,4500000
Titolo del grafico
f(z)
0,4000000

0,3500000

0,3000000

0,2500000

0,2000000
0,4857

0,1500000

0,1000000

0,0500000

0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

-2,19 0 2,19

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000

0,3500000

0,3000000

( )
0,2500000

0,2000000
P X < 2.500 = 0,0143
0,1500000

0,1000000

0,0500000

0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.500 2.850

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000
⎛ X − µ 2.600 − 2.850 ⎞
0,3500000

0,3000000
( )
P X > 2.600 = P ⎜
⎝ σ
<
160


( )
0,2500000

0,2000000
= P Z > −1,56
0,1500000

0,1000000

0,0500000

0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.600 2.850

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
0,4500000

f(x) Titolo del grafico


0,4000000

⎛ X − µ 2.600 − 2.850 ⎞
( )
0,3500000

0,3000000 P X > 2.600 = P ⎜ > ⎟


⎝ σ 160 ⎠
( )
0,2500000

0,2000000 = P Z ≥ −1,56

( )
0,1500000

0,1000000 = 0,5 + P 0 ≤ Z ≤ 1,56


0,0500000

0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.600 2.850

0,4500000

f(z) Titolo del grafico


0,4000000

0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

-1,56 0

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Tavola dlla distribuzione Normale standardizzaata

Tavola della distribuzione Normale standardizzata


Tavola della distribuzione Normale Standardizzata

Area sottesa alla curva di densità Normale standardizzata


Area sottesa calcolata
alla curva di densità normale tra 0calcolata
standardizzata e Z tra 0 e Z
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
Z 0,00 0,01 0,02 0,03 0,040,0000
0,0
0,05
0,0040 0,0080
0,06
0,0120 0,0160
0,07
0,0199 0,0239
0,08
0,0279 0,0319
0,090,0359
0,0398 0,0438
0,0 0,0000 0,0040 0,0080 0,0120 0,0160
0,1
0,2 0,0793
0,01990,0478
0,0832 0,0871
0,0517
0,0239
0,0910
0,0557
0,0948
0,0596
0,0279
0,0987
0,0636
0,1026
0,0675
0,0319
0,1064
0,0714 0,0753
0,0359
0,1103 0,1141
0,1 0,0398 0,0438 0,0478 0,0517 0,0557
0,3 0,1179 0,05960,1255
0,1217 0,0636
0,1293 0,1331 0,0675
0,1368 0,14060,0714
0,1443 0,0753
0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,2 0,0793 0,0832 0,0871 0,0910 0,0948
0,5 0,1915 0,09870,1985
0,1950 0,1026
0,2019 0,2054 0,1064
0,2088 0,21230,1103
0,2157 0,1141
0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,3 0,1179 0,1217 0,1255 0,1293 0,1331
0,7 0,2580 0,13680,2642
0,2611 0,1406
0,2673 0,2704 0,1443
0,2734 0,27640,1480
0,2794 0,1517
0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,4 0,1554 0,1591 0,1628 0,1664 0,1700
0,9 0,3159
0,17360,3212
0,3186
0,1772
0,3238 0,3264
0,1808
0,3289 0,3315
0,1844
0,3340
0,1879
0,3365 0,3389

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686
0,3665 0,2454
0,3708 0,3729 0,2486
0,3749 0,37700,2517
0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,27340,4066
0,4049 0,2764
0,4082 0,4099 0,2794
0,4115 0,41310,2823
0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357
0,4345 0,3051
0,4370 0,4382 0,3078
0,4394 0,44060,3106
0,4418 0,3133
0,4429 0,4441
0,4452 0,4463
0,9 0,3159 0,3186 0,3212 0,3238 1,6
0,3264
1,7 0,4554
0,32890,4474
0,4564 0,4573
0,4484
0,3315
0,4582
0,4495
0,4591
0,4505
0,3340
0,4599
0,4515
0,4608
0,4525
0,3365
0,4616
0,4535 0,4545
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830
0,4826 0,3770
0,4834 0,4838 0,3790
0,4842 0,48460,3810
0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,39440,4898
0,4896 0,3962
0,4901 0,4904 0,3980
0,4906 0,49090,3997
0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,4940 0,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956
0,4955 0,4279
0,4957 0,4959 0,4292
0,4960 0,49610,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976
0,4975 0,4406
0,4977 0,4977 0,4418
0,4978 0,49790,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991
0,4991
0,4608
0,4991 0,4992
0,4616
0,4992 0,4992
0,4625
0,4992
0,4633
0,4993 0,4993
0,4993 0,4993
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,46780,4994
0,4995 0,4995
0,4994
0,4686
0,4996
0,4994
0,4996
0,4994
0,4693
0,4996
0,4994
0,4996
0,4995
0,4699
0,4996
0,4995 0,4995
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,4997 0,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4999 0,4812
0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000
⎛ X − µ 2.600 − 2.850 ⎞
0,3500000

0,3000000
( )
P X > 2.600 = P ⎜
⎝ σ
>
160


0,2500000
(
= P Z ≥ −1,56 )
0,4406

0,2000000

0,1500000

0,1000000
(
= 0,5 + P 0 ≤ Z ≤ 1,56 )
0,0500000
0,5000 = 0,5000 + 0,4406 = 0,9406
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.600 2.850

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000

0,3500000

0,3000000
(
P 2.500 ≤ X ≤ 2.700 )
0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.500 2.700 2.850

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
0,4500000
Titolo del grafico
f(x)
0,4000000

0,3500000
⎛ 2.500 − 2.850 X − µ 2.700 − 2.850 ⎞
0,3000000

0,2500000
(
P 2.500 ≤ X ≤ 2.700 = P ⎜

)
160

σ

160


0,2000000

0,1500000
(
= P −2,19 ≤ Z ≤ −0,94 )
0,1000000 = P ( 0,94 ≤ Z ≤ 2,19)
0,0500000

0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.500 2.700 2.850

0,4500000

f(z)
Titolo del grafico
0,4000000

0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

-2,19 -0,94 0 0,94 2,19

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Tavola dlla distribuzione Normale standardizzaata

Tavola della distribuzione Normale standardizzata


Tavola della distribuzione Normale Standardizzata

Area sottesa alla curva di densità Normale standardizzata


Area sottesa calcolata
alla curva di densità normale tra 0calcolata
standardizzata e Z tra 0 e Z
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
Z 0,00 0,01 0,02 0,03 0,040,0000
0,0
0,05
0,0040 0,0080
0,06
0,0120 0,0160
0,07
0,0199 0,0239
0,08
0,0279 0,0319
0,090,0359
0,0398 0,0438
0,0 0,0000 0,0040 0,0080 0,0120 0,0160
0,1
0,2 0,0793
0,01990,0478
0,0832 0,0871
0,0517
0,0239
0,0910
0,0557
0,0948
0,0596
0,0279
0,0987
0,0636
0,1026
0,0675
0,0319
0,1064
0,0714 0,0753
0,0359
0,1103 0,1141
0,1 0,0398 0,0438 0,0478 0,0517 0,0557
0,3 0,1179 0,05960,1255
0,1217 0,0636
0,1293 0,1331 0,0675
0,1368 0,14060,0714
0,1443 0,0753
0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,2 0,0793 0,0832 0,0871 0,0910 0,0948
0,5 0,1915 0,09870,1985
0,1950 0,1026
0,2019 0,2054 0,1064
0,2088 0,21230,1103
0,2157 0,1141
0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,3 0,1179 0,1217 0,1255 0,1293 0,1331
0,7 0,2580 0,13680,2642
0,2611 0,1406
0,2673 0,2704 0,1443
0,2734 0,27640,1480
0,2794 0,1517
0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,4 0,1554 0,1591 0,1628 0,1664 0,1700
0,9 0,3159
0,17360,3212
0,3186
0,1772
0,3238 0,3264
0,1808
0,3289 0,3315
0,1844
0,3340
0,1879
0,3365 0,3389

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686
0,3665 0,2454
0,3708 0,3729 0,2486
0,3749 0,37700,2517
0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,27340,4066
0,4049 0,2764
0,4082 0,4099 0,2794
0,4115 0,41310,2823
0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357
0,4345 0,3051
0,4370 0,4382 0,3078
0,4394 0,44060,3106
0,4418 0,3133
0,4429 0,4441
0,4452 0,4463
0,9 0,3159 0,3186 0,3212 0,3238 1,6
0,3264
1,7 0,4554
0,32890,4474
0,4564 0,4573
0,4484
0,3315
0,4582
0,4495
0,4591
0,4505
0,3340
0,4599
0,4515
0,4608
0,4525
0,3365
0,4616
0,4535 0,4545
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830
0,4826 0,3770
0,4834 0,4838 0,3790
0,4842 0,48460,3810
0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,39440,4898
0,4896 0,3962
0,4901 0,4904 0,3980
0,4906 0,49090,3997
0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,4940 0,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956
0,4955 0,4279
0,4957 0,4959 0,4292
0,4960 0,49610,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976
0,4975 0,4406
0,4977 0,4977 0,4418
0,4978 0,49790,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991
0,4991
0,4608
0,4991 0,4992
0,4616
0,4992 0,4992
0,4625
0,4992
0,4633
0,4993 0,4993
0,4993 0,4993
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,46780,4994
0,4995 0,4995
0,4994
0,4686
0,4996
0,4994
0,4996
0,4994
0,4693
0,4996
0,4994
0,4996
0,4995
0,4699
0,4996
0,4995 0,4995
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,4997 0,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4999 0,4812
0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000
⎛ 2.500 − 2.850 X − µ 2.700 − 2.850 ⎞
0,3500000 (
P 2.500 ≤ X ≤ 2.700 = P ⎜

) 160

σ

160


0,3000000

0,2500000 (
= P −2,19 ≤ Z ≤ −0,94 )
= P ( 0,94 ≤ Z ≤ 2,19)
0,2000000

0,1500000

0,1000000 = 0,4857- 0,3264 = 0,1593


0,0500000

0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.500 2.700 2.850

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
( )
f(x)
0,4000000

0,3500000
P 2.500 ≤ X ≤ 3.000
0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.500 2.850 3.000

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
0,4500000
Titolo del grafico
f(x)
0,4000000
⎛ 2.500 − 2.850 X − µ 3.000 − 2.850 ⎞
0,3500000

0,3000000
(
P 2.500 ≤ X ≤ 3.000 = P ⎜

) 160

σ

160


0,2500000

0,2000000
(
= P −2,19 ≤ Z ≤ 0,94 )
0,1500000 = P ( 0 ≤ Z ≤ 2,19) + P ( 0 ≤ Z ≤ 0,94 )
0,1000000

0,0500000

0,0000000
X
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

2.500 2.850 3.000

0,4500000
Titolo del grafico
f(z)
0,4000000

0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

-2,19 0 0,94

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Tavola dlla distribuzione Normale standardizzaata

Tavola della distribuzione Normale standardizzata


Tavola della distribuzione Normale Standardizzata

Area sottesa alla curva di densità Normale standardizzata


Area sottesa calcolata
alla curva di densità normale tra 0calcolata
standardizzata e Z tra 0 e Z
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
Z 0,00 0,01 0,02 0,03 0,040,0000
0,0
0,05
0,0040 0,0080
0,06
0,0120 0,0160
0,07
0,0199 0,0239
0,08
0,0279 0,0319
0,090,0359
0,0398 0,0438
0,0 0,0000 0,0040 0,0080 0,0120 0,0160
0,1
0,2 0,0793
0,01990,0478
0,0832 0,0871
0,0517
0,0239
0,0910
0,0557
0,0948
0,0596
0,0279
0,0987
0,0636
0,1026
0,0675
0,0319
0,1064
0,0714 0,0753
0,0359
0,1103 0,1141
0,1 0,0398 0,0438 0,0478 0,0517 0,0557
0,3 0,1179 0,05960,1255
0,1217 0,0636
0,1293 0,1331 0,0675
0,1368 0,14060,0714
0,1443 0,0753
0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,2 0,0793 0,0832 0,0871 0,0910 0,0948
0,5 0,1915 0,09870,1985
0,1950 0,1026
0,2019 0,2054 0,1064
0,2088 0,21230,1103
0,2157 0,1141
0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,3 0,1179 0,1217 0,1255 0,1293 0,1331
0,7 0,2580 0,13680,2642
0,2611 0,1406
0,2673 0,2704 0,1443
0,2734 0,27640,1480
0,2794 0,1517
0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,4 0,1554 0,1591 0,1628 0,1664 0,1700
0,9 0,3159
0,17360,3212
0,3186
0,1772
0,3238 0,3264
0,1808
0,3289 0,3315
0,1844
0,3340
0,1879
0,3365 0,3389

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686
0,3665 0,2454
0,3708 0,3729 0,2486
0,3749 0,37700,2517
0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,27340,4066
0,4049 0,2764
0,4082 0,4099 0,2794
0,4115 0,41310,2823
0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357
0,4345 0,3051
0,4370 0,4382 0,3078
0,4394 0,44060,3106
0,4418 0,3133
0,4429 0,4441
0,4452 0,4463
0,9 0,3159 0,3186 0,3212 0,3238 1,6
0,3264
1,7 0,4554
0,32890,4474
0,4564 0,4573
0,4484
0,3315
0,4582
0,4495
0,4591
0,4505
0,3340
0,4599
0,4515
0,4608
0,4525
0,3365
0,4616
0,4535 0,4545
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830
0,4826 0,3770
0,4834 0,4838 0,3790
0,4842 0,48460,3810
0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,39440,4898
0,4896 0,3962
0,4901 0,4904 0,3980
0,4906 0,49090,3997
0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,4940 0,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956
0,4955 0,4279
0,4957 0,4959 0,4292
0,4960 0,49610,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976
0,4975 0,4406
0,4977 0,4977 0,4418
0,4978 0,49790,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991
0,4991
0,4608
0,4991 0,4992
0,4616
0,4992 0,4992
0,4625
0,4992
0,4633
0,4993 0,4993
0,4993 0,4993
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,46780,4994
0,4995 0,4995
0,4994
0,4686
0,4996
0,4994
0,4996
0,4994
0,4693
0,4996
0,4994
0,4996
0,4995
0,4699
0,4996
0,4995 0,4995
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,4997 0,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4999 0,4812
0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000

⎛ 2.500 − 2.850 X − µ 3.000 − 2.850 ⎞


( )
0,3500000

0,3000000
P 2.500 ≤ X ≤ 3.000 = P ⎜ ≤ ≤ ⎟
⎝ 160 σ 160 ⎠
( )
0,2500000

0,2000000
= P −2,19 ≤ Z ≤ 0,94
0,1500000
= P ( 0 ≤ Z ≤ 2,19) + P ( 0 ≤ Z ≤ 0,94 )
0,1000000

0,0500000
= 0,4857 + 0,3264 = 0,8121
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.500 2.850 3.000

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000

0,3500000 Stiamo, dunque, cercando l'85° percentile della


0,3000000 distribuzione.
0,2500000

0,2000000
35%

0,1500000

0,1000000

0,0500000 15%
0,0000000
X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.850 ?

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
0,4500000
Titolo del grafico
f(x)
0,4000000

0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
X
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

2.850 ?

0,4500000
Titolo del grafico
f(z)
0,4000000

0,3500000

0,3000000 Qual è l'85° percentile della distribuzione Normale


0,2500000 standardizzata?
0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

0 ?

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Tavola dlla distribuzione Normale standardizzaata

Tavola della distribuzione Normale standardizzata


Tavola della distribuzione Normale Standardizzata

Area sottesa alla curva di densità Normale standardizzata


Area sottesa calcolata
alla curva di densità normale tra 0calcolata
standardizzata e Z tra 0 e Z
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
Z 0,00 0,01 0,02 0,03 0,040,0000
0,0
0,05
0,0040 0,0080
0,06
0,0120 0,0160
0,07
0,0199 0,0239
0,08
0,0279 0,0319
0,090,0359
0,0398 0,0438
0,0 0,0000 0,0040 0,0080 0,0120 0,0160
0,1
0,2 0,0793
0,01990,0478
0,0832 0,0871
0,0517
0,0239
0,0910
0,0557
0,0948
0,0596
0,0279
0,0987
0,0636
0,1026
0,0675
0,0319
0,1064
0,0714 0,0753
0,0359
0,1103 0,1141
0,1 0,0398 0,0438 0,0478 0,0517 0,0557
0,3 0,1179 0,05960,1255
0,1217 0,0636
0,1293 0,1331 0,0675
0,1368 0,14060,0714
0,1443 0,0753
0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,2 0,0793 0,0832 0,0871 0,0910 0,0948
0,5 0,1915 0,09870,1985
0,1950 0,1026
0,2019 0,2054 0,1064
0,2088 0,21230,1103
0,2157 0,1141
0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,3 0,1179 0,1217 0,1255 0,1293 0,1331
0,7 0,2580 0,13680,2642
0,2611 0,1406
0,2673 0,2704 0,1443
0,2734 0,27640,1480
0,2794 0,1517
0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,4 0,1554 0,1591 0,1628 0,1664 0,1700
0,9 0,3159
0,17360,3212
0,3186
0,1772
0,3238 0,3264
0,1808
0,3289 0,3315
0,1844
0,3340
0,1879
0,3365 0,3389

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686
0,3665 0,2454
0,3708 0,3729 0,2486
0,3749 0,37700,2517
0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,27340,4066
0,4049 0,2764
0,4082 0,4099 0,2794
0,4115 0,41310,2823
0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357
0,4345 0,3051
0,4370 0,4382 0,3078
0,4394 0,44060,3106
0,4418 0,3133
0,4429 0,4441
0,4452 0,4463
0,9 0,3159 0,3186 0,3212 0,3238 1,6
0,3264
1,7 0,4554
0,32890,4474
0,4564 0,4573
0,4484
0,3315
0,4582
0,4495
0,4591
0,4505
0,3340
0,4599
0,4515
0,4608
0,4525
0,3365
0,4616
0,4535 0,4545
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830
0,4826 0,3770
0,4834 0,4838 0,3790
0,4842 0,48460,3810
0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,39440,4898
0,4896 0,3962
0,4901 0,4904 0,3980
0,4906 0,49090,3997
0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,4940 0,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956
0,4955 0,4279
0,4957 0,4959 0,4292
0,4960 0,49610,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976
0,4975 0,4406
0,4977 0,4977 0,4418
0,4978 0,49790,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991
0,4991
0,4608
0,4991 0,4992
0,4616
0,4992 0,4992
0,4625
0,4992
0,4633
0,4993 0,4993
0,4993 0,4993
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,46780,4994
0,4995 0,4995
0,4994
0,4686
0,4996
0,4994
0,4996
0,4994
0,4693
0,4996
0,4994
0,4996
0,4995
0,4699
0,4996
0,4995 0,4995
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,4997 0,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4999 0,4812
0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
0,4500000
Titolo del grafico
f(x)
0,4000000

0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
X
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

2.850 ?

0,4500000
Titolo del grafico
f(z)
0,4000000

0,3500000

0,3000000 Qual è l'85° percentile della distribuzione Normale


0,2500000 standardizzata?
0,2000000

0,1500000
Z85=1,04
0,1000000

0,0500000

0,0000000
Z
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

0 ?

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

ESERCIZI
La durata delle lampadine di una certa marca è distribuita secondo una Normale, con media pari a 2.850 ore e
scarto quadratico medio pari a 160 ore.
Si sceglie una lampadina a caso. Qual è la probabilità che questa:
a. duri più di 3.000 ore? b. duri meno di 2.500 ore?
c. duri più di 2.600 ore? d. duri un numero di ore compreso tra 2.500 e 2.700?
e. duri un numero di ore compreso tra 2.500 e 3.000?
E, inoltre:
f. qual è il valore oltre il quale si trova il 15% delle lampadine più “longeve”?
0,4500000
Titolo del grafico
f(x)
0,4000000 Stiamo, dunque, cercando l'85° percentile della distribuzione.
0,3500000 Poiché l'85° percentile della distribuzione Normale standardizzata
0,3000000 è Z=1,04, dobbiamo "destandardizzare" questo valore".
0,2500000
Ricordando che un valore standardizzato indica
0,2000000
di quanti scarti quadratici medi quel punto dista
35%

0,1500000
dalla media, possiamo applicare lo stesso
0,1000000
principio alla distribuzione di X:
0,0500000 15%
0,0000000
X85 = µ +1,04 ⋅ σ
X
( )
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.850 3.016
= 2.850 + 1,04 ×160
= 2.850 +166,4
= 3.016,4

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La proprietà riproduttiva della distribuzione Normale

La proprietà riproduttiva:
“La combinazione lineare di v.c. Normali e indipendenti è ancora una v.c. Normale, con
valore medio pari alla combinazione lineare dei valori medi e con varianza pari alla
combinazione lineare delle varianze con i quadrati dei coefficienti.”

( ) ⇒ ∑ a X ~ N ( µ ,σ )
n n n
Xi ~N µi ,σ con: µ = ∑ ai µi ; σ = ∑ ai2σ i2
2 2 2
i i i
i=1 i=1 i=1

Se ai=1, i=1,…,n, la proprietà riproduttiva può essere così formulata:

“La somma di n v.c. Normali e indipendenti è ancora una v.c. Normale, con media pari alla
somma delle medie e varianza pari alla somma delle varianze.”

Xi ~ N µi ,σ i2( ) i = 1, 2,…, n

( )
n n n

∑X i
~ N µ ,σ 2
con : µ = ∑ µi ; σ = ∑ σ i2 2

i=1 i=1 i=1

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La proprietà riproduttiva della distribuzione Normale

Esercizio

Supponiamo che un certo modello di computer portatile sia composto di due


pezzi assemblati, la base e lo schermo. Il peso della base può essere ipotizzato
seguire una distribuzione Normale con media µ=1,650 kg e scarto quadratico schermo
medio σ=85 grammi, mentre il peso dello schermo può essere ipotizzato anchʼesso
Normale con media µ=720 grammi e scarto quadratico medio σ=11 grammi.

(
XBASE ~ N 1.650,852 ) ; XSCHERMO ~ N 720,112 ( ) base

La casa produttrice stabilisce che dovranno essere dichiarati “fuori qualità” i notebook con peso
complessivo superiore a 2,5 kg.
Relativamente, dunque, alla variabile peso complessivo:
a. Quali saranno le caratteristiche del prodotto, in termini di media e scarto quadratico medio?
b. Quale sarà la percentuale di notebook che presumibilmente sarà dichiarata “fuori qualità”?
c. Quale sarà il peso oltre il quale è compreso il 10% dei pezzi assemblati?
d. Quale sarà la percentuale di notebook con peso inferiore a 2 kg?

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La proprietà riproduttiva della distribuzione Normale


Esercizio
Supponiamo che un certo modello di computer portatile sia composto di due pezzi assemblati, la base e lo schermo. Il peso della schermo
base può essere ipotizzato seguire una distribuzione Normale con media µ=1,650 kg e scarto quadratico medio σ=85 grammi, mentre
il peso dello schermo può essere ipotizzato anchʼesso Normale con media µ=720 grammi e scarto quadratico medio σ=11 grammi.
La casa produttrice stabilisce che dovranno essere dichiarati “fuori qualità” i notebook con peso complessivo superiore a 2,5 kg.
Relativamente, dunque, alla variabile peso complessivo:
a. Quali saranno le caratteristiche del prodotto, in termini di media e scarto quadratico medio? base
b. Quale sarà la percentuale di notebook che presumibilmente sarà dichiarata “fuori qualità”?
c. Quale sarà il peso oltre il quale è compreso il 10% dei pezzi assemblati?
d. Quale sarà la percentuale di notebook con peso inferiore a 2 kg?

( )
0,4500000
Titolo del grafico
f(x)
0,4000000
f(w) Peso della base: X ∼ N 1.650;852
0,3500000
Peso dello schermo: Y ∼ N 720;112 ( )
( )
0,3000000

0,2500000 Peso del notebook : W = (X + Y) ∼ N 1.650 + 720;852 +112

( ) ( )
0,2000000

0,1500000
µ = 1.650 + 720 = 2.370 ; σ 2 = 852 +112 = 7.346
0,1000000

0,0500000

0,0000000 σ = 7.346 = 85,7 ≠ 85 +11= 96


µ WX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

0,4500000
Titolo del grafico
f(x)
0,4000000
f(z)
0,3500000
Ricorda che lo sqm di una distribuzione Normale
0,3000000 ottenuta come somma di due distribuzioni Normali non
0,2500000 è uguale alla somma degli scarti ma alla radice
0,2000000
quadrata della somma delle varianze.
0,1500000

0,1000000

0,0500000

0,0000000
0 ZX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La proprietà riproduttiva della distribuzione Normale


Esercizio
Supponiamo che un certo modello di computer portatile sia composto di due pezzi assemblati, la base e lo schermo. Il peso della schermo
base può essere ipotizzato seguire una distribuzione Normale con media µ=1,650 kg e scarto quadratico medio σ=85 grammi, mentre
il peso dello schermo può essere ipotizzato anchʼesso Normale con media µ=720 grammi e scarto quadratico medio σ=11 grammi.
La casa produttrice stabilisce che dovranno essere dichiarati “fuori qualità” i notebook con peso complessivo superiore a 2,5 kg.
Relativamente, dunque, alla variabile peso complessivo:
a. Quali saranno le caratteristiche del prodotto, in termini di media e scarto quadratico medio? base
b. Quale sarà la percentuale di notebook che presumibilmente sarà dichiarata “fuori qualità”?
c. Quale sarà il peso oltre il quale è compreso il 10% dei pezzi assemblati?
d. Quale sarà la percentuale di notebook con peso inferiore a 2 kg?
0,4500000
Titolo del grafico
f(x)

( )
0,4000000
f(w)
0,3500000 Peso del notebook : W = (X + Y) ∼ N 2.370 ; 85,72
0,3000000

( )
0,2500000

0,2000000
P W > 2.500
0,1500000

Individuiamo il punto W=2.500


0,1000000

0,0500000

0,0000000
2.370 WX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

0,4500000
Titolo del grafico
f(x)
0,4000000
f(z)
0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
0 ZX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La proprietà riproduttiva della distribuzione Normale


Esercizio
Supponiamo che un certo modello di computer portatile sia composto di due pezzi assemblati, la base e lo schermo. Il peso della schermo
base può essere ipotizzato seguire una distribuzione Normale con media µ=1,650 kg e scarto quadratico medio σ=85 grammi, mentre
il peso dello schermo può essere ipotizzato anchʼesso Normale con media µ=720 grammi e scarto quadratico medio σ=11 grammi.
La casa produttrice stabilisce che dovranno essere dichiarati “fuori qualità” i notebook con peso complessivo superiore a 2,5 kg.
Relativamente, dunque, alla variabile peso complessivo:
a. Quali saranno le caratteristiche del prodotto, in termini di media e scarto quadratico medio? base
b. Quale sarà la percentuale di notebook che presumibilmente sarà dichiarata “fuori qualità”?
c. Quale sarà il peso oltre il quale è compreso il 10% dei pezzi assemblati?
d. Quale sarà la percentuale di notebook con peso inferiore a 2 kg?
0,4500000
Titolo del grafico
f(x)

( )
0,4000000
f(w)
0,3500000 Peso del notebook : W = (X + Y) ∼ N 2.370 ; 85,72
0,3000000

⎛ X − µ 2.500 − 2.370 ⎞
( )
0,2500000

0,2000000
P W > 2.500 = P⎜ ≥ ⎟
0,1500000 ⎝ σ 85,7 ⎠
( )
0,1000000

0,0500000 = P Z ≥ 1,52
0,0000000
2.370 2.500 WX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

0,4500000
Titolo del grafico
f(x)
0,4000000
f(z)
0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
0 ZX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

1,52

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Tavola dlla distribuzione Normale standardizzaata

Tavola della distribuzione Normale standardizzata


Tavola della distribuzione Normale Standardizzata

Area sottesa alla curva di densità Normale standardizzata


Area sottesa calcolata
alla curva di densità normale tra 0calcolata
standardizzata e Z tra 0 e Z
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
Z 0,00 0,01 0,02 0,03 0,040,0000
0,0
0,05
0,0040 0,0080
0,06
0,0120 0,0160
0,07
0,0199 0,0239
0,08
0,0279 0,0319
0,090,0359
0,0398 0,0438
0,0 0,0000 0,0040 0,0080 0,0120 0,0160
0,1
0,2 0,0793
0,01990,0478
0,0832 0,0871
0,0517
0,0239
0,0910
0,0557
0,0948
0,0596
0,0279
0,0987
0,0636
0,1026
0,0675
0,0319
0,1064
0,0714 0,0753
0,0359
0,1103 0,1141
0,1 0,0398 0,0438 0,0478 0,0517 0,0557
0,3 0,1179 0,05960,1255
0,1217 0,0636
0,1293 0,1331 0,0675
0,1368 0,14060,0714
0,1443 0,0753
0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,2 0,0793 0,0832 0,0871 0,0910 0,0948
0,5 0,1915 0,09870,1985
0,1950 0,1026
0,2019 0,2054 0,1064
0,2088 0,21230,1103
0,2157 0,1141
0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,3 0,1179 0,1217 0,1255 0,1293 0,1331
0,7 0,2580 0,13680,2642
0,2611 0,1406
0,2673 0,2704 0,1443
0,2734 0,27640,1480
0,2794 0,1517
0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,4 0,1554 0,1591 0,1628 0,1664 0,1700
0,9 0,3159
0,17360,3212
0,3186
0,1772
0,3238 0,3264
0,1808
0,3289 0,3315
0,1844
0,3340
0,1879
0,3365 0,3389

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686
0,3665 0,2454
0,3708 0,3729 0,2486
0,3749 0,37700,2517
0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,27340,4066
0,4049 0,2764
0,4082 0,4099 0,2794
0,4115 0,41310,2823
0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357
0,4345 0,3051
0,4370 0,4382 0,3078
0,4394 0,44060,3106
0,4418 0,3133
0,4429 0,4441
0,4452 0,4463
0,9 0,3159 0,3186 0,3212 0,3238 1,6
0,3264
1,7 0,4554
0,32890,4474
0,4564 0,4573
0,4484
0,3315
0,4582
0,4495
0,4591
0,4505
0,3340
0,4599
0,4515
0,4608
0,4525
0,3365
0,4616
0,4535 0,4545
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830
0,4826 0,3770
0,4834 0,4838 0,3790
0,4842 0,48460,3810
0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,39440,4898
0,4896 0,3962
0,4901 0,4904 0,3980
0,4906 0,49090,3997
0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,4940 0,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956
0,4955 0,4279
0,4957 0,4959 0,4292
0,4960 0,49610,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976
0,4975 0,4406
0,4977 0,4977 0,4418
0,4978 0,49790,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991
0,4991
0,4608
0,4991 0,4992
0,4616
0,4992 0,4992
0,4625
0,4992
0,4633
0,4993 0,4993
0,4993 0,4993
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,46780,4994
0,4995 0,4995
0,4994
0,4686
0,4996
0,4994
0,4996
0,4994
0,4693
0,4996
0,4994
0,4996
0,4995
0,4699
0,4996
0,4995 0,4995
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,4997 0,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4999 0,4812
0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La proprietà riproduttiva della distribuzione Normale


Esercizio
Supponiamo che un certo modello di computer portatile sia composto di due pezzi assemblati, la base e lo schermo. Il peso della schermo
base può essere ipotizzato seguire una distribuzione Normale con media µ=1,650 kg e scarto quadratico medio σ=85 grammi, mentre
il peso dello schermo può essere ipotizzato anchʼesso Normale con media µ=720 grammi e scarto quadratico medio σ=11 grammi.
La casa produttrice stabilisce che dovranno essere dichiarati “fuori qualità” i notebook con peso complessivo superiore a 2,5 kg.
Relativamente, dunque, alla variabile peso complessivo:
a. Quali saranno le caratteristiche del prodotto, in termini di media e scarto quadratico medio? base
b. Quale sarà la percentuale di notebook che presumibilmente sarà dichiarata “fuori qualità”?
c. Quale sarà il peso oltre il quale è compreso il 10% dei pezzi assemblati?
d. Quale sarà la percentuale di notebook con peso inferiore a 2 kg?
0,4500000
Titolo del grafico
f(x)

( )
0,4000000
f(w)
0,3500000 Peso del notebook : W = (X + Y) ∼ N 2.370 ; 85,72
0,3000000

⎛ X − µ 2.500 − 2.370 ⎞
( )
0,2500000

0,2000000
P W > 2.500 = P⎜ ≥ ⎟
0,1500000 ⎝ σ 85,7 ⎠
( )
0,1000000

0,0500000 = P Z ≥ 1,52
0,0000000
2.370 2.500 WX = 0,5 − 0,4357 = 0,0643
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

0,4500000
Titolo del grafico
f(x)
0,4000000
f(z)
0,3500000

0,3000000

0,2500000
0,4357

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
0 ZX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

1,52

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La proprietà riproduttiva della distribuzione Normale


Esercizio
Supponiamo che un certo modello di computer portatile sia composto di due pezzi assemblati, la base e lo schermo. Il peso della schermo
base può essere ipotizzato seguire una distribuzione Normale con media µ=1,650 kg e scarto quadratico medio σ=85 grammi, mentre
il peso dello schermo può essere ipotizzato anchʼesso Normale con media µ=720 grammi e scarto quadratico medio σ=11 grammi.
La casa produttrice stabilisce che dovranno essere dichiarati “fuori qualità” i notebook con peso complessivo superiore a 2,5 kg.
Relativamente, dunque, alla variabile peso complessivo:
a. Quali saranno le caratteristiche del prodotto, in termini di media e scarto quadratico medio? base
b. Quale sarà la percentuale di notebook che presumibilmente sarà dichiarata “fuori qualità”?
c. Quale sarà il peso oltre il quale è compreso il 10% dei pezzi assemblati?
d. Quale sarà la percentuale di notebook con peso inferiore a 2 kg?
0,4500000
Titolo del grafico
f(x)

( )
0,4000000
f(w)
0,3500000 Peso del notebook : W = (X + Y) ∼ N 2.370 ; 85,72
0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000
10%
0,0000000
2.370 WX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

?
0,4500000
Titolo del grafico
f(x)
0,4000000
f(z)
0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000
40%
0,0500000
10%
0,0000000
0 ZX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Tavola dlla distribuzione Normale standardizzaata

Tavola della distribuzione Normale standardizzata


Tavola della distribuzione Normale Standardizzata

Area sottesa alla curva di densità Normale standardizzata


Area sottesa calcolata
alla curva di densità normale tra 0calcolata
standardizzata e Z tra 0 e Z
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
Z 0,00 0,01 0,02 0,03 0,040,0000
0,0
0,05
0,0040 0,0080
0,06
0,0120 0,0160
0,07
0,0199 0,0239
0,08
0,0279 0,0319
0,090,0359
0,0398 0,0438
0,0 0,0000 0,0040 0,0080 0,0120 0,0160
0,1
0,2 0,0793
0,01990,0478
0,0832 0,0871
0,0517
0,0239
0,0910
0,0557
0,0948
0,0596
0,0279
0,0987
0,0636
0,1026
0,0675
0,0319
0,1064
0,0714 0,0753
0,0359
0,1103 0,1141
0,1 0,0398 0,0438 0,0478 0,0517 0,0557
0,3 0,1179 0,05960,1255
0,1217 0,0636
0,1293 0,1331 0,0675
0,1368 0,14060,0714
0,1443 0,0753
0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,2 0,0793 0,0832 0,0871 0,0910 0,0948
0,5 0,1915 0,09870,1985
0,1950 0,1026
0,2019 0,2054 0,1064
0,2088 0,21230,1103
0,2157 0,1141
0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,3 0,1179 0,1217 0,1255 0,1293 0,1331
0,7 0,2580 0,13680,2642
0,2611 0,1406
0,2673 0,2704 0,1443
0,2734 0,27640,1480
0,2794 0,1517
0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,4 0,1554 0,1591 0,1628 0,1664 0,1700
0,9 0,3159
0,17360,3212
0,3186
0,1772
0,3238 0,3264
0,1808
0,3289 0,3315
0,1844
0,3340
0,1879
0,3365 0,3389

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,6 0,2257 0,2291 0,2324 0,2357 0,2389
1,1 0,3643 0,24220,3686
0,3665 0,2454
0,3708 0,3729 0,2486
0,3749 0,37700,2517
0,3790 0,2549
0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,7 0,2580 0,2611 0,2642 0,2673 0,2704
1,3 0,4032 0,27340,4066
0,4049 0,2764
0,4082 0,4099 0,2794
0,4115 0,41310,2823
0,4147 0,2852
0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
1,5 0,4332 0,30230,4357
0,4345 0,3051
0,4370 0,4382 0,3078
0,4394 0,44060,3106
0,4418 0,3133
0,4429 0,4441
0,4452 0,4463
0,9 0,3159 0,3186 0,3212 0,3238 1,6
0,3264
1,7 0,4554
0,32890,4474
0,4564 0,4573
0,4484
0,3315
0,4582
0,4495
0,4591
0,4505
0,3340
0,4599
0,4515
0,4608
0,4525
0,3365
0,4616
0,4535 0,4545
0,3389
0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
1,1 0,3643 0,3665 0,3686 0,3708 0,3729
2,1 0,4821 0,37490,4830
0,4826 0,3770
0,4834 0,4838 0,3790
0,4842 0,48460,3810
0,4850 0,3830
0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
2,3 0,4893 0,39440,4898
0,4896 0,3962
0,4901 0,4904 0,3980
0,4906 0,49090,3997
0,4911 0,4015
0,4913 0,4916
0,4918 0,4920
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
2,4
2,5 0,4938
0,41150,4922
0,4940 0,4941
0,4925
0,4131
0,4943
0,4927
0,4945
0,4929
0,4147
0,4946
0,4931
0,4948
0,4932
0,4162
0,4949
0,4934 0,4936
0,4177
0,4951 0,4952
1,4 0,4192 0,4207 0,4222 0,4236 0,4251
2,6 0,4953 0,42650,4956
0,4955 0,4279
0,4957 0,4959 0,4292
0,4960 0,49610,4306
0,4962 0,4319
0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
1,5 0,4332 0,4345 0,4357 0,4370 0,4382
2,8 0,4974 0,43940,4976
0,4975 0,4406
0,4977 0,4977 0,4418
0,4978 0,49790,4429
0,4979 0,4441
0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
3,1 0,4990
0,45990,4991
0,4991
0,4608
0,4991 0,4992
0,4616
0,4992 0,4992
0,4625
0,4992
0,4633
0,4993 0,4993
0,4993 0,4993
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
3,2
3,3 0,4995
0,46780,4994
0,4995 0,4995
0,4994
0,4686
0,4996
0,4994
0,4996
0,4994
0,4693
0,4996
0,4994
0,4996
0,4995
0,4699
0,4996
0,4995 0,4995
0,4706
0,4996 0,4997
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
3,4 0,4997 0,47440,4997 0,4750
0,4997 0,4997 0,4997 0,4756
0,4997 0,4997 0,4761
0,4997 0,4767
0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
2,0 0,4772 0,4778 0,4783 0,4788 0,4793
3,8 0,4999 0,47980,4999 0,4803
0,4999 0,4999 0,4999 0,4808
0,4999 0,4999 0,4812
0,4999 0,4817
0,4999 0,4999
0,5000 0,5000
2,1 0,4821 0,4826 0,4830 0,4834 3,9
0,4838 0,48420,5000 0,4846
0,5000 0,5000 0,5000
0,4850 0,5000 0,5000
0,4854 0,5000 0,5000
0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La proprietà riproduttiva della distribuzione Normale


Esercizio
Supponiamo che un certo modello di computer portatile sia composto di due pezzi assemblati, la base e lo schermo. Il peso della schermo
base può essere ipotizzato seguire una distribuzione Normale con media µ=1,650 kg e scarto quadratico medio σ=85 grammi, mentre
il peso dello schermo può essere ipotizzato anchʼesso Normale con media µ=720 grammi e scarto quadratico medio σ=11 grammi.
La casa produttrice stabilisce che dovranno essere dichiarati “fuori qualità” i notebook con peso complessivo superiore a 2,5 kg.
Relativamente, dunque, alla variabile peso complessivo:
a. Quali saranno le caratteristiche del prodotto, in termini di media e scarto quadratico medio? base
b. Quale sarà la percentuale di notebook che presumibilmente sarà dichiarata “fuori qualità”?
c. Quale sarà il peso oltre il quale è compreso il 10% dei pezzi assemblati?
d. Quale sarà la percentuale di notebook con peso inferiore a 2 kg?
0,4500000
Titolo del grafico
f(x)

( )
0,4000000
f(w)
0,3500000 Peso del notebook : W = (X + Y) ∼ N 2.370 ; 85,72
0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000
10%
0,0000000
2.370 WX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

?
0,4500000
Titolo del grafico
f(x)
0,4000000
f(z)
0,3500000
Z90=1,28
0,3000000

0,2500000 Il 90° percentile della Normale standardizzata vale 1,28, quindi dista dalla media
0,2000000 1,28 scarti quadratici medi.
Ma questo vale per tutte le distribuzioni Normali, anche non standardizzate:
0,1500000

0,1000000
40% il 90° percentile di una distribuzione Normale, con media µ e varianza s2, si
0,0500000 troverà ad una distanza di 1,28 scarti dalla media e potrà essere calcolato
10%
0,0000000 come µ +1,28σ .
0 ZX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

1,28

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La proprietà riproduttiva della distribuzione Normale


Esercizio
Supponiamo che un certo modello di computer portatile sia composto di due pezzi assemblati, la base e lo schermo. Il peso della schermo
base può essere ipotizzato seguire una distribuzione Normale con media µ=1,650 kg e scarto quadratico medio σ=85 grammi, mentre
il peso dello schermo può essere ipotizzato anchʼesso Normale con media µ=720 grammi e scarto quadratico medio σ=11 grammi.
La casa produttrice stabilisce che dovranno essere dichiarati “fuori qualità” i notebook con peso complessivo superiore a 2,5 kg.
Relativamente, dunque, alla variabile peso complessivo:
a. Quali saranno le caratteristiche del prodotto, in termini di media e scarto quadratico medio? base
b. Quale sarà la percentuale di notebook che presumibilmente sarà dichiarata “fuori qualità”?
c. Quale sarà il peso oltre il quale è compreso il 10% dei pezzi assemblati?
d. Quale sarà la percentuale di notebook con peso inferiore a 2 kg?
0,4500000
Titolo del grafico
f(x)

( )
0,4000000
f(w)
0,3500000 Peso del notebook : W = (X + Y) ∼ N 2.370 ; 85,72
0,3000000

0,2500000

W90 = 2.370 + 1,28 ✕ 85,7 = 2.480 gr


0,2000000

0,1500000

0,1000000

0,0500000
10%
0,0000000
2.370 2.480 WX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

0,4500000
Titolo del grafico
f(x)
0,4000000
f(z)
0,3500000
Z90=1,28
0,3000000

0,2500000 Il 90° percentile della Normale standardizzata vale 1,28, quindi dista dalla media
0,2000000 1,28 scarti quadratici medi.
Ma questo vale per tutte le distribuzioni Normali, anche non standardizzate:
0,1500000

0,1000000
40% il 90° percentile di una distribuzione Normale, con media µ e varianza s2, si
0,0500000 troverà ad una distanza di 1,28 scarti dalla media e potrà essere calcolato
10%
0,0000000 come µ +1,28σ .
0 ZX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

1,28

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La proprietà riproduttiva della distribuzione Normale


Esercizio
Supponiamo che un certo modello di computer portatile sia composto di due pezzi assemblati, la base e lo schermo. Il peso della schermo
base può essere ipotizzato seguire una distribuzione Normale con media µ=1,650 kg e scarto quadratico medio σ=85 grammi, mentre
il peso dello schermo può essere ipotizzato anchʼesso Normale con media µ=720 grammi e scarto quadratico medio σ=11 grammi.
La casa produttrice stabilisce che dovranno essere dichiarati “fuori qualità” i notebook con peso complessivo superiore a 2,5 kg.
Relativamente, dunque, alla variabile peso complessivo:
a. Quali saranno le caratteristiche del prodotto, in termini di media e scarto quadratico medio? base
b. Quale sarà la percentuale di notebook che presumibilmente sarà dichiarata “fuori qualità”?
c. Quale sarà il peso oltre il quale è compreso il 10% dei pezzi assemblati?
d. Quale sarà la percentuale di notebook con peso inferiore a 2 kg?
0,4500000
Titolo del grafico
f(x)

( )
0,4000000
f(w)
0,3500000 Peso del notebook : W = (X + Y) ∼ N 2.370 ; 85,72
0,3000000

0,2500000

0,2000000

0,1500000
Il punto W=2.000 si trova ad oltre 4 volte lo sqm a sinistra
0,1000000
della media.
0,0500000 La probabilità di trovare osservazioni oltre questo punto
0,0000000
2.370
è, praticamente, pari a zero.
WX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

0,4500000
Titolo del grafico
f(x)
0,4000000
f(z)
0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
0 ZX
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (1)


Sia Z una variabile Normale standardizzata. Utilizzando la tavola T1,
determinare le seguenti probabilità:

( )
1. P Z > 0
2. P ( 0 ≤ Z ≤ 1,58 )
3. P ( −∞ ≤ Z ≤ 1,58 )
4. P ( Z > 1,77 )
5. P ( Z < 1,34 )
6. P (1,34 ≤ Z ≤ 1,77 )
7. P ( −1,25 ≤ Z ≤ −0,48 )
8. P ( −1,25 ≤ Z ≤ 0,48 )

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (2)


Sia Z una variabile Normale standardizzata. Utilizzando la tavola T1,
determinare i valori di z tali che:

( )
1. P 0 ≤ Z ≤ z = 0,3749
2. P ( − z ≤ Z ≤ z ) = 0,9342
3. P ( Z ≥ z ) = 0,0721
4. P ( Z ≥ − z ) = 0,8729
5. P ( Z ≤ − z ) = 0,2266

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (3)


Sia X una variabile normodistribuita con media µ=125 e sqm σ=4,5.
Determinare:
1. La mediana
2. Il primo e il terzo quartile
3. Il 10°, il 20°, il 90° e il 99° percentile

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (4)


La quantità di detersivo contenuta nelle confezioni da due litri di una nota marca
può essere considerata una variabile casuale Normale, con media pari a 2 litri e
scarto quadratico medio pari a 21 ml.

Prendendo a caso una confezione di detersivo da uno scaffale di un Supermercato,


2L
qual è la probabilità che questa contenga:
1. Più di due litri di detersivo?
2. Meno di 1,95 litri?
3. Più di 1,9 litri?
4. Tra 1,95 e 2,05 litri?

Qual è, inoltre, l’intervallo (di uguale ampiezza rispetto alla media) che comprende l’80% delle
confezioni prodotte?

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (5)

La quantità di birra contenuta nelle bottiglie da un litro di una nota marca


può essere considerata una variabile casuale normodistribuita con media
pari a 1 litro e scarto quadratico medio incognito.
Sapendo che il 10% delle bottiglie prodotte contiene più di 1,015 litri,
determinare il valore dello scarto quadratico medio.

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (6)

Sia X una variabile casuale Normale con media µ=180 e scarto


quadratico medio σ=15. Determinare:

( )
1. Il valore di a, tale che: P 180 − a ≤ X ≤ 180 + a = 0,90

2. Il valore di b, tale che: P ( X ≤ b) = 0,20

3. Il valore di c, tale che: P ( X ≥ 180 + c) = 0,10

4. Il valore di d, tale che: P ( X ≥ 180 + d ) = 0,60

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (7)


I tempi di attesa agli sportelli di un certo Ufficio
pubblico possono essere considerati una variabile
casuale Normale, con media pari a 7 minuti e
scarto quadratico medio pari a 45 secondi.
Siamo appena entrati nell’Ufficio e (purtroppo) dobbiamo fare due operazioni distinte e, quindi, due
code a due sportelli. Qual è la probabilità che, complessivamente, le nostre operazioni richiedano:
1. Più di un quarto d’ora?
2. Meno di dieci minuti?
Qual è, inoltre, l’intervallo di tempo che, al 90%, ci garantisce di riuscire a terminare entrambe le
operazioni?

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (8)


Supponiamo che gli importi relativi ai consumi telefonici mensili degli
utenti Teledrin (utenze fisse private) si compongano di una parte
relativa alle telefonate urbane e una parte relativa alle interurbane.
I consumi urbani seguono una distribuzione di tipo gaussiano con media pari a 28,3€ e scarto
quadratico medio pari a 4,6€. I consumi interurbani seguono una distribuzione di tipo gaussiano con
media pari a 15,3€ e scarto quadratico medio pari a 3,5€.
Considerando i consumi complessivi:
a) Quanti sono (in %) i clienti che fanno registrare consumi mensili per oltre 40€?
b) Quanti sono (in %) i clienti che fanno registrare consumi mensili per meno di 32€?
La Teledrin sta inoltre programmando delle politiche di differenziazione dei costi e decide di offrire la
tariffa A al 15% degli utenti più “chiacchieroni” (quindi quelli con gli importi complessivi più alti), la
tariffa B al 20% dei clienti con consumi più bassi e la tariffa C a tutti gli altri.
L’ufficio marketing deve dunque preparare le lettere da inviare agli utenti. Ci si domanda allora:
c) Qual è l’importo al di sopra del quale un cliente riceverà la lettera con l’offerta per la tariffa A?
d) Qual è l’importo al di sotto del quale un cliente riceverà la lettera con l’offerta per la tariffa B?

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (9)

Il peso degli adolescenti italiani può essere considerato avere una


distribuzione Normale con le seguenti caratteristiche:

Maschi: Media=49,8 kg ; Q1=42,8 Kg ; Q3=56,8 kg

Femmine: Media=51,3 kg ; Q1=42,8 Kg ; Q3=59,8 kg

a) Scegliendo a caso un adolescente maschio e una femmina, qual è la probabilità


che il loro peso complessivo sia inferiore a 90 kg?
b) Quali sono i valori oltre i quali un adolescente maschio e femmina possono
considerarsi avere un peso “anomalo”?

LEZIONE 14 – LA VARIABILE CASUALE NORMALE


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 15:
Il teorema di Chebychev
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il teorema di Chebychev

Il teorema di Chebychev utilizza in modo congiunto indici di posizione e di variabilità


per fornire informazioni circa il modo in cui le probabilità si addensano in intervalli
centrati sulla media e di ampiezza proporzionale allo scarto quadratico medio della
variabile. Area sottesa alla curva di densità Normale standardizzata calcolata tra 0 e Z
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,4500000
f(x) Titolo del grafico
0,1
0,2
0,0398
0,0793
0,0438
0,0832
0,0478
0,0871
0,0517
0,0910
0,0557
0,0948
0,0596
0,0987
0,0636
0,1026
0,0675
0,1064
0,0714
0,1103
0,0753
0,1141
0,4000000
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,3500000 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,3000000
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,2500000 0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133

95%
0,2000000 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389

0,1500000
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
0,1000000 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
0,0500000 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
0,0000000 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
µ-2s µ-s µ µ+s µ+2s X
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767

2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
LEZIONE 15 – IL TEOREMA DI CHEBYCHEV
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il teorema di Chebychev

Il teorema di Chebychev utilizza in modo congiunto indici di posizione e di variabilità


per fornire informazioni circa il modo in cui le probabilità si addensano in intervalli
centrati sulla media e di ampiezza proporzionale allo scarto quadratico medio della
variabile. Area sottesa alla curva di densità Normale standardizzata calcolata tra 0 e Z

f(x) Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389

1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830

µ-2σ µ µ+2σ X
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
f(x) 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767

2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974

µ-3σ µ µ+3σ 2,8


X
0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986

3,0
3,1
0,4987
0,4990
0,4987
0,4991
0,4987
0,4991
0,4988
0,4991
0,4988
0,4992
L
0,4989
15 – IL0,4989
0,4989
EZIONE0,4992
0,4992
TEOREMA
0,4992
DI C0,4993
0,4990
0,4993
0,4990
HEBYCHEV
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il teorema di Chebychev

TEOREMA
Data una v.c. X con media finita µ e scarto quadratico medio finito σ, e dato un numero
positivo k>1, la massa di probabilità all’interno dell’intervallo chiuso [(µ-kσ);(µ+kσ)] è
maggiore della quantità (1-1/k2).

f(x)

( )
P x − µ < kσ ≥ 1−
1
k2

µ-kσ µ µ+kσ X

LEZIONE 15 – IL TEOREMA DI CHEBYCHEV


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il teorema di Chebychev

TEOREMA
Data una v.c. X con media finita µ e scarto quadratico medio finito σ, e dato un numero
positivo k>1, la massa di probabilità all’interno dell’intervallo chiuso [(µ-kσ);(µ+kσ)] è
maggiore della quantità (1-1/k2).

( ) k
f(x)
1
P x − µ < kσ ≥ 1− 2

P ( x − µ ≥ kσ ) ≤
1
2
k

µ-kσ µ µ+kσ X

( ) (
k = 2 ⇒ P x − µ ≥ 2σ ≤ 0,25 ⇒ P x − µ < 2σ ≥ 0,75 )
k = 3 ⇒ P ( x − µ ≥ 3σ ) ≤ 0,11 ⇒ P ( x − µ < 3σ ) ≥ 0,89

LEZIONE 15 – IL TEOREMA DI CHEBYCHEV


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il teorema di Chebychev ( ) k
P x − µ < kσ ≥ 1−
1
2

P ( x − µ ≥ kσ ) ≤
1
2
L'uso (e l'abuso) dei modelli di probabilità k
0,4500000
f(x) f(x) Titolo del grafico
0,4000000

0,3500000

0,3000000

0,2500000

>75% 95%
0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
µ µ-2s µ µ+2s

-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
µ-2σ µ+2σ X X

L'informazione sulla distribuzione della variabile è, dunque, fondamentale per la conoscenza


della nostra variabile.
Quando possibile, è dunque importante utilizzare questa informazione.
D'altra parte, se non si conosce la distribuzione della variabile, "imporre" per questa una
distribuzione nota (tipicamente, la distribuzione Gaussiana) può essere molto rischioso e
portare a conclusioni molto lontane dalla realtà.

LEZIONE 15 – IL TEOREMA DI CHEBYCHEV


Corso di STATISTICA
Università degli Studi di Napoli Federico II 1
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio ( ) k
P x − µ < kσ ≥1− M. GHERGHI
A NNO ACCADEMICO 2022-23
2

1
Il teorema di Chebychev P ( x − µ ≥ kσ ) ≤ 2
k
TEOREMA
Data una v.c. X con media finita µ e scarto quadratico medio finito σ, e dato un numero positivo k>1, la massa di
probabilità che si trova all’interno dell’intervallo chiuso [(µ-kσ), (µ+kσ)] è maggiore della quantità (1-1/k2).
f(x)

x Tutti i punti sullʼasse

x* Solo i punti esterni allʼintervallo [(µ-kσ), (µ+kσ)]


(quindi, l'insieme degli x° è una parte dell'insieme
degli x)

µ-kσ µ µ+kσ X

DIMOSTRAZIONE (1 di 4)
Partiamo dalla definizione della varianza della variabile X.

∑( )
2
xi − µ ⋅ ni
ni
( ) ( ) ( )
2 2
σ = 2 i
= ∑ xi − µ ⋅ = ∑ xi − µ ⋅ f xi
n i n i

Poiché questo calcolo è esteso a tutti i valori di X, il risultato sarà certamente maggiore di quello
che otterremmo se limitassimo la sommatoria ai soli X* (che sono quelli esterni all'intervallo
considerato, e quindi solo una parte di tutti gli X).

LEZIONE 15 – IL TEOREMA DI CHEBYCHEV


Corso di STATISTICA
Università degli Studi di Napoli Federico II 1
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio ( ) k
P x − µ < kσ ≥1− M. GHERGHI
A NNO ACCADEMICO 2022-23
2

1
Il teorema di Chebychev P ( x − µ ≥ kσ ) ≤ 2
k
TEOREMA
Data una v.c. X con media finita µ e scarto quadratico medio finito σ, e dato un numero positivo k>1, la massa di
probabilità che si trova all’interno dell’intervallo chiuso [(µ-kσ), (µ+kσ)] è maggiore della quantità (1-1/k2).
f(x)

x Tutti i punti sullʼasse

x* Solo i punti esterni allʼintervallo [(µ-kσ), (µ+kσ)]


(quindi, l'insieme degli x° è una parte dell'insieme
degli x)

µ-kσ µ ks µ+kσ X

DIMOSTRAZIONE (2 di 4)

( ) ( ) ( ) ( )
2 2
σ = ∑ xi − µ ⋅ f xi ≥ ∑ x − µ ⋅ f xi*
2 *
i
i i
Consideriamo ora il primo valore di questa sommatoria, ossia il valore x1* e immaginiamo che questo sia il valore del
punto immediatamente oltre il limite dell'intervallo, dunque oltre µ+ks.
Poiché questo punto è esterno all'intervallo, la quantità x1 − µ sarà certamente maggiore di ks, che misura la
*

semiampiezza dell'intervallo stesso. Lo stesso varrà, ovviamente, per i quadrati.


( )
2
x1* − µ > kσ ⇒ x1* − µ > k 2σ 2
Il ragionamento può essere esteso a tutti gli x*, per cui avremo:

∑( ) ∑( ) ( ) ( ) ∑( ) ( ) ( )
2 2 2
xi* − µ ≥ ∑ k 2σ 2 ⇒ xi* − µ ⋅ f xi* ≥ ∑ k 2σ 2 ⋅ f xi* ⇒ xi* − µ ⋅ f xi* ≥ k 2σ 2 ⋅ ∑ f xi*
i i i i i i
LEZIONE 15 – IL TEOREMA DI CHEBYCHEV
Corso di STATISTICA
Università degli Studi di Napoli Federico II 1
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio ( ) k
P x − µ < kσ ≥1− M. GHERGHI
A NNO ACCADEMICO 2022-23
2

1
Il teorema di Chebychev P ( x − µ ≥ kσ ) ≤ 2
k
TEOREMA
Data una v.c. X con media finita µ e scarto quadratico medio finito σ, e dato un numero positivo k>1, la massa di
probabilità che si trova all’interno dell’intervallo chiuso [(µ-kσ), (µ+kσ)] è maggiore della quantità (1-1/k2).
f(x)

x Tutti i punti sullʼasse

x* Solo i punti esterni allʼintervallo [(µ-kσ), (µ+kσ)]


(quindi, l'insieme degli x° è una parte dell'insieme
degli x)

µ-kσ µ ks µ+kσ X

DIMOSTRAZIONE (3 di 4)

( ) ( ) ) ( ) ( ( )
2 2
σ = ∑ xi − µ ⋅ f xi ≥ ∑ x − µ ⋅ f xi* ≥ k 2σ 2 ⋅ ∑ f xi*
2 *
i
i i i

Consideriamo ora la quantità ∑ f ( x ) .


*
i
i
Questa può essere immaginata come la somma di tutte le ordinate corrispondenti a tutti gli x*, quindi come la
somma di tutte le ordinate dei punti esterni all'intervallo (µ-ks;µ+ks).
Poiché i punti sono infiniti, possiamo immaginare questa somma di infinite ordinate come un'area, dunque come
una probabilità, la probabilità che un punto si trovi all'esterno dell'intervallo considerato.
Abbiamo dunque: ∑ f ( x ) = P ( x − µ ≥ kσ )
*
i
i
LEZIONE 15 – IL TEOREMA DI CHEBYCHEV
Corso di STATISTICA
Università degli Studi di Napoli Federico II 1
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio ( ) k
P x − µ < kσ ≥1− M. GHERGHI
A NNO ACCADEMICO 2022-23
2

1
Il teorema di Chebychev P ( x − µ ≥ kσ ) ≤ 2
k
TEOREMA
Data una v.c. X con media finita µ e scarto quadratico medio finito σ, e dato un numero positivo k>1, la massa di
probabilità che si trova all’interno dell’intervallo chiuso [(µ-kσ), (µ+kσ)] è maggiore della quantità (1-1/k2).
f(x)

x Tutti i punti sullʼasse

x* Solo i punti esterni allʼintervallo [(µ-kσ), (µ+kσ)]


(quindi, l'insieme degli x° è una parte dell'insieme
degli x)

µ-kσ µ ks µ+kσ X

DIMOSTRAZIONE (4 di 4)

( ) ( ) ( ) ( ) ( )
2 2
σ 2 = ∑ xi − µ ⋅ f xi ≥ ∑ xi* − µ ⋅ f xi* ≥ k 2σ 2 ⋅ P x − µ ≥ kσ Se A>B e B>C, allora A>C.
i i

A B C
Quindi:

( ) σ
( ) ( )
2
σ 2 ≥ k 2σ 2 ⋅ P x − µ ≥ kσ 1
da cui: ≥ P x − µ ≥ kσ e, infine: P x − µ ≥ kσ ≤
k 2σ 2 k2

LEZIONE 15 – IL TEOREMA DI CHEBYCHEV


Corso di STATISTICA
Università degli Studi di Napoli Federico II 1
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio ( ) k
P x − µ < kσ ≥1− M. GHERGHI
A NNO ACCADEMICO 2022-23
2

1
Il teorema di Chebychev P ( x − µ ≥ kσ ) ≤ 2
k
Esercizio

Il responsabile dell’Ufficio Controllo di Qualità della Pop Cola decide di misurare


il contenuto effettivo di bevanda delle lattine da 33cl prodotte in una giornata.
Supponiamo che le lattine prodotte siano state 2mila e che la media del
contenuto sia risultata pari a 33cl, con scarto quadratico medio pari a 8ml.

N = 2.000 ; µ = 33cl ; σ = 8ml

Sul rapporto del responsabile leggete, tra l ʼ altro: “ Gli standard di qualità relativi alla
produzione odierna risultano molto inferiori al previsto in quanto 158 lattine hanno fatto
registrare un contenuto di bevanda inferiore a 30cl”.

Eʼ credibile questa affermazione?

LEZIONE 15 – IL TEOREMA DI CHEBYCHEV


Corso di STATISTICA
Università degli Studi di Napoli Federico II 1
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio ( ) k
P x − µ < kσ ≥1− M. GHERGHI
A NNO ACCADEMICO 2022-23
2

1
Il teorema di Chebychev P ( x − µ ≥ kσ ) ≤ 2
k
Esercizio
Il responsabile dell’Ufficio Controllo di Qualità della Pop Cola decide di misurare il contenuto effettivo di
bevanda delle lattine da 33cl prodotte in una giornata.
Supponiamo che le lattine prodotte siano state 2mila e che la media del contenuto sia risultata pari a 33cl,
con scarto quadratico medio pari a 8ml.
N = 2000 ; µ = 33cl ; σ = 8ml
Sul rapporto del responsabile leggete tra lʼaltro: “Gli standard di qualità relativi alla produzione odierna risultano molto inferiori
al previsto in quanto 158 lattine hanno fatto registrare un contenuto di bevanda inferiore a 30cl”.
Eʼ credibile questa affermazione?

σ = 8ml = 0,8 cl X − µ = 30 − 33 = 3cl

Il valore di riferimento, quello che indica il contenuto di bevanda al di sotto del quale si
sarebbero trovate 158 lattine delle 2.000 complessive, è dunque 30 cl. Questo valore è ad
una distanza di 3 cl dal valore medio. Poiché a noi interessa misurare questa distanza in
termini di scarto quadratico medio, dobbiamo “convertire” questa misura, e trovare a quanti
scarti quadratici medi di distanza dalla media si trova il punto 30 cl.

3
= 3,75 ⇒ X − µ = 3cl = 3,75 × σ
0,8
Il punto X=30 cl si trova, dunque, a 3,75 sqm dalla media. continua

LEZIONE 15 – IL TEOREMA DI CHEBYCHEV


Corso di STATISTICA
Università degli Studi di Napoli Federico II 1
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio ( ) k
P x − µ < kσ ≥1− M. GHERGHI
A NNO ACCADEMICO 2022-23
2

1
Il teorema di Chebychev P ( x − µ ≥ kσ ) ≤ 2
k
Esercizio
Il responsabile dell’Ufficio Controllo di Qualità della Pop Cola decide di misurare il contenuto effettivo di
bevanda delle lattine da 33cl prodotte in una giornata.
Supponiamo che le lattine prodotte siano state 2mila e che la media del contenuto sia risultata pari a 33cl,
con scarto quadratico medio pari a 8ml.
N = 2000 ; µ = 33cl ; σ = 8ml
Sul rapporto del responsabile leggete tra lʼaltro: “Gli standard di qualità relativi alla produzione odierna risultano molto inferiori
al previsto in quanto 158 lattine hanno fatto registrare un contenuto di bevanda inferiore a 30cl”.
Eʼ credibile questa affermazione?
3
σ = 8ml = 0,8 cl X − µ = 30 − 33 = 3cl = 3,75 ⇒ X − µ = 3cl = 3,75 × σ
0,8

Quante sono le osservazioni che, secondo il teorema di Chebychev, indipendentemente dalla


distribuzione, si possono trovare oltre 3,75 volte lo sqm dalla media (sommando le aree di entrambe
le code)?

(
P x − µ > kσ ≤ ) k
1
2 ( )
⇒ P x − µ > 3,75 ⋅ σ ≤ 0,071 ⇒ 0,071× 2000 = 142,2 lattine

Il numero massimo di lattine che, secondo il teorema di Chebychev, si può trovare nelle due code della
distribuzione con i parametri (media e varianza) definiti dall’esercizio è, dunque, 142. Nel rapporto viene
detto che nella sola coda di sinistra si sarebbero trovate 158 lattine; l’affermazione non è credibile.

LEZIONE 15 – IL TEOREMA DI CHEBYCHEV


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 16:
Le variabili legate alla
Normale
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale chi-quadrato


X ∼ χ (2g)

La somma di g variabili casuali Normali standardizzate, indipendenti e al quadrato, è una variabile


casuale continua sul supporto (0, +∞) definita v.c. Chi quadrato con g gradi di libertà:

Formalmente:

Zi ∼ N 0,1( ) i = 1,..., g

( )
k

∑Z 2
i
= Z12 + Z22 + … + Zg2 ∼ χ g2
i=1

La funzione di densità di probabilità è asimmetrica


positiva e tende alla simmetria al crescere di g.

I momenti caratteristici sono:

( )
E X = g ; Var X = 2g ( )

LEZIONE 16 – LE VARIABILI LEGATE ALLA NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale t di Student


X ∼ t(2g)

Il rapporto tra una v.c. Normale standardizzata e la radice quadrata di una v.c. indipendente
Chi quadrato divisa per i gradi di libertà, si distribuisce come una v.c. t di Student :

Formalmente:

( )
Z ∼ N 0,1 ; Y ∼ χ g2 ⇒ X =
Z
Y
∼ tg

La funzione di densità di probabilità della v.c.


di Student è sempre simmetrica, con valore
medio pari a 0, ed assume una forma molto
simile a quello della Normale standardizzata
alla quale tende assai velocemente al
crescere dei gradi di libertà.

( )
E X = 0 ; Var X = ( ) n
n− 2

LEZIONE 16 – LE VARIABILI LEGATE ALLA NORMALE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale F di Fisher-Snedecor


X ∼ F( g ,g )
1 2

Il rapporto tra due v.c. Chi quadrato, indipendenti tra loro e divise per i rispettivi gradi di libertà si
definisce v.c. F di Fisher-Snedecor:

Formalmente:
X1 ∼ χ 2g ; X2 ∼ χ 2g
( )
1 ( ) 2

X1 g1
X= ∼ F g ,g
X2 g2 ( 1 2 )
I due parametri, g1 e g2, che caratterizzano questa
distribuzione, vengono definiti, rispettivamente,
gradi di libertà del numeratore e gradi di libertà del
denominatore.

g2
( )
E X =
g2 − 2
( per g 2
>2 )

( )
Var X =
(
2 ⋅ g22 ⋅ g1 + g2 − 2 ) ( per g >4 )
( ) ( )
2 2
g1 ⋅ g2 − 2 ⋅ g2 − 4

LEZIONE 16 – LE VARIABILI LEGATE ALLA NORMALE


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 17:
Le variabili casuali discrete
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Uniforme


X ∼ Ud n ()
Una variabile casuale X si dice seguire una distribuzione Uniforme di parametro n se assume
valori su un insieme finito {x1, x2, …, xn} e la sua funzione di probabilità è la seguente:

(
P X = xi = ) 1
n
i = 1,..., n

I suoi momenti caratteristici risultano essere:

( )
E X =
n +1
2
; Var X =
n2 −1
12
( )

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale di Bernoulli


X ∼ Ber p ( )
Eʼ una v.c. che trae origine da una prova nella quale interessa verificare se lʼevento E si è
verificato o meno. Eʼ legata a prove di tipo dicotomico (o dicotomizzabili) i cui due possibili
risultati vengono indicati con i termini “successo” (1) e “insucesso” (0), (senza per questo
intendere che lʼevento successo sia necessariamente un evento piacevole!…)
Formalmente, una v.c. X discreta si definisce v.c. di Bernoulli se assume il valore 1 con
probabilità p e il valore 0 con probabilità 1-p. La sua distribuzione di probabilità è:

( ) ( )
1−x
( ) ( ) ( ) ( )
x 0 1
P X = x = p 1− p Infatti: P X = 1 = p1 1− p =p ; P X = 0 = p0 1− p = 1− p

I suoi momenti caratteristici risultano essere:

( )
E X = p ; Var X = p 1− p ( ) ( )
p (1-p) E(X) Var(X)
0,0 1,0 0,0 0,00
N.B. – La varianza della v.c. di Bernoulli assume valore massimo (1/4) 0,1 0,9 0,1 0,09
quando è p=1/2. Eʼ questo, infatti, il caso di massima incertezza, in cui 0,2 0,8 0,2 0,16
risulta più difficile prevedere il risultato. 0,3 0,7 0,3 0,21
0,4 0,6 0,4 0,24
0,5 0,5 0,5 0,25
0,6 0,4 0,6 0,24
0,7 0,3 0,7 0,21
0,8 0,2 0,8 0,16
0,9 0,1 0,9 0,09
1,0 0,0 1,0 0,00
LEZIONE 17 – LE VARIABILI CASUALI DISCRETE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


( )
X ∼ Bin n, p

Consiste nel ripetere n volte, e nelle medesime condizioni, lo schema successo-insuccesso


della v.c. di Bernoulli. Equivale allʼestrazione con ripetizione di n palline da unʼurna che ne
contiene H, di cui (b) bianche e (r) rosse.
La sua distribuzione di probabilità è:
⎛ n ⎞ x
( ) ( )
n−x ⎛ ⎞ n!
P X=x =⎜ ⎟ p 1− p con : ⎜ n ⎟ = Coefficiente binomiale:
⎝ x ⎠ ⎝ x ⎠ x! n − x ! ( ) (numero di combinazioni in cui si possono
presentare x successi in n prove)

I suoi momenti caratteristici risultano essere:

( ) ( )
E X = np ; Var X = np 1− p ( )

Proprietà della v.c. Binomiale


La v.c. Binomiale è simmetrica quando è p=1/2 e per n→⚯. Eʼ asimmetrica positiva per p<1/2 e
asimmetrica negativa per p>1/2.

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


( )
X ∼ Bin n, p
⎛ ⎞
( )
P X = x = ⎜ n ⎟ p x 1− p ( ) ⎛ ⎞
n−x n!
con : ⎜ n ⎟ =
⎝ x ⎠ ⎝ x ⎠ x! n − x ! ( )
ESEMPIO 1:
10 lanci di una moneta 1
n = 10 ; p =
X Numero di teste uscite 2

X Coeff bin px(1-p)n-x P(X=x)


0 1 0,00098 0,00098
1 10 0,00098 0,00977
2 45 0,00098 0,04395
3 120 0,00098 0,11719
4 210 0,00098 0,20508
5 252 0,00098 0,24609
6 210 0,00098 0,20508
7 120 0,00098 0,11719
8 45 0,00098 0,04395
9 10 0,00098 0,00977
10 1 0,00098 0,00098

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


( )
X ∼ Bin n, p
⎛ ⎞
( )
P X = x = ⎜ n ⎟ p x 1− p ( ) ⎛ ⎞
n−x n!
con : ⎜ n ⎟ =
⎝ x ⎠ ⎝ x ⎠ x! n − x ! ( )
ESEMPIO 1:
10 lanci di una moneta 1
n = 10 ; p =
X Numero di teste uscite 2

x n-x
X Coeff bin p (1-p) P(X=x)
0 1 0,00098 0,00098
n! 10!
1 10 0,00098
n = 10 ; x = 0 0,00977
⇒ = =1
2 45 0,00098 ( )
0,04395
x! n − x ! (
0! 10 − 0 ! )

?
3 120 0,00098 0,11719n!
n = 10 ; x = 1 ⇒ =
10!
=
10 × 9!
= 10
4 210 0,00098 (
x! n − x !
0,20508 ) 1!× 9! 1!× 9!
5 252 0,00098 0,24609n! 10! 10 × 9 × 8! 10 × 9
n = 10 ; x = 2 ⇒ = = = = 45
6 210 0,00098 0,20508 (
x! n − x ! 2!× 8! )
2!× 8! 2
7 120 0,00098 0,11719
n! 10! 10 × 9 × 8 × 7! 10 × 9 × 8
8 45 ⇒
n = 10 ; x = 3 0,04395
0,00098 = = = = 10 × 3 × 4 = 120
9 10 0,00098.. 0,00977
(
x! n − x ! 3!× 7! ) 3!× 7! 3×2

10 1 0,00098. 0,00098

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


( )
X ∼ Bin n, p
⎛ ⎞
( )
P X = x = ⎜ n ⎟ p x 1− p ( ) ⎛ ⎞
n−x n!
con : ⎜ n ⎟ =
⎝ x ⎠ ⎝ x ⎠ x! n − x ! ( )
ESEMPIO 1:
10 lanci di una moneta 1
n = 10 ; p =
X Numero di teste uscite 2

x n-x
X Coeff bin p (1-p) P(X=x)
f(x)
0 1 0,00098 0,00098 0,2461 …………...................................

1 10 0,00098 0,00977
2 45 0,00098 0,04395 0,2051 ………….........................

3 120 0,00098 0,11719


4 210 0,00098 0,20508
5 252 0,00098 0,24609
0,1172 …………................
6 210 0,00098 0,20508
7 120 0,00098 0,11719
8 45 0,00098 0,04395
0,0439 ………….......
9 10 0,00098 0,00977
10 1 0,00098 0,00098 0,0098 …........

0 1 2 3 4 5 6 7 8 9 10 X

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


X ∼ Bin n, p ( )
⎛ ⎞
( )
P X = x = ⎜ n ⎟ p x 1− p ( ) ⎛ ⎞
n−x n!
con : ⎜ n ⎟ =
⎝ x ⎠ ⎝ x ⎠ x! n − x ! ( )
ESEMPIO 2:
10 palline estratte (con reintroduzione)
da unʼurna con 80 palline bianche e 20 palline rosse 20
n = 10 ; p = = 0,2
100
X Numero di palline rosse uscite
X Coeff bin px(1-p)n-x P(X=x) f(x)
0 1 0,10737 0,10737
0,3020
1 10 0,02684 0,26844
0,2684
2 45 0,00671 0,30199
3 120 0,00168 0,20133
0,2013
4 210 0,00042 0,08808
5 252 0,00010 0,02642
6 210 0,00003 0,00551
0,1074
7 120 0,00001 0,00079
0,0881
8 45 0,00000 0,00007
9 10 0,00000 0,00000 0,0264
10 1 0,00000 0,00000 0,0055

0 1 2 3 4 5 6 7 8 9 10 X

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


( )
X ∼ Bin n, p
⎛ ⎞
( )
P X = x = ⎜ n ⎟ p x 1− p ( ) ⎛ ⎞
n−x n!
con : ⎜ n ⎟ =
⎝ x ⎠ ⎝ x ⎠ x! n − x ! ( )
ESERCIZIO
Da studi interni è noto che il 35% dei clienti del Supermercato GF paga con
tessera Bancomat o Carta di credito, gli altri in contanti.
Ad una cassa sono in fila 5 clienti. Qual è la probabilità che:
1. Paghino tutti in contanti?
2. Nessuno paghi in contanti?
3. Due paghino in contanti, gli altri con Carta?
4. I primi due paghino in contanti, gli altri con Carta?
5. Almeno 1 paghi con la Carta?

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


ESERCIZIO
Da studi interni è noto che il 35% dei clienti del Supermercato GF paga con tessera Bancomat o Carta di
credito, gli altri in contanti.
Ad una cassa sono in fila 5 clienti. Qual è la probabilità che:
1. Paghino tutti in contanti?
2. Nessuno paghi in contanti?
3. Due paghino in contanti, gli altri con Carta?
4. I primi due paghino in contanti, gli altri con Carta?
5. Almeno 1 paghi con la Carta?

Evento successo Paga con carta n=5 ; p=0,35

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


ESERCIZIO
Da studi interni è noto che il 35% dei clienti del Supermercato GF paga con tessera Bancomat o Carta di
credito, gli altri in contanti.
Ad una cassa sono in fila 5 clienti. Qual è la probabilità che:
1. Paghino tutti in contanti?
2. Nessuno paghi in contanti?
3. Due paghino in contanti, gli altri con Carta?
4. I primi due paghino in contanti, gli altri con Carta?
5. Almeno 1 paghi con la Carta?

Evento successo Paga con carta n=5 ; p=0,35

(
1. P X = 0 = ) 5!
0!× 5!
⋅ 0,35 0 ⋅ 0,655 = 0,116

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


ESERCIZIO
Da studi interni è noto che il 35% dei clienti del Supermercato GF paga con tessera Bancomat o Carta di
credito, gli altri in contanti.
Ad una cassa sono in fila 5 clienti. Qual è la probabilità che:
1. Paghino tutti in contanti?
2. Nessuno paghi in contanti?
3. Due paghino in contanti, gli altri con Carta?
4. I primi due paghino in contanti, gli altri con Carta?
5. Almeno 1 paghi con la Carta?

Evento successo Paga con carta n=5 ; p=0,35

(
1. P X = 0 = ) 5!
0!× 5!
⋅ 0,35 0 ⋅ 0,655 = 0,116

(
2. P X = 5 = ) 5!
5!× 0!
⋅ 0,355 ⋅ 0,65 0 = 0,005

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


ESERCIZIO
Da studi interni è noto che il 35% dei clienti del Supermercato GF paga con tessera Bancomat o Carta di
credito, gli altri in contanti.
Ad una cassa sono in fila 5 clienti. Qual è la probabilità che:
1. Paghino tutti in contanti?
2. Nessuno paghi in contanti?
3. Due paghino in contanti, gli altri con Carta?
4. I primi due paghino in contanti, gli altri con Carta?
5. Almeno 1 paghi con la Carta?

Evento successo Paga con carta n=5 ; p=0,35

(
1. P X = 0 = ) 5!
0!× 5!
⋅ 0,35 0 ⋅ 0,655 = 0,116

(
2. P X = 5 = ) 5!
5!× 0!
⋅ 0,355 ⋅ 0,65 0 = 0,005

(
3. P X = 3 = ) 5!
3!× 2!
⋅ 0,35 3 ⋅ 0,652 = 10 ⋅ 0,043 ⋅ 0,423 = 0,182

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


ESERCIZIO
Da studi interni è noto che il 35% dei clienti del Supermercato GF paga con tessera Bancomat o Carta di
credito, gli altri in contanti.
Ad una cassa sono in fila 5 clienti. Qual è la probabilità che:
1. Paghino tutti in contanti?
2. Nessuno paghi in contanti?
3. Due paghino in contanti, gli altri con Carta?
4. I primi due paghino in contanti, gli altri con Carta?
5. Almeno 1 paghi con la Carta?

Evento successo Paga con carta n=5 ; p=0,35

(
1. P X = 0 = ) 5!
0!× 5!
⋅ 0,35 0 ⋅ 0,655 = 0,116

(
2. P X = 5 = ) 5!
5!× 0!
⋅ 0,355 ⋅ 0,65 0 = 0,005

(
3. P X = 3 = ) 5!
3!× 2!
⋅ 0,35 3 ⋅ 0,652 = 10 ⋅ 0,043 ⋅ 0,423 = 0,182

{ }
4. P Contanti ∩ Contanti ∩ Carta ∩ Carta ∩ Carta = 0,652 ⋅ 0,35 3 = 0,423 ⋅ 0,043 = 0,0182

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


ESERCIZIO
Da studi interni è noto che il 35% dei clienti del Supermercato GF paga con tessera Bancomat o Carta di
credito, gli altri in contanti.
Ad una cassa sono in fila 5 clienti. Qual è la probabilità che:
1. Paghino tutti in contanti?
2. Nessuno paghi in contanti?
3. Due paghino in contanti, gli altri con Carta?
4. I primi due paghino in contanti, gli altri con Carta?
5. Almeno 1 paghi con la Carta?

Evento successo Paga con carta n=5 ; p=0,35

(
1. P X = 0 = ) 5!
0!× 5!
⋅ 0,35 0 ⋅ 0,655 = 0,116

(
2. P X = 5 = ) 5!
5!× 0!
⋅ 0,355 ⋅ 0,65 0 = 0,005

(
3. P X = 3 = ) 5!
3!× 2!
⋅ 0,35 3 ⋅ 0,652 = 10 ⋅ 0,043 ⋅ 0,423 = 0,182

{ }
4. P Contanti ∩ Contanti ∩ Carta ∩ Carta ∩ Carta = 0,652 ⋅ 0,35 3 = 0,423 ⋅ 0,043 = 0,0182

( ) ( ) ( ) ( ) ( ) (
5. P X ≥ 1 = P X = 1 + P X = 2 + P X = 3 + P X = 4 + P X = 5 = 1− P X = 0 = 1− 0,116 = 0,884 ) ( )
LEZIONE 17 – LE VARIABILI CASUALI DISCRETE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


ESERCIZIO
Da studi interni è noto che il 35% dei clienti del Supermercato GF paga con tessera Bancomat o Carta di
credito, gli altri in contanti.
Ad una cassa sono in fila 5 clienti. Qual è la probabilità che:
1. Paghino tutti in contanti?
2. Nessuno paghi in contanti?
3. Due paghino in contanti, gli altri con Carta?
4. I primi due paghino in contanti, gli altri con Carta?
5. Almeno 1 paghi con la Carta?

Evento successo Paga con carta n=5 ; p=0,35

Se i clienti in fila alla cassa sono 50, qual è la probabilità


che almeno 20 paghino con Bancomat o Carta di Credito?

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


ESERCIZIO
Da studi interni è noto che il 35% dei clienti del Supermercato GF paga con tessera Bancomat o Carta di
credito, gli altri in contanti.
Ad una cassa sono in fila 5 clienti. Qual è la probabilità che:
1. Paghino tutti in contanti?
2. Nessuno paghi in contanti?
3. Due paghino in contanti, gli altri con Carta?
4. I primi due paghino in contanti, gli altri con Carta?
5. Almeno 1 paghi con la Carta?

Evento successo Paga con carta n=5 ; p=0,35

Se i clienti in fila alla cassa sono 50, qual è la probabilità che almeno 20 paghino
con Bancomat o Carta di Credito?
( ) ( ) ( ) (
P X ≥ 20 = P X = 20 + P X = 21 + P X = 22 + ! + P X = 50 ) ( )
oppure:
( ) ( ) ( ) (
P X ≥ 20 = 1− ⎡ P X = 0 + P X = 1 + P X = 2 + ! + P X = 19 ⎤
⎣ ⎦ ) ( )

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


ESERCIZIO
Da studi interni è noto che il 35% dei clienti del Supermercato GF paga con tessera Bancomat o Carta di
credito, gli altri in contanti.
Ad una cassa sono in fila 5 clienti. Qual è la probabilità che:
1. Paghino tutti in contanti?
2. Nessuno paghi in contanti?
3. Due paghino in contanti, gli altri con Carta?
4. I primi due paghino in contanti, gli altri con Carta?
5. Almeno 1 paghi con la Carta?

Evento successo Paga con carta n=5 ; p=0,35

Se i clienti in fila alla cassa sono 50, qual è la probabilità che almeno 20 paghino
con Bancomat o Carta di Credito?
( ) ( ) ( ) (
P X ≥ 20 = P X = 20 + P X = 21 + P X = 22 + ! + P X = 50 ) ( )
50!
= ⋅ 0,3520 ⋅ 0,65 30
20!× 30!
0,000002440061
0,000000000761

47.129.212.243.960

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


ESERCIZIO
Da studi interni è noto che il 35% dei clienti del Supermercato GF paga con tessera Bancomat o Carta di
credito, gli altri in contanti.
Ad una cassa sono in fila 5 clienti. Qual è la probabilità che:
1. Paghino tutti in contanti?
2. Nessuno paghi in contanti?
3. Due paghino in contanti, gli altri con Carta?
4. I primi due paghino in contanti, gli altri con Carta?
5. Almeno 1 paghi con la Carta?

Evento successo Paga con carta n=5 ; p=0,35

Se i clienti in fila alla cassa sono 50, qual è la probabilità che almeno 20 paghino
con Bancomat o Carta di Credito?
( ) ( ) ( ) (
P X ≥ 20 = P X = 20 + P X = 21 + P X = 22 + ! + P X = 50 ) ( )
oppure:
( ) ( ) ( ) (
P X ≥ 20 = 1− ⎡ P X = 0 + P X = 1 + P X = 2 + ! + P X = 19 ⎤
⎣ ⎦ ) ( )
In entrambi i casi, il calcolo è molto disagevole. Cerchiamo un metodo alternativo.

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


( )
X ∼ Bin n, p
⎛ ⎞
( )
P X = x = ⎜ n ⎟ p x 1− p ( ) ⎛ ⎞
n−x n!
con : ⎜ n ⎟ =
⎝ x ⎠ ⎝ x ⎠ x! n − x ! ( )
ESEMPIO 1:
10 lanci di una moneta n=10 ; p=0,5
X Numero di teste uscite

x n-x
X Coeff bin p (1-p) P(X=x)
f(x)
0 1 0,00098 0,00098 0,2461 …………...................................

1 10 0,00098 0,00977
2 45 0,00098 0,04395 0,2051 ………….........................

3 120 0,00098 0,11719


4 210 0,00098 0,20508
5 252 0,00098 0,24609
0,1172 …………................
6 210 0,00098 0,20508
7 120 0,00098 0,11719
8 45 0,00098 0,04395
0,0439 ………….......
9 10 0,00098 0,00977
10 1 0,00098 0,00098 0,0098 …........

0 1 2 3 4 5 6 7 8 9 10 X

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


( )
X ∼ Bin n, p
⎛ ⎞
( )
P X = x = ⎜ n ⎟ p x 1− p ( ) ⎛ ⎞
n−x n!
con : ⎜ n ⎟ =
⎝ x ⎠ ⎝ x ⎠ x! n − x ! ( )
ESEMPIO 1:
100 lanci di una moneta n=100 ; p=0,5
X Numero di teste uscite

f(x)

0 10 20 30 40 50 60 70 80 90 100 X

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


( )
X ∼ Bin n, p
⎛ ⎞
( )
P X = x = ⎜ n ⎟ p x 1− p ( ) ⎛ ⎞
n−x n!
con : ⎜ n ⎟ =
⎝ x ⎠ ⎝ x ⎠ x! n − x ! ( )
ESEMPIO 1:
100 lanci di una moneta n=100 ; p=0,5
X Numero di teste uscite
0,4500000
f(x) Titolo del grafico
0,4000000

0,3500000

0,3000000

0,2500000
Al crescere del numero n di prove,
0,2000000 la v.c. binomiale tende in distribuzione ad
una v.c. Gaussiana, con media µ=n×p e
0,1500000
varianza σ2=n×p×(1-p).
0,1000000

0,0500000

0,0000000
0 10 20 30 40 50 60 70 80 90 100 X
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


ESERCIZIO
Da studi interni è noto che il 35% dei clienti del Supermercato GF paga con tessera Bancomat o Carta di
credito, gli altri in contanti.
Ad una cassa sono in fila 5 clienti. Qual è la probabilità che:
1. Paghino tutti in contanti?
2. Nessuno paghi in contanti?
3. Due paghino in contanti, gli altri con Carta?
4. I primi due paghino in contanti, gli altri con Carta?
5. Almeno 1 paghi con la Carta?

Evento successo Paga con carta n=5 ; p=0,35

Se i clienti in fila alla cassa sono 50, qual è la probabilità che almeno 20 paghino
con Bancomat o Carta di Credito?
X∼N µ = n⋅ p = 50 × 0,35 = 17,5 ( )
σ 2 = n⋅ p ⋅ 1− p = 50 × 0,35 × 0,65 = 11,38

⎛ X − µ 20 −17,5 ⎞
( )
P X ≥ 20 = P ⎜
⎝ σ

11,38 ⎠

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


ESERCIZIO
Da studi interni è noto che il 35% dei clienti del Supermercato GF paga con tessera Bancomat o Carta di
credito, gli altri in contanti.
Ad una cassa sono in fila 5 clienti. Qual è la probabilità che:
1. Paghino tutti in contanti?
2. Nessuno paghi in contanti?
3. Due paghino in contanti, gli altri con Carta?
4. I primi due paghino in contanti, gli altri con Carta?
5. Almeno 1 paghi con la Carta?

Evento successo Paga con carta n=5 ; p=0,35

Se i clienti in fila alla cassa sono 50, qual è la probabilità che almeno 20 paghino
con Bancomat o Carta di Credito?
X∼N µ = n⋅ p = 50 × 0,35 = 17,5 ( )
σ 2 = n⋅ p ⋅ 1− p = 50 × 0,35 × 0,65 = 11,38

⎛ X − µ 19,5 −17,5 ⎞
(
P X ≥ 20 = P ⎜

) σ

11,38 ⎠
⎟ Correzione per la continuità

Il valore 20 è compreso tra quelli richiesti P(X≥20). Utilizzando la variabile Normale, che è continua, la probabilità nel punto è nulla, per cui,
per essere sicuri di comprendere il valore 20, dobbiamo spostarci più a sinistra sull’asse X, in un qualsiasi punto compreso tra 20 e il valore
intero precedente, 19; convenzionalmente, si sceglie il punto centrale, quindi 19,5. Se la probabilità richiesta fosse per valori maggiori di 20,
P(X>20), ci dovremmo spostare più a destra sull’asse X, in un punto qualsiasi compreso tra 20 e il valore intero successivo, 21;
convenzionalmente, si sceglie il punto centrale, 20,5.

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale


ESERCIZIO
Da studi interni è noto che il 35% dei clienti del Supermercato GF paga con tessera Bancomat o Carta di
credito, gli altri in contanti.
Ad una cassa sono in fila 5 clienti. Qual è la probabilità che:
1. Paghino tutti in contanti?
2. Nessuno paghi in contanti?
3. Due paghino in contanti, gli altri con Carta?
4. I primi due paghino in contanti, gli altri con Carta?
5. Almeno 1 paghi con la Carta?

Evento successo Paga con carta n=5 ; p=0,35

Se i clienti in fila alla cassa sono 50, qual è la probabilità che almeno 20 paghino
con Bancomat o Carta di Credito?
X∼N µ = n⋅ p = 50 × 0,35 = 17,5 ( )
σ 2 = n⋅ p ⋅ 1− p = 50 × 0,35 × 0,65 = 11,38

⎛ X − µ 19,5 −17,5 ⎞
( )
P X ≥ 20 = P ⎜
⎝ σ

11,38 ⎠
⎟ = P Z ≥ 0,59 = 0,5 − 0,2224 = 0,2776 ( )

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il calcolo del coefficiente binomiale quando n è grande


⎛ ⎞
( ) ( )
P X = x = ⎜ n ⎟ p x 1− p ( )
n−x
X Coeff bin x
p (1-p)
n-x
P(X=x) X ∼ Bin 50 ; 0,35 ;
⎝ x ⎠
20 47.129.212.243.960 0,00000 0,08751
21 67.327.446.062.800 0,00000 0,06731 P ( X ≥ 20 ) = P ( X = 20 ) + P ( X = 21) + … + P ( X = 50 )
22 88.749.815.264.600 0,00000 0,04778
23 108.043.253.365.600 0,00000 0,03132
24 121.548.660.036.300 0,00000 0,01897
25 126.410.606.437.752 0,00000 0,01062
26 121.548.660.036.300 0,00000 0,00550
27 108.043.253.365.600 0,00000 0,00263
28 88.749.815.264.600 0,00000 0,00116
29 67.327.446.062.800 0,00000 0,00048
30 47.129.212.243.960 0,00000 0,00018
31 30.405.943.383.200 0,00000 0,00006
32 18.053.528.883.775 0,00000 0,00002
33 9.847.379.391.150 0,00000 0,00001
34 4.923.689.695.575 0,00000 0,00000
35 2.250.829.575.120 0,00000 0,00000
36 937.845.656.300 0,00000 0,00000
37 354.860.518.600 0,00000 0,00000
38 121.399.651.100 0,00000 0,00000
39 37.353.738.800 0,00000 0,00000
40 10.272.278.170 0,00000 0,00000
41 2.505.433.700 0,00000 0,00000
42 536.878.650 0,00000 0,00000
43 99.884.400 0,00000 0,00000
44 15.890.700 0,00000 0,00000
45 2.118.760 0,00000 0,00000
46 230.300 0,00000 0,00000
47 19.600 0,00000 0,00000
48 1.225 0,00000 0,00000
49 50 0,00000 0,00000
50 1 0,00000 0,00000
0,27356

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale

Esercizio:
La percentuale di studenti fuori sede iscritti al CLEC è pari al 40%. Qual è la probabilità che, in
un’aula con 150 studenti CLEC, più di 50 siano fuori sede?

µ = n⋅ p = 150 × 0,40 = 60 ; ( )
σ 2 = n⋅ p ⋅ 1− p = 150 × 0,40 × 0,60 = 36 ⇒ σ =6

⎛ X − µ 50,5 − 60 ⎞
( )
P X > 50 = P ⎜
⎝ σ

6
(
⎟ = P Z > −1,58 = 0,5 + 0,4429 = 0,9429

)

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La variabile casuale Binomiale

Esercizi di riepilogo:

1. Un commerciante fa unʼordinazione di 100 schede RAM. La sua politica consiste


nel rifiutare la partita se, su un campione casuale di 7, più di una risulta difettosa.
Supponendo che tra le 100 schede ordinate, 4 siano difettose, qual è la probabilità
che il commerciante rifiuti la partita?

2. Immaginiamo che, invece dei soliti esercizi, la prova di esame consista in 20


domande a risposta multipla, ciascuna con quattro possibili risposte, di cui una
sola esatta, e che la prova scritta si consideri superata se si risponde esattamente
ad almeno 18 domande. Supponendo che uno studente sia sicuro di 15 risposte e
tiri a indovinare per le altre 5, qual è la probabilità che passi la prova?

3. Si effettuano 100 lanci di una moneta. Qual è la probabilità che si abbiano:


1. Almeno 59 teste
2. Al massimo 55 teste
3. Un numero di teste compreso tra 46 e 48 (estremi inclusi)

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi (1)
Un commerciante fa unʼordinazione di 100 schede RAM. La sua politica consiste nel
rifiutare la partita se, su un campione casuale di 7, più di una risulta difettosa.
Supponendo che tra le 100 schede ordinate, 4 siano difettose, qual è la probabilità
che il commerciante rifiuti la partita?

Evento “successo”: il pezzo è difettoso


Variabile casuale (X): numero di pezzi difettosi su un totale di 7 ( )
X ∼ Bin n, p ; n=7 ; p=
4
100
= 0,04

( )
E X = n × p = 7 × 0,04 = 0,28 Var ( X ) = n × p × (1− p) = 7 × 0,04 × 0,96 = 0,269

P ( X > 1) = ⎡⎣ P ( X = 2 ) + P ( X = 3 ) + P ( X = 4 ) + P ( X = 5 ) + P ( X = 6 ) + P ( X = 7 ) ⎤⎦

= 1− ⎡ P ( X = 0 ) + P ( X = 1) ⎤
⎣ ⎦

(
P X =1 = ) 7!
1!× 6!
× 0,041 × 0,966 = 0,219

( )
P X = 0 = 0,967 = 0,751

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi (1)
Un commerciante fa unʼordinazione di 100 schede RAM. La sua politica consiste nel
rifiutare la partita se, su un campione casuale di 7, più di una risulta difettosa.
Supponendo che tra le 100 schede ordinate, 4 siano difettose, qual è la probabilità
che il commerciante rifiuti la partita?

Evento “successo”: il pezzo è difettoso


Variabile casuale (X): numero di pezzi difettosi su un totale di 7 ( )
X ∼ Bin n, p ; n=7 ; p=
4
100
= 0,04

( )
E X = n × p = 7 × 0,04 = 0,28 Var ( X ) = n × p × (1− p) = 7 × 0,04 × 0,96 = 0,269

P ( X > 1) = ⎡⎣ P ( X = 2 ) + P ( X = 3 ) + P ( X = 4 ) + P ( X = 5 ) + P ( X = 6 ) + P ( X = 7 ) ⎤⎦

= 1− ⎡ P ( X = 0 ) + P ( X = 1) ⎤
⎣ ⎦
= 1− ⎡⎣ 0,751+ 0,219 ⎤⎦ = 1− 0,970 = 0,030

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi (2)
Immaginiamo che, invece dei soliti esercizi, la prova di esame consista in 20
domande a risposta multipla, ciascuna con quattro possibili risposte, di cui una sola
esatta, e che la prova scritta si consideri superata se si risponde esattamente ad
almeno 18 domande. Supponendo che uno studente sia sicuro di 15 risposte e tiri a
indovinare per le altre 5, qual è la probabilità che passi la prova?

Evento “successo”: la risposta è esatta


Variabile casuale (X): numero di risposte esatte su 5 domande ( )
X ∼ Bin n, p ; n= 5 ; p=
1
4
= 0,25
(immaginando che le risposte siano date a caso)

( )
E X = n × p = 5 × 0,25 = 1,25 Var ( X ) = n × p × (1− p) = 5 × 0,25 × 0,75 = 0,9375

P ( X ≥ 3 ) = ⎡⎣ P ( X = 3 ) + P ( X = 4 ) + P ( X = 5 ) ⎤⎦

= 0,255 = 0,000977

5!
= × 0,25 4 × 0,751 = 5 × 0,0039 × 0,75 = 0,0146
4!×1!
5!
= × 0,25 3 × 0,752 = 10 × 0,0156 × 0,5625 = 0,087
3!× 2!

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi (2)
Immaginiamo che, invece dei soliti esercizi, la prova di esame consista in 20
domande a risposta multipla, ciascuna con quattro possibili risposte, di cui una sola
esatta, e che la prova scritta si consideri superata se si risponde esattamente ad
almeno 18 domande. Supponendo che uno studente sia sicuro di 15 risposte e tiri a
indovinare per le altre 5, qual è la probabilità che passi la prova?

Evento “successo”: la risposta è esatta


Variabile casuale (X): numero di risposte esatte su 5 domande ( )
X ∼ Bin n, p ; n= 5 ; p=
1
4
= 0,25
(immaginando che le risposte siano date a caso)

( )
E X = n × p = 5 × 0,25 = 1,25 Var ( X ) = n × p × (1− p) = 5 × 0,25 × 0,75 = 0,9375

P ( X ≥ 3 ) = ⎡⎣ P ( X = 3 ) + P ( X = 4 ) + P ( X = 5 ) ⎤⎦ = ⎡⎣ 0,087 + 0,0146 + 0,000977 ⎤⎦ = 0,1026

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi (3)
Si effettuano 100 lanci di una moneta. Qual è la probabilità che si abbiano:
A. Almeno 59 teste
B. Al massimo 55 teste
C. Un numero di teste compreso tra 46 e 48 (estremi inclusi)

Evento “successo”: esce "TESTA"


Variabile casuale (X): numero di "Teste" in 100 lanci ( )
X ∼ Bin n, p ; n = 100 ; p =
1
2
= 0,50

( )
E X = n × p = 100 × 0,50 = 50 ( ) ( )
Var X = n × p × 1− p = 100 × 0,50 × 0,50 = 25 X∼N

⎛ X − µ 58,5 − 50 ⎞
A. P X ≥ 59(= P ⎜

) σ

5 ⎠
(
⎟ = P Z ≥ 1,7 = 0,5000 − 0,4554 = 0,0446 )
⎛ X − µ 55,5 − 50 ⎞
(
B. P X ≤ 55 = P )

⎝ σ

5 ⎠
(
⎟ = P Z ≤ 1,1 = 0,5000 + 0,3643 = 0,8643)
⎛ 45,5 − 50 X − µ 48,5 − 50 ⎞
(
C. P 46 ≤ X ≤ 48 = P ⎜

) 5

σ

5 ⎠
(
⎟ = P −0,9 ≤ Z ≤ −0,3 = 0,3159 − 0,1179 = 0,1980 )

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (1)

Una fornace produce mattoni per costruzioni, con una percentuale di pezzi
non conformi pari al 2,5%.
Il Servizio Controllo Qualità sottopone a controllo un lotto di 500 mattoni, e
decide che il lotto verrà destinato alla vendita se, analizzando in modo
casuale 20 mattoni, al massimo 2 risultino non regolari.
Qual è la probabilità che il lotto superi il controllo?

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (2)

Alla lezione del corso di Statistica del 9 novembre erano presenti 171 studenti.
Qual è la probabilità che almeno uno festeggiasse il compleanno quel
giorno?

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (3)

Una filiale di Banca ha 200 impiegati, 20 dei quali giovani appena assunti.
Dovendo indicare quattro nominativi che dovranno effettuare un turno
particolarmente scomodo, si decide di estrarre i nomi a sorte.
Qual è la probabilità che i neoassunti estratti siano:
1. Nessuno
2. Tutti e quattro
3. Almeno uno
4. Al massimo uno

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (4)

Una compagnia di assicurazioni vende la propria polizza vita a tre uomini, tutti
della stessa età e in buona salute.
Dalle tavole attuariali risulta che la probabilità che un uomo di quella età sia
ancora in vita dopo trentacinque anni è pari a 0,72.
Qual è la probabilità che, trentacinque anni dopo, dei tre uomini siano in vita:
1. Tutti e tre
2. Nessuno
3. Almeno uno
4. Al massimo uno

LEZIONE 17 – LE VARIABILI CASUALI DISCRETE


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 18:
Il Campionamento
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Probabilità e Statistica

Il 40% degli studenti dei Corsi del


DiSES di Napoli è fuorisede.
Estraendo a caso 15 studenti, qual Pop
è la probabilità che almeno 10
siano fuorisede? Da un ʼ indagine effettuata su un
campione di 250 studenti dei Corsi
del DiSES di Napoli, è risultato che il
Deduzione Estrazione 40% sono fuorisede.
casuale Qual è la percentuale di fuorisede
dell'intera popolazione di studenti dei
Corsi di Economia del DISES?
C Induzione

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il campionamento casuale

Campione casuale
• Non è un campione a casaccio!!!
• E’ un campione scelto da una popolazione in cui ciascuna unità ha una
probabilità non nulla di essere estratta.

Campione casuale semplice


• E’ un campione scelto da una popolazione in cui ciascuna unità ha la stessa
probabilità di essere estratta.

In un campione casuale formato da n elementi ed estratto da una


popolazione su cui è definita una variabile X con una propria distribuzione,
una propria media e una propria varianza, ogni osservazione campionaria
rappresenta una variabile casuale, con la stessa distribuzione e gli stessi
parametri di X.

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il campionamento casuale
Esempio:
Si consideri una popolazione su cui è definita una variabile X, di distribuzione D qualsiasi con le
seguenti caratteristiche:
X~D µX=100 σX=12 Min(X)=50 Max(X)=150
Si decide di estrarre un campione di dimensioni n=8. Se lo schema è con reintroduzione, il numero
di campioni che è possibile estrarre è infinito. Immaginiamo, comunque, di riportare tutti i possibili
campioni di n=8 in una matrice:
Osservazione campionaria
Campione X1 X2 X3 X4 X5 X6 X7 X8
1° x11 x12 x13 x14 x15 x16 x17 x18
2° x21 x22 x23 x24 x25 x26 x27 x28
3° x31 x32 x33 x34 x35 x36 x37 x38
4° x41 x42 x43 x44 x45 x46 x47 x48
5° x51 x52 x53 x54 x55 x56 x57 x58
: :
: :
∞° x∞1 x∞2 x∞3 x∞4 x∞5 x∞6 x∞7 x∞8

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il campionamento casuale
Esempio:
Si consideri una popolazione su cui è definita una variabile X, di distribuzione D qualsiasi con le
seguenti caratteristiche:
X~D µX=100 σX=12 Min(X)=50 Max(X)=150
Si decide di estrarre un campione di dimensioni n=8. Se lo schema è con reintroduzione, il numero
di campioni che è possibile estrarre è infinito. Immaginiamo, comunque, di riportare tutti i possibili
campioni di n=8 in una matrice:
Osservazione campionaria
Campione X1 X2 X3 X4 X5 X6 X7 X8
1° x11 x12 x13 x14 x15 x16 x17 x18
2° x21 x22 x23 x24 x25 x26 x27 x28
3° x31 x32 x33 x34 x35 x36 x37 x38
4° x41 x42 x43 x44 x45 x46 x47 x48
5° x51 x52 x53 x54 x55 x56 x57 x58
: :
: :
∞° x∞1 x∞2 x∞3 x∞4 x∞5 x∞6 x∞7 x∞8

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il campionamento casuale
Esempio:
X~D µX=100 σX=12 Min(X)=50 Max(X)=150
Osservazione campionaria
Campione X1 X2 X3 X4 X5 X6 X7 X8
1° x11 x12 x13 x14 x15 x16 x17 x18
2° x21 x22 x23 x24 x25 x26 x27 x28
3° x31 x32 x33 x34 x35 x36 x37 x38
4° x41 x42 x43 x44 x45 x46 x47 x48
5° x51 x52 x53 x54 x55 x56 x57 x58
: :
: :
∞° x∞1 x∞2 x∞3 x∞4 x∞5 x∞6 x∞7 x∞8

Soffermiamoci sulla variabile casuale "1a osservazione campionaria" (ma il discorso, ovviamente, vale per
tutte). Quali sono i valori che, negli infiniti campioni estraibili da questa popolazione, possono capitare in
prima posizione? E con quale frequenza?
E' chiaro che i valori sono quelli compresi nel range di definizione della variabile osservata e, soprattutto,
che la loro frequenza dipenderà dalla distribuzione della variabile X (se la distribuzione è uniforme, tutti i
valori avranno la stessa probabilità, se è Gaussiana, i valori centrali avranno maggiore probabilità di quelli
nelle code, e così via).
In altri termini, tutte le osservazioni campionarie (tra oro indipendenti) avranno la stessa distribuzione e gli
stessi parametri della variabile X definita nella popolazione.

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il campionamento casuale

Poiché ciascuna osservazione campionaria Xi è una variabile casuale, ogni funzione che
dipenda dalle osservazioni campionarie sarà essa stessa una variabile casuale e viene
chiamata statistica.
Quindi, i valori campionari ottenuti compiendo una qualsiasi trasformazione sui soli valori
osservati vengono chiamate statistiche, mentre i rispettivi valori della popolazione, che
sono delle costanti, vengono definiti parametri.

X Media campionaria µ Media della popolazione


(statistica) (parametro)

Definiamo statistica Tn=T(X1, X2, …, Xn) una qualsiasi funzione a valori reali del campione
casuale (X1, X2, …, Xn) che non dipende da quantità incognite.
Il valore della statistica Tn calcolata sul campione osservato (x1, x2, …, xn) costituisce la
statistica calcolata tn=T(x1, x2, …, xn).

Tn Statistica tn Statistica calcolata


(variabile casuale) (Realizzazione di una variabile casuale)

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il campionamento casuale

Dato un campione casuale (X1, X2, …, Xn), e definita la statistica Tn=T(X1, X2, …, Xn) ottenuta
come elaborazione delle osservazioni campionarie, la distribuzione di probabilità della
statistica Tn(X1, X2, …, Xn) viene definita distribuzione campionaria di Tn.

Ogni statistica è, dunque, una sintesi delle variabili casuali campionarie.

1 n
Media campionaria: …………….. X = ∑ X
n i=1 i

1 n
( )
2
Varianza campionaria: …………. S = ∑ Xi − Xn 2
n
n i=1

( )
n
1 2
Varianza campionaria corretta: .. S! = ∑
n −1 i=1
Xi − Xn 2
n

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media campionaria 1 n
X = ∑ Xi
n i=1

La variabile casuale media campionaria è una combinazione lineare delle variabili


casuali osservazioni campionarie Xi , i=1,..,n.

Le n variabili casuali X1, X2, …, Xn sono indipendenti e identicamente distribuite alla


variabile X nella popolazione, con media µ e varianza σ2.

È quindi importante definire la distribuzione della media campionaria. D'altra parte,


indipendentemente dalla distribuzione, è possibile determinare il valore atteso e la
varianza.

( )
E X =?
Var ( X ) = ?

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media campionaria 1 n
X = ∑ Xi
n i=1
Consideriamo una popolazione composta di tre soli elementi, su cui è definita una variabile
X, che assume valori: 7, 5, 10.
La variabile X avrà dunque media pari a 7,33 e varianza pari a 4,22.
Da questa popolazione, decidiamo di estrarre, con reintroduzione, un campione casuale di
dimensione n=2 e di calcolare la media campionaria.
Prima di estrarre il campione, la media campionaria è una variabile casuale, il cui valore
dipenderà dalle specifiche osservazioni estratte. Quali sono le sue caratteristiche?
Campionamento con reintroduzione
Osservazione campionaria Media Da una popolazione di dimensione N=3 è
Campione X1 X2 campionaria possibile estrarre, con reintroduzione, k=9
campioni di dimensioni n=2.
1° 5 5 5,0
2° 5 7 6,0
3° 5 10 7,5
4° 7 5 6,0
5° 7 7 7,0
6° 7 10 8,5
7° 10 5 7,5
8° 10 7 8,5
9° 10 10 10,0
Media 7,33 7,33 7,33
Varianza 4,22 4,22 2,11

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media campionaria 1 n
X = ∑ Xi
n i=1
Consideriamo una popolazione composta di tre soli elementi, su cui è definita una variabile
X, che assume valori: 7, 5, 10.
La variabile X avrà dunque media pari a 7,33 e varianza pari a 4,22.
Da questa popolazione, decidiamo di estrarre, con reintroduzione, un campione casuale di
dimensione n=2 e di calcolare la media campionaria.
Prima di estrarre il campione, la media campionaria è una variabile casuale, il cui valore
dipenderà dalle specifiche osservazioni estratte. Quali sono le sue caratteristiche?
Campionamento con reintroduzione
Osservazione campionaria Media Da una popolazione di dimensione N=3 è
Campione X1 X2 campionaria possibile estrarre, con reintroduzione, k=9
campioni di dimensioni n=2.
1° 5 5 5,0
2° 5 7 6,0
3° 5 10 7,5
4° 7 5 6,0
5° 7 7 7,0
6° 7 10 8,5
7° 10 5 7,5
8° 10 7 8,5
9° 10 10 10,0
Media 7,33 7,33 7,33
Varianza 4,22 4,22 2,11

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media campionaria 1 n
X = ∑ Xi
n i=1
Consideriamo una popolazione composta di tre soli elementi, su cui è definita una variabile
X, che assume valori: 7, 5, 10.
La variabile X avrà dunque media pari a 7,33 e varianza pari a 4,22.
Da questa popolazione, decidiamo di estrarre, con reintroduzione, un campione casuale di
dimensione n=2 e di calcolare la media campionaria.
Prima di estrarre il campione, la media campionaria è una variabile casuale, il cui valore
dipenderà dalle specifiche osservazioni estratte. Quali sono le sue caratteristiche?
Campionamento con reintroduzione
Osservazione campionaria Media Da una popolazione di dimensione N=3 è
Campione X1 X2 campionaria possibile estrarre, con reintroduzione, k=9
campioni di dimensioni n=2.
1° 5 5 5,0
2° 5 7 6,0 Ogni osservazione campionaria (X1 e X2) ha la
stessa distribuzione (uniforme), la stessa media
3° 5 10 7,5
(7,33) e la stessa varianza (4,22) della variabile X
4° 7 5 6,0 definita sulla popolazione.
5° 7 7 7,0
6° 7 10 8,5 Anche la media campionaria ha valore atteso
7° 10 5 7,5 pari a 7,33. Questo significa che la media di tutte
le media campionarie è proprio uguale alla
8° 10 7 8,5
media della popolazione,
9° 10 10 10,0 La varianza della media campionaria, invece, è
Media 7,33 7,33 7,33 diversa dalla varianza della popolazione.
Varianza 4,22 4,22 2,11 Perché?

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media campionaria 1 n
X = ∑ Xi
n i=1
A. Campionamento con reintroduzione

⎛1 n ⎞ 1 ⎛ n ⎞ 1 n
( ) 1
E X = E ⎜ ∑ Xi ⎟ = E ⎜ ∑ Xi ⎟ = ∑ E Xi = ⋅ nµ = µ
⎝ n i=1 ⎠ n ⎝ i=1 ⎠ n i=1 n
( )
Ricorda che ogni variabile casuale X i (osservazione campionaria) ha la stessa distribuzione
e gli stessi parametri (µ, σ 2)della variabile X nella popolazione.

⎛1 n ⎞ 1 ⎛ n ⎞ 1 n
( ) ⎝ n i=1 ⎠ n ⎝ i=1 ⎠ n i=1 n
1
Var X = Var ⎜ ∑ Xi ⎟ = 2 Var ⎜ ∑ Xi ⎟ = 2 ∑ Var Xi = 2 ⋅ nσ =
2 σ2
n
( )

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media campionaria (campionamento con reintroduzione) 1 n


X = ∑ Xi
n i=1
Esempio:
N=7; 5; 10 µ=7,33 s2=4,22 n=2
Campionamento con reintroduzione
Osservazione campionaria Media
Campione X1 X2 campionaria
1° 5 5 5,0
2° 5 7 6,0
3° 5 10 7,5


7
7
5
7
6,0
7,0
( )
E X = µ = 7,33

Var ( X ) =
6° 7 10 8,5 σ
2
4,22
= = 2,11
7° 10 5 7,5 n 2
8° 10 7 8,5
9° 10 10 10,0
Media 7,33 7,33 7,33
Varianza 4,22 4,22 2,11

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media campionaria (campionamento senza reintroduzione) 1 n


X = ∑ Xi
n i=1
Esempio:
N=7; 5; 10 µ=7,33 s2=4,22 n=2
Campionamento senza reintroduzione
Osservazione campionaria Media
Campione X1 X2 campionaria
1° 5 7 6,0
2° 5 10 7,5
3° 7 5 6,0
4° 7 10 8,5
5° 10 5 7,5
6° 10 7 8,5
Media 7,33 7,33 7,33
Varianza 4,22 4,22 1,06

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media campionaria 1 n
X = ∑ Xi
n i=1
A. Campionamento con reintroduzione
⎛1 n ⎞ 1 ⎛ n ⎞ 1 n
( ) 1
E X = E ⎜ ∑ Xi ⎟ = E ⎜ ∑ Xi ⎟ = ∑ E Xi = ⋅ nµ = µ
⎝ n i=1 ⎠ n ⎝ i=1 ⎠ n i=1 n
( )
⎛1 n ⎞ 1 ⎛ n ⎞ 1 n
( ) ⎝ n i=1 ⎠ n ⎝ i=1 ⎠ n i=1 n
1
Var X = Var ⎜ ∑ Xi ⎟ = 2 Var ⎜ ∑ Xi ⎟ = 2 ∑ Var Xi = 2 ⋅ nσ =
2 σ2
n
( )
B. Campionamento senza reintroduzione

( )
E X =µ
⎛1 ⎞ 1 ⎛ ⎞ 1
Var ( X ) = Var ⎜ ∑ X ⎟ = Var ⎜ ∑ X ⎟ = ∑ Var ( X )
n n n

i i i
⎝n ⎠ n
i=1 ⎝ 2
⎠ n i=1
2
i=1

=
1⎡
n2 ⎣
( ) ( ) ( ) ( )
Var X1 + Var X2 + … + Var Xn + 2Cov X1, X2 + 2Cov X1, X3 + … + 2Cov Xn−1, Xn ⎤(
⎦ ) ( )
⎡ ⎤
1 ⎡⎢ n n −1 − σ 2 ⎤ 1 ⎡ ( )n n −1 ⎤ ( )
1⎢ n
n i=1
( )i j

( n ⎢
2
)
= 2 ⎢ ∑ Var Xi + 2∑ ∑ Cov Xi , X j ⎥ = 2 n⋅ σ + 2 ⋅
2
⋅ ⎥
N −1 ⎥ n ⎢

= 2 n⋅ σ − σ ⋅
2 2

N −1 ⎥

⎢⎣ i< j ⎥⎦ ⎣ ⎦ ⎣ ⎦
σ 2 σ 2 n −1 σ 2 ⎛ n −1⎞ σ 2 ⎛ N − n⎞
= − ⋅ = ⋅ ⎜1− ⎟= ⋅⎜ ⎟
n n N −1 n ⎝ N −1⎠ n ⎝ N −1 ⎠

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media campionaria (campionamento senza reintroduzione) 1 n


X = ∑ Xi
n i=1
Esempio:
N=7; 5; 10 µ=7,33 s2=4,22 n=2
Campionamento senza reintroduzione
Osservazione campionaria Media
Campione X1 X2 campionaria
1° 5 7 6,0
2° 5 10 7,5
3° 7 5 6,0


7
10
10
5
8,5
7,5
( )
E X = µ = 7,33

Var ( X ) =
6° 10 7 8,5
2
σ N − n 4,22 3 − 2
⋅ = ⋅ = 1,06
Media 7,33 7,33 7,33 n N −1 2 3 −1
Varianza 4,22 4,22 1,06

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I valori caratteristici della media campionaria 1 n


X = ∑ Xi
n i=1
A. Campionamento con reintroduzione B. Campionamento senza reintroduzione
σ2 σ2 N−n
( )
E X = µ ; Var X =
n
( ) ( ) ( )
E X = µ ; Var X = ⋅
n N −1

1. Quando è n=1, i risultati ottenuti con lo schema di campionamento con reintroduzione e quelli
ottenuti nel campionamento senza reintroduzione coincidono;

2. Quando è n=N , la varianza della media campionaria nello schema di campionamento senza
reintroduzione è nulla. In questo caso, infatti, il campione coincide con la popolazione e non si ha
più alcuna incertezza legata al campionamento;

3. Nel caso più comune in cui è n<N , il fattore di correzione per lo schema senza reintroduzione è <1.
Quindi, la varianza della media campionaria nello schema senza reintroduzione è minore di
quella che si ottiene nello schema con reintroduzione; (Perché?)

4. Quando è n<< N, il fattore di correzione per lo schema senza reintroduzione è prossimo a 1.


La differenza tra i due schemi di campionamento può quindi essere considerata trascurabile.
(Perché?)

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione della media campionaria 1 n


X = ∑ Xi
n i=1
1
Campione estratto da una popolazione in cui la variabile X è distribuita
come una Normale, con parametri µ e s2. (
X ∼ N µ ,σ 2 )
In questo caso, ogni osservazione campionaria sarà distribuita come una Normale, con gli stessi
parametri di X.
Per la proprietà riproduttiva della distribuzione Normale, la media campionaria, somma di
osservazioni campionarie con distribuzione Normale, avrà anch'essa distribuzione Normale.

(
X ∼ N µ ,σ 2
) (
Xi ∼ N µ , σ 2
) 1 n

n i=1
⎛ σ2⎞
Xi = X ∼ N ⎜ µ , ⎟
⎝ n⎠

La distribuzione standardizzata della media campionaria sarà ancora Normale, ma i valori


dipenderanno dallo schema di campionamento:

Campionamento
( )
con reintroduzione: E X = µ ; Var X =
σ2
( ) n
X−µ
σ
( )
∼ N 0,1

n
Campionamento
( )
senza reintroduzione: E X = µ ; Var X =
σ2 N−n
⋅ ( ) n N −1
X−µ
σ N−n
2
( )
∼ N 0,1

n N −1
LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione della media campionaria

Esercizio:
Supponiamo che la durata delle lampadine prodotte da una certa macchina abbia
distribuzione Normale con media µ = 2.750 ore e sqm σ = 118 ore.
Estraendo un campione di 21 lampadine, qual è la probabilità che la durata media sia:
• Superiore a 2.800 ore;
• Superiore a 2.730 ore;
• Compresa tra 2.700 e 2.800 ore?

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione della media campionaria

Esercizio:
Supponiamo che la durata delle lampadine prodotte da una certa macchina abbia
distribuzione Normale con media µ = 2.750 ore e sqm σ = 118 ore.
Estraendo un campione di 21 lampadine, qual è la probabilità che la durata media sia:
• Superiore a 2.800 ore;
• Superiore a 2.730 ore;
• Compresa tra 2.700 e 2.800 ore?

0,4500000
f(x) Titolo del grafico
Localizziamo sull’asse il punto 2.800 ore.
0,4000000

0,3500000 Qual è la variabile che stiamo considerando? X


0,3000000
σ 118
0,2500000 Qual è il suo sqm? = = 25,7
0,2000000 n 21
0,1500000

0,1000000

0,0500000

0,0000000
2.750
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione della media campionaria

Esercizio:
Supponiamo che la durata delle lampadine prodotte da una certa macchina abbia
distribuzione Normale con media µ = 2.750 ore e sqm σ = 118 ore.
Estraendo un campione di 21 lampadine, qual è la probabilità che la durata media sia:
• Superiore a 2.800 ore;
• Superiore a 2.730 ore;
• Compresa tra 2.700 e 2.800 ore?

0,4500000
f(x) Titolo del grafico
0,4000000

0,3500000
⎛ ⎞
⎜ X − µ 2.800 − 2.750 ⎟
0,3000000

0,2500000
(
P X ≥ 2.800 ) = P⎜
⎜ σ

118


0,2000000 ⎝ n 21 ⎠

( )
0,1500000

0,1000000 = P Z ≥ 1,94 = 0,5 − 0,4738 = 0,0262


0,0500000

0,0000000
2.750
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.800 X

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione della media campionaria

Esercizio:

f(x)

Distribuzione della durata delle singole lampadine X ! N ; µ X = 2.750 ; s X = 118


(oppure della media campionaria in campioni di n=1
æ X - µ 2.800 - 2.750 ö
lampadine).
Titolo del grafico
(
P X ≥ 2.800 = P ç)
è s
³
118
÷
ø
= P ( Z ³ 0,42 ) = 0,5 - 0,1628 = 0, 3372

2.750 2.800 2.979


X
-3,280
-3,060
-2,840
-2,620

-2,180
-1,960
-1,740
-1,520

-1,080
-0,860
-0,640
-0,420

0,020
0,240
0,460
0,680

1,120
1,340
1,560
1,780
2,0 0
2,2 0
2,4 0
2,6 0
2,8 0

3,320
-2,40

-1,30

-0,20

0,90

3,10
0,4500000
f(x) Titolo del grafico
0,4000000

0,3500000

0,3000000 118
X ! N ; µ X = 2.750 ; s X = = 25,7
Distribuzione della media campionaria 0,2500000
21
in campioni di n=21 lampadine. 0,2000000 ⎛ ⎞
⎜ X − µ 2.800 − 2.750 ⎟
0,1500000

0,1000000
(
P X ≥ 2.800 = P ⎜
⎜σ
) ≥
118


⎝ n 21 ⎠
( )
0,0500000

0,0000000
= P Z ≥ 1,94 = 0,5 − 0,4738 = 0,0262
2.750
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
2.800 X

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione della media campionaria

Esercizio:
Supponiamo che la durata delle lampadine prodotte da una certa macchina abbia
distribuzione Normale con media µ = 2.750 ore e sqm σ = 118 ore.
Estraendo un campione di 21 lampadine, qual è la probabilità che la durata media sia:
• Superiore a 2.800 ore;
• Superiore a 2.730 ore;
• Compresa tra 2.700 e 2.800 ore?

0,4500000
f(x) Titolo del grafico
0,4000000

0,3500000
⎛ ⎞
⎜ X − µ 2.730 − 2.750 ⎟
0,3000000

0,2500000
(
P X ≥ 2.730 = P ⎜



118


0,2000000 ⎝ n 21 ⎠

( )
0,1500000

0,1000000 = P Z ≥ −0,78 = 0,5 + 0,2823 = 0,7823


0,0500000

0,0000000
2.730 2.750
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione della media campionaria

Esercizio:
Supponiamo che la durata delle lampadine prodotte da una certa macchina abbia
distribuzione Normale con media µ = 2.750 ore e sqm σ = 118 ore.
Estraendo un campione di 21 lampadine, qual è la probabilità che la durata media sia:
• Superiore a 2.800 ore;
• Superiore a 2.730 ore;
• Compresa tra 2.700 e 2.800 ore?

0,4500000
f(x) Titolo del grafico
0,4000000

0,3500000
⎛ ⎞
⎜ 2.700 − 2.750 X − µ 2.800 − 2.750 ⎟
0,3000000

0,2500000
(
P 2.700 ≤ X ≤ 2.800 = P ⎜
⎜ 118
) ≤
σ

118


0,2000000 ⎝ 21 n 21 ⎠

( )
0,1500000

0,1000000 = P −1,94 ≤ Z ≤ 1,94 = 0,4738 × 2 = 0,9476


0,0500000

0,0000000
2.750
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.700 2.800 X

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione della media campionaria


1
Campione estratto da una popolazione in cui la variabile X è distribuita
come una Normale, con parametri µ e s2. (
X ∼ N µ ,σ 2 )
In questo caso, ogni osservazione campionaria sarà distribuita come una Normale, con gli stessi
parametri di X.
Per la proprietà riproduttiva della distribuzione Normale, la media campionaria, somma di
osservazioni campionarie con distribuzione Normale, avrà anch'essa distribuzione Normale.

(
X ∼ N µ ,σ 2
) (
Xi ∼ N µ , σ 2
) 1 n

n i=1
⎛ σ2⎞
Xi = X ∼ N ⎜ µ , ⎟
⎝ n⎠
2
Cosa succede se non si conosce la distribuzione di X?

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione della media campionaria

Teorema limite centrale


Tutte le volte che un fenomeno reale può essere interpretato come la somma, oppure la
media, di un gran numero di cause indipendenti, nessuna delle quali ha prevalenza sulle altre,
indipendentemente dai modelli probabilistici che generano le singole variabili casuali, è
ragionevole attendersi che la distribuzione di probabilità di quel fenomeno possa essere
approssimabile mediante la distribuzione Normale.
1. Lindeberg-Levy
Data una successione di variabili casuali X1, X2, …, Xn, indipendenti e identicamente distribuite con
media µ e varianza σ2, definita la variabile casuale:
X1 + X2 + … + Xn
Xn =
n
e la v.c. standardizzata:
Zn =
( )
Xn − E Xn

Var ( X )
n

allora, al crescere di n si ha che: Zn → Z

2. Lindeberg-Cramer
Il teorema limite centrale resta valido anche quando la successione X(n) è formata da variabili
casuali che non sono identicamente distribuite, purché ciascuna v.c. Xi, i=1, …, n, sia indipendente
dalle altre e abbia momenti primi e secondi finiti.

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La distribuzione della media campionaria

Teorema limite centrale


Tutte le volte che un fenomeno reale può essere interpretato come la somma, oppure la
media, di un gran numero di cause indipendenti, nessuna delle quali ha prevalenza sulle altre,
indipendentemente dai modelli probabilistici che generano le singole variabili casuali, è
ragionevole attendersi che la distribuzione di probabilità di quel fenomeno possa essere
approssimabile mediante la distribuzione Normale.

Quindi…
Sotto condizioni molto generali, la somma di n variabili casuali indipendenti è
asintoticamente Normale, e questo è vero qualunque sia il tipo di distribuzione di
ciascuna delle v.c. Xi, i=1, …, n.

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media campionaria

Esercizio 1
Negli USA, un produttore di cosmetici ha 1.500 venditori porta a porta che,
nellʼultimo mese, hanno realizzato vendite per un valore pari a µ=3100$ e con
sqm σ=450$.
Si estrae, senza reintroduzione, un campione di 64 venditori. Qual è la probabilità che
questo gruppo abbia realizzato, nell'ultimo mese, vendite per un valore medio inferiore a
3.000$?
n 64
N=1.500 µ =3.100$ σ =450$ n=64 = = 0,043
N 1.500
⎛ ⎞
⎜ X −µ ⎟
(
P X64 < 3000 = P ⎜ ) 64
⎜ σ2 N−n
<
3.000 − 3.100
4502 1.500 − 64 ⎟

⎜ × × ⎟
⎝ n N −1 64 1.500 −1 ⎠
⎛ ⎞
⎜ ⎟

= P⎜ Z <

3.000 3.100
202.500 1.436 ⎟
⎟ = P Z < −1,81 = 0,0351
( )
⎜ × ⎟
⎝ 64 1.499 ⎠

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La media campionaria

Esercizio 2
Le funi di sostegno di un ponte sono formate da cavi di acciaio intrecciati.
La resistenza alla trazione di ogni cavo è una variabile casuale con
media µ=0,1 tonnellate e sqm σ=0,06 tonnellate.
Assumendo che una fune abbia una resistenza alla trazione uguale alla somma delle resistenze
dei cavi che la compongono, si determini la probabilità che una fune costituita da 100 cavi
sopporti una trazione di 9 tonn.

1
µ X = 0,1 ; σ X = 0,06
i i
X= ∑X ⇒
n i i
∑X i
= nX
i

⎛ ⎞
( )
P ⎜ ∑ Xi ≥ 9⎟ = P 100 ⋅ X ≥ 9 = P X ≥ 0,09
⎝ i ⎠
( )
⎛ ⎞
⎜ X − µ 0,09 − 0,1 ⎟ ⎛ −0,01⎞
= P⎜
⎜ σ

0,06
⎟ = P⎜ Z ≥
⎟ ⎝ 0,006
⎟ = P Z ≥ −1,67 = 0,9525

( )
⎜⎝ ⎟
n 100 ⎠

LEZIONE 18 – IL CAMPIONAMENTO
Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 19:
Teoria della Stima
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lʼinferenza

• Compito dell'inferenza statistica è giungere ad una Pop


conoscenza delle caratteristiche incognite del processo in
Deduzione Induzione
esame, sulla base dell’informazione disponibile, informazione Estrazione

che non può essere considerata come esaustiva e certa ma


casuale

che presenta aspetti di parzialità e di casualità proprio in C


ragione della sua stessa natura. (Orsi, pag. 267)

• L’osservazione di un fenomeno nell’ambito di quelle che vengono definite “scienze


osservazionali ” come l ’ economia, la sociologia, la psicologia e altre, può essere
considerata come la realizzazione di un modello probabilistico teorico, e la grandezza
analizzata come una variabile casuale generata da tale modello. (Orsi, pag. 267)

• L ’ inferenza statistica affronta problemi di decisione in condizioni di incertezza, di


previsione o, più in generale, di conoscenza del mondo reale, basandosi sia su
informazioni a priori sia su dati campionari che, per loro natura, costituiscono solo degli
aspetti parziali di tale realtà. (Orsi, pag. 268)

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Lʼinferenza

Sebbene ogni esperimento sia unico e irripetibile, è indispensabile individuare, e provare a


controllare, aspetti che possono essere considerati come comuni. Più precisamente, ogni
inferenza si basa sulla specificazione accurata dei seguenti elementi: (Piccolo, pag. 493):

• Popolazione di riferimento
• Procedura di raccolta e selezione delle informazioni
• Tecnica inferenziale per giungere dal risultato parziale alla popolazione
• Validità statistica della procedura utilizzata

Lʼinferenza comprende una serie di tecniche che possono essere raccolte nei suoi due
principali capitoli:

• Stima dei parametri


• Verifica delle ipotesi

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Stimatori e stime

Supporremo che sulla popolazione sia definita una variabile X la cui distribuzione, seppure
incognita, è completamente caratterizzata da un parametro q o da un insieme di parametri
Θ.

L’obiettivo è trovare, sulla base di un campione casuale X1, X2, …, Xn, un valore, o un
insieme di valori, per q (o per Θ ) che siano la migliore approssimazione possibile del valore
incognito della popolazione.

Le n osservazioni campionarie X1,…Xn sono altrettante variabili casuali la cui distribuzione e i


cui parametri sono uguali a quelli della variabile X.

Una funzione delle osservazioni campionarie è essa stessa una variabile casuale che, nel
caso della stima di un parametro, viene definita stimatore.

Il valore che lo stimatore assume nello specifico campione estratto costituisce la


realizzazione campionaria della variabile casuale e costituisce la stima.

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Stimatori e stime

C
C
C
C C C
C
Pop C
C C
C

C C
C

Popolazione Universo dei possibili Campione estratto


campioni di dimensione n

1 n 1 n
µ X = ∑ Xi x = ∑ xi
n i=1 n i=1

(Parametro) (Stimatore) (Stima)


q Tn = θˆ t

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Stimatori e stime

C
C
C
C C C
Pop C
C
C C
C
C C
C

Popolazione Universo dei possibili Campione estratto


campioni di dimensione n

In generale, è possibile definire più di uno stimatore per uno stesso parametro.
Ciascuno stimatore avrà una propria distribuzione campionaria che, in generale,
ammetterà una media e una varianza.

()
E θˆ Valore atteso dello stimatore

() ( Var (θˆ) )
2
E ⎡θˆ − E θˆ ⎤ Varianza dello stimatore
⎣ ⎦

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La scelta dello stimatore

• Criteri generali
• “Naturalità” dello stimatore (rispetto al parametro che si vuole stimare)
• Rispetto di specifiche proprietà

• Metodi di stima
• Minimi quadrati
• Momenti
• Massima verosimiglianza

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La "naturalità" di uno stimatore

Uno stimatore “naturale” per un parametro è uno stimatore che ne riproduce al


meglio le caratteristiche.
Quindi, ad esempio, per il parametro media della popolazione, uno stimatore
naturale è certamente la media campionaria ma anche, in particolare nelle
distribuzioni simmetriche, la mediana campionaria o la semisomma degli estremi. In
questi casi, saranno le proprietà di cui ciascuno stimatore gode a farci propendere
per l’uno o per l’altro.
Nel caso della varianza della popolazione, lo stimatore naturale sarebbe la varianza
campionaria ma, come vedremo, in particolare nei piccoli campioni questo
stimatore genera stime non sempre precise, per cui occorrerà “correggerlo”.

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà per piccoli campioni le


• Proprietà per piccoli campioni proprietà “universali”, applicabili a tutti i campioni,
indipendentemente dalla loro dimensione.

1. Correttezza (o “centratura” o “non distorsione”)

Dato uno stimatore Tn=T(X1, X2, …, Xn) del parametro q, diremo che Tn è corretto (o
centrato o non distorto) se il suo valore atteso coincide con il parametro da stimare,
quindi se:
( )
E Tn = θ
Se E(Tn)≠q, diremo che lo stimatore Tn è uno stimatore distorto per q, con fattore di
distorsione dato da:
( ) ( )
D Tn = E Tn − θ

E (Tn ) = q
q Tn

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà per piccoli campioni le


• Proprietà per piccoli campioni proprietà “universali”, applicabili a tutti i campioni,
indipendentemente dalla loro dimensione.

1. Correttezza (o “centratura” o “non distorsione”)

Dato uno stimatore Tn=T(X1, X2, …, Xn) del parametro q, diremo che Tn è corretto (o
centrato o non distorto) se il suo valore atteso coincide con il parametro da stimare,
quindi se:
( )
E Tn = θ
Se E(Tn)≠q, diremo che lo stimatore Tn è uno stimatore distorto per q, con fattore di
distorsione dato da:
( ) ( )
D Tn = E Tn − θ

Distorsione

q ( )
E Tn Tn

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà per piccoli campioni le


• Proprietà per piccoli campioni proprietà “universali”, applicabili a tutti i campioni,
indipendentemente dalla loro dimensione.

1. Correttezza (o “centratura” o “non distorsione”)

Dato uno stimatore Tn=T(X1, X2, …, Xn) del parametro q, diremo che Tn è corretto (o
centrato o non distorto) se il suo valore atteso coincide con il parametro da stimare,
quindi se:
( )
E Tn = θ

1 n
Esempio: la media campionaria: X = ∑ Xi
n i=1
⎛1 n ⎞ 1 ⎛ n ⎞ 1 n
E X ( )
= E ⎜ ∑ i⎟ X = E ⎜∑ i⎟
X = ∑
⎝ n i=1 ⎠ n ⎝ i=1 ⎠ n i=1
E X i
=
1
n
⋅ n⋅ µ = µ ( )

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà per piccoli campioni le


• Proprietà per piccoli campioni proprietà “universali”, applicabili a tutti i campioni,
indipendentemente dalla loro dimensione.

1. Correttezza (o “centratura” o “non distorsione”)

Dato uno stimatore Tn=T(X1, X2, …, Xn) del parametro q, diremo che Tn è corretto (o
centrato o non distorto) se il suo valore atteso coincide con il parametro da stimare,
quindi se:
( )
E Tn = θ

1 n
( )
2
Esempio: la varianza campionaria: S = ∑ Xi − X 2

n i=1
La Varianza campionaria è una misura della variabilità del carattere nel campione, e può
quindi essere utilizzata come stimatore della variabilità nella popolazione.

(È, quindi, cosa ben diversa dalla Varianza della media campionaria, che è, invece, una misura della
variabilità di tutte le medie calcolabili su tutti i possibili campioni di dimensioni n estratti da una
determinata popolazione).

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà per piccoli campioni le


• Proprietà per piccoli campioni proprietà “universali”, applicabili a tutti i campioni,
indipendentemente dalla loro dimensione.

1. Correttezza (o “centratura” o “non distorsione”)


1 n
( )
2
Esempio: la varianza campionaria: S = ∑ Xi − X
2

n i=1
N=3; µ=7,33; s2=4,22; n=2
Osservazione campionaria Media Varianza
Campione

X1
5
X2
5
campionaria
5,0
campionaria
0,00
( )
E S2 ≠ σ 2

2° 5 7 6,0 1,00 La varianza campionaria è uno stimatore


3° 5 10 7,5 6,25 distorto della varianza della popolazione.
4° 7 5 6,0 1,00
5° 7 7 7,0 0,00
6° 7 10 8,5 2,25
7° 10 5 7,5 6,25
8° 10 7 8,5 2,25
9° 10 10 10,0 0,00
Media 7,33 7,33 7,33 2,11
Varianza 4,22 4,22 2,11

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà per piccoli campioni le


• Proprietà per piccoli campioni proprietà “universali”, applicabili a tutti i campioni,
indipendentemente dalla loro dimensione.

1. Correttezza (o “centratura” o “non distorsione”)


1 n
( )
2
Esempio: la varianza campionaria: S = ∑ Xi − X
2

n i=1
N=3; µ=7,33; s2=4,22; n=2
Osservazione campionaria Media Varianza ⎛ n −1⎞
Campione

X1
5
X2
5
campionaria
5,0
campionaria
0,00
( )
E S2 ≠ σ 2 = σ 2 ⋅ ⎜
⎝ n ⎠

2° 5 7 6,0 1,00 La varianza campionaria è uno stimatore
3° 5 10 7,5 6,25 distorto della varianza della popolazione.
4° 7 5 6,0 1,00
5° 7 7 7,0 0,00 Poiché, però, il fattore di distorsione è noto, è
6° 7 10 8,5 2,25 possibile “correggerlo”. Inoltre, è evidente
7° 10 5 7,5 6,25 che la distorsione vale solo per campioni
8° 10 7 8,5 2,25 piccoli, poiché al crescere di n il fattore di
9° 10 10 10,0 0,00 distorsione tende a 1; lo stimatore, cioè, come
Media 7,33 7,33 7,33 2,11 vedremo, sebbene distorto, risulta
Varianza 4,22 4,22 2,11
asintoticamente corretto.

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà per piccoli campioni le


• Proprietà per piccoli campioni proprietà “universali”, applicabili a tutti i campioni,
indipendentemente dalla loro dimensione.

1. Correttezza (o “centratura” o “non distorsione”)


1 n
( )
⎛ n −1⎞
( )
2
Esempio: la varianza campionaria: S = ∑ Xi − X
2
E S2 ≠ σ 2 = σ 2 ⋅ ⎜ ⎟
n i=1 ⎝ n ⎠

La varianza campionaria è uno stimatore distorto della varianza della popolazione.


n 2
Per correggere lo stimatore, basterà moltiplicarlo per il reciproco del fattore di distorsione: S! 2 = S
n −1
E’ chiaro, infatti, che il valore atteso di questo stimatore coinciderà con il parametro σ2.
⎛ n 2⎞
( )
! 2
E S = E⎜ S ⎟=
n
⎝ n −1 ⎠ n −1
E S2 = σ 2 ( )
( )
n
1
n n 1 n
( )
2

2
D’altra parte, tenendo presente la formula di S2, si ha: S =
2
⋅ ∑ xi − x = xi − x
n −1 n −1 n i=1 n −1 i=1

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà per piccoli campioni le


• Proprietà per piccoli campioni proprietà “universali”, applicabili a tutti i campioni,
indipendentemente dalla loro dimensione.

1. Correttezza (o “centratura” o “non distorsione”)


1 n
( )
⎛ n −1⎞
( )
2
Esempio: la varianza campionaria: S = ∑ Xi − X
2
E S2 ≠ σ 2 = σ 2 ⋅ ⎜ ⎟
n i=1 ⎝ n ⎠

La varianza campionaria è uno stimatore distorto della varianza della popolazione. Può essere
"corretta" in due modi:
A. Moltiplicando la varianza campionaria S2 per il fattore di correzione: n
n −1
E’ questo il metodo che si utilizza quando non si dispone dei singoli dati campionari, per
correggere una varianza già calcolata con la formula tradizionale.
∑( X − X)
n 2

B. Dividendo la devianza campionaria per (n-1) anziché per n: i


i=1

n −1
E’ questo il metodo che in genere si utilizza quando si dispone dei singoli dati campionari.
D’altra parte, la varianza campionaria si corregge “da sola” all’aumentare della dimensione
campionaria.
LEZIONE 19 – TEORIA DELLA STIMA
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà per piccoli campioni le


• Proprietà per piccoli campioni proprietà “universali”, applicabili a tutti i campioni,
indipendentemente dalla loro dimensione.

2. Efficienza
In molti casi, è possibile individuare più stimatori “naturali” per lo stesso parametro.
Ad esempio, nel caso di distribuzioni simmetriche, il parametro µ può essere stimato, oltre che dalla
media campionaria, anche dalla mediana campionaria, che risulta anch’essa uno stimatore
corretto per µ.

Come si sceglie, in questo caso, lo stimatore?

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà per piccoli campioni le


• Proprietà per piccoli campioni proprietà “universali”, applicabili a tutti i campioni,
indipendentemente dalla loro dimensione.

2. Efficienza
Dati due stimatori, T1 e T2, entrambi corretti per il parametro q, lo stimatore T1 sarà più efficiente di T2 se
risulta: Var T ( ) <1
1
(Efficienza relativa)
Var ( T )
2

T3

T2 Tra i tre stimatori T1, T2 e T3, tutti e tre corretti per il parametro q,
sceglieremo T3 perché ha la varianza più piccola, e quindi
garantisce risultati campionari più vicini al parametro da
stimare.

T1

( )
E Tn = θ Tn

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà per piccoli campioni le


• Proprietà per piccoli campioni proprietà “universali”, applicabili a tutti i campioni,
indipendentemente dalla loro dimensione.

2. Efficienza
Dati due stimatori, T1 e T2, entrambi corretti per il parametro q, lo stimatore T1 sarà più efficiente di T2 se
risulta: Var T ( ) <1
1
(Efficienza relativa)
Var ( T )
2

Media
campionaria

T1 (Media campionaria): E T1 = µ ; Var T1 = ()


σ2
n
()
T2 (Mediana campionaria): E T2 = µ ; Var T2 = ⋅
n 2
( )
σ2 π
( )
Mediana
campionaria A parità di non distorsione, la media campionaria è uno
stimatore più efficiente della mediana campionaria.
µ Tn

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà per piccoli campioni le


• Proprietà per piccoli campioni proprietà “universali”, applicabili a tutti i campioni,
indipendentemente dalla loro dimensione.

2. Efficienza
Esempio:
Da una popolazione su cui è definita una variabile X con media µ incognita, si estrae un
campione casuale di numerosità n. Si definiscano le proprietà dei seguenti stimatori per µ:
1 n
n i=1
1
2
( ) 1
T1 = ∑ Xi ; T2 = X1 + Xn ; T3 = X2 ; T4 = X2 + X8
3
( )
T1 () 1 ⎛ n ⎞ 1 1
E T1 = E ⎜ ∑ Xi ⎟ = ∑ E Xi = ⋅ nµ = µ
n ⎝ i=1 ⎠ n i n
( ) T1: Stimatore corretto

T2 ( )
E T2 =
1⎡
2⎣
( ) ( ) ⎦ 2
1
E X1 + E Xn ⎤ = ⎡⎣ µ + µ ⎤⎦ = µ T2: Stimatore corretto

T3 ( ) ( )
E T3 = E X2 = µ T3: Stimatore corretto

T4 ( )
E T4 =
1⎡
3⎣
( ) ( ) ⎦ 3
1 2
E X2 + E X8 ⎤ = ⎡⎣ µ + µ ⎤⎦ = µ ≠ µ
3
T4: Stimatore distorto

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà per piccoli campioni le


• Proprietà per piccoli campioni proprietà “universali”, applicabili a tutti i campioni,
indipendentemente dalla loro dimensione.

2. Efficienza
Esempio:
Da una popolazione su cui è definita una variabile X con media µ incognita, si estrae un
campione casuale di numerosità n. Si definiscano le proprietà dei seguenti stimatori per µ:
1 n
n i=1
1
2
( ) 1
T1 = ∑ Xi ; T2 = X1 + Xn ; T3 = X2 ; T4 = X2 + X8
3
( )T1

⎛ n ⎞
() 1 1 n σ
( )
2
1
T1 Var T1 = 2 Var ⎜ ∑ Xi ⎟ = 2 ∑ Var Xi = 2 ⋅ nσ =
2
T2
n ⎝ i=1 ⎠ n i=1 n n

σ2
T2 ( )
Var T2 =
1⎡
4⎣
( ) ⎦ 4
1
( )
Var X1 + Var Xn ⎤ = ⎡⎣σ 2 + σ 2 ⎤⎦ =
2
T3
E (Tn ) = q Tn
T3 ( )
Var T3 = Var X2 ( ) =σ2 Tra i tre stimatori, tutti corretti, si sceglierà quello con varianza più piccola,
cioè quello che raccoglierà più valori attorno al valore centrale, che
coincide con il parametro da stimare. In questo caso, per campioni con n>2
si sceglierà lo stimatore T1.

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà per piccoli campioni le


• Proprietà per piccoli campioni proprietà “universali”, applicabili a tutti i campioni,
indipendentemente dalla loro dimensione.

2. Efficienza: la disuguaglianza di Carmer-Rao (Efficienza assoluta)

Sotto condizioni molto generali, ad ogni parametro q è possibile associare un valore minimo per la
varianza al di sotto del quale nessuno stimatore Tn, corretto per q, può andare.

Var Tn ≥ ( ) ⎡ ∂
1

2

⎣ ∂θ
( )
n⋅ E ⎢ logf X;θ ⎥

Lo stimatore che raggiunge tale limite verrà definito stimatore a varianza minima.
Lʼesistenza di una varianza minima per ogni q non implica necessariamente lʼesistenza di uno stimatore a
varianza minima. In altri termini, è possibile che esista il limite ma che non esista alcuno stimatore che lo
raggiunga.
Eʼ possibile, comunque, ipotizzare che ad ogni parametro q corrisponda, sotto condizioni molto generali,
almeno uno stimatore asintoticamente efficiente. Per campioni di dimensione finita, sarà il più delle volte
sufficiente fare riferimento a stimatori che si “avvicinano” allʼestremo di Cramer-Rao.

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà per piccoli campioni le


• Proprietà per piccoli campioni proprietà “universali”, applicabili a tutti i campioni,
indipendentemente dalla loro dimensione.

2. Efficienza e distorsione: l'errore quadratico medio


Uno stimatore distorto ma con una varianza piccola (T2) potrebbe essere preferito ad uno
stimatore corretto ma con una grande variabilità (T1) . T2 T3 T4
D’altra parte, se la distorsione è elevata (T3), la (distorto)(distorto) (distorto)
variabilità ridotta, paradossalmente, rende più
probabili risultati campionari “lontani” dal parametro
che si vuole stimare (T4).
Nella scelta tra stimatori diversi, è quindi importante
considerare sia l’eventuale distorsione sia la
variabilità dello stimatore.
T1
(corretto)

q Tn

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà per piccoli campioni le


• Proprietà per piccoli campioni proprietà “universali”, applicabili a tutti i campioni,
indipendentemente dalla loro dimensione.

2. Efficienza e distorsione: l'errore quadratico medio

( )⎡
( ) ( ) ( )
2⎤ 2
⎡ ⎤
EQM Tn = E ⎢ Tn − θ ⎥ = Var Tn + ⎣ D Tn ⎦
⎣ ⎦ T2 T3 T4
(distorto)(distorto) (distorto)
LʼEQM di uno stimatore è pari alla varianza dello stimatore
più il quadrato della distorsione. Se lo stimatore è non
distorto, lʼEQM risulta pari alla sola varianza.
Nella scelta tra stimatori diversi, quindi, si preferirà quello
con EQM più piccolo, regola che, nel caso di stimatori
entrambi non distorti, equivale a preferire quello più
efficiente.
T1
(corretto)

q Tn

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà asintotiche


• Proprietà asintotiche quelle proprietà che variano al variare della
dimensione campionaria, rendendo lo stimatore
via via più affidabile, al crescere di n.

Quando, allʼaumentare di n, la distribuzione di uno stimatore tende ad assumere una


forma ben specifica, allora la distribuzione limite verso cui tende viene definita distribuzione
asintotica dello stimatore.
Il termine “asintotico” non deve far pensare che la distribuzione asintotica coincida con la
forma finale della distribuzione per n infinito (forma che, tipicamente, tenderà a
degenerare in un punto) quanto piuttosto alla forma che la distribuzione assume prima di
divenire un punto, cioè per n grande ma finito.

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà asintotiche


• Proprietà asintotiche quelle proprietà che variano al variare della
dimensione campionaria, rendendo lo stimatore
via via più affidabile, al crescere di n.

1. Correttezza asintotica
Uno stimatore Tn è asintoticamente corretto per q se il valore atteso della sua distribuzione limite è
uguale a q.
La proprietà della correttezza asintotica garantisce che, anche in uno stimatore distorto, gli errori
sistematici tendono a scomparire al crescere di n, ma non dice nulla sul comportamento della
varianza di Tn, cioè sulla dispersione delle singole stime attorno al parametro q. (Orsi, pag. 297).

Uno stimatore non distorto è certamente anche asintoticamente corretto ma non è


necessariamente vero lʼinverso .

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà asintotiche


• Proprietà asintotiche quelle proprietà che variano al variare della
dimensione campionaria, rendendo lo stimatore
via via più affidabile, al crescere di n.

1. Correttezza asintotica
1 n
( )
2
La varianza campionaria: S = ∑ Xi − X 2

n i=1
⎛ n −1⎞
( )
E S2 = σ 2 ⋅ ⎜
⎝ n ⎠
⎟ La varianza campionaria è uno stimatore distorto.

n→∞
( )
lim E S2 = σ 2 La varianza campionaria è uno stimatore asintoticamente corretto.

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà asintotiche


• Proprietà asintotiche quelle proprietà che variano al variare della
dimensione campionaria, rendendo lo stimatore
via via più affidabile, al crescere di n.

2. Consistenza
Uno stimatore Tn è consistente per q se per ogni coppia di numeri positivi δ ed ε, scelti piccoli a
piacere, è sempre possibile trovare una dimensione campionaria N tale che, per ogni n>N, risulti:

{
P tn − θ < δ > 1− ε }
Condizione sufficiente (ma non necessaria) perché Tn sia uno stimatore consistente per q, è che Tn
sia asintoticamente corretto e che la sua varianza tenda a zero all’aumentare di n:

n→∞
( )
lim E Tn = θ ; ( )
lim Var Tn = 0
n→∞

Questa caratteristica può essere riassunta nella condizione che lʼEQM tenda a zero al crescere di n.

lim ⎡ EQM Tn ⎤ = 0
n→∞ ⎣ ⎦ ( )

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà asintotiche


• Proprietà asintotiche quelle proprietà che variano al variare della
dimensione campionaria, rendendo lo stimatore
via via più affidabile, al crescere di n.

2. Consistenza
Esempio:
Verificare se gli stimatori T1, T2 e T3 definiti di seguito sono consistenti:

T1 =
1 n
∑X
n i=1 i
T2 =
1
(X + Xn
2 1
) T3 =
1
(X + X8
3 2
)

()
E T1 = µ ; Var T1 =
σ2
n
() ( )
E T2 = µ ; Var T2 =
σ2
2
( ) ( )
E T3 =
2
3
2
( )
µ ; Var T3 = σ 2
9

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Le proprietà degli stimatori

Si definiscono proprietà asintotiche


• Proprietà asintotiche quelle proprietà che variano al variare della
dimensione campionaria, rendendo lo stimatore
via via più affidabile, al crescere di n.

2. Consistenza
Esempio:
Verificare se gli stimatori T1, T2 e T3 definiti di seguito sono consistenti:

T1 =
1 n
∑X
n i=1 i
T2 =
1
(X + Xn
2 1
) T3 =
1
(X + X8
3 2
)
T1 T2 T3

DISTORSIONE 0 0 − 1 ⋅µ
3

σ2 σ2 2 ⋅σ 2
VARIANZA
n 2 9 Solo lo stimatore T1
⎛ 2 σ2⎞ σ2 ⎛ 2 σ2⎞ σ2
è consistente.
1 2 2 2
EQM ⎜0 + ⎟= ⎜0 + ⎟= µ + σ
⎝ n⎠ n ⎝ 2 ⎠ 2 9 9

σ2 1 2 2 2
lim EQM 0 µ + σ
n→∞
2 9 9

LEZIONE 19 – TEORIA DELLA STIMA


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 20:
La stima per intervalli
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La costruzione di un intervallo di confidenza per un parametro q è lo sviluppo più naturale


della teoria della stima quando si desidera accompagnare il risultato numerico derivato dal
campione con una misura di affidabilità circa la sua collocazione più probabile.
(Piccolo, pag. 731)

Le domande da porsi sono:


• Quando un intervallo di confidenza può definirsi ottimale?
• Come si costruisce un intervallo di confidenza ottimale?

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

1. Variabile quantitative

La stima della media µ

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima della media (piccoli campioni)

(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)

Poiché la variabile X si distribuisce in modo Normale, allora anche la v.c. media campionaria
seguirà la stessa distribuzione:
⎛ σ 2⎞
X~N ⎜ µ; ⎟
⎜⎝ n ⎟⎠
La standardizzata della media campionaria seguirà una distribuzione N(0,1): X − µ ~N 0;1
σ
( )
n
æ s2 ö X-µ
X ! N ç µ; ÷ Þ ! N ( 0;1)
è n ø s
n
⎛ ⎞
⎜ X −µ ⎟ 1-a
P ⎜ − zα ≤ n ≤ zα ⎟ = 1− α
⎜ 2 σ 2⎟ X −µ
⎝ ⎠ Z=
n σ
−zα 0 zα
2 2
n

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima della media (piccoli campioni)

(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)
⎛ ⎞

(
X~N µ;σ 2
)
⎛ σ ⎞
X ∼ N ⎜ µ; ⎟
2 X−µ
σ
∼ N 0;1 ( ) ⎜ X −µ
P ⎜ − zα ≤ n

≤ zα ⎟ = 1− α
⎝ n⎠ ⎜ 2 σ 2⎟
n ⎝ n ⎠

⎛ σ σ ⎞
P ⎜ µ − zα ⋅ ≤ Xn ≤ µ + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
(Approccio deduttivo)
æ s s ö
P ç - za ×
n
(
£ Xn - µ £ za × )
÷ = 1- a

è 2 2

⎛ σ σ ⎞
P ⎜ X − zα ⋅ ≤ µ ≤ X + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
(Approccio induttivo)

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima della media (piccoli campioni)

(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)

⎛ ⎞

(
X~N µ;σ 2 )
⎛ σ2⎞
X ∼ N ⎜ µ; ⎟
X−µ
σ
∼ N 0;1 ( ) ⎜ X −µ
P ⎜ − zα ≤ n

≤ zα ⎟ = 1− α
⎝ n⎠ ⎜ 2 σ 2⎟
n ⎝ n ⎠
⎛ σ σ ⎞
Approccio deduttivo P ⎜ µ − zα ⋅ ≤ Xn ≤ µ + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
Esempio:
Una macchina produce bulloni il cui peso ha distribuzione Normale con media µ=63 grammi e varianza σ2=0,8.
Scegliendo a caso 8 bulloni, qual è l’intervallo che con probabilità 0,95 comprenderà la loro media?
⎛ σ σ ⎞
P ⎜ µ − zα ⋅ ≤ Xn ≤ µ + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠

95%

σ 63 σ X (Distribuzione dei valori medi di tutti i possibili campioni di n=8


µ − zα ⋅ µ + zα ⋅ bulloni scelti a caso dalla nostra macchina)
2 n 2 n

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima della media (piccoli campioni)

(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)

⎛ ⎞

(
X~N µ;σ 2 )
⎛ σ2⎞
X ∼ N ⎜ µ; ⎟
X−µ
σ
∼ N 0;1 ( ) ⎜ X −µ
P ⎜ − zα ≤ n

≤ zα ⎟ = 1− α
⎝ n⎠ ⎜ 2 σ 2⎟
n ⎝ n ⎠
⎛ σ σ ⎞
Approccio deduttivo P ⎜ µ − zα ⋅ ≤ Xn ≤ µ + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
Esempio:
Una macchina produce bulloni il cui peso ha distribuzione Normale con media µ=63 grammi e varianza σ2=0,8.
Scegliendo a caso 8 bulloni, qual è l’intervallo che con probabilità 0,95 comprenderà la loro media?
⎛ σ σ ⎞
P ⎜ µ − zα ⋅ ≤ Xn ≤ µ + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠

95%

0,89 63 0,89 X (Distribuzione dei valori medi di tutti i possibili campioni di n=8
63 −1,96 ⋅ 63 +1,96 ⋅ bulloni scelti a caso dalla nostra macchina)
8 8

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima della media (piccoli campioni)

(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)

⎛ ⎞

(
X~N µ;σ 2 )
⎛ σ2⎞
X ∼ N ⎜ µ; ⎟
X−µ
σ
∼ N 0;1 ( ) ⎜ X −µ
P ⎜ − zα ≤ n

≤ zα ⎟ = 1− α
⎝ n⎠ ⎜ 2 σ 2⎟
n ⎝ n ⎠
⎛ σ σ ⎞
Approccio deduttivo P ⎜ µ − zα ⋅ ≤ Xn ≤ µ + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
Esempio:
Una macchina produce bulloni il cui peso ha distribuzione Normale con media µ=63 grammi e varianza σ2=0,8.
Scegliendo a caso 8 bulloni, qual è l’intervallo che con probabilità 0,95 comprenderà la loro media?
⎛ 0,89 0,89 ⎞
P ⎜ 63 −1,96 ⋅ ≤ Xn ≤ 63 +1,96 ⋅ ⎟ = 0,95
⎝ 8 8 ⎠
(
P 63 − 0,62 ≤ Xn ≤ 63 + 0,62 = 0,95)
95% (
P 62,38 ≤ Xn ≤ 63,62 ) = 0,95

62,4 63 63,6 X (Distribuzione dei valori medi di tutti i possibili campioni di n=8
bulloni scelti a caso dalla nostra macchina)

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima della media (piccoli campioni)

(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)

⎛ ⎞

(
X~N µ;σ 2 )
⎛ σ2⎞
X ∼ N ⎜ µ; ⎟
X−µ
σ
∼ N 0;1 ( ) ⎜ X −µ
P ⎜ − zα ≤ n

≤ zα ⎟ = 1− α
⎝ n⎠ ⎜ 2 σ 2⎟
n ⎝ n ⎠
⎛ σ σ ⎞
Approccio deduttivo P ⎜ µ − zα ⋅ ≤ Xn ≤ µ + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
Esempio:
Una macchina produce bulloni il cui peso ha distribuzione Normale con media µ=63 grammi e varianza σ2=0,8.
Scegliendo a caso 8 bulloni, qual è l’intervallo che con probabilità 0,95 comprenderà la loro media?

Estraendo un campione di n=8 bulloni, la media di questo campione


sarà compresa, con probabilità pari a 0,95, tra 62,4 e 63,6 centimetri.

95%

62,4 63 63,6 X (Distribuzione dei valori medi di tutti i possibili campioni di n=8
bulloni scelti a caso dalla nostra macchina)

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima della media (piccoli campioni)

(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)

⎛ ⎞

(
X~N µ;σ 2 )
⎛ σ2⎞
X ∼ N ⎜ µ; ⎟
X−µ
σ
∼ N 0;1 ( ) ⎜ X −µ
P ⎜ − zα ≤ n

≤ zα ⎟ = 1− α
⎝ n⎠ ⎜ 2 σ 2⎟
n ⎝ n ⎠
⎛ σ σ ⎞
Approccio induttivo P ⎜ X − zα ⋅ ≤ µ ≤ X + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠

In questo caso, il parametro µ è incognito ma può essere stimato sulla base del risultato campionario di cui si
dispone. Il principio metodologico è assolutamente identico a quanto visto in precedenza, con la differenza
che stavolta l’intervallo sarà costruito attorno al valore campionario e, con probabilità 1-a, conterrà il
parametro incognito.
⎛ σ σ ⎞
P ⎜ X − zα ⋅ ≤ µ ≤ X + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
E’ importante sottolineare che l’ampiezza dell’intervallo è indipendente dal risultato campionario (dipende
infatti solo da z, da s e da n) ed è dunque identica a quella calcolata in precedenza.

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima della media (piccoli campioni)

(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)

⎛ ⎞

(
X~N µ;σ 2 )
⎛ σ2⎞
X ∼ N ⎜ µ; ⎟
X−µ
σ
∼ N 0;1 ( ) ⎜ X −µ
P ⎜ − zα ≤ n

≤ zα ⎟ = 1− α
⎝ n⎠ ⎜ 2 σ 2⎟
n ⎝ n ⎠
⎛ σ σ ⎞
Approccio induttivo P ⎜ X − zα ⋅ ≤ µ ≤ X + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
Esempio:
Una macchina produce bulloni il cui peso ha distribuzione Normale con media µ=incognita e varianza
σ2=0,8. Scelti a caso 8 bulloni, il loro peso medio è risultato pari a 62,6 grammi. Qual è l’intervallo che, con
probabilità 0,95, contiene il parametri incognito µ?
⎛ 0,89 0,89 ⎞
P ⎜ 62,6 −1,96 ⋅ ≤ µ ≤ 62,6 +1,96 ⋅ ⎟ = 0,95
⎝ 8 8 ⎠
( )
P 62,6 − 0,62 ≤ µ ≤ 62,6 + 0,62 = 0,95

P (61,98 ≤ µ ≤ 63,22 ) = 0,95

62,0 62,6 ? 63,2 X (Distribuzione dei valori medi di tutti i possibili campioni di n=8
bulloni scelti a caso dalla nostra macchina)

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima della media (piccoli campioni)

(
X~N µ;σ 2 ) μ incognita ; σ2 nota X1, X2, …, Xn (Campione casuale)

⎛ ⎞

(
X~N µ;σ 2 )
⎛ σ2⎞
X ∼ N ⎜ µ; ⎟
X−µ
σ
∼ N 0;1 ( ) ⎜ X −µ
P ⎜ − zα ≤ n

≤ zα ⎟ = 1− α
⎝ n⎠ ⎜ 2 σ 2⎟
n ⎝ n ⎠
⎛ σ σ ⎞
Approccio induttivo P ⎜ X − zα ⋅ ≤ µ ≤ X + zα ⋅ ⎟ = 1− α
⎝ 2 n 2 n⎠
Esempio:
Una macchina produce bulloni il cui peso ha distribuzione Normale con media µ=incognita e varianza
σ2=0,8. Scelti a caso 8 bulloni, il loro peso medio è risultato pari a 62,6 grammi. Qual è l’intervallo che, con
probabilità 0,95, contiene il parametri incognito µ?

Estraendo un campione di n=8 bulloni, ed osservando una media


campionaria pari a 62,6 cm, l'intervallo che, con probabilità pari a 0,95,
conterrà il parametro incognito della popolazione è 62,4-63,6 centimetri.

62,0 62,6 ? 63,2 X (Distribuzione dei valori medi di tutti i possibili campioni di n=8
bulloni scelti a caso dalla nostra macchina)

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli


Esempio:
L’altezza delle matricole universitarie di sesso maschile può essere considerata una variabile
con distribuzione Normale, con media incognita e varianza pari a 10,66.
Per stimare l’altezza media, si estrae un campione casuale di 58 matricole e si misura il valore
medio, che risulta pari a 175,4 cm. Si definisca l’intervallo che, ad un livello di fiducia (a) del
90%, (b) del 95% e (c) del 99% contenga il parametro incognito della popolazione.

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli


Esempio:
L’altezza delle matricole universitarie di sesso maschile può essere considerata una variabile
con distribuzione Normale, con media incognita e varianza pari a 10,66.
Per stimare l’altezza media, si estrae un campione casuale di 58 matricole e si misura il valore
medio, che risulta pari a 175,4 cm. Si definisca l’intervallo che, ad un livello di fiducia (a) del
90%, (b) del 95% e (c) del 99% contenga il parametro incognito della popolazione.
⎧ 0,90
⎛ σ ⎞
(
X~N µ ; 10,66 ) ; n = 58 ; x = 175,4cm P ⎜ X − zα ⋅

σ
≤ µ ≤ X + zα ⋅ ⎟ = 1− α

1− α = ⎨ 0,95
2 n 2 n⎠ ⎪ 0,99

⎛ 3,26 ⎞
(a) P ⎜175,4 −1,64 ⋅

3,26
58
≤ µ ≤ 175,4 +1,64 ⋅ ⎟ = 0,90
58 ⎠
( )
P 174,7 ≤ µ ≤ 176,1 = 0,90 X ∓ 0,705

⎛ 3,26 ⎞
(b) P ⎜175,4 −1,96 ⋅

3,26
58
≤ µ ≤ 175,4 +1,96 ⋅ ⎟ = 0,95
58 ⎠
( )
P 174,6 ≤ µ ≤ 176,2 = 0,95 X ∓ 0,840

⎛ 3,26 ⎞
(c) P ⎜175,4 − 2,58 ⋅

3,26
58
≤ µ ≤ 175,4 + 2,58 ⋅ ⎟ = 0,99
58 ⎠
( )
P 174,3 ≤ µ ≤ 176,5 = 0,99 X ∓1,106

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La costruzione dell'intervallo di confidenza per la media campionaria

Lʼerrore dipende:
X!e • dal livello di fiducia che intendiamo riporre nella nostra stima;
• dalla variabilità dello stimatore (la media campionaria), che a sua volta dipende:
• dalla variabilità del fenomeno;
• dalla numerosità del campione.

Negli esempi analizzati fin ad ora, abbiamo ipotizzato nota, e Normale, la distribuzione della media
campionaria, e nota la varianza σ2 della popolazione, così che l’intervallo di confidenza è stato
costruito nel modo seguente:
s
X ! z×
n
Ovviamente, nei casi reali questo non è sempre vero, ed è quindi necessario prestare particolare
attenzione alle informazioni realmente disponibili, per poter costruire l’intervallo di confidenza nel
modo corretto.

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima della media, con distribuzione nota e varianza incognita


⎛ σ2⎞
X~N µ ; σ( 2
) ⇒ X ~ N ⎜ µ; ⎟ ⇒
⎝ n⎠
X−µ
σ
~ N 0;1 ( )
n
Se la varianza σ2 della popolazione non è nota, la cosa più semplice è stimarne il valore con lo
stimatore più naturale, la varianza campionaria corretta:

1 n
( ) 1 n
( ) X −µ
2 2
2
s! = ∑ x −x
n −1 i=1 i
⇒ s! = ∑ x −x
n −1 i=1 i s!
∼ tn−1

n
Sostituire il parametro σ con la sua stima introduce un ulteriore elemento di aleatorietà nella
costruzione dell’intervallo di confidenza, che non riguarda la distribuzione della media
campionaria ma della sua standardizzata (in cui avviene la sostituzione del parametro con la
stima), che non sarà più una Normale (0,1) ma una variabile casuale diversa, detta t di Student,
molto simile per forma e caratteristiche alla Normale standardizzata ma con una maggiore
variabilità (cosa che determinerà, quindi, una maggiore incertezza delle stime).

La funzione di densità di probabilità della v.c. di Student è simmetrica, con valore medio pari a 0 e
varianza pari a (n/n-2), ed assume una forma molto simile a quella della Normale standardizzata, alla
quale tende assai velocemente al crescere dei gradi di libertà.
Per valori di n piccoli o moderati, la v.c. di Student si caratterizza per code più “pesanti” della v.c. Normale
standardizzata e, quindi per una maggiore variabilità.]

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La Tavola della t di Student

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

Esempio:
L’altezza delle matricole universitarie di sesso maschile può essere considerata una variabile
con distribuzione Normale, con media e varianza incognite.
Per stimare l’altezza media, si estrae un campione casuale di 14 matricole e si misura il valore
medio, che risulta pari a 175,4 cm, con sqm campionario corretto pari a 4,4 cm.
Si definisca l’intervallo che, ad un livello di fiducia (a) del 90%, (b) del 95% e (c) del 99%
contenga il parametro incognito della popolazione.
⎧ 0,90
( ) ⎪
X ~ N µ ; σ 2 ; n = 14 ; x = 175,4cm ; s! = 4,4cm ; 1− α = ⎨ 0,95
⎪ 0,99

⎛ s! s! ⎞
P ⎜ X − tα ⋅ ≤ µ ≤ X + tα ⋅ ⎟ = 1− α
⎝ 2
; n−1 n 2
; n−1 n⎠

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La Tavola della t di Student

Nota:
La tavola considera solo l'area nella coda di destra, nel
caso di un intervallo di confidenza pari ad a/2.
Quindi, per a=0,10, si considererà la colonna 0,05, per
a=0,05, si considererà la colonna 0,025, e così via.

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

Esempio:
L’altezza delle matricole universitarie di sesso maschile può essere considerata una variabile
con distribuzione Normale, con media e varianza incognite.
Per stimare l’altezza media, si estrae un campione casuale di 14 matricole e si misura il valore
medio, che risulta pari a 175,4 cm, con sqm campionario corretto pari a 4,4 cm.
Si definisca l’intervallo che, ad un livello di fiducia (a) del 90%, (b) del 95% e (c) del 99%
contenga il parametro incognito della popolazione.
⎧ 0,90
( ) ⎪
X ~ N µ ; σ 2 ; n = 14 ; x = 175,4cm ; s! = 4,4cm ; 1− α = ⎨ 0,95
⎪ 0,99
⎛ !s !s ⎞ ⎩
P ⎜ X − tα ⋅ ≤ µ ≤ X + tα ⋅ ⎟ = 1− α
⎝ 2
; n−1 n 2
; n−1 n ⎠

⎛ 4,4 ⎞
(a) P ⎜175,4 −1,77 ⋅

4,4
14
≤ µ ≤ 175,4 +1,77 ⋅ ⎟ = 0,90
14 ⎠
( )
P 173,3 ≤ µ ≤ 177,5 = 0,90 X ! 2,08

⎛ 4,4 ⎞
(b) P ⎜175,4 − 2,16 ⋅

4,4
14
≤ µ ≤ 175,4 + 2,16 ⋅ ⎟ = 0,95
14 ⎠
( )
P 172,9 ≤ µ ≤ 177,9 = 0,95 X ! 2,54

⎛ 4,4 ⎞
(c) P ⎜175,4 − 3,01⋅

4,4
14
≤ µ ≤ 175,4 + 3,01⋅ ⎟ = 0,99
14 ⎠
( )
P 171,9 ≤ µ ≤ 178,9 = 0,99 X ! 3,54

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima della media: Riepilogo

n grande NO X~N NO
?

Si applica
SI il Teorema limite centrale SI Si applica
la Proprietà riproduttiva della Normale

⎛ σ2⎞
X ~ N ⎜ µ; ⎟
⎝ n⎠

X−µ
NO ~ tn−1
σ noto s!
n
SI

X−µ
σ
~ N 0,1 ( )
n

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima della media

Intervallo di confidenza per la media:

X∓e X ∓k⋅
σ ( oppure s! )
n

zα tα ?
2 2
Se il campione è grande Se il campione è piccolo ma la Se il campione è piccolo e la
oppure se la variabile X ha variabile X ha distribuzione Normale (e variabile X ha distribuzione
distribuzione Normale (e quindi quindi la media campionaria ha incognita, nulla si può dire sulla
la media campionaria ha distribuzione Normale) con σ distribuzione della media
distribuzione Normale) con σ incognito, la standardizzata della campionaria.
noto, la standardizzata della media campionaria segue una
media campionaria è Normale. distribuzione t di Student.

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima della media


con distribuzione di X incognita e un campione piccolo

Il teorema di Chebychev:
Data una v.c. X con media finita µ e scarto quadratico medio finito σ, e dato un numero positivo k>1,
la massa di probabilità che si trova al di fuori dellʼintervallo chiuso [(µ-kσ), (µ+kσ)] è inferiore a 1/k2.

f(x)

( )
P X − µ < kσ ≥ 1−
1
k2

µ-kσ µ µ+kσ X

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima della media


con distribuzione di X incognita e un campione piccolo

Il teorema di Chebychev:
Data una v.c. X con media finita µ e scarto quadratico medio finito σ, e dato un numero positivo k>1,
la massa di probabilità che si trova al di fuori dellʼintervallo chiuso [(µ-kσ), (µ+kσ)] è inferiore a 1/k2.

f(x)

( )
P X − µ < kσ ≥ 1−
1
k2
α α 1
+ =α = 2
1-a 2 2 k
α α
2 2 1 1
α= ⇒k=
σ μ σ k2 α
µ −k µ+k X
n n

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli


Esempio:
L’altezza delle matricole universitarie di sesso maschile può essere considerata una variabile con
distribuzione, media e varianza incognite.
Per stimare l’altezza media si estrae un campione casuale di 14 matricole e si misura l’altezza
media, che risulta pari a 175,4 cm, con sqm campionario corretto pari a 4,4 cm. Si definisca
l ’ intervallo che, ad un livello di fiducia del 95% contenga il parametro incognito della
popolazione.

X!e X ∓k⋅
σ ( oppure s! ) n grande NO X~N NO
?
Chebychev

n
Si applica
SI il Teorema limite centrale
SI

Con un campione piccolo (n=14): ⎛ σ2⎞


X ~ N ⎜ µ; ⎟
1. Se la distribuzione di X è ⎝ n⎠

Normale e σ è noto: k = zα = 1,96


X−µ
2 NO ~ tn−1
σ noto s!
n
2. Se la distribuzione di X SI
è Normale e σ è incognito: k = tα = 2,16
2 X−µ
σ
~ N 0,1 ( )
3. Se la distribuzione di X è n
1
incognita: k= = 4,47
0,05

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

2. Variabile qualitative

La stima di una proporzione

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima di una proporzione (per grandi campioni)


Immaginiamo una popolazione su cui sia definito un carattere presente su una proporzione della
popolazione pari a π, incognito.

Immaginiamo ora di estrarre in modo casuale da questa popolazione tutti i possibili campioni di
dimensioni n (con n sufficientemente grande), e di calcolare su ognuno la proporzione p di
soggetti che presentano il carattere considerato.

I valori di p saranno diversi nei diversi campioni, ma è possibile immaginare che saranno più
frequenti i valori di p vicini al parametro incognito π, mentre saranno pochi quei campioni che
produrranno valori di p molto lontani da π.

E’ possibile dimostrare che il valore atteso di p è proprio π (come già visto con la media
campionaria per le variabili quantitative, anche lo stimatore proporzione campionaria è uno
stimatore non distorto). Per quanto riguarda la sua varianza, come nel caso della media
campionaria, anche per la proporzione campionaria questa dipenderà in modo diretto dalla
variabilità del fenomeno nella popolazione e in modo inverso dalla numerosità campionaria; è
facile immaginare che la variabilità del fenomeno sarà tanto maggiore quanto più il parametro π
si avvicina al valore 0,5, e massima proprio per π=0,5.

Infine, è possibile dimostrare che, per campioni grandi, la distribuzione di p tende ad una Normale.

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima di una proporzione (per grandi campioni)

Parametro: p (Proporzione nella popolazione) Stimatore: p (Proporzione campionaria)

( )
E p = π ; Var p = ( ) (
π ⋅ 1− π ) ⎛ π ⋅ 1− π
; p ~ N⎜π;
( ) ⎞⎟
n ⎜⎝ n ⎟⎠

0,4500000
Titolo del grafico
0,4000000 f(x)
0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
π p
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima di una proporzione (per grandi campioni)


Esempio:
Da un’indagine condotta su un campione casuale di 280 matricole universitarie è risultato che il
76% si dichiara soddisfatto del proprio Corso di studi.
Qual è l’intervallo che, ad un livello di fiducia del 95%, comprende il parametro incognito della
popolazione?
p × (1- p ) æ p × (1- p ) ö
n = 280 ; p = 0,76 ; 1− α = 0,95 ; zα = 1,96 E ( p ) = p ; Var ( p ) = ; p ~ N çp ; ÷÷
n ç n
2 è ø
⎛ ⎞


P ⎜ − zα ≤
p−π




≤ zα ⎟ = 1− α ⇒ P − zα ⋅
π ⋅ 1− π
≤ p − π ≤ zα ⋅
(
π ⋅ 1− π ) ( ) ( ) ⎞⎟ = 1− α

⎜⎝
2
(
π ⋅ 1− π )2

⎟⎠

⎝ 2 n 2 n ⎟

n

⇒ P ⎜ p − zα ⋅
(
π ⋅ 1− π )
≤ π ≤ p + zα ⋅
π ⋅ 1− π ( ) ⎞⎟ = 1− α
⎜ 2 n 2 n ⎟
⎝ ⎠
Nella costruzione dell’intervallo, sostituiamo al valore incognito π il valore campionario p.

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La stima per intervalli

La stima di una proporzione (per grandi campioni)


Esempio:
Da un’indagine condotta su un campione casuale di 280 matricole universitarie è risultato che il
76% si dichiara soddisfatto del proprio Corso di studi.
Qual è l’intervallo che, ad un livello di fiducia del 95%, comprende il parametro incognito della
popolazione?

n = 280 ; p = 0,76 ; 1− α = 0,95 ; zα = 1,96


2

⎛ 0,76 ⋅ 0,24 0,76 ⋅ 0,24 ⎞


P ⎜ 0,76 −1,96 ⋅ ≤ π ≤ 0,76 +1,96 ⋅ ⎟ = 0,95
⎜⎝ 280 280 ⎟⎠

( ) (
P 0,76 − 0,05 ≤ π ≤ 0,76 + 0,05 = 0,95 ⇒ P 0,71≤ π ≤ 0,81 = 0,95 )
L’intervallo 0,71-0,81 potrebbe essere considerato troppo ampio. Come fare per ridurlo senza
modificare il livello di fiducia?
Quale dovrebbe essere la numerosità campionaria per avere, ad esempio, un errore massimo di
due punti percentuali (in più o in meno) allo stesso livello di fiducia?

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La determinazione della numerosità campionaria

La stima di una proporzione (per grandi campioni)

Esempio
Con riferimento all’esercizio precedente, si supponga che l’ampiezza dell’intervallo venga giudicata
eccessiva. Senza cambiare il livello di fiducia, si vuole allora ottenere una stima che differisca dal
parametro per non più di 2 punti percentuali (in più o in meno).
Qual è la numerosità campionaria necessaria per ottenere un errore massimo di due punti percentuali ad
un livello di fiducia del 95%?

(
π ⋅ 1− π )
p ∓ zα ⋅
2 n
e ε = 0,02 ; (1− α ) = 0,95 ; za = 1,96 ; n = ?
2

( ) =ε ⇒ z
π ⋅ 1- π 2 ( )=ε
π ⋅ 1- π 2
( )
za2 ⋅ π ⋅ 1- π
za ⋅ a
⋅ ⇒ n= 2

2 n 2 n ε2
In questa espressione, che va risolta rispetto ad n, compare il termine π,
ovviamente incognito, in quanto costituisce il parametro da stimare.
n=
(
1,962 ⋅ 0,76 ⋅ 1− 0,76 )= 0,701
= 1.753
Per dare un valore a π, si possono seguire due strade: 0,022 0,0004
1. Si utilizzano informazioni che provengono da indagini precedenti
(in questo caso, si utilizzerebbe il valore campionario 0,76);
2. Ci si mette nella situazione peggiore, di massima variabilità n=
(
1,962 ⋅ 0,50 ⋅ 1− 0,50 )= 0,960
= 2.401
(utilizzando quindi il valore 0,5). 0,02 2
0,0004

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La determinazione della numerosità campionaria

La stima di una media

σ zα2 ⋅ σ 2
x ∓ zα σ
n
e x ∓ zα n= 2
2
2 n ε2

Esempio 1:
L’altezza delle matricole universitarie di sesso maschile può essere considerata una v.c. Normale,
con media incognita e varianza pari a 10,66. Nella stima del parametro incognito µ, qual è la
numerosità campionaria necessaria per ottenere un errore massimo di mezzo centimetro ad un
livello di fiducia del 99%?

zα2 ⋅ σ 2
2,582 ×10,66
n= 2
= = 284
ε2 0,52

NOTA: La formula appena considerata può essere utilizzata anche quando non si conosca la distribuzione della variabile X
ma si stimi che la numerosità ottimale possa risultare tale da consentire il ricorso al Teorema limite centrale (quindi,
approssimativamente n>40). Nel caso in cui la numerosità calcolata dovesse risultare inferiore al limite minimo necessario per
utilizzare il TLC, è possibile ricorrere a coefficienti in grado di correggere opportunamente la numerosità ottenuta.

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La determinazione della numerosità campionaria

La stima di una media

σ zα2 ⋅ σ 2
x ∓ zα σ
n
e x ∓ zα n= 2
2
2 n ε2

Esempio 2:
Si vuole stimare il fatturato medio annuo delle imprese italiane con oltre 20 addetti.
Da studi passati si può porre lo scarto quadratico medio pari a 12.000 euro. Qual è la
numerosità campionaria necessaria per ottenere una stima che non differisca dal
parametro più di 1.000 euro (in più o in meno) ad un livello di fiducia del 90%?
zα2 ⋅ σ 2
1,642 ×12.0002
n= 2
= = 388
ε2 1.0002

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (1)

Nell’ambito di uno Studio sulla nocività del fumo di tabacco, si è considerata la


quantità media di nicotina contenuta nelle sigarette di una nota marca.
Scelto un campione di 60 sigarette, la quantità media di nicotina è risultata pari a 11,75 mg, con
scarto quadratico medio campionario pari a 1,1 mg.

1. Determinare l’intervallo che, ad un livello di fiducia del 99%, comprenda il parametro incognito
relativo alla quantità media di nicotina contenute nelle sigarette della marca analizzata;
2. Volendo ripetere l’indagine, quante sigarette si dovranno considerare per assicurare, allo
stesso livello di fiducia, un errore massimo della stima di 0,2 mg (in più o in meno)?

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (2)

Una grande azienda specializzata nella vendita di prodotti on line vuole stimare
la proporzione di giovani di età compresa tra i 20 e i 30 anni che ricorrono in
modo non saltuario a questo tipo di acquisti.

Scelto allora un campione di 480 giovani della fascia di età considerata, risulta che 315
acquistano regolarmente prodotti sulla rete.
1. Determinare l’intervallo che, ad un livello di fiducia del 95%, comprenda il parametro
incognito relativo alla proporzione di giovani fra i 20 e i 30 anni che acquistano regolarmente
su Internet;
2. Volendo ripetere l’indagine, quanti giovani si dovranno considerare per assicurare, allo stesso
livello di fiducia, un errore massimo della stima di 1 punto percentuale (in più o in meno)?

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (3)

Il responsabile di un’azienda sta prendendo in considerazione l’ipotesi di


assicurare il proprio parco vetture contro i danni derivanti da incidenti.
Per valutare il costo medio di riparazione per infortunio, viene scelto a caso un
campione di n=15 incidenti, con i risultati riportati nella tabella.
Costo+riparazione
Infortunio
(in+€) a) Si determini una stima del costo medio degli infortuni, ad un
1 650 livello di fiducia del 95%;
2 3.348 b) Si commenti il risultato e, nel caso, si definiscano gli eventuali
3 3.942 accorgimenti per migliorare l’attendibilità della stima.
4 1.230
5 1.588
6 2.150
7 4.073
8 1.566
9 1.855
10 845
11 2.721
12 720
13 1.840
14 2.749
15 3.782

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (4)

Si vuole valutare la durata delle batterie di un particolare modello di


smartphone.
Preso un campione di 17 telefoni di quel particolare modello, la durata media è risultata di 4 ore e
12 minuti, con scarto quadratico medio pari a 16 minuti.
Ipotizzando che la durata delle batterie possa essere approssimata ad una distribuzione
gaussiana, qual è l’intervallo che, ad un livello di fiducia del 90%, comprende il valore del
parametro che misura la durata media delle batterie di tutti i cellulari di quel tipo?

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo (5)

Un’agenzia di analisi di mercato ha appena terminato un’indagine per


sondare il gradimento di un nuovo prodotto, destinato ad un pubblico
giovanile, da lanciare sul mercato,
Sul rapporto conclusivo, leggete la seguente frase: “Sulla base delle interviste effettuate,
possiamo dire, con un livello di fiducia del 90%, che la percentuale di giovani interessati al nuovo
prodotto è compresa tra il 24% e il 32%”.
Quante interviste ritenete siano state effettuate?

LEZIONE 20 – LA STIMA PER INTERVALLI


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 21:
La verifica delle ipotesi
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi (da Orsi, pag. 354)

In molte circostanze il ricercatore si trova a dover decidere quale, tra le diverse situazioni possibili
riferibili alla popolazione, è quella meglio sostenuta dalle evidenze empiriche.

Anche in questo caso la struttura del problema consiste in una famiglia di distribuzioni di
probabilità parametriche f(x; q), con q incognito, e nelle osservazioni campionarie X1, …, Xn, che
costituiscono delle realizzazioni della distribuzione di probabilità e che, quindi, forniscono delle
informazioni sul valore di q incognito.

Una ipotesi statistica è dunque un'affermazione concernente la distribuzione di probabilità o il


processo che ha generato le osservazioni campionarie osservate.

Una volta definita l’informazione che è necessario estrarre dal campione e la statistica che deve
essere impiegata per questa operazione, occorrerà dare un giudizio sulla coerenza del risultato
campionario con l’ipotesi specificata per la popolazione.

Più precisamente, se il risultato campionario si verrà a trovare talmente lontano dal valore
teorizzato dall’ipotesi fatta per q da cadere in un insieme di valori ritenuti non “coerenti” (in
quanto troppo poco probabili) con l’ipotesi su q, tale risultato avvalorerà la possibilità di ipotesi
alternative a quella specificata.

E’ dunque necessario definire una regola di decisione, o test statistico, che ad ogni valore
campionario associ una decisione sul parametro q, e tale schema decisionale viene formulato
prima di effettuare il campionamento o di avere i dati a disposizione.

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi (da Piccolo, pagg. 607-608)

Nel test delle ipotesi si evidenzia il ruolo della Statistica come scienza delle decisioni in
condizioni di incertezza.
Infatti, è proprio del test tradurre un problema reale in unʼaffermazione statistica, assumere
informazioni campionarie sulla popolazione di riferimento e, su questa base, prendere
decisioni attribuendo a tale scelta un giudizio probabilistico sulla sua veridicità.

Un test si può derivare supponendo nota la distribuzione di


probabilità di una variabile X, per cui lʼinferenza si riferisce Test parametrici
ai soli parametri che la specificano;
oppure si può effettuare senza fare assunzioni stringenti
circa la forma analitica della distribuzione di probabilità di Test
X, per cui l'inferenza riguarda sia la forma della non parametrici
distribuzione sia i suoi parametri.

Il test delle ipotesi statistiche è una regola istituita sullo spazio campionario mediante la
quale, sulla base del campione osservato, si decide se rifiutare o meno una ipotesi
statistica H0 riferita alla popolazione e detta Ipotesi nulla.

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi (da Piccolo, pagg. 607-608)

Si definisce ipotesi statistica una qualunque affermazione che specifica completamente o


parzialmente la distribuzione di probabilità di una v.c. X.
Se la specificazione è completa, si parla di ipotesi semplice, altrimenti si parla di ipotesi
composta.
Nell’ambito delle ipotesi composte si parlerà di ipotesi unidirezionale sul parametro q
quando questa include valori reali in una sola direzione (ad esempio, H:q>q0), ipotesi
bidirezionale nel caso in cui questa comprenda valori in entrambe le direzioni (ad esempio,
H:q≠q0)

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi

Le ipotesi statistiche
L’ipotesi da sottoporre a verifica viene definita Ipotesi nulla e viene indicata con H0.
E’ l’ipotesi preesistente rispetto all’esperimento campionario, quella che viene considerata
valida fino a prova contraria, e comprende il sottoinsieme dei valori dello spazio
parametrico Θ che si vuole sottoporre a test. Tipicamente, l’ipotesi nulla è un’ipotesi di tipo
semplice:
H0 : θ = θ 0
Il complemento all’ipotesi nulla costituisce l’ipotesi alternativa e viene indicata con H1. E’ costituita
da un singolo valore o da un insieme di valori possibili per θ e considerati alternativi a θ0 :

H1 : θ = θ1 ; H1 : θ < θ 0 ; H1 : θ > θ 0 ; H1 : θ ≠ θ 0
L’ipotesi alternativa rappresenta dunque una contro-affermazione che viene fatta in antitesi
all’ipotesi nulla, e indica la direzione di allontanamento da H0 che si desidera esaminare.
E’ bene sottolineare che l’ipotesi nulla e l’ipotesi alternativa non sono equivalenti ai fini della
decisione, nel senso che il test non è mai conclusivo circa H1, ma concerne solo la possibilità che
dal campione si possa pervenire al rifiuto o al non rifiuto di H0.

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi

Test e regola di decisione


Una volta formulate le ipotesi, occorre decidere se, sulla base dell’evidenza empirica
campionaria, lʼipotesi nulla H0 debba essere rifiutata o meno. Eʼ perciò necessario mettere
a punto una regola che permetta di discriminare tra i risultati campionari che portano ad
accettare lʼipotesi nulla e quelli che portano a rifiutarla.
Questa regola costituisce il test statistico.
Il test è dunque una regola che permette di stabilire se le osservazioni campionarie
debbano ritenersi coerenti con lʼipotesi nulla oppure no.
Da un punto di vista operativo, un test è una statistica che fa corrispondere ad ogni
campione casuale (X1, …, Xn) un valore numerico che può essere classificato secondo due
diverse possibilità:
• Coerente con H0
• Non coerente con H0

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi

Test e regola di decisione


Un test statistico da quindi luogo alla ripartizione dello spazio campionario in due sottoinsiemi
complementari: un insieme A costituito dai valori del test che sono compatibili con l’ipotesi nulla H0,
e un insieme C che raggruppa i valori del test considerati incompatibili con H0. Quest’ultimo insieme
è costituito dai valori del test che portano al Rifiuto di H0, e viene definito la regione critica del test.
Quando il valore campionario di t cade nella regione critica, l’evidenza empirica del fenomeno
studiato porta a ritenere che l’ipotesi H0 non possa essere considerata valida, e quindi che non possa
essere accettata come vera.
Regione critica per un test statistico con ipotesi alternativa unidirezionale (a dx):

H0 : θ = θ 0
Regione di Regione di
accettazione di H 0 rifiuto di H 0

H0 : θ > θ 0 t

Regione critica per un test statistico con ipotesi alternativa unidirezionale (a sx):

H0 : θ = θ 0 Regione di
rifiuto di H 0
Regione di
accettazione di H 0

H0 : θ < θ 0 t

Regione critica per un test statistico con ipotesi alternativa bidirezionale

H0 : θ = θ 0 Regione di
rifiuto di H 0
Regione di
accettazione di H 0
Regione di
rifiuto di H 0

H0 : θ ≠ θ 0 t

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi

Test e regola di decisione


Il test delle ipotesi statistiche è una regola mediante la quale, sulla base del campione osservato, si
decide se rifiutare o meno una ipotesi statistica H0 riferita alla popolazione e detta Ipotesi nulla.
Indipendentemente dalla regola adottata, il test porta sempre a dover scegliere tra due possibili
decisioni, H0 e H1 e a poter commettere due possibili errori, rifiutare un’ipotesi vera oppure accettare
un’ipotesi falsa

REALTÀ
H0 H1

Accetto H0 falsa
H0
Errore
DECISIONE

II tipo

Rifiuto H0 vera
H1 Errore
I tipo

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi

Test e regola di decisione


Il test delle ipotesi statistiche è una regola mediante la quale, sulla base del campione osservato, si decide se
rifiutare o meno una ipotesi statistica H0 riferita alla popolazione e detta Ipotesi nulla.
Indipendentemente dalla regola adottata, il test porta sempre a dover scegliere tra due possibili decisioni, H0 e H1 e a
poter commettere due possibili errori, rifiutare un’ipotesi vera oppure accettare un’ipotesi falsa
Esempio:
REALTÀ Il reddito medio degli italiani è stimato intorno ai 21.500 euro. A causa della particolare
H0 H1
congiuntura è possibile ipotizzare che sia diminuito. Come verificare questa ipotesi?

Accetto H0 falsa
Ipotesi H0
H0
Errore
Ipotesi nulla. Vale fino a prova contraria e non si deve dimostrare: µ = 21.500€
DECISIONE

II tipo
Ipotesi H1
Ipotesi alternativa. È, in genere, quella che si vuole dimostrare vera
(per questo si fa il test) e a cui spetta "l'onere della prova": µ < 21.500€
Rifiuto H0 vera
H1 Errore TEST
I tipo
Si estrae un campione casuale di numerosità n e si verifica se il valore campionario
risulta significativamente più basso del valore atteso sotto l'ipotesi nulla H0.

Quand'è che un valore campionario può essere


considerato significativamente più basso del
valore atteso sotto l'ipotesi nulla H0?

µ0 = 21.500€
? X
Medie ottenibili da tutti i possibili campioni di
dimensioni n estraibili da una popolazione in cui è
LEZIONE 21 – LA VERIFICA DELLE IPOTESI
µ=21.500
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi

Test e regola di decisione


Il test delle ipotesi statistiche è una regola mediante la quale, sulla base del campione osservato, si decide se
rifiutare o meno una ipotesi statistica H0 riferita alla popolazione e detta Ipotesi nulla.
Indipendentemente dalla regola adottata, il test porta sempre a dover scegliere tra due possibili decisioni, H0 e H1 e a
poter commettere due possibili errori, rifiutare un’ipotesi vera oppure accettare un’ipotesi falsa
Esempio:
REALTÀ Il reddito medio degli italiani è stimato intorno ai 21.500 euro. A causa della particolare
H0 H1
congiuntura è possibile ipotizzare che sia diminuito. Come verificare questa ipotesi?

Accetto H0 falsa
Ipotesi H0
H0
Errore
Ipotesi nulla. Vale fino a prova contraria e non si deve dimostrare: µ = 21.500€
DECISIONE

II tipo
Ipotesi H1
Ipotesi alternativa. È, in genere, quella che si vuole dimostrare vera
(per questo si fa il test) e a cui spetta "l'onere della prova": µ < 21.500€
Rifiuto H0 vera
H1 Errore TEST
I tipo
Si estrae un campione casuale di numerosità n e si verifica se il valore campionario
0,4500000 risulta significativamente più basso del valore atteso sotto l'ipotesi nulla H0.
H0
Titolo del grafico
0,4000000
Se la numerosità campionaria è sufficientemente elevata (oppure, se la variabile X ha
0,3500000 distribuzione Normale), la media campionaria avrà distribuzione Normale.
0,3000000 Questo significa che, per esempio, se consideriamo significative quelle differenze che,
0,2500000 sotto H0, si verificano in meno del 5% dei casi, potremo individuare il valore soglia in
0,2000000
modo univoco.
0,1500000
Questo valore viene definito "valore critico". Se il valore campionario risulta oltre
Livello di il valore critico, l'ipotesi H0 verrà rifiutata, con un rischio di errore pari al livello di
0,1000000
significatività significatività scelto (in questo caso, 5%).
del test (a)
0,0500000

0,0000000
Valori della media campionaria s Medie ottenibili da tutti i possibili campioni di
µ - za ×
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

che portano a rifiutare H0. n µ0 = 21.500€ X dimensioni n estraibili da una popolazione in cui è
LEZIONE 21 – LA VERIFICA DELLE IPOTESI
µ=21.500
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi

Test e regola di decisione


Il test delle ipotesi statistiche è una regola mediante la quale, sulla base del campione osservato, si decide se
rifiutare o meno una ipotesi statistica H0 riferita alla popolazione e detta Ipotesi nulla.
Indipendentemente dalla regola adottata, il test porta sempre a dover scegliere tra due possibili decisioni, H0 e H1 e a
poter commettere due possibili errori, rifiutare un’ipotesi vera oppure accettare un’ipotesi falsa
Esempio:
REALTÀ Il reddito medio degli italiani è stimato intorno ai 21.500 euro. A causa della particolare
H0 H1
congiuntura è possibile ipotizzare che sia diminuito. Come verificare questa ipotesi?

Accetto H0 falsa
Ipotesi H0
H0
Errore
Ipotesi nulla. Vale fino a prova contraria e non si deve dimostrare: µ = 21.500€
DECISIONE

II tipo
Ipotesi H1
Ipotesi alternativa. È, in genere, quella che si vuole dimostrare vera
(per questo si fa il test) e a cui spetta "l'onere della prova": µ < 21.500€
Rifiuto H0 vera
H1 Errore TEST
I tipo
Si estrae un campione casuale di numerosità n e si verifica se il valore campionario
0,4500000 risulta significativamente più basso del valore atteso sotto l'ipotesi nulla H0.
H1 H0
Titolo del grafico
0,4000000
Se si sceglie un livello di significatività molto basso, il rischio di rifiutare H0 quando questa
0,3500000 è vera (errore di I tipo) sarà molto basso.
0,3000000 D'altra parte, risulterà, presumibilmente, elevata la probabilità di non rifiutare H0 quando
0,2500000 questa è effettivamente falsa (errore di II tipo).
0,2000000

0,1500000

0,1000000

0,0500000
Valore campionario
Valore critico
0,0000000
s Medie ottenibili da tutti i possibili campioni di
µ - za ×
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

n µ1 µ0 = 21.500€ X dimensioni n estraibili da una popolazione in cui è


LEZIONE 21 – LA VERIFICA DELLE IPOTESI
µ=21.500
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi

Test e regola di decisione


Il test delle ipotesi statistiche è una regola mediante la quale, sulla base del campione osservato, si
decide se rifiutare o meno una ipotesi statistica H0 riferita alla popolazione e detta Ipotesi nulla.
Indipendentemente dalla regola adottata, il test porta sempre a dover scegliere tra due possibili
decisioni, H0 e H1 e a poter commettere due possibili errori, rifiutare un’ipotesi vera oppure accettare
un’ipotesi falsa
Quindi, la decisione deve considerare l’importanza
REALTÀ relativa dei due diversi tipi di errore o, nell’ottica
H0 H1 della Teoria delle decisioni, le diverse funzioni di
perdita.
Accetto H0 falsa Ipotizzando vera H0, la regione critica associata
H0 (cioè la probabilità di rifiutare H0) viene definita
Errore
livello di significatività del test e indicata con α.
DECISIONE

II tipo

Accettare o rifiutare H0 non può e non deve essere


inteso come una dimostrazione della verità o meno
Rifiuto H0 vera
di H0 (altre ipotesi, diverse da H0, avrebbero potuto
H1 Errore essere accettate o rifiutate sulla base dello stesso
I tipo campione) ma solo come una conclusione che
l’evidenza empirica è favorevole o meno all’ipotesi
nulla.

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi

Test e regola di decisione

Il verdetto dei giudici in La decisione di un Sindaco


un processo scrupoloso in un'allerta meteo

REALTÀ REALTÀ
H0 H1 H0 H1
Innocente Colpevole “Bombe d’acqua” Pioggia normale

emergenza
Assoluzione

Accetto H0 falsa Accetto H0 falsa

Stato di
H0 H0 Creo enormi
Assolvo
disagi alla
DECISIONE

DECISIONE
un colpevole
popolazione
Condanna

Rifiuto H0 vera Rifiuto H0 vera

allarme
Nessun
H1 Condanno H1 Metto a rischio
un innocente la vita delle
persone

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi

Test e regola di decisione

Il verdetto dei giudici in La decisione di un Sindaco


un processo cinico in un'allerta meteo

REALTÀ REALTÀ
H0 H1 H0 H1
Innocente Colpevole Pioggia normale "Bombe d'acqua"
Assoluzione

Accetto H0 falsa Accetto H0 falsa

allarme
Nessun
H0 H0 Potrebbe accadere
Assolvo
una catastrofe.
DECISIONE

DECISIONE
un colpevole
Speriamo di no.

emergenza
Condanna

Rifiuto H0 vera Rifiuto H0 vera

Stato di
H1 Condanno H1 Rischio i voti degli
un innocente elettori a cui ho
creato disagio.

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi

Test e regola di decisione

Insieme dei Q0 Insieme dei valori di q sotto lʼipotesi nulla H0


Q: possibili valori di q
Q1 Insieme dei valori di q sotto lʼipotesi alternativa H1

t(x) : Valore campionario del test

C: Insieme dei valori campionari del test t(X) che portano a rifiutare H0

A: Insieme dei valori campionari del test t(X) che portano ad accettare H0

Errore di I tipo (Rifiuto H0 vera): ……….. t X ∈C|θ ∈ Θ 0 ( )


P(Errore di I tipo): ……………………….…. P ⎡⎣t X ∈C|θ ∈ Θ0 ⎤⎦ = α ( )

Errore di II tipo (Accetto H0 falsa): .......... t X ∈A|θ ∈ Θ1 ( )


P(Errore di II tipo): …………………………. P ⎡t X ∈A|θ ∈ Θ1⎤ = β
⎣ ( ) ⎦
LEZIONE 21 – LA VERIFICA DELLE IPOTESI
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi

Test e regola di decisione

Insieme dei Q0 Insieme dei valori di q sotto lʼipotesi nulla H0


Q: possibili valori di q
Q1 Insieme dei valori di q sotto lʼipotesi alternativa H1

t(x) : Valore campionario del test

C: Insieme dei valori campionari del test t(X) che portano a rifiutare H0

A: Insieme dei valori campionari del test t(X) che portano ad accettare H0

Potenza del test (Rifiuto H0 falsa): ( )


t X ∈C|θ ∈ Θ1
⎣ ( )
P ⎡t X ∈C|θ ∈ Θ1⎤ = 1− β

NOTA: In genere un test viene fatto per confutare l’ipotesi nulla; quindi, sarà tanto più “potente” quanto
più renderà piccola β e, di conseguenza, grande (1-β), ossia la probabilità di rifiutare l’ipotesi H0 (che è
quello che vogliamo) quando questa è effettivamente falsa (che è quello che ci auguriamo). E’ pur vero
che β è la probabilità associata all’errore meno grave, per cui potrebbe sembrare che un test potente è
quello che riduce la probabilità α; ma α è talmente importante che, nell’approccio classico, viene fissata a
priori e, quindi, è logico che un test potente è proprio quello che, fissata α, rende più piccola possibile β.

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi

Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore
e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di
materiale sulla cui qualità il responsabile della produzione avanza seri dubbi. Prima di
mettere in vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità
del materiale impiegato e, in particolare, verificare se possa avere influito sulla
durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se
ne misura la durata media, che risulta pari a 1.955 ore.
Eʼ possibile affermare, con significatività α=0,05, che tale riduzione sia imputabile alla scarsa
qualità del materiale utilizzato?

• Le ipotesi (nulla e alternativa)


• Il livello di significatività (α)
Definire
• La statistica di riferimento
• La regola di decisione

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale sulla cui qualità il responsabile della produzione avanza seri
dubbi. Prima di mettere in vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità del materiale impiegato e, in particolare, verificare se
possa avere influito sulla durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura la durata media, che risulta pari a 1955 ore.
Eʼ possibile affermare, con significatività α=0,05, che tale riduzione sia imputabile alla scarsa qualità del materiale utilizzato?

µ = 2.000h ; σ = 250h ; n =100 ; x =1.955h ; α = 0,05

Ipotesi: Significatività: Statistica: Regola di decisione:

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale sulla cui qualità il responsabile della produzione avanza seri
dubbi. Prima di mettere in vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità del materiale impiegato e, in particolare, verificare se
possa avere influito sulla durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura la durata media, che risulta pari a 1955 ore.
Eʼ possibile affermare, con significatività α=0,05, che tale riduzione sia imputabile alla scarsa qualità del materiale utilizzato?

µ = 2.000h ; σ = 250h ; n =100 ; x =1.955h ; α = 0,05

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 α = 0,05 X ∼N Rifiuto H0 se: x − µ < −zα
H1 : µ < 2.000 σ
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale sulla cui qualità il responsabile della produzione avanza seri
dubbi. Prima di mettere in vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità del materiale impiegato e, in particolare, verificare se
possa avere influito sulla durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura la durata media, che risulta pari a 1955 ore.
Eʼ possibile affermare, con significatività α=0,05, che tale riduzione sia imputabile alla scarsa qualità del materiale utilizzato?

µ = 2.000h ; σ = 250h ; n =100 ; x =1.955h ; α = 0,05

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 α = 0,05 X ∼N Rifiuto H0 se: x − µ < −zα
H1 : µ < 2.000 σ
0,4500000
Titolo del grafico
n
0,4000000

0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.000 X
0,4500000
Titolo del grafico
0,4000000

0,3500000

0,3000000

1.955 − 2.000
zα = −1,64 -1,8 < -1,64 Rifiuto H0
0,2500000

0,2000000 xST = = −1,8


0,1500000 250
100
0,1000000

0,0500000

0,0000000 a=0,05
-1,64 0 X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

Z=
σ
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale sulla cui qualità il responsabile della produzione avanza seri
dubbi. Prima di mettere in vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità del materiale impiegato e, in particolare, verificare se
possa avere influito sulla durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura la durata media, che risulta pari a 1955 ore.
Eʼ possibile affermare, con significatività α=0,05, che tale riduzione sia imputabile alla scarsa qualità del materiale utilizzato?

µ = 2.000h ; σ = 250h ; n =100 ; x =1.955h ; α = 0,05

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 α = 0,05 X ∼N Rifiuto H0 se: x − µ < −zα
H1 : µ < 2.000 σ
0,4500000
Titolo del grafico
n
0,4000000

0,3500000
Valore critico non standardizzato:
0,3000000
250
0,2500000

0,2000000
xCR = 2.000 −1,64 ⋅ =1.959 1.955 < 1.959 Rifiuto H0
0,1500000 n
0,1000000

0,0500000

0,0000000 a=0,05
1.959
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.000 X
0,4500000
Titolo del grafico
0,4000000

0,3500000

0,3000000

1.955 − 2.000
zα = −1,64 -1,8 < -1,64 Rifiuto H0
0,2500000

0,2000000 xST = = −1,8


0,1500000 250
100
0,1000000

0,0500000

0,0000000 a=0,05
-1,64 0 X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

Z=
σ
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi

Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore
e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di
materiale di cui si ignorano le performance. Prima di mettere in vendita le lampadine
prodotte si desidera, dunque, indagare sulla qualità del materiale impiegato e, in
particolare, verificare se possa avere influito sulla durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se
ne misura la durata media, che risulta pari a 2.010 ore.
E ʼ possibile affermare, con significatività α=0,05, che tale variazione sia imputabile al nuovo
materiale utilizzato?

• Le ipotesi (nulla e alternativa)


• Il livello di significatività (α)
Definire
• La statistica di riferimento
• La regola di decisione

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale di cui si ignorano le performance. Prima di mettere in
vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità del materiale impiegato e, in particolare, verificare se possa avere influito sulla
durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura la durata media, che risulta pari a 2.010 ore.
Eʼ possibile affermare, con significatività α=0,05, che tale variazione sia imputabile alla scarsa qualità del materiale utilizzato?

µ = 2.000h ; σ = 250h ; n =100 ; x = 2.010h ; α = 0,05

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 α = 0,05 X∼N Rifiuto H0 se: X − µ
> zα
H1 : µ ≠ 2.000 σ 2
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale di cui si ignorano le performance. Prima di mettere in
vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità del materiale impiegato e, in particolare, verificare se possa avere influito sulla
durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura la durata media, che risulta pari a 2.010 ore.
Eʼ possibile affermare, con significatività α=0,05, che tale variazione sia imputabile alla scarsa qualità del materiale utilizzato?

µ = 2.000h ; σ = 250h ; n =100 ; x = 2.010h ; α = 0,05

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 α = 0,05 X∼N Rifiuto H0 se: X − µ
> zα
H1 : µ ≠ 2.000 σ 2

0,4500000
Titolo del grafico
n
0,4000000

0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.000 X
0,4500000
Titolo del grafico
0,4000000

0,3500000

0,3000000
2.010 − 2.000
0,2500000 zα = ±1,96 = 0,4 −1,96 ≤ 0,4 ≤1,96 Non rifiuto H0
0,2000000

0,1500000
2 250
0,1000000 100
0,0500000
2,5% 2,5%
0,0000000

-1,96 1,96 X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

0 0,4 Z=
σ
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale di cui si ignorano le performance. Prima di mettere in
vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità del materiale impiegato e, in particolare, verificare se possa avere influito sulla
durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura la durata media, che risulta pari a 2.010 ore.
Eʼ possibile affermare, con significatività α=0,05, che tale variazione sia imputabile alla scarsa qualità del materiale utilizzato?

µ = 2.000h ; σ = 250h ; n =100 ; x = 2.010h ; α = 0,05

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 α = 0,05 X∼N Rifiuto H0 se: X − µ
> zα
H1 : µ ≠ 2.000 σ 2

0,4500000
Titolo del grafico
n
0,4000000

0,3500000
Valori critici non standardizzati:
250
0,3000000

0,2500000

0,2000000
xCR = 2.000 ±1,96 ⋅ = 2.000 ± 49 =1.951 ; 2.049 1.951≤ 2.010 ≤ 2.049 Non rifiuto H0
0,1500000
n
0,1000000

0,0500000
2,5% 2,5%
0,0000000

1.951 2.049
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.000 2010 X
0,4500000
Titolo del grafico
0,4000000

0,3500000

0,3000000
2.010 − 2.000
0,2500000 zα = ±1,96 = 0,4 −1,96 ≤ 0,4 ≤1,96 Non rifiuto H0
0,2000000

0,1500000
2 250
0,1000000 100
0,0500000
2,5% 2,5%
0,0000000

-1,96 1,96 X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

0 0,4 Z=
σ
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi

Esercizio:
Da studi passati risulta che il consumo medio giornaliero di acqua da parte delle
famiglie italiane è pari a 548 litri (in moltissimi Paesi dell’Africa è inferiore a 10…), con
una variabilità rappresentata da uno scarto quadratico medio di 91 litri.
Per valutare gli effetti della campagna governativa di sensibilizzazione ad un consumo più
contenuto e, soprattutto, all’evitare gli sprechi, viene considerato un campione di 20 famiglie, per le
quali, nel periodo d’indagine, si misura un consumo medio giornaliero di acqua di 520 litri.
1. Immaginando che i consumi possano essere approssimati da una distribuzione Normale, è
possibile, sulla base di questo risultato, affermare, con un rischio massimo dell’1%, che la
campagna ha avuto effetto?
2. Cosa cambierebbe se lo stesso risultato fosse stato ottenuto da un campione di 100
famiglie?

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi


Esercizio:
Da studi passati risulta che il consumo medio giornaliero di acqua da parte delle famiglie italiane è pari a 548 litri (in moltissimi Paesi dell’Africa è inferiore
a 10…), con una variabilità rappresentata da uno scarto quadratico medio di 91 litri.
Per valutare gli effetti della campagna governativa di sensibilizzazione ad un consumo più contenuto e, soprattutto, all’evitare gli sprechi, viene
considerato un campione di 20 famiglie, per le quali, nel periodo d’indagine, si misura un consumo medio giornaliero di acqua di 520 litri.
1. Immaginando che i consumi possano essere approssimati da una distribuzione Normale, è possibile, sulla base di questo risultato, affermare, con
un rischio massimo dell’1%, che la campagna ha avuto effetto?
2. Cosa cambierebbe se lo stesso risultato fosse stato ottenuto da un campione di 100 famiglie?

µ = 548l ; σ = 91l ; n = 20 ; x = 520l ; α = 0,01

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 548 α = 0,01 X∼N Rifiuto H0 se: x − µ < −z
α
H1 : µ < 548 σ
0,4500000
n
Titolo del grafico
0,4000000

0,3500000
Valore critico non standardizzato:
91
0,3000000

0,2500000

0,2000000
xCR = 548 − 2,33 ⋅ = 500,6 520 > 500,6 Non rifiuto H0
0,1500000 20
0,1000000

0,0500000
1%
0,0000000

500,6
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

520 548 X
0,4500000
Titolo del grafico
0,4000000

0,3500000

0,3000000
520 − 548
0,2500000
zCR = −2,33 xST = = −1,37 −1,37 > −2,33 ⇒ Non rifiuto
Non H0 H0
rifiuto
0,2000000

0,1500000
91
0,1000000 20
0,0500000
1%
0,0000000

-2,33 -1,37 X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

0 Z=
σ
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi


Esercizio:
Da studi passati risulta che il consumo medio giornaliero di acqua da parte delle famiglie italiane è pari a 548 litri (in moltissimi Paesi dell’Africa è inferiore
a 10…), con una variabilità rappresentata da uno scarto quadratico medio di 91 litri.
Per valutare gli effetti della campagna governativa di sensibilizzazione ad un consumo più contenuto e, soprattutto, all’evitare gli sprechi, viene
considerato un campione di 20 famiglie, per le quali, nel periodo d’indagine, si misura un consumo medio giornaliero di acqua di 520 litri.
1. Immaginando che i consumi possano essere approssimati da una distribuzione Normale, è possibile, sulla base di questo risultato, affermare, con
un rischio massimo dell’1%, che la campagna ha avuto effetto?
2. Cosa cambierebbe se lo stesso risultato fosse stato ottenuto da un campione di 100 famiglie?

µ = 548l ; σ = 91l ; n =100 ; x = 520l ; α = 0,01

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 548 α = 0,01 X∼N Rifiuto H0 se: x − µ < −z
α
H1 : µ < 548 σ
0,4500000
n
Titolo del grafico
0,4000000 Valore critico non standardizzato: Valore campionario:
0,3500000
91
0,3000000 xCR = 548 − 2,33 ⋅ = 527 520 < 527 Rifiuto H0
0,2500000
100
0,2000000

0,1500000

0,1000000

0,0500000
Lo stesso risultato campionario, ottenuto sulla base di un
0,0000000
1% campione più grande, risulta più "credibile", perché associato ad
520 527 548 una minore variabilità dei risultati stessi, rispetto a quelli ottenuti
-3, 50 0
-3, 28 0
-3, 06 0
-2, 84 0
-2, 62 0
-2, 40 0
-2, 18 0
-1, 96 0
-1, 74 0
-1, 52 0
-1, 30 0
-1, 08 0
-0, 86 0
-0, 64 0
-0, 42 0
-0, 20 0
0 ,02 0
0 ,24 0
0 ,46 0
0 ,68 0
0 ,90 0
1 ,12 0
1 ,34 0
1 ,56 0
1 ,78 0
2 ,00 0
2 ,22 0
2 ,44 0
2 ,66 0
2 ,88 0
3 ,10 0
3 ,32 0

X
con un campione più piccolo.

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La "potenza del test"

Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore
e deviazione standard pari a 250 ore.
Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in
grado di ottimizzare il processo con un guadagno, in termini di efficienza del
prodotto, quantificabile in un miglioramento di performance del 3,5%.
Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione
casuale di 100 lampadine prese dalla produzione della nuova macchina e di considerare
significativo il risultato se la media campionaria risulta oltre il 99° percentile (quindi, α=0,01).
Si definisca la probabilità b dellʼerrore di II tipo e, quindi, la potenza del test e, eventualmente, si
definisca una possibile strategia alternativa.

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La "potenza del test"


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un
guadagno, in termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%.
Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese
dalla produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99°
percentile (quindi, α=0,01). Si definisca la probabilità b dellʼerrore di II tipo e, quindi, la potenza del test e, eventualmente, si
definisca una possibile strategia alternativa.

µ = 2.000h ; σ = 250h ; n =100 ; x = ? ; α = 0,01

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 α = 0,01 X∼N Rifiuto H0 se: x − µ > z (zα
= 2,33 )
α
σ
(
H1 : µ = 2.000 + 2.000 × 0,035 = 2.070 ) n
0,4500000

0,4000000
0,4500000
H
0
Titolo del grafico H 1
Titolo del grafico
0,4000000

0,3500000 0,3500000

0,3000000 0,3000000

0,2500000 0,2500000

0,2000000 0,2000000

0,1500000 0,1500000

0,1000000 0,1000000

0,0500000 0,0500000

0,0000000 0,0000000
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.000 2.070
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

X
Titolo del H
0,4500000

0,4000000
0
grafico

0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
za X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

0 Z=
σ
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La "potenza del test"


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un
guadagno, in termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%.
Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese
dalla produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99°
percentile (quindi, α=0,01). Si definisca la probabilità b dell'errore di II tipo e, quindi, la potenza del test e, eventualmente, si
definisca una possibile strategia alternativa.

µ = 2.000h ; σ = 250h ; n =100 ; x = ? ; α = 0,01

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 α = 0,01 X∼N Rifiuto H0 se: x − µ > z (zα
= 2,33 )
α
σ
(
H1 : µ = 2.000 + 2.000 × 0,035 = 2.070 ) n
0,4500000

0,4000000
0,4500000
H
0
Titolo del grafico H 1
Titolo del grafico
0,4000000

0,3500000 0,3500000

0,3000000 0,3000000

0,2500000

0,2000000
0,2500000

0,2000000
β = P ⎡⎣t X ∈ A|θ ∈ Θ1⎤⎦
( ) Probabilità di accettare (o meglio,
0,1500000 0,1500000 non rifiutare) l'ipotesi H0 quando
questa è falsa.
0,1000000 0,1000000

0,0500000 0,0500000

0,0000000 0,0000000
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.000 2.070
Per determinare b è necessario individuare il valore critico
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

X
Titolo del H
non standardizzato:
0,4500000

0,4000000
0
grafico

0,3500000

0,3000000

250
xCR = 2.000 + 2,33 ⋅ = 2.058
0,2500000

0,2000000

100
0,1500000

0,1000000

0,0500000

0,0000000
X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

0 2,33 Z=
σ
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La "potenza del test"


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un
guadagno, in termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%.
Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese
dalla produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99°
percentile (quindi, α=0,01). Si definisca la probabilità b dell'errore di II tipo e, quindi, la potenza del test e, eventualmente, si
definisca una possibile strategia alternativa.

µ = 2.000h ; σ = 250h ; n =100 ; x = ? ; α = 0,01

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 α = 0,01 X∼N Rifiuto H0 se: x − µ > z (zα
= 2,33 )
α
σ
(
H1 : µ = 2.000 + 2.000 × 0,035 = 2.070 ) n
0,4500000

0,4000000
0,4500000
H
0
Titolo del grafico H 1
Titolo del grafico
0,4000000

0,3500000 0,3500000

0,3000000 0,3000000

0,2500000

0,2000000
0,2500000

0,2000000
β = P ⎡⎣t X ∈ A|θ ∈ Θ1⎤⎦
( ) Probabilità di accettare (o meglio,
0,1500000 0,1500000 non rifiutare) l'ipotesi H0 quando
questa è falsa.
0,1000000 0,1000000

0,0500000 0,0500000

b?
0,0000000 0,0000000

2.070
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.000 2.058
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

X
Titolo del H
0,4500000

0,4000000
0
grafico

0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

0 2,33 Z=
σ
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La "potenza del test"


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un
guadagno, in termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%.
Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese
dalla produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99°
percentile (quindi, α=0,01). Si definisca la probabilità b dell'errore di II tipo e, quindi, la potenza del test e, eventualmente, si
definisca una possibile strategia alternativa.

µ = 2.000h ; σ = 250h ; n =100 ; x = ? ; α = 0,01

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 α = 0,01 X∼N Rifiuto H0 se: x − µ > z (zα
= 2,33 )
α
σ
(
H1 : µ = 2.000 + 2.000 × 0,035 = 2.070 ) n
0,4500000

0,4000000
0,4500000
H
0
Titolo del grafico H 1
Titolo del grafico
0,4000000

0,3500000 0,3500000

0,3000000 0,3000000

0,2500000

0,2000000
0,2500000

0,2000000
β = P ⎡⎣t X ∈ A|θ ∈ Θ1⎤⎦
( ) Probabilità di accettare (o meglio,
0,1500000 0,1500000 non rifiutare) l'ipotesi H0 quando
questa è falsa.
0,1000000 0,1000000

0,0500000 0,0500000

0,0000000 0,0000000

2.070
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.000 2.058
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

X
0,4500000

0,4000000
Titolo del H 0
grafico
β = P ⎡⎣ X < 2.058|µ = 2.0701⎤⎦
0,3500000

0,3000000

0,2500000

0,2000000

0,1500000

0,1000000

0,0500000

0,0000000
X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

0 2,33 Z=
σ
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La "potenza del test"


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un
guadagno, in termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%.
Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese
dalla produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99°
percentile (quindi, α=0,01). Si definisca la probabilità b dell'errore di II tipo e, quindi, la potenza del test e, eventualmente, si
definisca una possibile strategia alternativa.

µ = 2.000h ; σ = 250h ; n =100 ; x = ? ; α = 0,01

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 α = 0,01 X∼N Rifiuto H0 se: x − µ > z (zα
= 2,33 )
α
σ
(
H1 : µ = 2.000 + 2.000 × 0,035 = 2.070 ) n
0,4500000

0,4000000
0,4500000
H
0
Titolo del grafico H 1
Titolo del grafico
0,4000000

0,3500000 0,3500000

0,3000000 0,3000000

0,2500000

0,2000000
0,2500000

0,2000000
β = P ⎡⎣t X ∈ A|θ ∈ Θ1⎤⎦
( ) Probabilità di accettare (o meglio,
0,1500000 0,1500000 non rifiutare) l'ipotesi H0 quando
questa è falsa.
0,1000000 0,1000000

0,0500000 0,0500000

0,0000000 0,0000000

2.070
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.000 2.058
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

X
0,4500000

0,4000000
Titolo del H 0
grafico
β = P ⎡⎣ X < 2.058|µ = 2.0701⎤⎦
0,3500000

0,3000000
⎛ ⎞
0,2500000 ⎜ 2.058 − 2.070 ⎟
0,2000000

0,1500000

0,1000000
= P⎜Z <
⎜ 250 ⎟
( )
⎟ = P Z < −0,48 = 0,5 − 0,1844 = 0,3156
0,0500000
⎜ ⎟
0,0000000
X −µ ⎝ 100 ⎠
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

0 2,33 Z=
σ
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La "potenza del test"


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un
guadagno, in termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%.
Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese
dalla produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99°
percentile (quindi, α=0,01). Si definisca la probabilità b dell'errore di II tipo e, quindi, la potenza del test e, eventualmente, si
definisca una possibile strategia alternativa.

µ = 2.000h ; σ = 250h ; n =100 ; x = ? ; α = 0,01

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 α = 0,01 X∼N Rifiuto H0 se: x − µ > z (zα
= 2,33 )
α
σ
(
H1 : µ = 2.000 + 2.000 × 0,035 = 2.070 ) n
0,4500000

0,4000000
0,4500000
H
0
Titolo del grafico H 1
Titolo del grafico
0,4000000

0,3500000 0,3500000

0,3000000 0,3000000

0,2500000

0,2000000
0,2500000

0,2000000
β = P ⎡⎣t X ∈ A|θ ∈ Θ1⎤⎦
( ) Probabilità di accettare (o meglio,
0,1500000 0,1500000 non rifiutare) l'ipotesi H0 quando
questa è falsa.
0,1000000 0,1000000

0,0500000 0,0500000

0,0000000 0,0000000

2.070
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.000 2.058
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

X
0,4500000

0,4000000
Titolo del H 0
grafico
β = P ⎡⎣ X < 2.058|µ = 2.0701⎤⎦ = 0,32
0,3500000

0,3000000

0,2500000

0,2000000
Il test così impostato, sebbene riduca al minimo la probabilità di acquistare
0,1500000 una macchina che non serve (a=0,01, probabilità dell’errore di I tipo), rende
abbastanza probabile l’eventualità di non acquistare una macchina che
0,1000000

0,0500000

0,0000000
X −µ
potrebbe servire (b=0,32, probabilità dell’errore di II tipo).
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

0 2,33 Z=
σ
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La "potenza del test"


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un
guadagno, in termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%.
Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese
dalla produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99°
percentile (quindi, α=0,01). Si definisca la probabilità b dell'errore di II tipo e, quindi, la potenza del test e, eventualmente, si
definisca una possibile strategia alternativa.

µ = 2.000h ; σ = 250h ; n =100 ; x = ? ; α = 0,01

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 α = 0,01 X∼N Rifiuto H0 se: x − µ > z (zα
= 2,33 )
α
σ
(
H1 : µ = 2.000 + 2.000 × 0,035 = 2.070 ) n
0,4500000

0,4000000
0,4500000
H
0
Titolo del grafico H 1
Titolo del grafico
0,4000000

0,3500000 0,3500000

0,3000000 0,3000000

0,2500000

0,2000000
0,2500000

0,2000000
β = P ⎡⎣t X ∈ A|θ ∈ Θ1⎤⎦
( ) Probabilità di accettare (o meglio,
0,1500000 0,1500000 non rifiutare) l'ipotesi H0 quando
questa è falsa.
0,1000000 0,1000000

0,0500000 0,0500000

0,0000000 0,0000000

2.070
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.000 2.058
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

X
0,4500000

0,4000000
Titolo del H 0
grafico
β = P ⎡⎣ X < 2.058|µ = 2.0701⎤⎦ = 0,32
0,3500000

0,3000000

0,2500000

0,2000000

Come possiamo rendere Aumentiamo la numerosità


0,1500000

0,1000000

il test più "potente"? campionaria


0,0500000

0,0000000
X −µ
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

0 2,33 Z=
σ
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La "potenza del test"


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un
guadagno, in termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%.
Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese
dalla produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99°
percentile (quindi, α=0,01). Si definisca la probabilità b dell'errore di II tipo e, quindi, la potenza del test e, eventualmente, si
definisca una possibile strategia alternativa.

µ = 2.000h ; σ = 250h ; n =100 ; x = ? ; α = 0,01

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 α = 0,01 X∼N Rifiuto H0 se: x − µ > z (zα
= 2,33 )
α
σ
(
H1 : µ = 2.000 + 2.000 × 0,035 = 2.070 ) n

n=100
0,4500000

0,4000000
0,4500000
H
0
Titolo del grafico H 1
Titolo del grafico
0,4000000

0,3500000 0,3500000

0,3000000 0,3000000

0,2500000 0,2500000

0,2000000 0,2000000

0,1500000 0,1500000

0,1000000 0,1000000

0,0500000 0,0500000

0,0000000 0,0000000

2.070
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

2.000
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La "potenza del test"


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un
guadagno, in termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%.
Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese
dalla produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99°
percentile (quindi, α=0,01). Si definisca la probabilità b dell'errore di II tipo e, quindi, la potenza del test e, eventualmente, si
definisca una possibile strategia alternativa.

µ = 2.000h ; σ = 250h ; n =100 ; x = ? ; α = 0,01

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 α = 0,01 X∼N Rifiuto H0 se: x − µ > z (zα
= 2,33 )
α
σ
(
H1 : µ = 2.000 + 2.000 × 0,035 = 2.070 ) n
0,4500000 0,4500000
Titolo delH
grafico
0 Titolo del H
grafico
1
0,4000000 0,4000000
250
0,3500000 0,3500000
n=200 xCR = 2.000 + 2,33 ⋅ = 2.041
0,3000000 0,3000000
200
0,2500000 0,2500000

0,2000000 0,2000000
β = P ⎡⎣ X < 2.041|µ = 2.070⎤⎦
0,1500000 0,1500000

0,1000000 0,1000000
⎛ ⎞
0,0500000 0,0500000
⎜ 2.041− 2.070 ⎟
0,0000000 0,0000000
2.000 2.041 2.070
= P⎜Z <
⎜ 250 ⎟
( )
⎟ = P Z < −1,64 = 0,5 − 0,4495 = 0,0505
500
280
060
840
620
400
180
960
740
520
300
080
860
640
-0, 420
-0, 200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3, 500
-3, 280
-3, 060
-2, 840
-2, 620
-2, 400
-2, 180
-1, 960
-1, 740
-1, 520
-1, 300
-1, 080
-0, 860
-0, 640
-0, 420
-0, 200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

X ⎜ ⎟
200 ⎠
-3,
-3,
-3,
-2,
-2,
-2,
-2,
-1,
-1,
-1,
-1,
-1,
-0,
-0,

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La "potenza del test"


Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2.000 ore e deviazione standard pari a 250 ore.
Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un
guadagno, in termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%.
Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese
dalla produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99°
percentile (quindi, α=0,01). Si definisca la probabilità b dell'errore di II tipo e, quindi, la potenza del test e, eventualmente, si
definisca una possibile strategia alternativa.

µ = 2.000h ; σ = 250h ; n =100 ; x = ? ; α = 0,01

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 α = 0,01 X∼N Rifiuto H0 se: x − µ > z (zα
= 2,33 )
α
σ
(
H1 : µ = 2.000 + 2.000 × 0,035 = 2.070 ) n
0,4500000 0,4500000
Titolo delH
grafico
0 Titolo del H
grafico
1
0,4000000 0,4000000
250
0,3500000 0,3500000
n=200 xCR = 2.000 + 2,33 ⋅ = 2.041
0,3000000 0,3000000
⎛ ⎞ 200
0,2500000 0,2500000 ⎜ 2.041− 2.070 ⎟
0,2000000

0,1500000
0,2000000

0,1500000
= P⎜Z <
⎜ 250
P =Z P<⎡⎣−1
⎟=β

X ,64 (= 0,5
< 2.041 )
|µ −=0,4495
2.070⎤⎦ = 0,0505
⎜ ⎟
0,1000000 0,1000000
⎝ 200 ⎠
0,0500000 0,0500000 A parità di a, un aumento della numerosità campionaria
0,0000000 0,0000000
2.000 2.041 2.070 ha notevolmente ridotto b, rendendo così il test più
500
280
060
840
620
400
180
960
740
520
300
080
860
640
-0, 420
-0, 200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
-3, 500
-3, 280
-3, 060
-2, 840
-2, 620
-2, 400
-2, 180
-1, 960
-1, 740
-1, 520
-1, 300
-1, 080
-0, 860
-0, 640
-0, 420
-0, 200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

X
potente.
-3,
-3,
-3,
-2,
-2,
-2,
-2,
-1,
-1,
-1,
-1,
-1,
-0,
-0,

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi su una proporzione

Esercizio:

In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute 54 teste.
Abbiamo il sospetto che l’amico ci abbia ingannati, utilizzando una moneta truccata.
Si verifichi questa ipotesi ad un livello di significatività a=0,1.

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi su una proporzione

Esercizio:

In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute 54 teste.
Abbiamo il sospetto che l’amico ci abbia ingannati, utilizzando una moneta truccata.
Si verifichi questa ipotesi ad un livello di significatività a=0,1.

n =100 ; p = 0,54 ; zα =1,28


Ipotesi: Significatività: Statistica: Regola di decisione:
H0 : π = 0,5 α = 0,10 p∼N Rifiuto H0 se: p − π0
> zα
H1 : π > 0,5 (
π 0 ⋅ 1− π 0 )
n

p − π0 0,54 − 0,50
= = 0,80
(
π 0 ⋅ 1− π 0 ) (
0,50 ⋅ 1− 0,50 )
n 100
10%
p −π
0,80 < 1,28 Non rifiuto H0
0,80
0 1,28 π ⋅ (1− π )
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi su una proporzione

Esercizio:

In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute 54 teste.
Abbiamo il sospetto che l’amico ci abbia ingannati, utilizzando una moneta truccata.
Si verifichi questa ipotesi ad un livello di significatività a=0,1.

n =100 ; p = 0,54 ; zα =1,28


Ipotesi: Significatività: Statistica: Regola di decisione:
H0 : π = 0,5 α = 0,10 p∼N Rifiuto H0 se: p − π0
> zα
H1 : π > 0,5 (
π 0 ⋅ 1− π 0 )
n

pc = 0,50 +1,28 ⋅
(
0,50 ⋅ 1,00 − 0,50 ) = 0,5 + 0,064 = 0,564
10% 100

0,540 < 0,564 Non rifiuto H0


0,50 0,54 p c=0,564 p
p − π0 0,54 − 0,50
= = 0,80
10% (
π 0 ⋅ 1− π 0 ) (
0,50 ⋅ 1− 0,50 )
n 100
p −π
0,80 < 1,28 Non rifiuto H0
0,80
0 1,28 π ⋅ (1− π )
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi su una proporzione

Esercizio:

In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute 54 teste.
Abbiamo il sospetto che l’amico ci abbia ingannati, utilizzando una moneta truccata.
Si verifichi questa ipotesi ad un livello di significatività a=0,1.

n =100 ; p = 0,54 ; zα =1,28


Ipotesi: Significatività: Statistica: Regola di decisione:
H0 : π = 0,5 α = 0,10 p∼N Rifiuto H0 se: p − π0
> zα
H1 : π > 0,5 (
π 0 ⋅ 1− π 0 )
n

0,54
0,5 p

Supponiamo che io non consideri, a priori, alcun livello di significatività ma che, sulla base del
risultato campionario, decida di accusare l’amico di utilizzare una moneta truccata.
Qual è la probabilità che lo stia accusando ingiustamente?

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il p-value

Esercizio:

In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute 54 teste.
Abbiamo il sospetto che l’amico ci abbia ingannati, utilizzando una moneta truccata.
Si verifichi questa ipotesi ad un livello di significatività a=0,1.

n =100 ; p = 0,54 ; zα =1,28


Ipotesi: Significatività: Statistica: Regola di decisione:
H0 : π = 0,5 α = 0,10 p∼N Rifiuto H0 se: la probabilità di errore associata
al valore campionario osservato
H1 : π > 0,5 risulterà sufficientemente bassa.
⎛ ⎞
⎜ ⎟
( ⎜ p−π
P p ≥ 0,54 = P ⎜ ) ≥
0,54 − 0,5 ⎟
⎟ = 0,21 p-value
⎜ π ⋅ 1− π

( ) ( )
0,5 ⋅ 1− 0,5 ⎟

⎝ n 100 ⎠
Il p-value è la probabilità di commettere un
errore nel rifiutare lʼipotesi nulla sulla base del
0,54
0,5 p risultato campionario.

Più piccolo è il p-value, più “distante” risulta essere il valore campionario osservato da quanto ci si
aspetta sotto H0, e quindi più difficile risulta attribuire questa discrepanza alla sola aleatorietà
campionaria. Dunque, più piccolo è il p-value, più tenderemo a rifiutare l'ipotesi H0.
LEZIONE 21 – LA VERIFICA DELLE IPOTESI
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi: i due approcci

Approccio classico (Pearson): Approccio p value (Fisher):

• Si definisce a priori il livello di significatività, a; • Non esiste un livello di significatività, a, ma solo una
• Si individua il valore critico (o i valori critici, in caso di misura del rischio massimo che siamo disposti ad
ipotesi alternativa bidirezionale) e si definiscono la zona accettare nel rifiutare l'ipotesi nulla;
di accettazione e la zona di rifiuto; • Si osserva il valore campionario e si definisce la
• Se il valore campionario cade nella zona di probabilità che questo valore provenga dalla
accettazione, non si rifiuta H0; distribuzione sotto H0. Nel caso di ipotesi alternativa
• Se il valore campionario cade nella zona critica, si rifiuta unidirezionale a sinistra, questa probabilità sarà l'area
H0, con un rischio di errore pari ad a; a sinistra del valore campionario, nel caso di ipotesi
unidirezionale a destra, sarà l'area a destra del valore
• La critica rivolta a questo approccio è che, quando il campionario, nel caso di ipotesi bidirezionale sarà
valore cade nella zona critica, il rischio di errore è l'area a sinistra (o a destra) del valore campionario
sempre considerato pari ad a, mentre è chiaro che, moltiplicata per 2,
quanto più distante è il valore campionario dal valore
critico, tanto più piccolo sarà il rischio di sbagliare nel • Quanto più è piccola questa probabilità, tanto più
rifiutare H0. saremo indotti a rifiutare l'ipotesi nulla.

0,4500000
H 0
Titolo del grafico
0,4500000
H 0
Titolo del grafico
0,4000000
H0 : µ = µ0 0,4000000
H0 : µ = µ0
0,3500000 0,3500000

0,3000000
H1 : µ < µ0 0,3000000
H1 : µ < µ0
0,2500000 0,2500000

0,2000000 0,2000000

0,1500000 0,1500000

0,1000000 0,1000000

a. .
0,0500000 0,0500000

0,0000000 . . . .
µ0 µ
0,0000000
xc Valore
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320

Valore X
-3,500
-3,280
-3,060
-2,840
-2,620
-2,400
-2,180
-1,960
-1,740
-1,520
-1,300
-1,080
-0,860
-0,640
-0,420
-0,200
0,020
0,240
0,460
0,680
0,900
1,120
1,340
1,560
1,780
2,000
2,220
2,440
2,660
2,880
3,100
3,320
X 0
Valore campionario nella zona di non rifiuto. campionario campionario

Valore campionario nella zona di rifiuto, molto vicino al valore critico.


Valore campionario nella zona di rifiuto, molto lontano dal valore critico.

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi: Il p-value

Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2000
ore e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo
di materiale sulla cui qualità il responsabile della produzione avanza seri dubbi.
Prima di mettere in vendita le lampadine prodotte si desidera, dunque, indagare
sulla qualità del materiale impiegato e, in particolare, verificare se possa avere
influito sulla durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e
se ne misura la durata media, che risulta pari a 1955 ore.
Qual è la probabilità di errore nell’affermare che tale riduzione sia imputabile alla scarsa qualità
del materiale utilizzato?

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi: Il p-value

Esercizio:
La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250
ore. La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale sulla cui qualità il
responsabile della produzione avanza seri dubbi. Prima di mettere in vendita le lampadine prodotte si desidera, dunque,
indagare sulla qualità del materiale impiegato e, in particolare, verificare se possa avere influito sulla durata delle
lampadine. Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura
la durata media, che risulta pari a 1955 ore.
Qual è la probabilità di errore nell’affermare che tale riduzione sia imputabile alla scarsa qualità del materiale utilizzato?

µ = 2.000h ; σ = 250h ; n =100 ; x =1.955h ; α = 0,05

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : µ = 2.000 a=arbitraria X ∼N Rifiuto H0 se la probabilità di errore associata al valore
campionario osservato risulta sufficientemente bassa.
H1 : µ < 2.000

⎛ ⎞
⎜ X − µ 1955 − 2000 ⎟
(
P X ≤ 1955 ) = P⎜
⎜σ

250
(
⎟ = P Z ≤ −1,8

) = 0,036
(p-value)
⎝ n 100 ⎠
1955 2000
X
La percentuale di errore nel rifiutare lʼipotesi H0 sulla base del
valore campionario osservato è del 3,6%.
La decisione se rifiutare o meno H0 dipenderà dunque da
quanto noi consideriamo piccola (o grande) questa
percentuale, ed è quindi arbitraria, a differenza della
X −µ
-1,8 0 Z=
σ quantificazione del rischio, che è invece oggettiva.
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi: Il p-value

Esercizio:
Da studi passati risulta che il consumo medio giornaliero di acqua da parte delle
famiglie italiane è pari a 548 litri (in moltissimi Paesi dell’Africa è inferiore a 10…), con
una variabilità rappresentata da uno scarto quadratico medio di 91 litri.
Per valutare gli effetti della campagna governativa di sensibilizzazione ad un consumo più
contenuto e, soprattutto, all’evitare gli sprechi, viene considerato un campione di 20 famiglie, per le
quali, nel periodo d’indagine, si misura un consumo medio giornaliero di acqua di 520 litri.
Immaginando che i consumi possano essere approssimati da una distribuzione Normale, qual è la
probabilità di sbagliare nell’affermare che tale diminuzione è attribuibile alla campagna di
sensibilizzazione?

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La verifica delle ipotesi: Il p-value

Esercizio:
Da studi passati risulta che il consumo medio giornaliero di acqua da parte delle famiglie italiane è pari a 548 litri (in moltissimi Paesi
dell’Africa è inferiore a 10…), con una variabilità rappresentata da uno scarto quadratico medio di 91 litri.
Per valutare gli effetti della campagna governativa di sensibilizzazione ad un consumo più contenuto e, soprattutto, all’evitare gli
sprechi, viene considerato un campione di 20 famiglie, per le quali, nel periodo d’indagine, si misura un consumo medio giornaliero
di acqua di 520 litri.
Immaginando che i consumi possano essere approssimati da una distribuzione Normale, qual è la probabilità di sbagliare
nell’affermare che tale diminuzione è attribuibile alla campagna di sensibilizzazione?

µ = 548 ; σ = 91 ; n = 20 ; x = 520 ; α = 0,01


Ipotesi: Significatività: Statistica: Regola di decisione:
H0 : µ = 548 a=arbitraria X ∼N Rifiuto H0 se la probabilità di errore associata al valore
campionario osservato risulta sufficientemente bassa.
H0 : µ < 548

⎛ ⎞⎟
⎜⎜
X − µ 520 − 548 ⎟⎟⎟
P (X < 520) = P ⎜⎜⎜ < ⎟⎟ = P (Z < −1,37) = 0,5 − 0,4147 = 0,0853
⎜⎜ σ 91 ⎟⎟
520 548
⎜⎝ n 20 ⎟⎠
X
Il rischio di errore nell’affermare, sulla base del valore campionario
osservato, che la campagna di sensibilizzazione ha avuto successo è,
dunque, di poco superiore all’8%.
Se questo sia un rischio accettabile o meno non è più un problema
statistico ma una responsabilità di chi, valutate le conseguenze di un
X −µ
eventuale errore, dovrà prendere la decisione.
-1,37 0 Z=
σ
n

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo
La frequenza cardiaca (battiti al minuto, bpm) dei maschi giovani sani segue
una distribuzione Normale con media µ=72 bpm.
Si misura la frequenza cardiaca su un campione di 12 pazienti maschi giovani
affetti da una determinata patologia e si ottiene una media di 68,7 bpm e una
varianza corretta s2=75,12.
Si verifichi, con significatività α=0,05, se la frequenza cardiaca di questi pazienti possa essere
considerata diversa dai valori normali.

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo
La percentuale di studenti dei Corsi triennali di Economia che si laurea nel numero di anni
previsto è, su base nazionale, pari al 39%.
Il Direttore di Dipartimento di una importante Università decide di seguire negli anni una
coorte di 316 studenti del Corso di laurea in Economia e, al termine della rilevazione,
rileva che 131 di loro si sono laureati in corso, quindi rispettando i tempi.
1. È possibile affermare, ad un livello di significatività del 5%, che gli studenti di questo
Corso siano più bravi della media nazionale?
2. Volendo comunque fare questa affermazione, qual è la probabilità di stare affermando una osa
errata?

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizi di riepilogo
Un centro medico sa che il numero di giorni necessari per guarire dalla malattia ABC
dopo la somministrazione del farmaco XYZ segue una distribuzione normale con media 20
e sqm 3,5.
I responsabili del laboratorio chimico affermano che i miglioramenti apportati al farmaco
potranno consentire una riduzione del periodo richiesto per la completa guarigione a 18 giorni.
Dato un campione di controllo di numerosità n=45 pazienti ed un livello di significatività α=0,01 si imposti il test
definendo:
• L’ipotesi nulla
• L’ipotesi alternativa
• L’errore di I tipo (specificare in cosa consiste in questo specifico esempio) con la relativa probabilità
• L’errore di II tipo (specificare in cosa consiste in questo specifico esempio) con la relativa probabilità
Si discuta se è utile effettuare il test con queste modalità e, in caso contrario, si definisca, motivandola,
una strategia alternativa.

LEZIONE 21 – LA VERIFICA DELLE IPOTESI


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 22:
I test non parametrici
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il test chi-quadrato sull’indipendenza fra mutabili

Esercizio:
Si riporta, di seguito, la tabella che incrocia il Voto di laurea con lʼOccupazione (al momento
dell’intervista) di 385 laureati di un corso di Economia.
Eʼ possibile affermare, con un livello di significatività α=0,05, che esiste relazione tra i due caratteri
osservati?

LEZIONE 22 – I TEST NON PARAMETRICI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il test chi-quadrato sull’indipendenza fra mutabili

Esercizio:
Si riporta, di seguito, la tabella che incrocia il Voto di laurea con lʼOccupazione (al momento dell’intervista) di 385 laureati
della (ex) Facoltà di Economia.
Eʼ possibile affermare, con un livello di significatività α=0,05, che esiste relazione tra i due caratteri osservati?

Frequenze osservate

Distribuz. condizionate

LEZIONE 22 – I TEST NON PARAMETRICI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il test chi-quadrato sull’indipendenza fra mutabili

Esercizio:
Si riporta, di seguito, la tabella che incrocia il Voto di laurea con lʼOccupazione (al momento dell’intervista) di 385 laureati
della (ex) Facoltà di Economia.
Eʼ possibile affermare, con un livello di significatività α=0,05, che esiste relazione tra i due caratteri osservati?

Frequenze osservate

Frequenze teoriche

( n − n! )
2

= ∑∑
ij ij
χ 2
= 3,97
i j n! ij

LEZIONE 22 – I TEST NON PARAMETRICI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il test chi-quadrato sull’indipendenza fra mutabili

Esercizio:
Si riporta, di seguito, la tabella che incrocia il Voto di laurea con lʼOccupazione (al momento dell’intervista) di 385 laureati
della (ex) Facoltà di Economia.
Eʼ possibile affermare, con un livello di significatività α=0,05, che esiste relazione tra i due caratteri osservati?

Frequenze osservate

Frequenze teoriche

( n − n! )
2

= ∑∑
ij ij
χ 2
= 3,97
n! ij
(n − n ) i j
2

∑∑
ij ij

i j n ij

LEZIONE 22 – I TEST NON PARAMETRICI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Tavola del chi-quadrato

Tavola della distribuzione χ2

Gradi Area nella coda destra


di
libertà 0,995 0,990 0,975 0,950 0,900 0,750 0,250 0,100 0,050 0,025 0,010

1 0,001 0,004 0,016 0,102 1,323 2,706 3,841 5,024 6,635


2 0,051 0,103 0,211 0,575 2,773 4,605 5,991 7,378 9,210
3 0,072 0,115 0,216 0,352 0,584 1,213 4,108 6,251 7,815 9,348 11,345
4 0,207 0,297 0,484 0,711 1,064 1,923 5,385 7,779 9,488 11,143 13,277
5 0,412 0,554 0,831 1,145 1,610 2,675 6,626 9,236 11,070 12,833 15,086
6 0,676 0,872 1,237 1,635 2,204 3,455 7,841 10,645 12,592 14,449 16,812
7 0,989 1,239 1,690 2,167 2,833 4,255 9,037 12,017 14,067 16,013 18,475
8 1,344 1,646 2,180 2,733 3,490 5,071 10,219 13,362 15,507 17,535 20,090
9 1,735 2,088 2,700 3,325 4,168 5,899 11,389 14,684 16,919 19,023 21,666
10 2,156 2,558 3,247 3,940 4,865 6,737 12,549 15,987 18,307 20,483 23,209

11 2,603 3,053 3,816 4,575 5,578 7,584 13,701 17,275 19,675 21,920 24,725
12 3,074 3,571 4,404 5,226 6,304 8,438 14,845 18,549 21,026 23,337 26,217
13 3,565 4,107 5,009 5,892 7,042 9,299 15,984 19,812 22,362 24,736 27,688
14 4,075 4,660 5,629 6,571 7,790 10,165 17,117 21,064 23,685 26,119 29,141
15 4,601 5,229 6,262 7,261 8,547 11,037 18,245 22,307 24,996 27,488 30,578
16 5,142 5,812 6,908 7,962 9,312 11,912 19,369 23,542 26,296 28,845 32,000
17 5,697 6,408 7,564 8,672 10,085 12,792 20,489 24,769 27,587 30,191 33,409
18 6,265 7,015 8,231 9,390 10,865 13,675 21,605 25,989 28,869 31,526 34,805
19 6,844 7,633 8,907 10,117 11,651 14,562 22,718 27,204 30,144 32,852 36,191
20 7,434 8,260 9,591 10,851 12,443 15,452 23,828 28,412 31,410 34,170 37,566

21 8,034 8,897 10,283 11,591 13,240 16,344 24,935 29,615 32,671 35,479 38,932
22 8,643 9,542 10,982 12,338 14,041 17,240 26,039 30,813 33,924 36,781 40,289
23 9,260 10,196 11,689 13,091 14,848 18,137 27,141 32,007 35,172 38,076 41,638
24 9,886 10,856 12,401 13,848 15,659 19,037 28,241 33,196 36,415 39,364 42,980
25 10,520 11,524 13,120 14,611 16,473 19,939 29,339 34,382 37,652 40,646 LEZIONE
44,314 22 – I TEST NON PARAMETRICI
26 11,160 12,198 13,844 15,379 17,292 20,843 30,435 35,563 38,885 41,923 45,642
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il test chi-quadrato sull’indipendenza fra mutabili

Frequenze osservate

Frequenze teoriche

α = 0,05
2
χ 0,05;6 =12,59

1− α α
Chi-quadrato calcolato nel campione: 3,97

(n )
2
3,97 12,59 − n ij
∑∑
ij

i j n ij

Non rifiuto lʼipotesi H0 di indipendenza fra le mutabili

LEZIONE 22 – I TEST NON PARAMETRICI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il test chi-quadrato sull’indipendenza fra mutabili

Frequenze osservate

Frequenze teoriche

Chi-quadrato calcolato nel campione: 3,97

(n )
2
− n ij
3,97 ∑∑
ij

i j n ij

Supponiamo che, sulla base di questo risultato campionario, io decida comunque di rifiutare l’ipotesi
di indipendenza e concluda per l’associazione tra le mutabili considerate. Qual è la probabilità che
stia commettendo un errore?

LEZIONE 22 – I TEST NON PARAMETRICI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il test chi-quadrato sull’indipendenza fra mutabili

Frequenze osservate

Frequenze teoriche

Chi-quadrato calcolato nel campione: 3,97


p-value
(n )
2
− n ij
3,97 ∑∑
ij

i j n ij

Il p-value è, dunque, la probabilità di commettere un errore nel rifiutare lʼipotesi H0 sulla base del
valore campionario osservato. Quanto più è piccolo, tanto più tenderemo a rifiutare H0.

LEZIONE 22 – I TEST NON PARAMETRICI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Tavola del chi-quadrato

Tavola della distribuzione χ2

Gradi Area nella coda destra


di
libertà 0,995 0,990 0,975 0,950 0,900 0,750 0,250 0,100 0,050 0,025 0,010

1 0,001 0,004 0,016 0,102 1,323 2,706 3,841 5,024 6,635 Per calcolare il p-value, devo
2 0,051 0,103 0,211 0,575 2,773 4,605 5,991 7,378 9,210 cercare, in corrispondenza della
3 0,072 0,115 0,216 0,352 0,584 1,213 4,108 6,251 7,815 9,348 11,345 riga dei gradi di libertà, il valore più
4 0,207 0,297 0,484 0,711 1,064 1,923 5,385 7,779 9,488 11,143 13,277 vicino al valore campionario
5 0,412 0,554 0,831 1,145 1,610 2,675 6,626 9,236 11,070 12,833 15,086 ottenuto: nel nostro esepio, il
6 0,676 0,872 1,237 1,635 2,204 3,455 7,841 10,645 12,592 14,449 16,812 valore è 3,455.
7 0,989 1,239 1,690 2,167 2,833 4,255 9,037 12,017 14,067 16,013 18,475 A questo valore corrisponde
8 1,344 1,646 2,180 2,733 3,490 5,071 10,219 13,362 15,507 17,535 20,090 un’area, a destra, del 75%. Quindi,
9 1,735 2,088 2,700 3,325 4,168 5,899 11,389 14,684 16,919 19,023 21,666 se io rifiutassi l’ipotesi di
10 2,156 2,558 3,247 3,940 4,865 6,737 12,549 15,987 18,307 20,483 23,209
indipendenza sulla base di un
valore campionario del chi
quadrato pari a 3,455 avrei una
11 2,603 3,053 3,816 4,575 5,578 7,584 13,701 17,275 19,675 21,920 24,725
probabilità di sbagliare pari a 0,75
12 3,074 3,571 4,404 5,226 6,304 8,438 14,845 18,549 21,026 23,337 26,217
(e, dunque, è molto probabile che
13 3,565 4,107 5,009 5,892 7,042 9,299 15,984 19,812 22,362 24,736 27,688
non la rifiuti).
14 4,075 4,660 5,629 6,571 7,790 10,165 17,117 21,064 23,685 26,119 29,141
Nel nostro esempio, il valore
15 4,601 5,229 6,262 7,261 8,547 11,037 18,245 22,307 24,996 27,488 30,578 campionario è 3,97, un po’ più a
16 5,142 5,812 6,908 7,962 9,312 11,912 19,369 23,542 26,296 28,845 32,000
destra di 3,455, e individuerà,
17 5,697 6,408 7,564 8,672 10,085 12,792 20,489 24,769 27,587 30,191 33,409 dunque, un’area inferiore al 75%,
18 6,265 7,015 8,231 9,390 10,865 13,675 21,605 25,989 28,869 31,526 34,805 la cui determinazione esatta può
19 6,844 7,633 8,907 10,117 11,651 14,562 22,718 27,204 30,144 32,852 36,191 essere fatta solo utilizzando un
20 7,434 8,260 9,591 10,851 12,443 15,452 23,828 28,412 31,410 34,170 37,566 software specifico ma che può
essere comunque approssimata
21 8,034 8,897 10,283 11,591 13,240 16,344 24,935 29,615 32,671 35,479 38,932 utilizzando la tavola.
22 8,643 9,542 10,982 12,338 14,041 17,240 26,039 30,813 33,924 36,781 40,289
23 9,260 10,196 11,689 13,091 14,848 18,137 27,141 32,007 35,172 38,076 41,638
24 9,886 10,856 12,401 13,848 15,659 19,037 28,241 33,196 36,415 39,364 42,980
25 10,520 11,524 13,120 14,611 16,473 19,939 29,339 34,382 37,652 40,646 44,314 LEZIONE 22 – I TEST NON PARAMETRICI
26 11,160 12,198 13,844 15,379 17,292 20,843 30,435 35,563 38,885 41,923 45,642
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il test chi-quadrato sull’indipendenza fra mutabili

Frequenze osservate

Frequenze teoriche

p-value
(n )
2
− n ij
3,97 ∑∑
ij

i j n ij

In questo esempio, il p-value (calcolato con il software statistico SPSS) vale 0,681. C’è quindi una
probabilità di circa il 70% di sbagliare nel rifiutare l’ipotesi di indipendenza tra le mutabili.

LEZIONE 22 – I TEST NON PARAMETRICI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il test chi-quadrato sull’indipendenza fra mutabili

Esercizio:
Si riporta, di seguito, la tabella che incrocia il Voto di laurea con la Frequenza alle lezioni di 385
laureati della (ex) Facoltà di Economia.
Eʼ possibile affermare che esiste relazione tra i due caratteri osservati?

LEZIONE 22 – I TEST NON PARAMETRICI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il test chi-quadrato sull’indipendenza fra mutabili

Esercizio:
Si riporta, di seguito, la tabella che incrocia il Voto di laurea con la Frequenza alle lezioni di 385 laureati della Facoltà di
Economia. Eʼ possibile affermare che esiste relazione tra i due caratteri osservati?

( )
2
nij − n! ij
χ2 = ∑∑ = 47,56
i j n! ij

La probabilità di errore nel rifiutare l’ipotesi di indipendenza è quasi


nulla (p<0,001). Lʼipotesi di indipendenza viene dunque senz’altro
rifiutata.

(n )
2
− n ij
47,56 ∑∑
ij

i j n ij

LEZIONE 22 – I TEST NON PARAMETRICI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il test chi-quadrato sull'adattamento ad una distribuzione nota

Esercizio:
In 480 lanci di un dado si sono ottenuti i risultati riportati in tabella. Determinare, con significatività
α=0,05, se il dado può considerarsi truccato.

RISULTATO 1 2 3 4 5 6

Freq. osservate 88 75 92 65 86 74

Freq. Teoriche
Questi risultati vanno confrontati
80,0 con quelli
80 80attesi sotto
80 l’ipotesi
80 di distribuzione
80 uniforme che si
(dado non truccato)
avrebbe in caso di dado non truccato:

LEZIONE 22 – I TEST NON PARAMETRICI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il test chi-quadrato sull'adattamento ad una distribuzione nota

Esercizio:
In 480 lanci di un dado si sono ottenuti i risultati riportati in tabella. Determinare, con significatività
α=0,05, se il dado può considerarsi truccato.

RISULTATO 1 2 3 4 5 6

Freq. osservate 88 75 92 65 86 74

Freq. Teoriche 80,0 80 80 80 80 80


(dado non truccato)

2 2 2 2 2 2 2

χ 2 = ∑∑
( nij − n! ij ) =( 88 − 80 ) +(75 − 80 ) +( 92 − 80 ) +( 65 − 80 ) +( 86 − 80 ) +(74 − 80 ) = 6,63
i j n! ij 80 80 80 80 80 80

LEZIONE 22 – I TEST NON PARAMETRICI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Tavola del chi-quadrato

Tavola della distribuzione χ2

Gradi Area nella coda destra


di
libertà 0,995 0,990 0,975 0,950 0,900 0,750 0,250 0,100 0,050 0,025 0,010

1 0,001 0,004 0,016 0,102 1,323 2,706 3,841 5,024 6,635


2 0,051 0,103 0,211 0,575 2,773 4,605 5,991 7,378 9,210
3 0,072 0,115 0,216 0,352 0,584 1,213 4,108 6,251 7,815 9,348 11,345
4 0,207 0,297 0,484 0,711 1,064 1,923 5,385 7,779 9,488 11,143 13,277
5 0,412 0,554 0,831 1,145 1,610 2,675 6,626 9,236 11,070 12,833 15,086
6 0,676 0,872 1,237 1,635 2,204 3,455 7,841 10,645 12,592 14,449 16,812
7 0,989 1,239 1,690 2,167 2,833 4,255 9,037 12,017 14,067 16,013 18,475
8 1,344 1,646 2,180 2,733 3,490 5,071 10,219 13,362 15,507 17,535 20,090
9 1,735 2,088 2,700 3,325 4,168 5,899 11,389 14,684 16,919 19,023 21,666
10 2,156 2,558 3,247 3,940 4,865 6,737 12,549 15,987 18,307 20,483 23,209

11 2,603 3,053 3,816 4,575 5,578 7,584 13,701 17,275 19,675 21,920 24,725
12 3,074 3,571 4,404 5,226 6,304 8,438 14,845 18,549 21,026 23,337 26,217
13 3,565 4,107 5,009 5,892 7,042 9,299 15,984 19,812 22,362 24,736 27,688
14 4,075 4,660 5,629 6,571 7,790 10,165 17,117 21,064 23,685 26,119 29,141
15 4,601 5,229 6,262 7,261 8,547 11,037 18,245 22,307 24,996 27,488 30,578
16 5,142 5,812 6,908 7,962 9,312 11,912 19,369 23,542 26,296 28,845 32,000
17 5,697 6,408 7,564 8,672 10,085 12,792 20,489 24,769 27,587 30,191 33,409
18 6,265 7,015 8,231 9,390 10,865 13,675 21,605 25,989 28,869 31,526 34,805
19 6,844 7,633 8,907 10,117 11,651 14,562 22,718 27,204 30,144 32,852 36,191
20 7,434 8,260 9,591 10,851 12,443 15,452 23,828 28,412 31,410 34,170 37,566

21 8,034 8,897 10,283 11,591 13,240 16,344 24,935 29,615 32,671 35,479 38,932
22 8,643 9,542 10,982 12,338 14,041 17,240 26,039 30,813 33,924 36,781 40,289
23 9,260 10,196 11,689 13,091 14,848 18,137 27,141 32,007 35,172 38,076 41,638
24 9,886 10,856 12,401 13,848 15,659 19,037 28,241 33,196 36,415 39,364 42,980
25 10,520 11,524 13,120 14,611 16,473 19,939 29,339 34,382 37,652 40,646 44,314 LEZIONE 22 – I TEST NON PARAMETRICI
26 11,160 12,198 13,844 15,379 17,292 20,843 30,435 35,563 38,885 41,923 45,642
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il test chi-quadrato sull'adattamento ad una distribuzione nota

Esercizio:
In 480 lanci di un dado si sono ottenuti i risultati riportati in tabella. Determinare, con significatività
α=0,05, se il dado può considerarsi truccato.

RISULTATO 1 2 3 4 5 6

Freq. osservate 88 75 92 65 86 74

Freq. Teoriche 80,0 80 80 80 80 80


(dado non truccato)

2
χ CALC = 6,63 ; 2
χ 0,05;5 =11,07 Non rifiuto lʼipotesi di distribuzione uniforme
(quindi non posso concludere che il dado è truccato)

p-value?

5%
(n )
2
− n!ij
∑∑
ij
6,6 11,1 n!ij
i j

LEZIONE 22 – I TEST NON PARAMETRICI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

La Tavola del chi-quadrato

Tavola della distribuzione χ2

Gradi Area nella coda destra


di
libertà 0,995 0,990 0,975 0,950 0,900 0,750 0,250 0,100 0,050 0,025 0,010

1 0,001 0,004 0,016 0,102 1,323 2,706 3,841 5,024 6,635


2 0,051 0,103 0,211 0,575 2,773 4,605 5,991 7,378 9,210
3 0,072 0,115 0,216 0,352 0,584 1,213 4,108 6,251 7,815 9,348 11,345
4 0,207 0,297 0,484 0,711 1,064 1,923 5,385 7,779 9,488 11,143 13,277
5 0,412 0,554 0,831 1,145 1,610 2,675 6,626 9,236 11,070 12,833 15,086
6 0,676 0,872 1,237 1,635 2,204 3,455 7,841 10,645 12,592 14,449 16,812
7 0,989 1,239 1,690 2,167 2,833 4,255 9,037 12,017 14,067 16,013 18,475
8 1,344 1,646 2,180 2,733 3,490 5,071 10,219 13,362 15,507 17,535 20,090
9 1,735 2,088 2,700 3,325 4,168 5,899 11,389 14,684 16,919 19,023 21,666
10 2,156 2,558 3,247 3,940 4,865 6,737 12,549 15,987 18,307 20,483 23,209

11 2,603 3,053 3,816 4,575 5,578 7,584 13,701 17,275 19,675 21,920 24,725
12 3,074 3,571 4,404 5,226 6,304 8,438 14,845 18,549 21,026 23,337 26,217
13 3,565 4,107 5,009 5,892 7,042 9,299 15,984 19,812 22,362 24,736 27,688
14 4,075 4,660 5,629 6,571 7,790 10,165 17,117 21,064 23,685 26,119 29,141
15 4,601 5,229 6,262 7,261 8,547 11,037 18,245 22,307 24,996 27,488 30,578
16 5,142 5,812 6,908 7,962 9,312 11,912 19,369 23,542 26,296 28,845 32,000
17 5,697 6,408 7,564 8,672 10,085 12,792 20,489 24,769 27,587 30,191 33,409
18 6,265 7,015 8,231 9,390 10,865 13,675 21,605 25,989 28,869 31,526 34,805
19 6,844 7,633 8,907 10,117 11,651 14,562 22,718 27,204 30,144 32,852 36,191
20 7,434 8,260 9,591 10,851 12,443 15,452 23,828 28,412 31,410 34,170 37,566

21 8,034 8,897 10,283 11,591 13,240 16,344 24,935 29,615 32,671 35,479 38,932
22 8,643 9,542 10,982 12,338 14,041 17,240 26,039 30,813 33,924 36,781 40,289
23 9,260 10,196 11,689 13,091 14,848 18,137 27,141 32,007 35,172 38,076 41,638
24 9,886 10,856 12,401 13,848 15,659 19,037 28,241 33,196 36,415 39,364 42,980
25 10,520 11,524 13,120 14,611 16,473 19,939 29,339 34,382 37,652 40,646 44,314 LEZIONE 22 – I TEST NON PARAMETRICI
26 11,160 12,198 13,844 15,379 17,292 20,843 30,435 35,563 38,885 41,923 45,642
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il test chi-quadrato sull'adattamento ad una distribuzione nota

Esercizio:
In 480 lanci di un dado si sono ottenuti i risultati riportati in tabella. Determinare, con significatività
α=0,05, se il dado può considerarsi truccato.

RISULTATO 1 2 3 4 5 6

Freq. osservate 88 75 92 65 86 74

Freq. Teoriche 80,0 80 80 80 80 80


(dado non truccato)

2 2 Non rifiuto lʼipotesi di distribuzione uniforme


χ CALC = 6,63 ; χ 0,05;5 =11,07
(quindi non posso concludere che il dado è truccato)

p-value: La probabilità di errore nel rifiutare lʼipotesi di indipendenza, sulla base del
valore campionario osservato (6,63), è pari a 0,25.
Come già detto altre volte, se questa probabilità possa considerarsi alta o bassa non
è un problema statistico ma riguarda una valutazione che ciascuno potrà prendere,
assumendosi la responsabilità della decisione conseguente.

25%
(n )
2
− n!ij
∑∑
ij
6,63 n!ij
i j

LEZIONE 22 – I TEST NON PARAMETRICI


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I test non parametrici

Esercizio
Si riporta di seguito la tabella che incrocia il Genere e lo Stato occupazionale
di 382 laureati intervistati un anno dopo il conseguimento del titolo:

Ocupato Occupato
Non occupato TOT
precario stabile

Maschio 58 72 95 225
Femmina 72 47 38 157
TOT 130 119 133 382

• Verificare, con significatività α=0,05, se esiste relazione tra i due caratteri;


• Calcolare la probabilità che, affermando ciò, si dica una cosa non vera.

LEZIONE 22 – I TEST NON PARAMETRICI


Università degli Studi di Napoli
Federico II

DiSES
Dipartimento di Scienze Economiche e Statistiche

Corso di

Statistica (CLEC, A-K)

Lezione 23:
Il modello di regressione
A. a. 2022-23

marco gherghi
gherghi@unina.it
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I Modelli statistici (da Piccolo, pagg. 537-550)

Gli obiettivi della Statistica “operativa”

Comprendere, descrivere, prevedere, simulare e controllare i fenomeni reali.

Un modello statistico è uno schema teorico attraverso il quale si definisce una relazione
funzionale tra ciò che si intende spiegare e quello che ne può essere la causa.

Un modello statistico è una rappresentazione semplificata, analogica e necessaria della


realtà, che deriva da osservazioni sperimentali e da deduzioni logiche.
• è semplificata perché si costruisce eliminando gli aspetti superflui e ridondanti per lʼindagine e
conservando quelli essenziali;
• è analogica perché cerca di riprodurre la realtà nei suoi aspetti fondamentali al fine di ricavarne
deduzioni e induzioni utili, pur nella consapevolezza di non poterne mai svelare la complessità;
• è necessaria perché diventa una struttura fondamentale del ragionamento, della ricerca scientifica
e della tecnologia, e perché consente di indagare la complessità del mondo attraverso relazioni
semplici e più facilmente intellegibili.

Tutti i modelli sono solo parzialmente veri e provvisoriamente utili, e destinati ad essere
sostituiti con lʼavanzare delle conoscenze.

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I Modelli statistici (da Piccolo, pagg. 537-550)

Le fasi per la costruzione di un modello statistico

Teoria Dati
• Formulazione delle ipotesi • Individuazione della tipologia
• Individuazione delle variabili • Trasformazioni preliminari
• Definizione delle relazioni

Specificazione del modello

Stima dei parametri

NO
Verifica del modello

SI
Uso del modello

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

I Modelli statistici (da Piccolo, pagg. 537-550)


Specificazione del modello

Stima dei parametri

La specificazione del modello

(
Y = f X1, X2 ,…Xp , + ε ) La variabile casuale ε riassume quello che
noi “non sappiamo” della relazione tra la
NO
Verifica del modello

variabile Y e le variabili X, e rende tale SI


Variabile Variabili relazione di tipo stocastico piuttosto che
Errore Uso del modello
da spiegare esplicative deterministico

• La stima dei parametri


I parametri vengono stimati sulla base di un campione casuale di numerosità n estratto
dalla popolazione di riferimento. Ciascuna unità statistica viene considerata come la
risultante di una parte spiegabile dalle variabili Xi e una parte stocastica, non spiegabile,
che nei dati campionari è espressa dalla variabile “residuo”ei.

• La verifica del modello


Una volta definito il modello, è opportuno valutare:
• la significatività statistica dei parametri stimati;
• la coerenza interpretativa dei parametri stimati;
• la casualità degli errori;
• la capacità esplicativa del modello.

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice (da Piccolo, pagg. 551-585)

La specificazione del modello

Yi = β 0 + β1Xi + ε i Le variabili casuali εi rappresentano lʼerrore che si commette


nella spiegazione delle v.c. Yi mediante una funzione lineare di Xi.
Variabile Componente
Errore
da spiegare deterministica

• Se lʼerrore è casuale, allora deve avere delle caratteristiche proprie: avere valore medio
nullo e variabilità omogenea da unʼosservazione a unʼaltra.

( )
E εi = 0 ; ( )
Var ε i = σ 2 (costante)

( ) ( )
E Yi = E β 0 + β1Xi + ε i = β 0 + β1Xi + E ε i = β 0 + β1Xi ( )
Il valore medio della variabile dipendente nella i-esima osservazione è uguale al valore
calcolato sulla retta di regressione.

( ) ( )
Var Yi = Var ε i = σ 2
La varianza della variabile dipendente nella i-esima osservazione è uguale alla varianza
dell’errore ed è ipotizzata costante per tutte le Yi.

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice (da Piccolo, pagg. 551-585)

Gli aspetti inferenziali

Il problema consiste nel trovare gli stimatori ottimali per i parametri incogniti (β0, β1) sulla
base del campione osservato. Si potranno così determinare i valori teorici:

ŷ i = β̂ 0 + β̂1xi i = 1,..., n

che differiranno dai valori osservati yi per delle quantità ei che costituiscono i residui del
modello di regressione lineare.
(
ei = y i - ŷ i = y i − β̂ 0 + β̂1xi ) i = 1,...,n

Sulla popolazione:
ŷ i = β 0 + β1xi i = 1,…N y i − ŷ i = ε i errore

Sul campione:
ŷ i = β̂ 0 + β̂1xi i = 1,…n y i − ŷ i = ei residuo

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice (da Piccolo, pagg. 551-585)

La specificazione del modello

Le ipotesi classiche del modello di regressione lineare semplice

1. Yi = β 0 + β1Xi + ε i La relazione tra X e Y è lineare nei parametri

( )
2. E ε i = 0 Le v.c. errori hanno media nulla

( )
3. Var ε i = σ 2
La varianza degli errori, σ2, è costante
(ipotesi di omoschedasticità)

( )
4. Corr ε i , ε j = 0 Le v.c. errori relative ad unità statistiche differenti sono
incorrelate

La variabile X è nota, senza errore, ed osservata per almeno


5. X non stocastica
due valori distinti

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice (da Piccolo, pagg. 551-585)

La specificazione del modello

Le ipotesi classiche del modello di regressione lineare semplice

1. Yi = β 0 + β1Xi + ε i La relazione tra X e Y è lineare nei parametri

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice (da Piccolo, pagg. 551-585)

La specificazione del modello

Le ipotesi classiche del modello di regressione lineare semplice

( )
2. E ε i = 0 Le v.c. errori hanno media nulla

I valori sulla retta di regressione sono i valori medi delle diverse determinazioni di Yi per
ciascuna corrispondente Xi .
E Y|X4 ( )
E Y|X3 ( ) Yi = β 0 + β1Xi
Y (
E Y|X2 )
(
E Y|X1 )

X1 X2 X3 X4 X
LEZIONE 23 – IL MODELLO DI REGRESSIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice (da Piccolo, pagg. 551-585)

La specificazione del modello

Le ipotesi classiche del modello di regressione lineare semplice

( )
3. Var ε i = σ 2 La varianza degli errori, σ2, è costante (ipotesi di omoschedasticità)

La dispersione dei valori Yi per ciascuna corrispondente Xi è considerata costante (e con


distribuzione Normale).

SI NO

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice (da Piccolo, pagg. 551-585)

La specificazione del modello

Le ipotesi classiche del modello di regressione lineare semplice

( )
4. Corr ε i , ε j = 0 Le v.c. errori relative ad unità statistiche differenti sono incorrelate

Gli errori relativi ad unità statistiche differenti hanno correlazione nulla.


Questo significa che la conoscenza degli scarti tra valori osservati e valore teorico sulla i-
esima unità non aiuta nella interpretazione e nella previsione della unità j-esima, poiché
questo implicherebbe anche una relazione tra le singole unità statistiche, che vengono
invece considerate indipendenti.
In molti casi, lʼassunzione viene di fatto violata, come avviene soprattutto in caso di rilevazioni
di dati temporali (ad es., i prezzi giornalieri di un certo titolo azionario) o territoriali.

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice (da Piccolo, pagg. 551-585)

La specificazione del modello

Le ipotesi classiche del modello di regressione lineare semplice

La variabile X è nota, senza errore, ed osservata per almeno


5. X non stocastica
due valori distinti

Il campione osservato è il risultato di un esperimento pianificato in cui la variabile X non è


una variabile casuale ma una componente deterministica del modello.

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice (da Piccolo, pagg. 551-585)

La specificazione del modello

Le ipotesi classiche del modello di regressione lineare semplice

Quando le ipotesi del modello classico sono rispettate, le procedure inferenziali risultano
ottimali.
Tuttavia, in molti casi una o più ipotesi potrebbero essere non realistiche e questo deve
comportare una attenta considerazione della validità complessiva del modello.
In alcuni casi, infatti, nonostante alcune ipotesi possano risultare non verificate, il modello
potrebbe ancora conservare una validità complessiva in termini di adattamento tra dati e
schema teorico ma il rigore delle proprietà risulterà alterato e alcune utilizzazioni (in
particolare, la previsione) risulteranno più rischiose.
Eʼ possibile rimuovere le ipotesi, in successione, considerando modelli non lineari, con
errori a varianza diversa e tra loro correlati, con variabili esplicative di tipo stocastico e
così via, ma ciò richiede lʼuso di modelli di analisi notevolmente più complessi.

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice

La stima dei parametri: il metodo dei minimi quadrati

∑ ( xi − x ) ⋅ ( y i − y )
n

∑ ( xi − x ) ⋅ ( y i − y )
n
i=1
sXY n
β̂ 0 = y − β̂1x β̂1 = = = i=1

( ) ( )
n n
sX2 ∑ xi − x
2
∑ xi − x
2

i=1 i=1

n
(β ; β )
0 1 Parametri del modello

(B ;B )
0 1
Stimatori dei minimi quadrati dei parametri del modello di Regressione
lineare semplice

(β̂ ; β̂ )
0 1
Stime dei minimi quadrati dei parametri del modello di Regressione lineare
semplice

Teorema di Gauss-Markov
Sotto le ipotesi classiche del modello di regressione lineare semplice, gli stimatori (B0,B1)
dei minimi quadrati per i parametri (β0,β1) sono lineari, non distorti e a varianza minima.
Sono, quindi, cosiddetti stimatori BLUE (Best Linear Unbiased Estimators).

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice

La verifica del modello

La costruzione di regioni critiche per i test di verifica richiede lʼassunzione delle ipotesi di Normalità
e di indipendenza degli errori:
ε i ∼ N 0,σ 2( )
Lʼinteresse maggiore è nel verificare se i due parametri sono significativamente diversi da zero,
perché, se un parametro non lo è, il modello va rifiutato a favore di un modello alternativo che non
includa quel parametro.
I test più diffusi sono quelli che verificano le ipotesi:

Test su β0 Test su β1
H0 : β 0 = 0 H0 : β 0 = 0 H0 : β 0 = 0 H0 : β1 = 0 H0 : β1 = 0 H0 : β1 = 0
H1 : β 0 > 0 H1 : β 0 > 0 H1 : β 0 ≠ 0 H1 : β1 > 0 H1 : β1 > 0 H1 : β1 ≠ 0

Regola di decisione
Lʼipotesi nulla verrà rifiutata se il valore standardizzato della statistica test risulta, in valore assoluto,
maggiore del corrispondente valore tabulato della distribuzione t di Student.

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice

La verifica del modello

Test su β0: Test su β1:


H0 : β 0 = 0 β̂ 0 − 0 H0 : β1 = 0 β̂1 − 0
≥ tα ;n−2 ≥ tα ;n−2
H1 : β 0 > 0
Rifiuto H0 se:
( )
es B0 H1 : β1 > 0
Rifiuto H0 se:
es B1( )
H0 : β 0 = 0 β̂ 0 − 0 H0 : β1 = 0 β̂1 − 0
≤ tα ;n−2 ≤ tα ;n−2
H1 : β 0 < 0
Rifiuto H0 se:
( )
es B0 H1 : β1 < 0
Rifiuto H0 se:
es B1( )
H0 : β 0 = 0 β̂ 0 − 0 H0 : β1 = 0 β̂1 − 0
≥ tα ≥ tα
H1 : β 0 ≠ 0
Rifiuto H0 se:
( )
es B0 2
;n−2
H1 : β1 ≠ 0
Rifiuto H0 se:
( )
es B1 2
;n−2

Una stima per lʼerrore standard dei due stimatori s2 ⎛ x 2 ⎞ s2 ⎛ 1 ⎞


è data da: ……………………………………….…… ( )
es B0 =
n⎝ sx ⎠
( )
⎜1+ 2 ⎟ ; es B1 = ⎜ ⎟
n ⎝ sx2 ⎠

1 n
( )
2
in cui s2 rappresenta la stima non distorta della varianza σ2 degli errori ε: ………… s2 = ∑ y − ŷ
n − 2 i=1 i

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice


Esempio: (vedi anche i lucidi della lezione L10)

Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti, omogenei per ubicazione e
altre caratteristiche. Si determinino le stime dei parametri della retta di regressione e degli errori standard di B0 e B1.
Superficie Prezzo Diagramma di dispersione
2
App. (mq) (€x1.000) Yteo (Y-Yteo) 900000
X Y
1 80 212 282,1 4.915 800000
13
2 200 313 593,2 78.527 3

700000
3 185 717 554,3 26.459 15
14

4 140 431 437,7 44 600000


10

5 95 270 321,0 2.601


6 60 261 230,3 945 500000
4 7
7 210 431 619,2 35.402
400000
8 65 140 243,2 10.654 2
11
9 70 282 256,2 667 300000 6
9
5

10 120 600 385,8 45.876 1 12


200000
11 100 303 334,0 959 8

12 90 220 308,0 7.750 100000


13 180 749 541,4 43.109
0
14 220 663 645,1 321 0 50 100 150 200 250 300
15 150 623 463,6 25.410
TOT 1.965 6.215 6.215 283.639

x = 131 mq sXY
β̂1 = 2
= 2,59 ; β̂ 0 = y − β̂1x = 74,69
2
s = 2.964 s X
X
LEZIONE 23 – IL MODELLO DI REGRESSIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice


Esempio: (vedi anche i lucidi della lezione L10)

Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di β̂ 0 β̂1
T0,calc. = ; T1,calc. =
15 appartamenti, omogenei per ubicazione e altre caratteristiche.
Si determinino le stime dei parametri della retta di regressione e ( )
es B0 ( )
es B1
degli errori standard di B0 e B1.
s2 ⎛ x 2 ⎞ s2 ⎛ 1 ⎞
App.
Superficie
(mq)
Prezzo
(€x1.000) Yteo (Y-Yteo)
2
( )
es B0 =
n⎝
⎜1+ 2 ⎟
sx ⎠
( )
; es B1 = ⎜ ⎟
n ⎝ sx2 ⎠
X Y
1 n
( )
2
1 80 212 282,1 4.915 2
s = ∑ y − ŷ
2 200 313 593,2 78.527 n − 2 i=1 i
3 185 717 554,3 26.459
4 140 431 437,7 44
5 95 270 321,0 2.601
6 60 261 230,3 945
7 210 431 619,2 35.402
8 65 140 243,2 10.654
9 70 282 256,2 667
10 120 600 385,8 45.876
11 100 303 334,0 959
12 90 220 308,0 7.750
13 180 749 541,4 43.109
14 220 663 645,1 321
15 150 623 463,6 25.410
TOT 1.965 6.215 6.215 283.639

x = 131 mq sXY
β̂1 = 2
= 2,59 ; β̂ 0 = y − β̂1x = 74,69
2
s = 2.964 s X
X
LEZIONE 23 – IL MODELLO DI REGRESSIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice


Esempio: (vedi anche i lucidi della lezione L10)

Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di β̂ 0 β̂1
T0,calc. = ; T1,calc. =
15 appartamenti, omogenei per ubicazione e altre caratteristiche.
Si determinino le stime dei parametri della retta di regressione e
es B0( ) ( )
es B1
degli errori standard di B0 e B1.
s2 ⎛ x 2 ⎞ s2 ⎛ 1 ⎞
App.
Superficie
(mq)
Prezzo
(€x1.000) Yteo (Y-Yteo)
2
( )
es B0 =
n⎝
⎜1+ 2 ⎟
sx ⎠
( )
; es B1 = ⎜ ⎟
n ⎝ sx2 ⎠
X Y
1 n
( )
2
1 80 212 282,1 4.915 2
s = ∑ y − ŷ
2 200 313 593,2 78.527 n − 2 i=1 i
3 185 717 554,3 26.459
4 140 431 437,7 44 1
s2 = ⋅ 283.639 = 21.818,4
5 95 270 321,0 2.601 13
6 60 261 230,3 945
7 210 431 619,2 35.402
21.818,4 ⎛ 1312 ⎞
8
9
65
70
140
282
243,2
256,2
10.654
667
( )
es B0 =
15
⋅ ⎜1+
⎝ 2.964 ⎠

10
11
120
100
600
303
385,8
334,0
45.876
959 ( )
= 1.154,6 ⋅ 1+ 5,79 = 1.154,6 × 6,79
12 90 220 308,0 7.750 = 7.839,7 = 88,54
13 180 749 541,4 43.109
14 220 663 645,1 321
21.818,4 ⎛ 1 ⎞
15
TOT
150
1.965
623
6.215
463,6
6.215
25.410
283.639
( )
es B1 =
15
⋅⎜ ⎟
⎝ 2.964 ⎠
x = 131 mq
β̂1 =
sXY
2
= 2,59 ; β̂ 0 = y − β̂1x = 74,69 ( )
= 1.154,6 ⋅ 0,000337 = 0,389 = 0,624
2
s = 2.964 s X
X
LEZIONE 23 – IL MODELLO DI REGRESSIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice


Esempio: (vedi anche i lucidi della lezione L10)

Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di β̂ 0 β̂1
T0,calc. = ; T1,calc. =
15 appartamenti, omogenei per ubicazione e altre caratteristiche.
Si determinino le stime dei parametri della retta di regressione e ( )
es B0 ( )
es B1
degli errori standard di B0 e B1.
s2 ⎛ x 2 ⎞ s2 ⎛ 1 ⎞
App.
Superficie
(mq)
Prezzo
(€x1.000) Yteo (Y-Yteo)
2
( )
es B0 =
n⎝
⎜1+ 2 ⎟
sx ⎠
( )
; es B1 = ⎜ ⎟
n ⎝ sx2 ⎠
X Y
1 n
( )
2
1 80 212 282,1 4.915 2
s = ∑ y − ŷ
2 200 313 593,2 78.527 n − 2 i=1 i
3 185 717 554,3 26.459
4 140 431 437,7 44
5
6
95
60
270
261
321,0
230,3
2.601
945
( )
s2 = 21.818,4 ; es B0 = 88,54 ; es B1 = 0,624 ( )
7 210 431 619,2 35.402 β̂ 0 74,69
T0,calc. = = = 0,84
( )
8 65 140 243,2 10.654
es B0 88,54 β̂1
9 70 282 256,2 667 2,59
T1,calc. = = = 4,151
10
11
120
100
600
303
385,8
334,0
45.876
959
( )
es B1 0,624

12 90 220 308,0 7.750


13 180 749 541,4 43.109 Sulla base di questi risultati, verificare, con
14 220 663 645,1 321 significatività α=0,05, se il coefficiente β1,
15 150 623 463,6 25.410 nella popolazione, può essere considerato
TOT 1.965 6.215 6.215 283.639 maggiore di zero.
x = 131 mq sXY
β̂1 = 2
= 2,59 ; β̂ 0 = y − β̂1x = 74,69
2
s = 2.964 s X
X
LEZIONE 23 – IL MODELLO DI REGRESSIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice


Esempio: (vedi anche i lucidi della lezione L10)
sXY
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di β̂1 = = 2,59 ; β̂ 0 = y − β̂1x = 74,69
15 appartamenti, omogenei per ubicazione e altre caratteristiche. sX2
Si determinino le stime dei parametri della retta di regressione e
degli errori standard di B0 e B1. ( )
s2 = 21.818,4 ; es B0 = 88,54 ; es B1 = 0,624 ( )
Sulla base dei risultati ottenuti, verificare se, nella popolazione di β̂ 0 74,69
T0,calc. = = = 0,84
riferimento, il coefficiente b1 può essere considerato maggiore di
zero, con un livello di significatività a=0,05. ( )
es B0 88,54
β̂1 2,59
T1,calc. = = = 4,151
( )
es B1 0,624

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : β1 = 0 α = 0,05 B1 ∼ N Rifiuto H0 se: tcalc ≥ tα ;13
H0 : β1 > 0

β̂1 2,59
tcalc. = = = 4,151
( )
es B1 0,624

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Università degli Studi di NapoliEconomia
Federico
Dipartimento di Scienze Economiche e Statistiche –
II
e Commercio
Laurea in A NNO ACCADEMICO 2022-23

Dipartimento di Scienze Economiche e Statistiche


Il modello didi laurea
Corso Regressione lineare
in Economia e Commercio semplice
- Modulo di STATISTICA (proff. Gherghi/Davino)


a
Tavola della distribuzione t di Student
t(a ,df)
Area nella coda di destra
Gradi di
libertà 0,25 0,1 0,05 0,025 0,01 0,005
1 1,0000 3,0777 6,3138 12,7062 31,8205 63,6567
2 0,8165 1,8856 2,9200 4,3027 6,9646 9,9248
3 0,7649 1,6377 2,3534 3,1824 4,5407 5,8409
4 0,7407 1,5332 2,1318 2,7764 3,7469 4,6041
5 0,7267 1,4759 2,0150 2,5706 3,3649 4,0321
6 0,7176 1,4398 1,9432 2,4469 3,1427 3,7074
7 0,7111 1,4149 1,8946 2,3646 2,9980 3,4995
8 0,7064 1,3968 1,8595 2,3060 2,8965 3,3554
9 0,7027 1,3830 1,8331 2,2622 2,8214 3,2498
10 0,6998 1,3722 1,8125 2,2281 2,7638 3,1693
11 0,6974 1,3634 1,7959 2,2010 2,7181 3,1058
12 0,6955 1,3562 1,7823 2,1788 2,6810 3,0545
13 0,6938 1,3502 1,7709 2,1604 2,6503 3,0123
14 0,6924 1,3450 1,7613 2,1448 2,6245 2,9768
15 0,6912 1,3406 1,7531 2,1314 2,6025 2,9467
16 0,6901 1,3368 1,7459 2,1199 2,5835 2,9208
17 0,6892 1,3334 1,7396 2,1098 2,5669 2,8982
18 0,6884 1,3304 1,7341 2,1009 2,5524 2,8784
19 0,6876 1,3277 1,7291 2,0930 2,5395 2,8609 LEZIONE 23 – IL MODELLO DI REGRESSIONE
20 0,6870 1,3253 1,7247 2,0860 2,5280 2,8453
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice


Esempio: (vedi anche i lucidi della lezione L10)
sXY
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di β̂1 = = 2,59 ; β̂ 0 = y − β̂1x = 74,69
15 appartamenti, omogenei per ubicazione e altre caratteristiche. sX2
Si determinino le stime dei parametri della retta di regressione e
degli errori standard di B0 e B1. ( )
s2 = 21.818,4 ; es B0 = 88,54 ; es B1 = 0,624 ( )
Sulla base dei risultati ottenuti, verificare se, nella popolazione di β̂ 0 74,69
T0,calc. = = = 0,84
riferimento, il coefficiente b1 può essere considerato maggiore di
zero, con un livello di significatività a=0,05. ( )
es B0 88,54
β̂1 2,59
T1,calc. = = = 4,151
( )
es B1 0,624

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : β1 = 0 α = 0,05 B1 ∼ N Rifiuto H0 se: tcalc ≥ tα ;13
H0 : β1 > 0

β̂1 2,59
tcalc. = = = 4,151 t0,05;13 = 1,771
( )
es B1 0,624

Regola di decisione:
4,151> 1,771 Rifiuto H0 p-value ?

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Università degli Studi di NapoliEconomia
Federico
Dipartimento di Scienze Economiche e Statistiche –
II
e Commercio
Laurea in A NNO ACCADEMICO 2022-23

Dipartimento di Scienze Economiche e Statistiche


Il modello didi laurea
Corso Regressione lineare
in Economia e Commercio semplice
- Modulo di STATISTICA (proff. Gherghi/Davino)


a
Tavola della distribuzione t di Student
t(a ,df)
Area nella coda di destra
Gradi di
libertà 0,25 0,1 0,05 0,025 0,01 0,005
1 1,0000 3,0777 6,3138 12,7062 31,8205 63,6567 In corrispondenza degli stessi
2 0,8165 1,8856 2,9200 4,3027 6,9646 9,9248 gradi di libertà (13),
3 0,7649 1,6377 2,3534 3,1824 4,5407 5,8409 cerchiamo, nella tavola, il
valora più vicino al valore t
4 0,7407 1,5332 2,1318 2,7764 3,7469 4,6041
calcolato sulla base dei dati
5 0,7267 1,4759 2,0150 2,5706 3,3649 4,0321 campionari (4,151).
6 0,7176 1,4398 1,9432 2,4469 3,1427 3,7074 In questo caso, il valore
7 0,7111 1,4149 1,8946 2,3646 2,9980 3,4995 risulta 3,0123. A destra di
8 0,7064 1,3968 1,8595 2,3060 2,8965 3,3554 questo valore è il 5 per mille
9 0,7027 1,3830 1,8331 2,2622 2,8214 3,2498 (0,005) della distribuzione;
quindi, a destra del valore t
10 0,6998 1,3722 1,8125 2,2281 2,7638 3,1693
calcolato sulla base dei dati
11 0,6974 1,3634 1,7959 2,2010 2,7181 3,1058 campionari (4,151) ci sarà
12 0,6955 1,3562 1,7823 2,1788 2,6810 3,0545 un'area ancora più piccola.
13 0,6938 1,3502 1,7709 2,1604 2,6503 3,0123 Possiamo, quindi, dire che il
14 0,6924 1,3450 1,7613 2,1448 2,6245 2,9768 p-value è molto inferiore al 5
15 0,6912 1,3406 1,7531 2,1314 2,6025 2,9467 per mille.
16 0,6901 1,3368 1,7459 2,1199 2,5835 2,9208
17 0,6892 1,3334 1,7396 2,1098 2,5669 2,8982
18 0,6884 1,3304 1,7341 2,1009 2,5524 2,8784
19 0,6876 1,3277 1,7291 2,0930 2,5395 2,8609 LEZIONE 23 – IL MODELLO DI REGRESSIONE
20 0,6870 1,3253 1,7247 2,0860 2,5280 2,8453
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice


Esempio: (vedi anche i lucidi della lezione L10)
sXY
Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di β̂1 = = 2,59 ; β̂ 0 = y − β̂1x = 74,69
15 appartamenti, omogenei per ubicazione e altre caratteristiche. sX2
Si determinino le stime dei parametri della retta di regressione e
degli errori standard di B0 e B1. ( )
s2 = 21.818,4 ; es B0 = 88,54 ; es B1 = 0,624 ( )
Sulla base dei risultati ottenuti, verificare se, nella popolazione di β̂ 0 74,69
T0,calc. = = = 0,84
riferimento, il coefficiente b1 può essere considerato maggiore di
zero, con un livello di significatività a=0,05. ( )
es B0 88,54
β̂1 2,59
T1,calc. = = = 4,151
( )
es B1 0,624

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : β1 = 0 α = 0,05 B1 ∼ N Rifiuto H0 se: tcalc ≥ tα ;13
H0 : β1 > 0

β̂1 2,59
tcalc. = = = 4,151 t0,05;13 = 1,771
( )
es B1 0,624

Regola di decisione:
4,151> 1,771 Rifiuto H0 p-value<0,005
La probabilità di errore nel rifiutare lʼipotesi H0 sulla base del valore
campionario osservato è di molto inferiore a 5 su 1.000.
Lʼipotesi H0 potrà dunque essere rifiutata con un ottimo “margine di
sicurezza”.
LEZIONE 23 – IL MODELLO DI REGRESSIONE
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice

Esercizio
Si riportano i dati relativi al Numero di Imprese (per 100 abitanti) e ai Livelli di
PM10 (µg per mm3) di un campione di 15 Province italiane. Si verifichi, con
significatività α=0,1, l’eventuale dipendenza dei livelli di inquinamento dal
numero di imprese per il totale delle Province italiane.

Imprese Polveri sottili


Provincia (per 100 ab.)
3
( µ g per mm ) X
2
Y
2
XY YTEO (Y-YTEO)2
X Y
Agrigento 9,7 39,0 94,1 1.521,8 378,4 39,1 0,0
Alessandria 11,1 51,1 123,2 2.606,1 566,7 38,4 159,7
Ancona 10,0 54,8 100,0 3.003,0 548,0 38,9 251,8
Aosta 12,2 34,0 148,8 1.156,0 414,8 37,9 15,2
Ascoli Piceno 12,1 40,5 146,4 1.640,3 490,1 37,9 6,6
L'Aquila 9,3 28,0 86,5 784,0 260,4 39,3 126,8
Arezzo 11,2 30,0 125,4 900,0 336,0 38,4 70,0
Asti 12,9 41,5 166,4 1.722,3 535,4 37,6 15,5
Avellino 9,4 32,7 88,4 1.071,3 307,7 39,2 42,0
Bari 9,5 39,0 90,3 1.521,0 370,5 39,2 0,0
Bergamo 8,6 45,0 74,0 2.025,0 387,0 39,6 29,3
Biella 10,5 28,5 110,3 812,3 299,3 38,7 103,9
Belluno 8,2 42,5 67,2 1.806,3 348,5 39,8 7,4
Benevento 11,3 32,7 127,7 1.071,3 369,8 38,3 31,2
Bologna 10,3 41,7 106,1 1.736,4 429,2 38,8 8,3
TOT 156,3 581,0 1.654,7 23.376,8 6.041,6 867,7

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice


Esercizio
Si riportano i dati relativi al Numero di Imprese (per 100 abitanti) e ai Livelli di PM10 (µg per mm3) di un campione di 15
Province italiane. Si verifichi, con significatività α=0,1, l’eventuale dipendenza dei livelli di inquinamento dal numero di
imprese per il totale delle Province italiane.

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : β1 = 0
α = 0,1 B1 ∼ N Rifiuto H0 se: tcalc ≥ tα
H0 : β1 ≠ 0 2
;13

Imprese Polveri sottili


β̂1 s2 ⎛ (Y-Y
1 ⎞TEO)2
( ) 1 n
( )
Provincia (per 100 ab.)
3
( µ g per mm ) X
2
Y
2
XY YTEO 2
Tcalc. = ; es B1 = ⎜ ⎟ ;
2
s = ∑ y − ŷ
( )
X Y
es B n ⎝ sx2 ⎠ n − 2 i=1 i
Agrigento 9,7 39,0 94,1 1.521,8 1 378,4 39,1 0,0
Alessandria 11,1 51,1 123,2 2.606,1 566,7 38,4 159,7
Ancona 10,0 54,8 100,0 3.003,0 548,0 38,9 251,8
Aosta 12,2 34,0 148,8 1.156,0 414,8 37,9 15,2
Ascoli Piceno 12,1 40,5 146,4 1.640,3 490,1 37,9 6,6
L'Aquila 9,3 28,0 86,5 784,0 260,4 39,3 126,8
Arezzo 11,2 30,0 125,4 900,0 336,0 38,4 70,0
Asti 12,9 41,5 166,4 1.722,3 535,4 37,6 15,5
Avellino 9,4 32,7 88,4 1.071,3 307,7 39,2 42,0
Bari 9,5 39,0 90,3 1.521,0 370,5 39,2 0,0
Bergamo 8,6 45,0 74,0 2.025,0 387,0 39,6 29,3
Biella 10,5 28,5 110,3 812,3 299,3 38,7 103,9
Belluno 8,2 42,5 67,2 1.806,3 348,5 39,8 7,4
Benevento 11,3 32,7 127,7 1.071,3 369,8 38,3 31,2
Bologna 10,3 41,7 106,1 1.736,4 429,2 38,8 8,3
TOT 156,3 581,0 1.654,7 23.376,8 6.041,6 867,7

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice


Esercizio
Si riportano i dati relativi al Numero di Imprese (per 100 abitanti) e ai Livelli di PM10 (µg per mm3) di un campione di 15
Province italiane. Si verifichi, con significatività α=0,1, l’eventuale dipendenza dei livelli di inquinamento dal numero di
imprese per il totale delle Province italiane.

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : β1 = 0
α = 0,1 B1 ∼ N Rifiuto H0 se: tcalc ≥ tα
H0 : β1 ≠ 0 2
;13

Provincia
Imprese
(per 100 ab.)
Polveri sottili
3
( µ g per mm )
Calcolo
X
2 dei
Y
2
XY YTEO
coefficienti di regressione: β̂1 =
Cov
(Y-YTEO)
2 XY
( ) ; β̂ 0 = y − β̂1x
Var ( X )
X Y
Agrigento 9,7 39,0 94,1 1.521,8 378,4 39,1 0,0
Alessandria 11,1 51,1 123,2 2.606,1 566,7 38,4 159,7
Ancona 10,0 54,8 100,0 3.003,0 548,0 38,9 251,8
Aosta 12,2 34,0 148,8 1.156,0 414,8 37,9 15,2
Ascoli Piceno 12,1 40,5 146,4 1.640,3 490,1 37,9 6,6
L'Aquila 9,3 28,0 86,5 784,0 260,4 39,3 126,8
Arezzo 11,2 30,0 125,4 900,0 336,0 38,4 70,0
Asti 12,9 41,5 166,4 1.722,3 535,4 37,6 15,5
Avellino 9,4 32,7 88,4 1.071,3 307,7 39,2 42,0
Bari 9,5 39,0 90,3 1.521,0 370,5 39,2 0,0
Bergamo 8,6 45,0 74,0 2.025,0 387,0 39,6 29,3
Biella 10,5 28,5 110,3 812,3 299,3 38,7 103,9
Belluno 8,2 42,5 67,2 1.806,3 348,5 39,8 7,4
Benevento 11,3 32,7 127,7 1.071,3 369,8 38,3 31,2
Bologna 10,3 41,7 106,1 1.736,4 429,2 38,8 8,3
TOT 156,3 581,0 1.654,7 23.376,8 6.041,6 867,7

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice


Esercizio
Si riportano i dati relativi al Numero di Imprese (per 100 abitanti) e ai Livelli di PM10 (µg per mm3) di un campione di 15
Province italiane. Si verifichi, con significatività α=0,1, l’eventuale dipendenza dei livelli di inquinamento dal numero di
imprese per il totale delle Province italiane.

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : β1 = 0
α = 0,1 B1 ∼ N Rifiuto H0 se: tcalc ≥ tα
H0 : β1 ≠ 0 2
;13

Provincia
Imprese
(per 100 ab.)
Polveri sottili
3
( µ g per mm ) X
2
Y
2
XY YTEO Cov
(Y-Y
β̂1 =
TEO)
2
( XY ) ; β̂ 0 = y − β̂1x
Var ( X )
X Y
Agrigento 9,7 39,0 94,1 1.521,8 378,4 39,1 0,0
Alessandria 11,1 51,1 123,2 2.606,1 566,7 38,4 159,7
Ancona 10,0 54,8 100,0 3.003,0 548,0 38,9 251,8
156,3
Aosta 12,2 34,0 148,8 1.156,0 414,8 37,9 x = 15,2 = 10,42
Ascoli Piceno 12,1 40,5 146,4 1.640,3 490,1 37,9 15
6,6
L'Aquila 9,3 28,0 86,5 784,0 260,4 39,3 581
126,8
Arezzo 11,2 30,0 125,4 900,0 336,0 38,4 y = 70,0 = 38,73
Asti 12,9 41,5 166,4 1.722,3 535,4 37,6
15
15,5

( )1.654,7
( )
2
Avellino 9,4 32,7 88,4 1.071,3 307,7 39,2
Var 42,0
X = − 10,42 = 1,739
Bari 9,5 39,0 90,3 1.521,0 370,5 39,2 0,0 15
Bergamo 8,6 45,0 74,0 2.025,0 387,0 39,6 29,3
Biella
Belluno
10,5
8,2
28,5
42,5
110,3
67,2
812,3
1.806,3
299,3
348,5
38,7
39,8
Cov103,9
7,4
( )
XY =
6.041,6
15
(
− 10,42 × 38,73 = -0,820 )
Benevento 11,3 32,7 127,7 1.071,3 369,8 38,3 31,2
Bologna 10,3 41,7 106,1 1.736,4 429,2 38,8 8,3
TOT 156,3 581,0 1.654,7 23.376,8 6.041,6 867,7

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice


Esercizio
Si riportano i dati relativi al Numero di Imprese (per 100 abitanti) e ai Livelli di PM10 (µg per mm3) di un campione di 15
Province italiane. Si verifichi, con significatività α=0,1, l’eventuale dipendenza dei livelli di inquinamento dal numero di
imprese per il totale delle Province italiane.

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : β1 = 0
α = 0,1 B1 ∼ N Rifiuto H0 se: tcalc ≥ tα
H0 : β1 ≠ 0 2
;13

Provincia
Imprese
(per 100 ab.)
Polveri sottili
3
( µ g per mm ) X
2
Y
2
XY YTEO Cov
(Y-Y
β̂1 =
TEO)
2
( XY ) ; β̂ 0 = y − β̂1x
Var ( X )
X Y
Agrigento 9,7 39,0 94,1 1.521,8 378,4 39,1 0,0
Alessandria 11,1 51,1 123,2 2.606,1 566,7 38,4 159,7
Ancona 10,0 54,8 100,0 3.003,0 548,0 38,9 x = 10,42
251,8 ; y = 38,73
Aosta
Ascoli Piceno
12,2
12,1
34,0
40,5
148,8
146,4
1.156,0
1.640,3
414,8
490,1
37,9
37,9 ( )
15,2
( )
Var X6,6= 1,739 ; Cov XY = -0,820
L'Aquila 9,3 28,0 86,5 784,0 260,4 39,3 126,8
Arezzo 11,2 30,0 125,4 900,0 336,0 38,4
β̂1 =
Cov ( ) = −0,829 = −0,476
70,0 XY

Var ( X )
Asti 12,9 41,5 166,4 1.722,3 535,4 37,6 15,5
Avellino 9,4 32,7 88,4 1.071,3 307,7 39,2 42,0
1,739
Bari 9,5 39,0 90,3 1.521,0 370,5 39,2 0,0
β̂ 0 = y − β̂1x = 38,73 + 0,476 ⋅10,42 = 43,65
Bergamo 8,6 45,0 74,0 2.025,0 387,0 39,6 29,3
Biella 10,5 28,5 110,3 812,3 299,3 38,7 103,9
Belluno 8,2 42,5 67,2 1.806,3 348,5 39,8 7,4
Benevento 11,3 32,7 127,7 1.071,3 369,8 38,3 31,2
Bologna 10,3 41,7 106,1 1.736,4 429,2 38,8 8,3
TOT 156,3 581,0 1.654,7 23.376,8 6.041,6 867,7

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice


Esercizio
Si riportano i dati relativi al Numero di Imprese (per 100 abitanti) e ai Livelli di PM10 (µg per mm3) di un campione di 15
Province italiane. Si verifichi, con significatività α=0,1, l’eventuale dipendenza dei livelli di inquinamento dal numero di
imprese per il totale delle Province italiane.

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : β1 = 0
α = 0,1 B1 ∼ N Rifiuto H0 se: tcalc ≥ tα
H0 : β1 ≠ 0 2
;13

Imprese Polveri sottili


Provincia (per 100 ab.)
3
( µ g per mm ) X
2
Y
2
XY YTEO (Y-Y )2
X Y CalcoloTEO
Agrigento 9,7 39,0 94,1 1.521,8 378,4 39,1 dei valori
0,0 teorici: ŷ = 43,65 − 0,476 ⋅ X
Alessandria 11,1 51,1 123,2 2.606,1 566,7 38,4 159,7
Ancona 10,0 54,8 100,0 3.003,0 548,0 38,9 251,8
Aosta 12,2 34,0 148,8 1.156,0 414,8 37,9 15,2
Ascoli Piceno 12,1 40,5 146,4 1.640,3 490,1 37,9 6,6
L'Aquila 9,3 28,0 86,5 784,0 260,4 39,3 126,8
Arezzo 11,2 30,0 125,4 900,0 336,0 38,4 70,0
Asti 12,9 41,5 166,4 1.722,3 535,4 37,6 15,5
Avellino 9,4 32,7 88,4 1.071,3 307,7 39,2 42,0
Bari 9,5 39,0 90,3 1.521,0 370,5 39,2 0,0
Bergamo 8,6 45,0 74,0 2.025,0 387,0 39,6 29,3
Biella 10,5 28,5 110,3 812,3 299,3 38,7 103,9
Belluno 8,2 42,5 67,2 1.806,3 348,5 39,8 7,4
Benevento 11,3 32,7 127,7 1.071,3 369,8 38,3 31,2
Bologna 10,3 41,7 106,1 1.736,4 429,2 38,8 8,3
TOT 156,3 581,0 1.654,7 23.376,8 6.041,6 867,7

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice


Esercizio
Si riportano i dati relativi al Numero di Imprese (per 100 abitanti) e ai Livelli di PM10 (µg per mm3) di un campione di 15
Province italiane. Si verifichi, con significatività α=0,1, l’eventuale dipendenza dei livelli di inquinamento dal numero di
imprese per il totale delle Province italiane.

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : β1 = 0
α = 0,1 B1 ∼ N Rifiuto H0 se: tcalc ≥ tα
H0 : β1 ≠ 0 2
;13

Imprese Polveri sottili


Provincia 3
X
2
Y
2
XY YTEO (Y-YTEO)2
( µ g per mm )

( )
(per 100 ab.)
X Y Calcolo dei 2
Yi − Yi
Agrigento 9,7 39,0 94,1 1.521,8 378,4 39,1 0,0quadrati dei residui:
Alessandria 11,1 51,1 123,2 2.606,1 566,7 38,4 159,7
Ancona 10,0 54,8 100,0 3.003,0 548,0 38,9 251,8
Aosta 12,2 34,0 148,8 1.156,0 414,8 37,9 15,2
Ascoli Piceno 12,1 40,5 146,4 1.640,3 490,1 37,9 6,6
L'Aquila 9,3 28,0 86,5 784,0 260,4 39,3 126,8
Arezzo 11,2 30,0 125,4 900,0 336,0 38,4 70,0
Asti 12,9 41,5 166,4 1.722,3 535,4 37,6 15,5
Avellino 9,4 32,7 88,4 1.071,3 307,7 39,2 42,0
Bari 9,5 39,0 90,3 1.521,0 370,5 39,2 0,0
Bergamo 8,6 45,0 74,0 2.025,0 387,0 39,6 29,3
Biella 10,5 28,5 110,3 812,3 299,3 38,7 103,9
Belluno 8,2 42,5 67,2 1.806,3 348,5 39,8 7,4
Benevento 11,3 32,7 127,7 1.071,3 369,8 38,3 31,2
Bologna 10,3 41,7 106,1 1.736,4 429,2 38,8 8,3
TOT 156,3 581,0 1.654,7 23.376,8 6.041,6 867,7

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice


Esercizio
Si riportano i dati relativi al Numero di Imprese (per 100 abitanti) e ai Livelli di PM10 (µg per mm3) di un campione di 15
Province italiane. Si verifichi, con significatività α=0,1, l’eventuale dipendenza dei livelli di inquinamento dal numero di
imprese per il totale delle Province italiane.

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : β1 = 0
α = 0,1 B1 ∼ N Rifiuto H0 se: tcalc ≥ tα
H0 : β1 ≠ 0 2
;13

Imprese Polveri sottili


Provincia (per 100 ab.)
3
( µ g per mm ) X
2
Y
2
XY YTEO (Y-YTEO)2
X Y Calcolo di s2:
Agrigento 9,7 39,0 94,1 1.521,8 378,4 39,1 0,0
1 n
( )
Alessandria 11,1 51,1 123,2 2.606,1 566,7 38,4 159,7 2

Ancona 10,0 54,8 100,0 3.003,0 548,0 38,9 251,8


s2 = ∑ y − ŷ
n − 2 i=1 i
Aosta 12,2 34,0 148,8 1.156,0 414,8 37,9 15,2
1
Ascoli Piceno 12,1 40,5 146,4 1.640,3 490,1 37,9 6,6
= ⋅ 867,7 = 66,75
L'Aquila 9,3 28,0 86,5 784,0 260,4 39,3 126,8 13
Arezzo 11,2 30,0 125,4 900,0 336,0 38,4 70,0
Asti 12,9 41,5 166,4 1.722,3 535,4 37,6 15,5
Avellino 9,4 32,7 88,4 1.071,3 307,7 39,2 42,0
Bari 9,5 39,0 90,3 1.521,0 370,5 39,2 0,0
Bergamo 8,6 45,0 74,0 2.025,0 387,0 39,6 29,3
Biella 10,5 28,5 110,3 812,3 299,3 38,7 103,9
Belluno 8,2 42,5 67,2 1.806,3 348,5 39,8 7,4
Benevento 11,3 32,7 127,7 1.071,3 369,8 38,3 31,2
Bologna 10,3 41,7 106,1 1.736,4 429,2 38,8 8,3
TOT 156,3 581,0 1.654,7 23.376,8 6.041,6 867,7

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice


Esercizio
Si riportano i dati relativi al Numero di Imprese (per 100 abitanti) e ai Livelli di PM10 (µg per mm3) di un campione di 15
Province italiane. Si verifichi, con significatività α=0,1, l’eventuale dipendenza dei livelli di inquinamento dal numero di
imprese per il totale delle Province italiane.

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : β1 = 0
α = 0,1 B1 ∼ N Rifiuto H0 se: tcalc ≥ tα
H0 : β1 ≠ 0 2
;13

Imprese Polveri sottili


Provincia (per 100 ab.)
3
( µ g per mm ) X
2
Y
2
XY YTEO (Y-YTEO)2
X Y
Agrigento 9,7 39,0 94,1 1.521,8 378,4 39,1 0,0
2
Alessandria 11,1 51,1 = 66,752.606,1
s123,2 566,7 38,4 159,7
Ancona 10,0 54,8 100,0 3.003,0 548,0 38,9 251,8
Aosta 12,2 34,0 148,8 1.156,0 414,8 37,9 15,2
s ⎛ 1 ⎞ 490,166,7537,9
⎛ 1 ⎞
( )
2
Ascoli Piceno 12,1 40,5 es B1 = 1.640,3
146,4 ⎜ 2⎟ = ⋅⎜ ⎟ = 6,64,45 ⋅ 0,575 = 2,559 = 1,60
L'Aquila 9,3 28,0 86,5 n ⎝ sx ⎠ 260,4 15 39,3
784,0 ⎝ 1,739 ⎠ 126,8
Arezzo 11,2 30,0 125,4 900,0 336,0 38,4 70,0
Asti 12,9 41,5 166,4 β̂
1.722,3 −0,476
535,4 37,6 15,5
Tcalc. = 1
= = −0,298
Avellino
Bari
9,4
9,5
32,7
39,0
88,4
90,3
es B1( )
1.071,3
1.521,0
307,7
1,60
370,5
39,2
39,2
42,0
0,0
Bergamo 8,6 45,0 74,0 2.025,0 387,0 39,6 29,3
Biella 10,5 28,5 110,3 812,3 299,3 38,7 103,9
Belluno 8,2 42,5 67,2 1.806,3 348,5 39,8 7,4
Benevento 11,3 32,7 127,7 1.071,3 369,8 38,3 31,2
Bologna 10,3 41,7 106,1 1.736,4 429,2 38,8 8,3
TOT 156,3 581,0 1.654,7 23.376,8 6.041,6 867,7

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Università degli Studi di NapoliEconomia
Federico
Dipartimento di Scienze Economiche e Statistiche –
II
e Commercio
Laurea in A NNO ACCADEMICO 2022-23

Dipartimento di Scienze Economiche e Statistiche


Il modello didi laurea
Corso Regressione lineare
in Economia e Commercio semplice
- Modulo di STATISTICA (proff. Gherghi/Davino)


a
Tavola della distribuzione t di Student
t(a ,df)
Area nella coda di destra
Gradi di
libertà 0,25 0,1 0,05 0,025 0,01 0,005
1 1,0000 3,0777 6,3138 12,7062 31,8205 63,6567
2 0,8165 1,8856 2,9200 4,3027 6,9646 9,9248
3 0,7649 1,6377 2,3534 3,1824 4,5407 5,8409
4 0,7407 1,5332 2,1318 2,7764 3,7469 4,6041
5 0,7267 1,4759 2,0150 2,5706 3,3649 4,0321
6 0,7176 1,4398 1,9432 2,4469 3,1427 3,7074
7 0,7111 1,4149 1,8946 2,3646 2,9980 3,4995
8 0,7064 1,3968 1,8595 2,3060 2,8965 3,3554
9 0,7027 1,3830 1,8331 2,2622 2,8214 3,2498
10 0,6998 1,3722 1,8125 2,2281 2,7638 3,1693
11 0,6974 1,3634 1,7959 2,2010 2,7181 3,1058
12 0,6955 1,3562 1,7823 2,1788 2,6810 3,0545
13 0,6938 1,3502 1,7709 2,1604 2,6503 3,0123
14 0,6924 1,3450 1,7613 2,1448 2,6245 2,9768
15 0,6912 1,3406 1,7531 2,1314 2,6025 2,9467
16 0,6901 1,3368 1,7459 2,1199 2,5835 2,9208
17 0,6892 1,3334 1,7396 2,1098 2,5669 2,8982
18 0,6884 1,3304 1,7341 2,1009 2,5524 2,8784
19 0,6876 1,3277 1,7291 2,0930 2,5395 2,8609 LEZIONE 23 – IL MODELLO DI REGRESSIONE
20 0,6870 1,3253 1,7247 2,0860 2,5280 2,8453
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice


Esercizio
Si riportano i dati relativi al Numero di Imprese (per 100 abitanti) e ai Livelli di PM10 (µg per mm3) di un campione di 15
Province italiane. Si verifichi, con significatività α=0,1, l’eventuale dipendenza dei livelli di inquinamento dal numero di
imprese per il totale delle Province italiane.

Ipotesi: Significatività: Statistica: Regola di decisione:


H0 : β1 = 0
α = 0,1 B1 ∼ N Rifiuto H0 se: tcalc ≥ tα
H0 : β1 ≠ 0 2
;13

Imprese Polveri sottili


Provincia (per 100 ab.)
3
( µ g per mm ) X
2
Y
2
XY YTEO (Y-YTEO)2
X Y
Agrigento 9,7 39,0 94,1 1.521,8 378,4 39,1 0,0
Alessandria 11,1 51,1 123,2 2.606,1 566,7 38,4 159,7
Ancona 10,0 54,8 tcalc =3.003,0
100,0 0,298 548,0 = 1,771 251,8
; ttab38,9
Aosta 12,2 34,0 148,8 1.156,0 414,8 37,9 15,2
Ascoli Piceno 12,1 40,5 146,4 1.640,3 490,1 37,9 6,6
L'Aquila 9,3 28,0 Regola
86,5 di decisione:
784,0 260,4 39,3 126,8
Arezzo 11,2 30,0 125,4 900,0 336,0 38,4 70,0
Asti 12,9 41,5
t calc
166,4
< t tab
1.722,3 535,4 Non
37,6rifiuto 15,5
H0
Avellino 9,4 32,7 88,4 1.071,3 307,7 39,2 42,0
Bari 9,5 39,0 Se,
90,3 sulla base del
1.521,0 370,5 risultato
39,2 campionario,
0,0
Bergamo 8,6 45,0 volessimo
74,0 comunque
2.025,0 387,0 rifiutare
39,6 l’ipotesi
29,3 H0, p-value
Biella 10,5 28,5
quale sarebbe
110,3 812,3
la probabilità
299,3 38,7
di103,9
errore?
Belluno 8,2 42,5 67,2 1.806,3 348,5 39,8 7,4
Benevento 11,3 32,7 127,7 1.071,3 369,8 38,3 31,2
Bologna 10,3 41,7 106,1 1.736,4 429,2 38,8 8,3
TOT 156,3 581,0 1.654,7 23.376,8 6.041,6 867,7

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Università degli Studi di NapoliEconomia
Federico
Dipartimento di Scienze Economiche e Statistiche –
II
e Commercio
Laurea in A NNO ACCADEMICO 2022-23

Dipartimento di Scienze Economiche e Statistiche


Il modello didi laurea
Corso Regressione lineare
in Economia e Commercio semplice
- Modulo di STATISTICA (proff. Gherghi/Davino)


a
Tavola della distribuzione t di Student
t(a ,df)
Area nella coda di destra
Gradi di
libertà 0,25 0,1 0,05 0,025 0,01 0,005
1 1,0000 3,0777 6,3138 12,7062 31,8205 63,6567
2 0,8165 1,8856 2,9200 4,3027 6,9646 9,9248
3 0,7649 1,6377 2,3534 3,1824 4,5407 5,8409
4 0,7407 In corrispondenza
1,5332 2,1318 di 132,7764
gradi di libertà,
3,7469 il valore più vicino al valore campionario
4,6041
5 0,7267 ottenuto (considerato
1,4759 2,0150 in valore assoluto)
2,5706 3,3649 è 0,6938, valore che ha, alla sua destra,
4,0321
6 0,7176 un’area del
1,4398 25%.
1,9432 2,4469 3,1427 3,7074
7 0,7111 L’area a destra
1,4149 1,8946 del valore
2,3646campionario
2,9980 0,298 sarà,
3,4995quindi, presumibilmente molto
8 0,7064 più elevata,
1,3968 e poiché il2,3060
1,8595 test è bilaterale, va moltiplicata
2,8965 3,3554 per due.
9 0,7027 Possiamo quindi
1,3830 1,8331 concludere
2,2622 che il2,8214
p-value, in 3,2498
questo caso, è certamente molto
10 0,6998 superiore al
1,3722 50% (per completezza,
1,8125 2,2281 il valore reale
2,7638 del p-value, calcolato con un
3,1693
11 0,6974 software specifico,
1,3634 1,7959 è pari a 0,771), 2,7181
2,2010 cosa che rende assolutamente improponibile il
3,1058
12 0,6955 rifiuto
1,3562 dell’ipotesi
1,7823 nulla. 2,1788 2,6810 3,0545
13 0,6938 1,3502 1,7709 2,1604 2,6503 3,0123
14 0,6924 1,3450 1,7613 2,1448 2,6245 2,9768
15 0,6912 1,3406 1,7531 2,1314 2,6025 2,9467
16 0,6901 1,3368 1,7459 2,1199 2,5835 2,9208
17 0,6892 1,3334 1,7396 2,1098 2,5669 2,8982
18 0,6884 1,3304 1,7341 2,1009 2,5524 2,8784
19 0,6876 1,3277 1,7291 2,0930 2,5395 2,8609 LEZIONE 23 – IL MODELLO DI REGRESSIONE
20 0,6870 1,3253 1,7247 2,0860 2,5280 2,8453
Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice

Esercizio
Si riportano i dati relativi al Numero di Imprese (per 100 abitanti) e ai Livelli di
PM10 (µg per mm3) di un campione di 15 Province italiane. Si verifichi, con
significatività α=0,1, l’eventuale dipendenza dei livelli di inquinamento dal
numero di imprese per il totale delle Province italiane.

La conferma "grafica" dei


risultati del modello
r = 0,081

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Il modello di Regressione lineare semplice

Esercizio
Si riportano i dati relativi al Numero di Imprese (per 100 abitanti) e ai Livelli di
PM10 (µg per mm3) di un campione di 15 Province italiane. Si verifichi, con
significatività α=0,1, l’eventuale dipendenza dei livelli di inquinamento dal
numero di imprese per il totale delle Province italiane.

La conferma "grafica" dei


risultati del modello
ŷ = 43,65 − 0,476 ⋅ X

r = 0,081
R2 = 0,007

LEZIONE 23 – IL MODELLO DI REGRESSIONE


Università degli Studi di Napoli Federico II Corso di STATISTICA
M. GHERGHI
Dipartimento di Scienze Economiche e Statistiche – Laurea in Economia e Commercio A NNO ACCADEMICO 2022-23

Esercizio di riepilogo
Si riporta la Tabella contenente le misurazioni relative al Peso e
all’Altezza di un campione di 20 studenti di una Scuola media
inferiore:
Altezza (cm) Peso (kg)
Oss. X2 Y2 XY YTEO (Y-Ymed )2 (YTEO-Ymed )2 (Y-YTEO)2
X Y
1 154 50 23.716 2.500 7.700 49,8 27,0 29,3 0,0
2 164 55 Disegnare
• 26.896 il diagramma
3.025 9.020 di dispersione
61,4 0,0 38,8 41,3
3 147 30 21.609 900 4.410 41,6 635,0 183,9 135,5
• Determinare l’equazione della retta di regressione e
4 163 65 26.569 4.225 10.595 60,3 96,0 25,6 22,4
5 165 75 rappresentarla
27.225 5.625 graficamente
12.375 62,6 392,0 54,6 154,0
6 145 41 Determinare
• 21.025 1.681 una misura
5.945 dell’adattamento
39,3 201,6 della retta ai dati
252,4 2,8
7 157 49
• 24.649 2.401
Verificare se, ad 7.693
un livello53,3 38,4
di significatività 3,7
α=0,05, la18,3
variabile
8 160 61 25.600 3.721 9.760 56,8 33,6 2,5 17,9
Altezza ha effetto sulla variabile Peso.
9 170 71 28.900 5.041 12.070 68,4 249,6 174,5 6,7
10 150 52 22.500 2.704 7.800 45,1 10,2 101,4 47,2
11 162 44 26.244 1.936 7.128 59,1 125,4 15,2 228,0
12 162 46 26.244 2.116 7.452 59,1 84,6 15,2 171,6
13 154 40 23.716 1.600 6.160 49,8 231,0 29,3 95,8
14 161 64 25.921 4.096 10.304 57,9 77,4 7,5 36,8
15 163 61 26.569 3.721 9.943 60,3 33,6 25,6 0,5
16 168 62 28.224 3.844 10.416 66,1 46,2 118,4 16,7
17 161 58 25.921 3.364 9.338 57,9 7,8 7,5 0,0
18 156 40 24.336 1.600 6.240 52,1 231,0 9,5 146,8
19 156 65 24.336 4.225 10.140 52,1 96,0 9,5 166,0
20 155 75 24.025 5.625 11.625 51,0 392,0 18,0 578,3
TOT 3.173 1.104 504.225 63.950 176.114 1.104 3.009 1.123 1.887
MEDIA 158,7 55,2 25.211 3.198 8.806 55,2 150,5 LEZIONE 23
56,1 94,3
– IL MODELLO DI REGRESSIONE

Potrebbero piacerti anche