Sei sulla pagina 1di 27

Distribuzioni delle statistiche campionarie

c M.G. Naso - Probabilita` e Statistica

Maria Grazia Naso

Universita` degli Studi di Brescia

Probabilita` e Statistica

Statistiche campionarie 1
Statistiche campionarie
1

Outline

1 Popolazioni e campioni

2 Media campionaria

3 Teorema del limite centrale Distribuzione approssimata della media campionaria Quando un campione e` abbastanza numeroso?

4 Altri esempi di statistiche Varianza campionaria

5 Distribuzioni delle statistiche di popolazioni normali Distribuzione della media campionaria Distribuzione della varianza campionaria

c M.G. Naso - Probabilita` e Statistica

Outline

Statistiche campionarie 2
Statistiche campionarie
2

Popolazioni e campioni

Origine dell’utilizzo del termine popolazione in Statistica studio dei fenomeni demografici ed economici.

Si definisce popolazione obiettivo una collezione di elementi (p. es. numeri,

oggetti, misure, osservazioni,

)

per i quali si voglia ottenere informazioni.

La popolazione puo` essere

 

FINITA

(p.

es. l’insieme delle lampadine prodotte da una ditta in un dato mese),

INFINITA

(p.

es. l’insieme di tutte le possibili uscite T e C in lanci successivi).

Popolazione FINITA

distribuzione di frequenza (distribuzione effettiva dei valori),

Popolazione INFINITA

distribuzione di probabilita.`

c M.G. Naso - Probabilita` e Statistica

Popolazioni e campioni

Statistiche campionarie 3
Statistiche campionarie
3

Data una popolazione, a volte puo` essere difficile (antieconomico, non

pratico,

)

osservarne TUTTI i valori. Si preferisce quindi

1 effettuare una ricerca per CAMPIONE,

2 successivamente fare inferenze sulla POPOLAZIONE OBIETTIVO.

Un insieme X 1 ,

, X n di v.a. indipendenti, ognuna con la stessa

distribuzione F (·), e` detto CAMPIONE ALEATORIO (o CASUALE) di ampiezza n della distribuzione F .

La distribuzione F non e` mai totalmente nota, ma attraverso i dati osservati e` possibile fare inferenza su F .

c M.G. Naso - Probabilita` e Statistica

Popolazioni e campioni

Statistiche campionarie 4
Statistiche campionarie
4

Le ragioni per cui la ricerca viene effettuata per campione, piuttosto che per una rilevazione totale, sono principalmente:

risorse limitate: ad esempio nelle rilevazioni pre-elettorali non sono disponibili i fondi per osservare un’intera popolazione;

pochi dati disponibili: qualche volta e` disponibile solo un piccolo campione, e non per motivi economici. Si pensi ad esempio ad un antropologo che vuole provare una certa teoria riguardante una popolazione oggi quasi estinta ed ha a disposizione solo gli ultimi sopravvissuti, 1000 persone che vivono in una certa isola. La dimensione del campione e` fissata dalla natura e non dalle risorse finanziarie.

impossibilita` a compiere certi tests: il campionamento puo` essere a volte la sola tecnica nei casi in cui il test distrugge l’oggetto in esame. Ad esempio, data una produzione di lampadine, vogliamo conoscere la loro vita media. Non ha senso insistere nell’osservare l’intera popolazione di lampadine finche´ siano tutte bruciate.

c M.G. Naso - Probabilita` e Statistica

Popolazioni e campioni

Statistiche campionarie 5
Statistiche campionarie
5
Si seleziona quindi una parte della popolazione, un CAMPIONE, e da esso si deducono, cioe`
Si seleziona quindi una parte della popolazione, un CAMPIONE, e da esso si
deducono, cioe` si cerca di inferire informazioni su tutta la popolazione.
La teoria dei campioni (= studio delle relazioni tra popolazione e campioni
estratti da essa) e` utile per
ottenere la stima dei parametri ignoti (media µ, varianza σ 2 , s.q.m. σ)
di una popolazione, nel caso in cui si conoscano i valori corrispondenti
del campione (media X e varianza S 2 );
stabilire se le differenze osservate fra due campioni possano essere o
no significative. La risposta a tale quesito implica l’utilizzo dei tests di
ipotesi.

c M.G. Naso - Probabilita` e Statistica

Popolazioni e campioni

Statistiche campionarie 6
Statistiche campionarie
6

Statistica

Il termine STATISTICA indica una v.a. che sia funzione t(x 1 , un campione.

x n ) dei dati di

Esempio I due principali esempi di statistiche per un campione aleatorio X 1 , sono
Esempio
I due principali esempi di statistiche per un campione aleatorio X 1 ,
sono
, X n
1 la media campionaria
n
X
= X n = 1
X i ,
n
i=1
2 la varianza campionaria
n
2 1
S 2 = S
=
(X i − X n ) 2 ,
per n > 1.
n
n − 1
i=1
c M.G. Naso - Probabilita` e Statistica
Popolazioni e campioni
Statistiche campionarie
7

La media campionaria

La media campionaria Assegnata una popolazione, consideriamo un campione aleatorio X 1 , estratto da tale

Assegnata una popolazione, consideriamo un campione aleatorio X 1 , estratto da tale popolazione. Siano rispettivamente

X n

µ la media della distribuzione della popolazione,

σ 2 la varianza della distribuzione della popolazione.

Consideriamo la v.a. media campionaria X n = 1

n

n

n

i=1

X i . Risulta

E[X i ] n 1 = nµ i=1 µ X = E[X n ] =
E[X i ]
n
1
= nµ
i=1
µ X = E[X n ]
= E
X i =
=
µ
,
n
n
n
i=1
e
n
var[X i ]
n
nσ 2
σ 2
2
i=1
σ X = var[X n ]
= var
1
n
X i =
=
,
n 2
n 2 =
n
i=1
poiche´ X 1 ,
X n sono indipendenti.
c M.G. Naso - Probabilita` e Statistica
Media campionaria
Statistiche campionarie
8
Pertanto la media campionaria X n ha lo stesso valore atteso della distribuzione da stimare,
Pertanto la media campionaria X n
ha lo stesso valore atteso della distribuzione da stimare,
mentre
la sua varianza e` ridotta di un fattore n.
Quindi
X n e` centrata attorno a µ,
la sua varianza invece si riduce sempre piu` con l’aumentare di n e cio`
prova che la dispersione dei valori di X n attorno a µ e` piccola se
l’ampiezza del campione e` grande.
c M.G. Naso - Probabilita` e Statistica
Media campionaria
Statistiche campionarie
9

Teorema del limite centrale

Finora abbiamo ricavato informazioni solo parziali sulla distribuzione della media campionaria. In generale, se NON
Finora abbiamo ricavato informazioni solo parziali sulla distribuzione della media campionaria. In generale, se
NON conosciamo la DISTRIBUZIONE DELLA POPOLAZIONE, e` impossibile determinare la distribuzione della
media campionaria esattamente. Applicando il successivo teorema, possiamo comunque studiare la distribuzione
limite per n → ∞ di una v.a. i cui valori siano collegati ai valori di X .

Teorema (Limite centrale)

Per ogni intero positivo n, X 1 , X n siano v.a. i.i.d. (indipendenti ed
Per ogni intero positivo n, X 1 ,
X n siano v.a. i.i.d. (indipendenti ed
identicamente distribuite) con media µ e varianza σ 2 . Allora, se n → +∞, la
v.a.
X 1 +
+ X n
e` approssimativamente normale con media nµ e varianza nσ 2 .
Normalizzando quindi la somma X 1 +
+ X n , si ottiene una distribuzione
approssimativamente normale standard, i.e.
X 1 +
+ X n − nµ
∼˙ N(0, 1).
σ √ n

c M.G. Naso - Probabilita` e Statistica

Teorema del limite centrale Statistiche campionarie 10
Teorema del limite centrale
Statistiche campionarie
10

Applicazione del teorema del limite centrale alla v.a. binomiale

Poiche´ una binomiale X di parametri (n, p) rappresenta il numero di successi di n prove indipendenti, ciascuna con probabilita` p di successo, si ha

X = X 1 +

+

X n ,

dove X i =

1

0

se l’i-esima prova ha successo,

altrimenti.

i = 1 0 se l’ i -esima prova ha successo, altrimenti. c M.G. Naso -

c M.G. Naso - Probabilita` e Statistica

Teorema del limite centrale Statistiche campionarie 11
Teorema del limite centrale
Statistiche campionarie
11
Essendo E[X i ] = p e var[X i ] = p(1 − p), dal
Essendo E[X i ] = p e var[X i ] = p(1 − p), dal teorema del limite centrale si
trova
X − np
np(1 −
∼˙ N(0, 1).
p)
B(n; 15, 0.5) = P 0.5 (n|15) e N (7.5, 15)

Ricordiamo quindi che finora abbiamo trovato due diverse approssimazioni per le v.a. binomiali di parametri (n, p):

1 la v.a. di Poisson di parametro λ = np, quando, avendo p = p(n) 0

per n +, se esiste λ R + tale che

n+ n · p(n) = λ;

lim

2 la v.a. normale, quando (si puo` dimostrare) np(1 p) > 10.

c M.G. Naso - Probabilita` e Statistica

Teorema del limite centrale Statistiche campionarie 12
Teorema del limite centrale
Statistiche campionarie
12

Distribuzione approssimata della media campionaria

Applicazione del teorema del limite centrale alla media campionaria Per ogni intero positivo n, X
Applicazione del teorema del limite centrale alla media
campionaria
Per ogni intero positivo n, X 1 ,
X n siano v.a. i.i.d. (indipendenti ed
identicamente distribuite) con media µ e varianza σ 2 . Sia X la media
= X − µ
campionaria. Allora la v.a. Z = X − E[X]
, ha funzione di densita`
σ
var[X ]
n
f Z tale che per ogni z si abbia
n→∞ f Z (z) = N(0, 1) = √ 1
lim
2
.
2π e − z 2
Pertanto, qualunque sia la distribuzione della popolazione, si puo` affermare che la distribuzione della media
Pertanto, qualunque sia la distribuzione della popolazione, si puo`
affermare che la distribuzione della media campionaria X e`
APPROSSIMATIVAMENTE NORMALE con media µ e varianza σ 2
n , per n
sufficientemente grande, i.e.
X − µ
∼˙ N(0, 1).
σ
c M.G. Naso - Probabilita` e Statistica
n
Teorema del limite centrale
Statistiche campionarie
13

Quando un campione e` abbastanza numeroso?

Se il campione aleatorio X 1 , , X n proviene da una popolazione normale,
Se il campione aleatorio X 1 ,
, X n proviene da una popolazione
normale, la distribuzione della media campionaria X e` normale per
ogni valore di n, poiche´ la distribuzione normale e` riproducibile.
La distribuzione normale e` una buona approssimazione della
distribuzione della media campionaria X per n ≥ 30, qualunque sia la
distribuzione della popolazione.

Con l’applicazione del teorema del limite centrale

possiamo ottenere stime approssimative delle probabilita` che riguardano la somma di v.a. indipendenti;

giustifichiamo il fatto che la distribuzione empirica delle frequenze di un gran numero di popolazioni naturali esibisca una forma a campana (gaussiana).

c M.G. Naso - Probabilita` e Statistica

Teorema del limite centrale Statistiche campionarie 14
Teorema del limite centrale
Statistiche campionarie
14

Esercizio

La variabile aleatoria continua X ha media µ = 5 e varianza σ 2 =
La variabile aleatoria continua X ha media µ = 5 e varianza σ 2 = 25. Si
estrae un campione di 100 elementi da questa popolazione. Determinare la
probabilita` che la media campionaria X sia maggiore di 5.4.

Soluzione.

La media campionaria X ha i seguenti valor medio e varianza

µ X = µ = 5,

σ

2 X = σ n 2

=

25 100 = 1

4 .

Applicando il teorema del limite centrale, si puo` affermare che la variabile X ha approssimativamente la distribuzione normale. Per calcolare la probabilita` che la media del campione sia maggiore di 5.4, occorre standardizzare la media campionaria con la formula

Z = X µ X

σ¯ X

= X 5 .

1

4

Quindi

P[X > 5.4] = P[Z > 0.8] = 1 P[Z 0.8] = 1 0.7881 = 0.2119.

c M.G. Naso - Probabilita` e Statistica

Teorema del limite centrale

Statistiche campionarie 15
Statistiche campionarie
15

Esercizio

Un astronomo vuole misurare la distanza di una stella lontana. A causa di disturbi dovuti all’atmosfera, le misurazioni effettuate dal suo osservatorio non restituiscono la distanza esatta d. Percio` egli decide di fare una serie di misurazioni in diverse condizioni, e di usare la media campionaria come stimatore di d. Pensa infatti che le misurazioni successive siano v.a. indipendenti, di media µ = d, e deviazione standard σ = 2 (unita` di misura = anno-luce). Quante misurazioni deve effettuare per avere il 95% di probabilita` che la sua stima sia accettata entro ±0.5 anni-luce?

c M.G. Naso - Probabilita` e Statistica

Teorema del limite centrale Statistiche campionarie 16
Teorema del limite centrale
Statistiche campionarie
16

Soluzione.

Se l’astronomo effettua un numero n sufficientemente elevato di misurazioni,

allora la loro media campionaria X avra` distribuzione approssimativamente

normale con media µ X = µ = d e deviazione standard σ X =

La probabilita` che questo stimatore sia entro d ± 0.5 si calcola come segue:

σ 2

n

= n .

P[0.5 < X d < 0.5] = P

0.5 n < X d

2/

2/ n <

2/ n

0.5

= P n

4

< Z < n = 2P Z < n 1.

4

4

Quindi

2P Z < n 10.95

4

P Z < n 0.975 P[Z 1.96],

4

da cui n

4

1.96. Pertanto si rendono necessarie almeno 62

osservazioni.

c M.G. Naso - Probabilita` e Statistica

Teorema del limite centrale Statistiche campionarie 17
Teorema del limite centrale
Statistiche campionarie
17
Altri esempi di statistiche Assegnata una popolazione, consideriamo un campione aleatorio X 1 , estratto
Altri esempi di statistiche
Assegnata una popolazione, consideriamo un campione aleatorio X 1 ,
estratto da tale popolazione. Definiamo
X n
momento campionario r -esimo (assoluto)
M
= 1
n
n
r
X i
.
r
i=1
Se r = 1 si ha M = X n (media campionaria). 1 Assegnata una
Se r = 1 si ha
M
=
X n (media campionaria).
1
Assegnata una popolazione, consideriamo un campione aleatorio X 1 ,
X n
estratto da tale popolazione. Essendo X 1 ,
X n sono indipendenti, risulta
n
r
E[X ]
i
n
1
= nµ
r
i=1
r
E[M ] = E
X =
= µ r ,
r
i
n
n
n
i=1
n
r
var[X ]
i
n
1
1
r
i=1
var[M ] = var
X =
=
− µ 2
.
r
i
2r
r
n
n 2
n µ
i=1
c M.G. Naso - Probabilita` e Statistica
Altri esempi di statistiche
Statistiche campionarie
18
Varianza campionaria Assegnata una popolazione, consideriamo un campione aleatorio X 1 , estratto da tale
Varianza campionaria
Assegnata una popolazione, consideriamo un campione aleatorio X 1 ,
estratto da tale popolazione. Definiamo
X n
momento campionario r -esimo rispetto a X n
M r = 1
n
n
(X i − X n ) r .
i=1
n Se r = 2 si ha M 2 = 1 n (X i −
n
Se r = 2 si ha M 2 = 1
n
(X i − X n ) 2 .
i=1
n
1
¯
Essendo la varianza campionaria S 2 =
(X i − X n ) 2 , si ha
n − 1
i=1
n
n
1
n
1
n
¯
¯
S 2 =
(X i − X n ) 2 =
(X i − X n ) 2 =
n − 1
n − 1
n
n − 1 M 2 .
i=1
i=1
=M 2
c M.G. Naso - Probabilita` e Statistica
Altri esempi di statistiche
Statistiche campionarie
19
Assegnata una popolazione, consideriamo un campione aleatorio X 1 , estratto da tale popolazione. Siano

Assegnata una popolazione, consideriamo un campione aleatorio X 1 , estratto da tale popolazione. Siano rispettivamente µ la media e σ 2 la varianza della distribuzione della popolazione. Risulta

X n

E[S 2 ] = σ 2 .

Infatti, poiche´

n

n

i=1

S 2 =

1

n 1

n 1

1

2

X i

n

i=1

(X i X n ) 2 =

¯

i=1

e

quindi

 

(n

1)S 2 =

si

ha

nX 2 ,

2

i

X

nX 2 ,

(n

1)E[S 2 ] = E

n

i=1

2

i

X

E nX 2 =

nE[X ] nE[X 2 ]

2

1

= n var[X 1 ] + n(E[X 1 ]) 2 n var[X ] + n(E[X ]) 2

c M.G. Naso - Probabilita` e Statistica

2

= nσ 2 + nµ 2 n σ n

nµ 2 = (n 1)σ 2 .

Altri esempi di statistiche

Statistiche campionarie 20
Statistiche campionarie
20
Esercizio Assegnata una popolazione, consideriamo un campione aleatorio X 1 , estratto da tale popolazione.
Esercizio
Assegnata una popolazione, consideriamo un campione aleatorio X 1 ,
estratto da tale popolazione. Siano rispettivamente µ la media e σ 2 la
varianza della distribuzione della popolazione. Verificare che
X n
1 µ 4 − n − 3
var[S 2 ] =
σ 2 .
n
n − 1

c M.G. Naso - Probabilita` e Statistica

Altri esempi di statistiche

Statistiche campionarie 21
Statistiche campionarie
21
Distribuzioni delle statistiche di popolazioni normali Sia X 1 , , X n un campione
Distribuzioni delle statistiche di popolazioni normali
Sia X 1 ,
, X n un campione aleatorio estratto da una popolazione normale di
media µ e varianza σ 2 , i.e. X i ∼ N (µ, σ 2 ), i = 1,
, n. Indichiamo con
n
X = X n = 1
n
X i
la media campionaria,
i=1
n
2 1
S 2 = S
=
(X i − X n ) 2
la varianza campionaria.
n
n − 1
i=1
Problema: determinare le distribuzioni della media campionaria X e della
varianza campionaria S 2 .

c M.G. Naso - Probabilita` e Statistica

Distribuzioni delle statistiche di popolazioni normali Statistiche campionarie 22
Distribuzioni delle statistiche di
popolazioni normali
Statistiche campionarie
22

Distribuzione della media campionaria X (varianza σ 2 nota)

Teorema

Sia X 1 , , X n un campione aleatorio estratto da una popolazione normale
Sia X 1 ,
, X n un campione aleatorio estratto da una popolazione normale di
media µ e varianza σ 2 , i.e. X i ∼ N (µ, σ 2 ), i = 1,
campionaria. Allora
, n. Sia X la media
X − µ
∼ N(0, 1).
σ
n
Proof.
X 1 ,
, X n sono v.a. normali, i.e. X i ∼ N (µ, σ 2 ), i = 1,
, n, e
indipendenti.
n
n
Quindi
X i ∼ N (nµ, nσ 2 )
e
X = 1
n
X i ∼ N µ, σ 2 .
n
i=1
i=1
X − µ
Pertanto
∼ N(0, 1).
σ
n
c M.G. Naso - Probabilita` e Statistica
Distribuzioni delle statistiche di
popolazioni normali
Statistiche campionarie
23

Distribuzione della varianza campionaria S 2

Teorema Sia X 1 , , X n un campione aleatorio estratto da una popolazione
Teorema
Sia X 1 ,
, X n un campione aleatorio estratto da una popolazione normale di
media µ e varianza σ 2 , i.e. X i ∼ N (µ, σ 2 ), i = 1,
v.a. indipendenti. Inoltre
, n. Allora X e S 2 sono
2
S
(n − 1)
2 ∼ χ 2
n−1 .
σ

Esercizio

Il tempo impiegato da un microprocessore ad eseguire alcuni processi e` una v.a. normale con media µ = 30 secondi e deviazione standard σ = 3 secondi. Si osserva l’esecuzione di un campione di 15 processi. Qual e` la probabilita` che la varianza campionaria S 2 risultante sia maggiore di 12?

Soluzione. 2 S 12 2 P[S 2 > 12] = P (n − 1) σ
Soluzione.
2
S
12
2
P[S 2 > 12] = P (n − 1) σ 2
> 14 ·
≈ P[χ 14
> 18.67] ≈ 1 − 0.8221 = 0.1779.
9

c M.G. Naso - Probabilita` e Statistica

Distribuzioni delle statistiche di popolazioni normali Statistiche campionarie 24
Distribuzioni delle statistiche di
popolazioni normali
Statistiche campionarie
24

Distribuzione della media campionaria X (varianza σ 2 incognita)

Se l’ampiezza n del campione e` grande e σ 2 NON E NOTA, si

sostituisce a σ 2 la varianza S 2 del campione.

Se invece l’ampiezza n del campione e` piccola, si hanno dei risultati solo se il campione proviene da una popolazione NORMALE.

`

Corollario Sia X 1 , , X n un campione aleatorio estratto da una popolazione
Corollario
Sia X 1 ,
, X n un campione aleatorio estratto da una popolazione normale di
media µ e varianza σ 2 incognita, i.e. X i ∼ N (µ, σ 2 ), i = 1,
, n. Siano X la
media campionaria e S 2 la varianza campionaria. Allora
X − µ
∼ t n−1 .
S
n

c M.G. Naso - Probabilita` e Statistica

Distribuzioni delle statistiche di popolazioni normali Statistiche campionarie 25
Distribuzioni delle statistiche di
popolazioni normali
Statistiche campionarie
25

Proof.

Per definizione, la t di Student con n 1 gradi di liberta` e`

t n1

Z

χ 2

n1

n1

,

2

dove Z ∼ N (0, 1) e Z e χ n1 indipendenti e

sono v.a. indipendenti. Essendo X e S 2 v.a.

si ha

X µ

σ

n

c M.G. Naso - Probabilita` e Statistica

∼ N(0, 1)

e

S

2

(n 1) σ 2

χ 2

n1 ,

X − µ σ 2 n − 1 σ √ S 2 n − 1
X − µ σ 2 n − 1
σ
S 2 n − 1 = X − µ
S
n
n
Distribuzioni delle statistiche di
popolazioni normali
Statistiche campionarie
26

SI RICORDA AGLI STUDENTI CHE, PER UNA ADEGUATA PREPARAZIONE ALLESAME, IL MATERIALE PRESENTE NEI LUCIDI DEVE ESSERE COMPLETATO E APPROFONDITO CON QUANTO ESPOSTO DURANTE LE LEZIONI E LE ESERCITAZIONI IN AULA E PRESENTATO NEI TESTI CONSIGLIATI.

c M.G. Naso - Probabilita` e Statistica

Distribuzioni delle statistiche di popolazioni normali Statistiche campionarie 27
Distribuzioni delle statistiche di
popolazioni normali
Statistiche campionarie
27