Sei sulla pagina 1di 35

Metodi Quantitativi - 10

La legge dei grandi numeri


e la stima di percentuali
Come approssimare le probabilità attraverso
media e deviazione standard:

Commento: Questa regola è molto importante: ci spiega come


collegare i 3 concetti base del corso, cioè media, ds, probabilità.
Queste relazioni:

Pr(µ − σ ≤ X ≤ µ + σ ) ≃ 0.68

Pr(µ − 2σ ≤ X ≤ µ + 2σ ) ≃ 0.95

Pr(µ − 3σ ≤ X ≤ µ + 3σ ) ≃ 0.99

sono dette leggi empiriche del caso (empiriche perché valgono


solo se i dati sono approssimativamente normali)
Esempio: E(X)=0.34, DS(X)=0.07.

Pr(0.34 − 0.07 ≤ X ≤ 0.34 + 0.07) =


= Pr(0.28 ≤ X ≤ 0.41) ; 0.68

Pr(0.34 − 2(0.07) ≤ X ≤ 0.34 + 2(0.07)) =


= Pr(0.21 ≤ X ≤ 0.48) ; 0.95

Pr(0.34 − 3(0.07) ≤ X ≤ 0.34 + 3(0.07)) =


= Pr(0.14 ≤ X ≤ 0.48) ; 0.99
Come conseguenza, se la varianza/deviazione standard diminuisce,
allora i valori di una variabile aleatoria sono più concentrati attorno
alla media.

In figura e in equazione:
Adesso dobbiamo considerare cosa succede quando sommiamo
due (o più) variabili aleatorie, per esempio, cosa significa questa
scrittura?

Y =X1 + X 2
Il modo più semplice di vederla è immaginare due scommesse:
Risultano le seguenti formule per valore atteso e deviazione
standard:

E(Y) = E(X1) + E(X 2)

E, ma solo a condizione che X1 e X2 siano indipendenti:

Var(Y) = Var(X1) + Var(X 2)


Immaginiamo due scommesse (le cui probabilità sono tra di loro
indipendenti:

E(X1) = 0.6; SD(X1) = 0.9;


E(X2) = 0.4; SD(X2) = 0.4.

Se le compriamo tutte e due, quale è il valore atteso e la


deviazione standard?
Adesso si ipotizzi di avere due scommesse praticamente identiche:
X1: E[X1] = 0.5; SD[X1] = 0.9;
X2: E[X2] = 0.5; SD[X2] = 0.9
Immaginate che io possa scegliere tra:
1) due volte la scommessa X1
2) la scommessa X1 più la scommessa X2:

Cosa Conviene?

Questo risultato è detto principio di diversificazione.


Ora si immagini di volere analizzare un portafoglio di scommesse
(assumiamo indipendenti):
X1, X2, X3, …., XN
Vogliamo la distribuzione di probabilità.
Teorema del limite centrale:

Siano X1, X2,…Xn variabili aleatorie indipendenti di media E[Xi] e


e varianze Var[Xi], ma aventi distribuzione qualsiasi. Allora:

Y = X1 + X 2 + ... + X n

si distribuisce asintoticamente (cioè se n è abbastanza grande)


come una normale, con media somma delle medie e varianza
somma delle varianze.

Appunto: Vedremo con R la sua simulazione!


Variabile aleatoria binaria:

X Pr(X = xi)

E(X) =

Var(X) =
Se q = 1 – p, allora
E(X) = p
Var(X) = pq.

Esempio: urna con percentuale “p” di palline con un certo colore.


Invece di fare 1 sola estrazione, vediamo cosa succede quando
ripeto le estrazioni per n volte (sempre reinserendo la pallina estratta
dentro l’urna).

Indico con

Xk =

da cui:

Pr(Xk = 1) =

Pr(Xk = 0) =
Sn = X1 + X 2 + ... + X n;
Sn
ˆ =
p
n

ˆ) =
E(p
ˆ) =
Var(p
p(1 − p)
lim = 0
n→∞ n
Questa è la legge dei grandi numeri. All’aumentare delle estrazioni,
il valore osservato di p^ sarà sempre più concentrato attorno al valore
medio – incognito! – pari a p. E quindi p^ sarà una approssimazione
sempre più sicura di p.
Come stimare una percentuale ignota:

1
ˆ =
p Sn
n

è detto stimatore di p (percentuale di palline di un certo colore).

Principio generale: tutto quello che è calcolato a partire da un campione,


è la realizzazione di una variabile aleatoria.
Consideriamo quindi:

p̂ = Stimatore di p

Abbiamo dimostrato che:

ˆ) = p
E(p

Questa proprietà stabilisce che lo stimatore è “corretto”.


E’stato poi dimostrato che:

p(1 − p)
ˆ) =
DS(p
n

e che:

ˆ) = 0.
lim DS(p
n→∞

Quest’ultima proprietà stabilisce che lo stimatore è consistente.


L’Errore Standard (o standard error), è la variabilità dello stimatore.
Si calcola sostituendo - nella formula teorica - ai parametri ignoti la
loro stima puntuale.

ˆ(1 − p
p ˆ)
ˆ) =
SE(p
n

Esempio: su 100 intervistati, 60 sono favorevoli alla costruzione di un


inceneritore.
Come si distribuisce “pi cappello”?

Per il teorema del limite centrale:

Sn = X1 + X 2 + ... + X n
Quindi risulta:

p(1 − p)
ˆ : N(p,
p )
n
Ora poniamo:

p(1 − p)
σ = ;
n
ˆ − p
p
Z = ;
σ
Z = N(0,1).
Dalle tavole della normale risulta la seguente uguaglianza:

Pr(−1.96 ≤ Z ≤ 1.96) = 95%


ˆ − 1.96 σ < p < p
Pr(p ˆ + 1.96 σ )

Questa formula rappresenta una stima intervallare del parametro ignoto p!

Dall’esempio precedente:

ˆ = 0.6;
p
ˆ) = 0.05.
SE(p

da cui:
Come migliorare la precisione delle stima:

1. Aumentare l’ampiezza dell’intervallo

2. Aumentare la dimensione del campione

Pr(−1.96 ≤ Z ≤ 1.96) = 0.95;


Pr(−u ≤ Z ≤ u) = precisione richiesta
Fissando una precisione al 99%, otteniamo:

Pr(−2.58 ≤ Z ≤ 2.58) = 0.99

ˆ − 2.58 σ ≤ p ≤ p
Pr(p ˆ + 2.58 σ ) = 0.99
Dall’esempio precedente:

ˆ = 0.6
p
ˆ) = 0.05
SE(p
Pr(0.6 − 2.58 (0.05) ≤ p ≤ 0.6 + 2.58 (0.05)) = 0.99;
Pr(0.47 ≤ p ≤ 0.73)
Aumentare la dimensione del campione: in questo modo si riduce
lo standard error per effetto della dimensione del campione.

Dall’esempio precedente, supponiamo che n = 1000.

ˆ) = 0.016 = ...
SE(p
Che porta alle stime intervallari:

1) Con confidenza del 95%:

0.6 − 1.96 (0.016) < p < 0.6 + 1.96 (0.016)


Con confidenza 99%:

0.6 − 2.58 (0.016) < p < 0.6 + 2.58 (0.016)


Progettare la numerosità campionaria

Problema: voglio la stima di p con confidenza del 99%, con una variazione
di errore massima dell’1%.

ˆ − p |≤ 2.58 SE(p
| p ˆ) =
ˆ(1 − p
p ˆ)
= 2.58 ≤
n
p(1 − p)
≤ 2.58 max p =
n
0.5
= 2.58
n
0.5
(2.58) ≤ 0.01
n

Risulta n > 16641, come si vede, un campione piuttosto costoso!