MetodiQuantitativi 10

Metodi Quantitativi - 10
La legge dei grandi numeri

e la stima di percentuali
Come approssimare le probabilità attraverso
media e deviazione standard:
Commento: Questa regola è molto importante: ci spiega come

collegare i 3 concetti base del corso, cioè media, ds, probabilità.
Queste relazioni:
Pr(µ − σ ≤ X ≤ µ + σ ) ≃ 0.68
Pr(µ − 2σ ≤ X ≤ µ + 2σ ) ≃ 0.95
Pr(µ − 3σ ≤ X ≤ µ + 3σ ) ≃ 0.99
sono dette leggi empiriche del caso (empiriche perché valgono

solo se i dati sono approssimativamente normali)
Esempio: E(X)=0.34, DS(X)=0.07.
Pr(0.34 − 0.07 ≤ X ≤ 0.34 + 0.07) =

= Pr(0.28 ≤ X ≤ 0.41) ; 0.68
Pr(0.34 − 2(0.07) ≤ X ≤ 0.34 + 2(0.07)) =

= Pr(0.21 ≤ X ≤ 0.48) ; 0.95
Pr(0.34 − 3(0.07) ≤ X ≤ 0.34 + 3(0.07)) =

= Pr(0.14 ≤ X ≤ 0.48) ; 0.99
Come conseguenza, se la varianza/deviazione standard diminuisce,
allora i valori di una variabile aleatoria sono più concentrati attorno
alla media.
In figura e in equazione:
Adesso dobbiamo considerare cosa succede quando sommiamo
due (o più) variabili aleatorie, per esempio, cosa significa questa
scrittura?
Y =X1 + X 2
Il modo più semplice di vederla è immaginare due scommesse:
Risultano le seguenti formule per valore atteso e deviazione
standard:
E(Y) = E(X1) + E(X 2)
E, ma solo a condizione che X1 e X2 siano indipendenti:
Var(Y) = Var(X1) + Var(X 2)

Immaginiamo due scommesse (le cui probabilità sono tra di loro
indipendenti:
E(X1) = 0.6; SD(X1) = 0.9;

E(X2) = 0.4; SD(X2) = 0.4.
Se le compriamo tutte e due, quale è il valore atteso e la

deviazione standard?
Adesso si ipotizzi di avere due scommesse praticamente identiche:
X1: E[X1] = 0.5; SD[X1] = 0.9;
X2: E[X2] = 0.5; SD[X2] = 0.9
Immaginate che io possa scegliere tra:
1) due volte la scommessa X1
2) la scommessa X1 più la scommessa X2:
Cosa Conviene?
Questo risultato è detto principio di diversificazione.

Ora si immagini di volere analizzare un portafoglio di scommesse
(assumiamo indipendenti):
X1, X2, X3, …., XN
Vogliamo la distribuzione di probabilità.
Teorema del limite centrale:
Siano X1, X2,…Xn variabili aleatorie indipendenti di media E[Xi] e

e varianze Var[Xi], ma aventi distribuzione qualsiasi. Allora:
Y = X1 + X 2 + ... + X n
si distribuisce asintoticamente (cioè se n è abbastanza grande)

come una normale, con media somma delle medie e varianza
somma delle varianze.
Appunto: Vedremo con R la sua simulazione!

Variabile aleatoria binaria:
X Pr(X = xi)
E(X) =
Var(X) =
Se q = 1 – p, allora
E(X) = p
Var(X) = pq.
Esempio: urna con percentuale “p” di palline con un certo colore.

Invece di fare 1 sola estrazione, vediamo cosa succede quando
ripeto le estrazioni per n volte (sempre reinserendo la pallina estratta
dentro l’urna).
Indico con
Xk =
da cui:
Pr(Xk = 1) =
Pr(Xk = 0) =
Sn = X1 + X 2 + ... + X n;
Sn
ˆ =
p
n
ˆ) =
E(p
ˆ) =
Var(p
p(1 − p)
lim = 0
n→∞ n
Questa è la legge dei grandi numeri. All’aumentare delle estrazioni,
il valore osservato di p^ sarà sempre più concentrato attorno al valore
medio – incognito! – pari a p. E quindi p^ sarà una approssimazione
sempre più sicura di p.
Come stimare una percentuale ignota:
1
ˆ =
p Sn
n
è detto stimatore di p (percentuale di palline di un certo colore).
Principio generale: tutto quello che è calcolato a partire da un campione,

è la realizzazione di una variabile aleatoria.
Consideriamo quindi:
p̂ = Stimatore di p
Abbiamo dimostrato che:
ˆ) = p
E(p
Questa proprietà stabilisce che lo stimatore è “corretto”.

E’stato poi dimostrato che:
p(1 − p)
ˆ) =
DS(p
n
e che:
ˆ) = 0.
lim DS(p
n→∞
Quest’ultima proprietà stabilisce che lo stimatore è consistente.

L’Errore Standard (o standard error), è la variabilità dello stimatore.
Si calcola sostituendo - nella formula teorica - ai parametri ignoti la
loro stima puntuale.
ˆ(1 − p
p ˆ)
ˆ) =
SE(p
n
Esempio: su 100 intervistati, 60 sono favorevoli alla costruzione di un

inceneritore.
Come si distribuisce “pi cappello”?
Per il teorema del limite centrale:
Sn = X1 + X 2 + ... + X n
Quindi risulta:
p(1 − p)
ˆ : N(p,
p )
n
Ora poniamo:
p(1 − p)
σ = ;
n
ˆ − p
p
Z = ;
σ
Z = N(0,1).
Dalle tavole della normale risulta la seguente uguaglianza:
Pr(−1.96 ≤ Z ≤ 1.96) = 95%

ˆ − 1.96 σ < p < p
Pr(p ˆ + 1.96 σ )
Questa formula rappresenta una stima intervallare del parametro ignoto p!
Dall’esempio precedente:
ˆ = 0.6;
p
ˆ) = 0.05.
SE(p
da cui:
Come migliorare la precisione delle stima:
1. Aumentare l’ampiezza dell’intervallo
2. Aumentare la dimensione del campione
Pr(−1.96 ≤ Z ≤ 1.96) = 0.95;

Pr(−u ≤ Z ≤ u) = precisione richiesta
Fissando una precisione al 99%, otteniamo:
Pr(−2.58 ≤ Z ≤ 2.58) = 0.99
ˆ − 2.58 σ ≤ p ≤ p
Pr(p ˆ + 2.58 σ ) = 0.99
Dall’esempio precedente:
ˆ = 0.6
p
ˆ) = 0.05
SE(p
Pr(0.6 − 2.58 (0.05) ≤ p ≤ 0.6 + 2.58 (0.05)) = 0.99;
Pr(0.47 ≤ p ≤ 0.73)
Aumentare la dimensione del campione: in questo modo si riduce
lo standard error per effetto della dimensione del campione.
Dall’esempio precedente, supponiamo che n = 1000.
ˆ) = 0.016 = ...
SE(p
Che porta alle stime intervallari:
1) Con confidenza del 95%:
0.6 − 1.96 (0.016) < p < 0.6 + 1.96 (0.016)

Con confidenza 99%:
0.6 − 2.58 (0.016) < p < 0.6 + 2.58 (0.016)

Progettare la numerosità campionaria
Problema: voglio la stima di p con confidenza del 99%, con una variazione
di errore massima dell’1%.
ˆ − p |≤ 2.58 SE(p
| p ˆ) =
ˆ(1 − p
p ˆ)
= 2.58 ≤
n
p(1 − p)
≤ 2.58 max p =
n
0.5
= 2.58
n
0.5
(2.58) ≤ 0.01
n
Risulta n > 16641, come si vede, un campione piuttosto costoso!

MetodiQuantitativi 10

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

MetodiQuantitativi 10

Caricato da

Copyright:

Formati disponibili

Metodi Quantitativi - 10

La legge dei grandi numeri

Commento: Questa regola è molto importante: ci spiega come

sono dette leggi empiriche del caso (empiriche perché valgono

Pr(0.34 − 0.07 ≤ X ≤ 0.34 + 0.07) =

Pr(0.34 − 2(0.07) ≤ X ≤ 0.34 + 2(0.07)) =

Pr(0.34 − 3(0.07) ≤ X ≤ 0.34 + 3(0.07)) =

E(Y) = E(X1) + E(X 2)

E, ma solo a condizione che X1 e X2 siano indipendenti:

Var(Y) = Var(X1) + Var(X 2)

E(X1) = 0.6; SD(X1) = 0.9;

Se le compriamo tutte e due, quale è il valore atteso e la

Questo risultato è detto principio di diversificazione.

Siano X1, X2,…Xn variabili aleatorie indipendenti di media E[Xi] e

si distribuisce asintoticamente (cioè se n è abbastanza grande)

Appunto: Vedremo con R la sua simulazione!

Esempio: urna con percentuale “p” di palline con un certo colore.

è detto stimatore di p (percentuale di palline di un certo colore).

Principio generale: tutto quello che è calcolato a partire da un campione,

Abbiamo dimostrato che:

Questa proprietà stabilisce che lo stimatore è “corretto”.

Quest’ultima proprietà stabilisce che lo stimatore è consistente.

Esempio: su 100 intervistati, 60 sono favorevoli alla costruzione di un

Per il teorema del limite centrale:

Pr(−1.96 ≤ Z ≤ 1.96) = 95%

Questa formula rappresenta una stima intervallare del parametro ignoto p!

1. Aumentare l’ampiezza dell’intervallo

2. Aumentare la dimensione del campione

Pr(−1.96 ≤ Z ≤ 1.96) = 0.95;

Pr(−2.58 ≤ Z ≤ 2.58) = 0.99

Dall’esempio precedente, supponiamo che n = 1000.

1) Con confidenza del 95%:

0.6 − 1.96 (0.016) < p < 0.6 + 1.96 (0.016)

0.6 − 2.58 (0.016) < p < 0.6 + 2.58 (0.016)

Risulta n > 16641, come si vede, un campione piuttosto costoso!

Potrebbero piacerti anche