Sei sulla pagina 1di 14

Lezione 26 - 7/5/21

Una statistica viene detta sufficiente se la distribuzione condizionata ad S del campione


casuale non di pende da �
Esempio campione bernoulliano, n = 3 (X 1 , X 2 , X 3 )
consideriamo le statistiche
S1 = X1 + X2 + X3
S2 = X1 X2 + X3
Immaginiamo una realizzazione del campione casuale(X 1 , X 2 , X 3 ) che si realizza nel
punto (0, 0, 0)
In corrispondenza avremo delle realizzazioni di alcune statistiche:

(X 1 , X 2 , X 3 ) S1 S2 f (X1 ,X2 ,X3 )|S1 =s(0,0,0f


) (X1 ,X2 ,X 3 )|S2 =s2 (0,0,0)

(0, 0, 0) 0 0 ? ?

Determiniamo le due densità di probabilità


P(X1 = 0, X2 = 0, X3 = 0, X1 + X2 + X3 = 0)
P(X1 = 0, X2 = 0, X3 = 0|S 1 = 0) = =
P(X1 + X2 + X3 = 0)
P(X1 + X2 + X3 = 0|X1 = 0, X2 = 0, X3 = 0)P(X1 = 0, X2 = 0, X3 = 0)
= =
P(X1 + X2 + X3 = 0)
1 ⋅ ( 1 - p) 3
= =1 (1)
( 1 - p) 3
Questa è la densità di probabilità condizionata
P(X1 = 0, X2 = 1, X3 = 0|S 1 = 1) = P(X1 = 1, X2 = 0, X3 = 0|S 1 = 0) =
= P(X1 = 0, X2 = 0, X3 = 1|S 1 = 0) =
P(X1 + X2 + X3 = 1|X1 = 0, X2 = 0, X3 = 0) ⋅ P(X1 = 0, X2 = 0, X3 = 1)
= =
P(X1 + X2 + X3 = 1)
( 1 - p) 2 p
= =
P(X1 = 0, X2 = 0, X3 = 1) + P(X1 = 0, X2 = 1, X3 = 0) + P(X1 = 1, X2 = 0, X3 = 0)
1 - p2 p 1
= =
3( 1 - p) 2 p 3
Questa probabilità condizionata non dipende più da p
Vediamo cosa succede per S 2
P(X1 = 0, X2 = 0, X3 = 0, X1 X2 + X3 = 0)
P(X1 = 0, X2 = 0, X3 = 0|S 2 = 0) = =
(2)
P(X1 X2 + X3 = 0)
Sappiamo già la probabilità del denominatore ma lo rifacciamo per questa statistica.
P(X1 X2 + X3 = 0) = P(X1 = 0, X2 = 0, X3 = 0) + P(X1 = 0, X2 = 1, X3 = 0) +
+P(X1 = 1, X2 = 0, X3 = 0)
Torniamo a (2)
=1
⏜⏟⏟⏟⏟⏟⏟⏟⏟ ⏝⏟⏟⏟⏟⏟⏟⏟⏟ ⏞
P(X1 X2 + X3 = 0|X1 = 0, X2 = 0, X3 = 0)P(X1 = 0, X2 = 0, X3 = 0)
= =
( 1 - p) 3 + 2( 1 - p) 2 p
( 1 - p) 3 1-p 1-p
= = =
(1 - p) 3 + 2(1 - p) 2 p 1 - p + 2p 1 + p
QUesta ultima quantità dipende dal parametro.
Quindi già da questa probabilità condizionata concludiamo che S 2 non è sufficiente.
Teorema di fattorizzazione (di fisher-neyman)
Sia X = (X 1 ,........., X n ) un campione casuale estratto da una popolazione X con densità
f( ∙ ; �).
La statistica S = s(X 1 , … , X n ) è sufficiente se e solo se
n
f (X1 ,…,Xn ) (x 1 , … , x n ) = ∏ f(x i ; �) = g(s(x 1 , … , x n ; �) ⋅ h(x 1 , … , x n ) =
i=1
= g(s 0 ; �) ⋅ h(x 1 , … , x n )
dove s 0 = s(x 1 , … , x n ) e con h non negativa e che non contiene il parametro � e g non
negativa che dipende da (x 1 , … , x n ) solamente tramite s 0 = s(x 1 , … , x n ).

Stima puntuale riassunto


Fino ad adesso abbbiamo visto la cosiddetta stima puntuale, cioè determino una variabile
aleatoria, costruita a partire dal campione casuale.

� = t(X 1 , … , X n )
con

� V.A.
� ∼ f � (g 1 , … , g k )
Il nostro campione casuale si realizza in � così come si realizza la nostra V.A. (stimatore)
�.
Quindi quello che otteniamo è un punto una stima di �.

Ora vederemo invece la:

Stima intervallare
Non voglio più un punto che mi stimi �, ma voglio un intervallo che mi stimi � con una
certa
probabilità.
Voglio un intervallo aleatorio [L 1 , L 2 ] definito dai suoi estremi tali che L 1 < L 2 q. c.
Una volta che abbiamo determinato questo intervallo aleatorio io vorrei che:
Vorrei determinare L 1 , L 2 in maniera tale che questa stima sia elevata.
Per determinare la stima intervallare uso dei metodi di stima intervallare.
Esempio suppongo di avere la realizzazione (1, 2 ; 3, 4 ; 0, 6 ; 5, 6) da un campione
casuale

(X1 , X2 , X3 , X4 ) estratta da X ∼ N �, � 2 con � = �2 = 3


Quindi abbiamo � = � ∈ R
Immaginiamo di avere una stima puntuale:
n
1
⏨n =
X ∑ Xi
n i=1
in particolare
4
1
⏨4 =
X ∑ Xi
4 i=1
4
1
x⏨n = ∑ xi
n i=1
in particolare
1, 2 + 3, 4 + 0, 6 + 5, 6
x⏨4 = = 2, 7
4
Abbiamo quindi una stima puntuale, ma io vorrei stimare un intervallo aleatorio
P(L 1 < � < L 2 ) = 1 - �
Dove � è fissato ad un valore basso (per esempio 0, 05 oppure 0, 01)
Fisso � = 0, 05 → 1 - � = 0, 95
Voglio determinare L 1 , L 2 tali che P(L 1 < � < L 2 ) = 0, 95
Io ho il mio stimatore puntuale media campionaria che utilizzo per crearne un'altra

Xn - �
Z= �
∼ N(0, 1)
n
Z è una V.A., ma non è una statistica perché al suo interno contiene �.
Capendo cheè una normale diventa libera dal parametro e allora posso calcolare la
probabilità:
P(a < Z < b) = 0, 95
fZ

0, 95 = 1 - �

a 0 b

0, 05
perchè tutta la probabilità somma ad 1

Imponiamo la simmetria a = -b. Il valore a è il punto del supporto di Z che taglia a sinistra
� 0, 05
una massa di probabilità pari ad →
2 2

-a 0
a


2

Siccome la densità della normale standard la conosciamo possiamo determinare


a = -1, 96 → b = 1, 96
Per fare questi calcoli una volta si usavano delle tavole, oggi si usano dei software.
questi valori si definiscono percentili.
P(-1, 96 < Z < 1, 96) = 0, 95
⏨4 - �
X
P -1, 96 < < 1, 96 = 0, 95
3
4

3 3
⏨4 - 1, 96
P X ⏨4 + 1, 96
<�< X = 0, 95
4 4
⏠⏣⏣⏣ ⏡⏣⏣⏣
V.A. ⏢ ⏠⏣⏣⏣ ⏡⏣⏣⏣
V.A. ⏢
⏠⏣⏣⏣⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣⏣⏣⏣
statistiche perché non contengono il parametro


L1 = ⏨
X 4 - 2, 94
P(L 1 < � < L 2 ) = 0, 95 con
L2 = ⏨
X 4 + 2, 94
⏨⏨
NB
l'intervallo [L 1 , L 2 ] è aleatorio

⏨⏨
NB
quando selezioniamo � ∈ Ω
possiamo realizzare l'intervallo di conseguenza:
[L 1 , L 2 ](�) = [L 1 (�), L 2 (�)] = [2, 7 - 2, 94; 2, 7 + 2, 94] = [-0, 24; 5, 64]

Definizione (non formale) intervallo di confidenza al livello (1 - �)


L'intervallo aleatorio [L 1 , L 2 ] viene definita intervallo di confidenza al livello (1 - �)
Anche la realizzazione [L 1 , L 2 ](�) viene usualmente denominata "intervallo di confidenza
al
livello
( 1 - �) "
Definizione intervallo di confidenza IC
Sia X = (X 1 ,........., X n ) un campione casuale di taglia n estratto da una popolazione X
con
densità
f( ∙ ; �).
Siano:
T 1 = T 1 (X 1 , … , X n )
T 2 = T 2 (X 1 , … , X n )
due statistiche ordinate tali che P(T 1 < T 2 ) = 1 e tali che:
P(T 1 < � < T 2 ) = 1 - �
dove (1 - �) non dipende da � e � ∈ (0, 1).
L'intervallo aleatorio [T 1 , T 2 ] viene detto intervallo di confidenza al livello 1 - � (detto
anche
100 ⋅ (1 - �) per cento) e 1 - � viene denominato "livello di confidenza".
Osservazione
Se [T 1 , T 2 ] è un intervallo di confidenza per �, allora:
[�(T 1 ), �(T 2 )]
Metodo della quantità pivotale
Definizione quantità pivotale
Se Q = Q(X 1 , … , X n ) è funzione del campione casuale e del parametro � e la
distribuzione di Q non dipende da �, allora Q è detta "quantità pivotale".

Quindi essa può anche non essere una statistica, ma essere una quantità pivotale.

Definizione metodo della quantità pivotale


Su di essa facciamo una trasformazione usando questa proprietà pivotale:

∀� ∃q 1 , q 2 i percentili funzioni di � tali che P(q 1 < Q < q 2 ) = 1 - �


Allora se ∀ realizzazione campionaria (x 1 , … , x n ) si ha che
q 1 < Q(x 1 , … , x n ) < q 2

T 1 (x 1 , … , x n ) < � < T 2 (x 1 , … , x n )
Con T 1 , T 2 funzioni non dipendenti da � allora diremo che [T 1 , T 2 ] è un intervallo di
confidenza al livello (1 - �) per �.

Come facciamo a determinare delle quantità pivotali? Usiamo un teorema:


Teorema
Dato un campione casuale estratto da una popolazione con funzione di densità f( ∙ ; �) e
funzione di distribuzione F(x; �) continua rispetto ad x.
Allora:
n n
∏ F(Xi ; �) e - ∑ log F(Xi ; �)
i=1 i=1
sono quantità pivotali.

Esse sono entrambe delle variabili aleatorie perchè sono calcolate sulla V.A., sono
funzioni
del campione casuale.
Dimostrazione (solo per le VV.AA. assoultamente continue)

U = F(Xi ; �)
dimostriamo che essa è uniforme su [0, 1]
0 , u⩽0
P(U ⩽ u) = ? , 0<u⩽1
1 , 1<u
⏠⏣⏣⏣⏣⏣ ⏡⏣⏣⏣⏣⏣
il supperto è [0,1] ⏢
P(U ⩽ u) = P(F(Xi ; �) ⩽ u) = P F -1 [F(Xi ; �)] ⩽ F -1 (u) =
La funzione F -1 , inverso della funzione di distribuzione è detta funzione quantilica.
= P Xi ⩽ F -1 (u) = F F -1 (u); � = u
Cioè:
0 , u⩽0
P(u ⩽ U) = u , 0 < u ⩽ 1 ⟹ U ∼ Unif([0, 1])
1 , 1<u
Adesso vediamo:
Y = -log U = -log F(Xi ; �)
P(Y ⩽ y) = P(-log U ⩽ y) = P U ⩾ e -y = 1 - P U < e -y =
1 - e -y , 0 < e -y ⩽ 1 1 - e -y , y ⩾ 0
= =
1 - 1 = 0 , 1 < e -y 0 , y<0
Cioè
Y ∼ Exp(1)
consideriamo:
n n n
P ∏ F(Xi ; �) < y = P log ∏ F(Xi ; �) < log y = P ∑ log F(Xi ; �) < log y =
i=1 ∈⏦
(0,1) i=1 i=1
n n
=P -∑ log F(Xi ; �) > - log y = 1 - P - ∑ log F(Xi ; �) < - log y
i=1 i=1
⏠⏣⏣⏣⏣
∼Ga⏡⏣⏣⏣⏣
(n,1) ⏢
La parte rossa ∼ Exp(1) quindi non è presente il parametro. Ho delle VV.AA:
indipendenti
ed esponenzialmente distribuite.
La parte blu in conclusione è una quantità pivotale.

Potrebbero piacerti anche