Esplora E-book
Categorie
Esplora Audiolibri
Categorie
Esplora Riviste
Categorie
Esplora Documenti
Categorie
Maurizio Pratelli
1 Nozioni fondamentali 5
1.1 Prime definizioni. . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Calcolo combinatorio . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Probabilità condizionata ed indipendenza. . . . . . . . . . . . 10
1.4 Appendice: alcuni complementi. . . . . . . . . . . . . . . . . . 13
1.4.1 Il controesempio di Vitali. . . . . . . . . . . . . . . . . 13
1.4.2 Probabilità e teoria dei numeri. . . . . . . . . . . . . . 14
1.5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Probabilità discreta 17
2.1 Richiami sulle serie numeriche. . . . . . . . . . . . . . . . . . . 17
2.2 Integrale rispetto ad una misura discreta. . . . . . . . . . . . . 19
2.3 Variabili aleatorie discrete. . . . . . . . . . . . . . . . . . . . . 22
2.4 Valori attesi e momenti. . . . . . . . . . . . . . . . . . . . . . 25
2.5 Variabili n-dimensionali . . . . . . . . . . . . . . . . . . . . . 28
2.6 La funzione generatrice delle Probabilità. . . . . . . . . . . . . 35
2.7 Teoremi limite . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.8 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.8.1 Alcune dimostrazioni . . . . . . . . . . . . . . . . . . . 42
2.8.2 Alcuni esercizi significativi . . . . . . . . . . . . . . . . 44
2.9 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3
4 INDICE
4 Probabilità generale 69
4.1 Costruzione di una Probabilità . . . . . . . . . . . . . . . . . . 69
4.2 Costruzione dell’integrale . . . . . . . . . . . . . . . . . . . . . 74
4.3 Variabili aleatorie generali . . . . . . . . . . . . . . . . . . . . 81
4.4 Variabili aleatorie con densità . . . . . . . . . . . . . . . . . . 85
4.5 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.5.1 Densità uniforme . . . . . . . . . . . . . . . . . . . . . 89
4.5.2 Densità Gamma . . . . . . . . . . . . . . . . . . . . . . 90
4.5.3 Densità Gaussiana . . . . . . . . . . . . . . . . . . . . 91
4.6 Convergenza di variabili aleatorie . . . . . . . . . . . . . . . . 92
4.7 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.7.1 Alcune leggi di probabilità di rilevante interesse in Sta-
tistica . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.7.2 La misura di Cantor . . . . . . . . . . . . . . . . . . . 98
4.8 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Nozioni fondamentali di
Calcolo delle Probabilità.
5
6 CAPITOLO 1. NOZIONI FONDAMENTALI
1. P(∅) = 0 ;
2. P(Ac ) = 1 − P(A) ;
3. se B ⊂ A , P A \ B = P(A) − P(B) , dove si è posto A \ B = A ∩ B c ;
Una funzione d’insieme che gode della proprietà a) della definizione 1.1.5
è detta misura; la probabilità è dunque una misura normalizzata. È facile
constatare che una funzione
σ-additiva è anche semplicemente additiva.
Una terna Ω, F, P formata da un insieme Ω, una σ-algebra F di parti
di Ω ed una probabilità P definita su F viene chiamata spazio probabilizzato
o anche spazio di Probabilità.
La proprietà seguente spiega perché la σ-additività può essere considerata
una sorta di continuità.
]A |A|
P(A) = =
]Ω |Ω|
dove con ]A o con |A| si indica la cardinalità (o numero degli elementi)
dell’insieme A. La formula sopra scritta è anche chiamata rapporto tra casi
favorevoli e casi possibili e talvolta ad essa ci si riferisce indicandola come la
definizione classica di Probabilità.
In questo ambito, i problemi diventano molto spesso problemi di calcolo
combinatorio: delle varie formule riportate dai libri (spesso con nomi diversi
da un libro all’altro) bisogna, a mio avviso, conoscerne soltanto tre. Tutte le
altre si possono dedurre da queste come esercizio. Prima di riportare queste
formule premettiamo una comoda notazione: dato un intero n, anziché dire
un insieme di cardinalità n, scriveremo più brevemente {1, . . . , n}.
Proposizione 1.2.1. Siano k ed n due interi: il numero di applicazioni da
{1, . . . , k} a {1, . . . , n} è nk
Proposizione 1.2.2 (Permutazioni). Il numero di modi in cui si possono
ordinare gli elementi di {1, . . . , n} è n!
Questa formula, cosı̀ come la precedente, si dimostra per induzione.
10 CAPITOLO 1. NOZIONI FONDAMENTALI
Ricordiamo che partizione significa che gli insiemi Bi sono a due a due
disgiunti e che la loro unione è l’intero insieme Ω.
Esercizio 1.3.6. Qual è la probabilità che, in una estrazione del lotto, tutti e
5 i numeri estratti non siano superiori a 20? Provare a risolvere questo facile
esercizio in due modi, utilizzando cioè il calcolo combinatorio e la formula
1.3.1.
P(A ∩ B) = P(A).P(B)
• Due eventi incompatibili (cioè che hanno intersezione vuota) non pos-
sono essere indipendenti, a meno che uno dei due sia trascurabile.
1.5 Esercizi
Esercizio 1.5.1. Si lancia tre volte una moneta equilibrata, e si considerino
gli eventi A “le facce uscite non sono tutte eguali” e B “ al più una faccia è
testa”.
Gli eventi A e B sono indipendenti?
Qual è la risposta se la moneta non è equilibrata?
Esercizio 1.5.2. Un dado equilibrato, con le facce numerate da 1 a 6, viene
lanciato n volte: qual è la probabilità che il numero 6 esca esattamente 2
volte?
Per quale valore di n questa probabilità è massima?
Esercizio 1.5.3. Quante volte almeno si deve lanciare un dado affinché ci
sia una probabilità superiore al 99% che esca almeno un 6?
Esercizio 1.5.4. In una città, il 17% della popolazione si è vaccinato contro
l’influenza : all’apice dell’epidemia di influenza, le persone non vaccinate si
ammalano con probabilità 0,12 e quelle vaccinate invece con probabilità 0,02.
Qual è la probabilità di ammalarsi? Qual è la probabilità che una persona
ammalata si sia vaccinata ?
16 CAPITOLO 1. NOZIONI FONDAMENTALI
Esercizio 1.5.5. Una fabbrica produce dei componenti elettronici che vende
in scatole di 10 pezzi. Prima di essere messa in vendita, ogni scatola viene
controllata nel modo seguente: si scelgono a caso 5 pezzi e se almeno 4
risultano funzionanti la scatola passa alla vendita.
a) Qual è la probabilità che una scatola con esattamente 8 pezzi funzio-
nanti passi alla vendita?
b) Stessa domanda per una scatola con 4 pezzi funzionanti.
Capitolo 2
17
18 CAPITOLO 2. PROBABILITÀ DISCRETA
e quindi, al limite,
+∞
X +∞
X
av(n) ≤ an
n=1 n=1
In modo analogo si ottiene la diseguaglianza opposta e di conseguenza l’e-
guaglianza.
Queste due proprietà si estendono immediatamente alle serie assoluta-
mente convergenti: ricordiamo che una serie numerica è detta assolutamente
convergente se si ha
+∞
X
an < +∞
n=1
Senza scrivere una formalizzazione esplicita, notiamo che la serie è assoluta-
mente convergente se (e solo se) convergono a un numero reale sia la serie
dei termini positivi che quella dei termini negativi, e ad entrambe si possono
applicare i risultati di 2.1.1 e 2.1.2.
Esercizio 2.1.3. Provare con dei controesempi che se la serie è convergente
ma non assolutamente convergente gli enunciati precedenti sono falsi.
In particolare vale questo curioso risultato, del quale non diamo la dimo-
strazione (che non ci servirà più avanti) lasciandola come esercizio impegna-
tivo.
Proposizione 2.1.4. Supponiamo che la successione (an )n≥1 sia tale che la
seria ad essa associata converga ma non converga assolutamente: assegnato
un qualsiasi l ∈ [−∞, +∞] , è possibile determinare una funzione biunivoca
v : IN → IN tale che si abbia
Xn
lim av(k) = l
n→∞
k=1
2.2. INTEGRALE RISPETTO AD UNA MISURA DISCRETA. 19
Teorema 2.2.2 (Beppo Levi). Sia (fn )n≥1 una successione crescente R di
funzioni positive, convergente ad f : la successione degli integrali fn dm n≥1
R
converge (crescendo) a f dm.
R
Dimostrazione. Innanzi tutto osserviamo che esiste limn→∞ fn dm (poiché
si tratta di Runa successione monotona crescente) e che tale limite è inferiore
o eguale a f dm : occorre poi distinguere i casi in cui l’integrale di f sia
finito o infinito. R
Consideriamo il primoPcaso, e sia A = f dm ; per ogni ε > 0 , esiste un k
tale che la somma finita i=1,...,k f (ei )m(ei ) ≥ A − ε. Poiché per ogni punto
(ei ), fn (ei )m(ei ) converge a f (ei )m(e
R i ), convergono
P anche le somme finite e si
trova che, per n abbastanza grande fn dm ≥ i=1,...,k fn (ei )m(ei ) ≥ A−2ε,
e questo completaRla dimostrazione.
Il caso in cui f dm =P+∞ è sostanzialmente identico: qualunque sia
B > 0, esiste un k tale che i=1,...,k f (ei )m(ei ) ≥ B , e con gli stessi passaggi
appena svolti si prova che, per n abbastanza grande, fn dm ≥ B2 .
R
2.2. INTEGRALE RISPETTO AD UNA MISURA DISCRETA. 21
Verificare che le funzioni cosı̀ definite sono integrabili, che la successione non
è dominata, che converge puntualmente a una funzione integrabile ma gli
integrali non convergono.
Sarà importante il seguente risultato:
RTeorema
2
2.2.5 (Diseguaglianza
R 2 di Schwartz). Siano f, g tali che
f dm < +∞ e g dm < +∞ : allora il prodotto f g è integrabile e vale
la diseguaglianza
Z sZ sZ
f g dm ≤
f 2 dm g 2 dm
22 CAPITOLO 2. PROBABILITÀ DISCRETA
Z Z Z Z
2 2 2 2
0≤ tf + g dm = t f dm + g dm + 2t f g dm
p(n) = P X = n = (1 − p)n−1 p
Z X X X
ϕ(x) dPX (x) = ϕ(xi )p(xi ) = ϕ(xi ) P(ωj ) =
i i ωj ∈Ai
X X X Z
ϕ X(ωj ) P(ωj ) = ϕ X(ωj ) P(ωj ) = ϕ X(ω) dP(ω)
i ωj ∈Ai j Ω
Definizione 2.4.2 (Valore atteso). Data una v.a. reale discreta X, si dice
che essa ha valore atteso se è integrabile rispetto a P, e in tal caso si chiama
valore atteso l’integrale
Z X
E X = X(ω) dP(ω) = X ωi P ωi
Ω i
X − E[X] ≥ 1
[
X − E[X] 6= 0 =
n≥1
n
X − E[X] ≥ 1 è trascurabile, anche
eciascuno degli
insiemi
n
X − E[X] 6= 0 è trascurabile.
Teniamo presente che nelle formule la virgola sta per la congiunzione, che
corrisponde insiemisticamente all’intersezione, cioè ad esempio
sZ sZ
2 2 q q
≤ X − E[X] dP Y − E[Y ] dP = V ar X V ar Y
Dimostrazione. L’insieme
X = xi è unione numerabile degli insiemi (a
due a due disgiunti) X = xi , Y = yj , j = 1, 2, . . .); si ha pertanto
X X
px (xi ) = P X = xi = P X = xi , Y = y j = p(xi , yj )
yj yj
X X
= pX (xi ) pY (yj ) = P X ∈ A P Y ∈ B
xi ∈A yj ∈B
che si può leggere nel modo seguente: la coppia (X, Y ) è indipendente dalla
variabile Z. Le estensioni di queste affermazioni a più variabili sono evidenti.
È istruttivo dimostrare il seguente risultato:
Proposizione 2.5.12. Dati n eventi A1 , . . . , An , questi sono indipendenti
se e solo se le loro funzioni indicatrici IA1 , . . . , IAn sono indipendenti come
variabili aleatorie.
Definizione 2.5.13. Data una famiglia qualsiasi di variabili aleatorie (Xi )i∈I ,
queste si dicono indipendenti se ogni sottofamiglia finita Xi1 , . . . , Xin è
formata da variabili indipendenti.
Abbiamo visto (diseguaglianza di Schwartz) che il prodotto di due v.a.
di quadrato integrabile è integrabile, ma non è detto che il prodotto di due
variabili integrabili sia integrabile (cercare un controesempio!). Tuttavia con
le variabili indipendenti si ha il seguente risultato:
Teorema 2.5.14. Siano X, Y due variabili indipendenti dotate di momento
primo: anche XY ammette momento primo e vale la formula
E XY = E X E Y
Dimostrazione. Cominciamo a provare che XY è integrabile: si ha infatti
X XX
E XY = |xi yj | p(xi , yj ) = |xi ||yj |pX (xi )pY (yj ) =
xi ,yj xi yj
X X
= |xi | pX (xi ) |yj | pY (yj ) = E |X| E |Y | < +∞
xi yj
e del fatto che gli insiemi scritti a destra sono a due a due disgiunti. Si noti
che se X, Y sono a valori interi positivi, la formula diventa (per n positivo)
n
X
pZ (n) = pX (h) pY (n − h)
h=0
Dimostrazione. Ricordiamo che ha senso scrivere E[X] ∈ [0, +∞] ; sia poi
0 < t < 1.
Vale l’eguaglianza G0X (t) = n−1
P
n≥1 p(n)n t . Facendo convergere t a
1 da sinistra, questa serie converge (per convergenza monotona:
P può essere
vista come conseguenza del Teorema di Beppo Levi) a n≥1 p(n) n = E[X].
La dimostrazione della seconda eguaglianza si fa sostanzialmente allo stesso
modo, osservando preventivamente che la v.a. X(X − 1) è ancora a valori
positivi.
Riportiamo qua sotto una tabella delle funzioni generatrici delle più usuali
variabili aleatorie a valori interi, che il lettore può facilmente verificare:
n
• X ∼ B(n, p) =⇒ GX (t) = 1 + p(t − 1) ;
tp
• X Geometrica di parametro p =⇒ GX (t) = 1−t(1−p)
;
Teorema 2.7.4. Nelle ipotesi del Teorema 2.7.1, dato ε > 0, esiste una
costante positiva H(p, ε) tale che si abbia
n S o
n
P − p > ε ≤ 2 exp − n H(p, ε)
n
Dimostrazione.
Poniamo
L(s) = E exp(s X1 ) = 1 − p + p es , e di conse-
guenza E exp(s Sn ) = L(s)n ; scegliamo poi a con p < a < 1.
Valgono le seguenti diseguaglianze:
nS o n S o
n n
P > a = P exp s −a >1 ≤
n n
h S i s n −as
n
E exp s −a =L e
n n
qualunque sia s positivo. Prendendo t = ns , e nell’ultimo termine della
precedente disequazione l’estremo inferiore sui valori possibili si ha
nS o h i
n
P > a ≤ exp − n sup at − log L(t)
n t>0
La funzione t−→at − log 1 − p + pet è concava, diverge a − ∞ per
t → +∞, ed ha derivata in 0 strettamente positiva: ha pertanto un valore
massimo finito e strettamente positivo per 0 < t < +∞. Preso ε > 0 con
p + ε < 1 , e denotando h(p, ε) il massimo della funzione sopra indicata dove
si è posto a = p + ε, si ottiene
nS o
n
P > p + ε ≤ exp − n h(p, ε)
n
2.7. TEOREMI LIMITE 39
Fissati −∞ < a < b < +∞ e dato ε > 0, esiste n̄ = n̄(ε, a, b) tale che,
per n ≥ n̄ ed x ∈ In ∩ [a, b ] si abbia:
c−1 x2
P Zn = x = √ exp − 1 + α(x) con α(x) < ε.
npq 2
X c−1 X x2
P a ≤ Zn ≤ b = P Zn = x = √ exp − 1+α(x)
npq 2
x∈In ∩[a,b] x∈In ∩[a,b]
La somma
c−1 X x2
√ exp −
npq 2
x∈In ∩[a,b]
Rb 2
è un’approssimazione dell’integrale (di Riemann) c−1 a
exp − x2 dx e per-
Rb x2
tanto converge (per n → ∞) proprio a c−1 a exp − 2
dx.
Viceversa la somma
c−1 X x2
√ exp − |α(x)|
npq 2
x∈In ∩[a,b]
2.8 Appendice
2.8.1 Alcune dimostrazioni
Quella che segue è la dimostrazione della Formula di Stirling (Lemma 2.7.7)
Dimostrazione. Partendo dalla diseguaglianza
Z k Z k+1
log(x) dx < log(k) < log(x) dx
k−1 k
Ricordiamo ancora che vale lo sviluppo in serie (convergente per |t| < 1):
1 1 + t t3 t5
log = t + + + ···
2 1−t 3 5
Si ottiene pertanto
1 1
dn − dn+1 = 2
+ + ···
3(2n + 1) 5(2n + 1)4
2.8. APPENDICE 43
h X x i
n
Bn (x) = E f
n
46 CAPITOLO 2. PROBABILITÀ DISCRETA
Esercizio 2.8.3 (Il paradosso di Borel). Ogni evento, per quanto la sua
probabilità sia piccola, prima o poi si realizza (verificare questa affermazione
utilizzando la variabile Geometrica) e quindi, come si usa dire con linguaggio
colorito, la scimmia che batte a caso sui tasti di una macchina da scrivere
prima o poi scrive la Divina Commedia: questa affermazione va sotto il nome
di paradosso di Borel, anche se in realtà non è affatto paradossale. Tuttavia
il tempo necessario per ottenere questo può essere talmente lungo da rendere
di fatto impossibile l’evento.
Esaminiamo una versione semplificata: una scimmia di nome Lucilla bat-
te a caso 7 caratteri sui tasti di una macchina da scrivere che ha solo 26 tasti
(corrispondenti alle lettere), al ritmo di un carattere al secondo. Qual è il
valore atteso del tempo necessario per riuscire a scrivere il suo nome? (In
realtà bisognerebbe esaminare una situazione un poco più generale, cioè che
dopo aver battuto a caso un certo numero di caratteri -non necessariamen-
te multiplo di 7- vengano scritte nell’ordine giusto le lettere lucilla; questa
situazione è un poco più complicata da esaminare e ci accontentiamo della
versione semplificata).
Una curiosità divertente: per riuscire a scrivere, battendo a caso sui tasti,
il solo primo versetto della Divina Commedia, il valore atteso del tempo
necessario è di miliardi di volte superiore all’età dell’Universo!
2.9 Esercizi
Esercizio 2.9.1. Consideriamo la misura m definita sull’insieme dei naturali
strettamente positivi tale che m(k) = k −1 e consideriamo, per ogni n, la
funzione fn definita da:
1
k − n se k ≥ n
fn (k) =
0 se k < n
1) Le funzioni fn sono integrabili rispetto a m ?
2) Convergono ad un limite f , e questo limite è integrabile?
3) Si può passare al limite sotto il segno d’integrale?
2.9. ESERCIZI 47
Esercizio 2.9.8. Tra tutte le variabili aleatorie discrete che prendono solo i
valori 1, 2 e 3 e che hanno valore atteso E[X] = 2, trovare quelle che hanno
varianza rispettivamente massima e minima.
48 CAPITOLO 2. PROBABILITÀ DISCRETA
49
50 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE
Definizione
3.2.1 (Modello
statistico). Si chiama modello statistico una
terna Ω, F, Pθ , θ ∈ Θ dove Ω è un insieme, F una σ-algebra di parti di
Ω e, per ogni θ ∈ Θ , Pθ è una probabilità su Ω, F .
L(θ, ω) = Pθ {ω}
Naturalmente la verosimiglianza
P identifica la probabilità, poiché per ogni
θ
evento A vale la formula
P P A = ωi ∈A L(θ, ωi ); la funzione L deve verifi-
care la condizione ωi ∈Ω L(θ, ωi ) = 1. La notazione L(. , .) deriva dall’inglese
Likelihood e, nel caso discreto, in realtà L è a valori in [0, 1]; tuttavia nei casi
che esamineremo più avanti sarà generalmente a valori in IR+ .
Scopo dell’inferenza statistica è partire dall’esperienza (l’osservazione del
campione) per risalire a informazioni sulla legge di probabilità che meglio si
adatta a descrivere il modello, e per ottenere questo i metodi dell’inferenza
statistica sono essenzialmente tre:
• la stima statistica
• i test statistici
È interessante osservare che nella vita pratica si incontrano più volte gli
intervalli di fiducia, senza rendersene conto, ad esempio quando vengono tra-
smesse le proiezioni sui risultati delle elezioni. Le prime proiezioni danno per
il partito x una percentuale t con un’oscillazione ad esempio di 2 punti per-
centuali (in più o in meno), dopo due ore la percentuale è cambiata (magari
di poco) ma l’oscillazione è stata ridotta a 0,5 punti, e cosı̀ via . . .
Effettuare un test statistico significa invece formulare un’ipotesi e piani-
ficare un’esperienza per decidere se accettare o rifiutare l’ipotesi: ad esempio
nel caso del controllo di qualità l’ipotesi potrebbe essere “la ditta fornitrice
garantisce che la percentuale di pezzi difettosi non supera il 5%”(cioè θ ≤
0, 05). È evidente che l’ipotesi viene accettata se si osserva X(ω) = 0, 036 e
rifiutata se X(ω) = 0, 09, ma che fare se X(ω) = 0, 049 oppure 0,052 ?
A tutti questi problemi verrà data risposta nei paragrafi successivi.
avanti (per essere più precisi, entrambe le dimostrazioni sono riduzioni a casi
particolari di un risultato più generale che in questo primo corso non abbiamo
gli strumenti per dimostrare).
Limitiamoci ad osservare che la condizione del Teorema 3.3.7 è soddi-
sfatta in molti esempi: nel caso delle leggi di Poisson si ha ad esempio
p(θ, k) = e−θ θk (k!)−1 = e−θ exp k log(θ) (k!)−1 (è sufficiente considerare
come parametro log(θ) anziché θ).
Nel caso delle leggi geometriche si ha p(θ, k) = θ exp (k − 1) log(1 − θ) .
Esempio 3.3.8. Consideriamo il caso di un campione (X1 , . . . , Xn ) di taglia
n e legge Geometrica di parametro θ: sullo spazio Ω = (IN∗ )n la verosimi-
glianza è data da
k +···+kn −n n
L θ ; k1 , . . . , kn = 1 − θ 1 θ
Notiamo che ha senso parlare di rischio anche se, per qualche θ, U non ha
momento secondo: in tal caso il rischio è eguale a +∞. Tuttavia, nel seguito
di questo paragrafo, supponiamo tacitamente che tutte le stime considerate
abbiano momento secondo qualunque sia la probabilità Pθ .
56 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE
Osserviamo ancora che, se U è corretta, R θ, U = V arθ U .
La definizione di rischio introduce un criterio di ordinamento parziale tra
le stime, più precisamente diremo che
U dPθ
R
Ora il numero APiθ (Ai ) (che non dipende da θ) è eguale al valore di V
sull’insieme Ai , quindi
R R
Ai
U dPθ Ai
V dPθ
= :
Pθ (Ai ) Pθ (Ai )
Ai , si ha Z Z
V 2 dPθ ≤ U 2 dPθ
Ai Ai
Z 2
Z
θ θ 2 θ
U dP ≤ P Ai U dP
Ai Ai
o (ciò che è lo stesso) Pθ ω θ ∈
/ C(ω) ≤ α.
θ
n 1 1 o
P −√ ≤ X − θ ≤ +√ ≥1−α
4nα 4nα
1 1
Si ottiene l’intervallo di fiducia X(ω)− √4nα , X(ω)+ √4nα , o (come si scrive
1
più sinteticamente) X(ω) ± √4nα .
Diremo che il test di regione critica D è più potente del test di regione
critica D∗ se, per ogni θ ∈ Θ1 , si ha Pθ (D) ≥ Pθ (D∗ ).
Scegliere un livello equivale a porre un confine superiore alle probabilità
dell’errore di prima specie (cioè ai numeri Pθ (D) per θ ∈ Θ0 ) ; intuitivamente
62 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE
Considerando
poi come funzione ϕ la costante Pθ0 D , si ottiene
Pθ1 D − Pθ0 D ≥ 0, cioè il punto 2).
Il lemma di Neyman-Pearson permette di identificare con precisione i
buoni test nel caso in realtà poco significativo di un modello statistico nel
quale i parametri siano solo due: il suo vero interesse consiste nel fatto che si
può estendere a casi più generali, i cosiddetti test unilateri. Quando l’insieme
dei parametri Θ è un intervallo di IR (intervallo in senso lato, cioè anche una
semiretta
o tutta la retta) siparla di test unilatero se l’ipotesi è della forma
H0 θ ≤ θ0 o della forma H0 θ ≥ θ0 . Premettiamo una definizione.
Definizione 3.6.5 (Rapporto di verosimiglianza crescente). Suppo-
niamo assegnato un modello statistico nel quale l’insieme dei parametri Θ è
un intervallo di IR e sia T una variabile aleatoria reale definita su Ω: si dice
che il modello è a rapporto di verosimiglianza crescente rispetto a T se, scelti
comunque θ1 < θ2 , esiste una funzione reale (strettamente) crescente a valori
positivi fθ1 ,θ2 tale che valga l’eguaglianza
L(θ2 , ω)
= fθ1 ,θ2 T (ω)
L(θ1 , ω)
Naturalmente quella definizione ha senso se le verosimiglianze sono sem-
pre strettamente positive (o al più se si annullano tutte sul medesimo sottin-
sieme di Ω).
Teorema 3.6.6 (Test unilatero). Supponiamo che il modello sia a rappor-
to di
verosimiglianza crescente rispetto
a T e consideriamo il test unilatero
H0 θ ≤ θ0 contro l’alternativa H 1 θ > θ0 ; consideriamo poi l’insieme
D = ω T (ω) ≥ d dove d è un opportuno numero. Il test di regione critica
D è tale che:
3.6. TEORIA DEI TEST STATISTICI 65
1. vale l’eguaglianza supθ≤θ0 Pθ D = Pθ0 D ;
2. D è più potente di qualsiasi altro test D∗ con livello Pθ0 D .
e da qui si ottiene L(θ1 , ω) ≤ 1c L(θ2 , ω). A questo punto si può applicare il
Lemma 3.6.4 e si trova (come conseguenza del punto 2)) Pθ2 D ≥ Pθ1 D :
poiché questo vale per ogni scelta di θ1 < θ2 , ne segue che la funzione θ →
Pθ D è crescente e pertanto si ottiene la prova del punto 1) (tra l’altro
questo semplifica notevolmente il calcolo della taglia del test, che risulta
θ0
eguale a P D ).
∗ θ0
Supponiamo inoltre che D abbia livello P D , cioè che si abbia
∗
supθ≤θ0 P D ≤ P D : prendendo un parametro θ > θ0 si ha Pθ D∗ ≤
θ
θ0
3.7 Esercizi
Esercizio 3.7.1. Consideriamo un campione X1 , . . . , Xn di variabili di Pois-
son di parametro θ, θ > 0 : che cosa si può dire circa un intervallo
di fiducia
per θ ed un test dell’ipotesi H0 θ ≤ θ0 contro l’alternativa H1 θ > θ0 ?
Esercizio 3.7.2. Si vuole verificare con quale frequenza si presenta tra i neo-
nati una certa malformazione, più precisamente si vuole verificare l’ipotesi
H0 θ ≤ 0, 02 , essendo θ la probabilità (sconosciuta) con la quale si presenta
questa malformazione: per fare questo si controllano delle cartelle cliniche di
neonati fino a quando se ne trova una nella quale compare questa malforma-
zione. Pianificare un test per decidere al livello 0,1 , sulla base del numero
di cartelle che è stato necessario verificare, se l’ipotesi può essere accettata.
Un procedimento più preciso si otterrebbe continuando a verificare car-
telle fino a quando non se ne trovano 10 contenenti questa malformazione:
esaminare se i calcoli sono agevoli in questo caso.
Esercizio 3.7.4. Consideriamo come insieme dei parametri gli interi stret-
tamente
positivi k ≥ 1 e sia mk la distribuzione di probabilità uniforme su
1, . . . , k ⊆ IN .
Sia dato un campione di taglia n e legge mk : considerare le stesse
domande dell’esercizio precedente.
ζ(θ)−1 k −θ , essendo
+∞
X 1
ζ(s) =
n=1
ns
3.7. ESERCIZI 67
Notiamo che tale insieme non è vuoto, perché esiste almeno P(E) (cioè la
famiglia di tutti i sottinsiemi di E) che contiene A. È bene inoltre ribadire
che non esiste un metodo costruttivo per caratterizzare la σ-algebra generata
da A.
2. gli intervalli semiaperti ]a, b] (oppure [a, b[ ) , con −∞ < a < b < +∞ ;
3. gli aperti di IR ;
4. i chiusi di IR .
69
70 CAPITOLO 4. PROBABILITÀ GENERALE
Diamo per scontato che il lettore sia a conoscenza della teoria della misura
e dell’integrazione secondo Lebesgue, e chiamiamo L la famiglia delle parti di
IR misurabili secondo Lebesgue: L è una σ-algebra e contiene gli intervalli,
e di conseguenza si ha l’inclusione B(IR) ⊆ L(IR).
In realtà l’inclusione è stretta ma la dimostrazione di questo fatto non
è affatto immediata. Questo può essere visto in diversi modi e forse il più
naturale è passare attraverso la cardinalità: si prova infatti che la famiglia dei
Boreliani ha la stessa cardinalità di IR (risultato tutt’altro che elementare),
mentre si può costruire un insieme C trascurabile secondo Lebesgue che ha
la stessa cardinalità di IR (l’esempio più noto è l’insieme di Cantor). Ogni
sottinsieme di C è trascurabile e pertanto misurabile secondo Lebesgue e di
conseguenza la famiglia L ha cardinalità strettamente superiore a quella dei
boreliani.
Saranno fondamentali per quanto segue i due seguenti risultati:
2. è continua a destra;
Con facili passaggi si prova che F (b) − F (a) = P ]a, b] , che F− (x)
=
limy<x ,y →x F (y) = P ] − ∞, x[ e che ∆F (x) = F (x) − F− (x) = P {x} .
Ma quello che è veramente importante è il risultato seguente, che è in un
certo senso l’inverso della Proposizione 4.1.6.
72 CAPITOLO 4. PROBABILITÀ GENERALE
se An ∈ A , An ↓ ∅ =⇒ P(An ) ↓ 0
È piuttosto noioso (ma per niente difficile) verificare che, qualunque sia
x, ϕn (x) ≤ ϕn+1 (x) e che limn→∞ ϕn (x) = f (x).
R Si verifica facilmente
R che,
R se f, g sono misurabili positive
R ed a > 0,
R si ha
(af + g)dm = a f dm + gdm ; inoltre se f ≤ g, allora f dm ≤ gdm.
Consideriamo ora una generica funzione misurabile f , e poniamo f + =
f ∨ 0 = max(f, 0) e f − = −(f ∧ 0) = − min(f, 0) : entrambe sono funzioni
misurabili (è una verifica immediata) e si ha |f | = f + + f − e f = f + − f − .
Definizione 4.2.10 (Funzione integrabile
R e integrale). Si dice che la
funzione misurabile f è integrabile se |f |dm < +∞, e in tal caso si chiama
integrale di f il numero
Z Z Z
f dm = f dm − f − dm .
+
Lo spazio delle funzioni integrabili viene indicato L1 E, E, m (o più
semplicemente LR1 se non c’è ambiguità):
R se Rf, g ∈ L1 ed a è un numero
qualsiasi,
R si haR (af + g)dm = a f dm + gdm. R Mentre l’eguaglianza
R
R af dm = a. f dm è immediata, l’eguaglianza (f + g) dm = f dm +
g dm è conseguenza di questo fatto che lasciamo provare come esercizio:
R f = g −R h dove g,
se R h sono misurabili, a valori positivi e integrabili, si ha
f dm = g dm − h dm .
Teorema 4.2.11 (Convergenza dominata). Sia (fn )n≥1 una successione
di funzioni misurabili convergente puntualmente ad f e supponiamo che esista
g integrabile a valori positivi tale che si abbia, per ogni x ∈ E , |fn (x)| ≤
g(x) : allora si ha Z Z
lim fn dm = f dm .
n→∞
è un elemento di F.
La legge di probabilità della coppia (X, Y ) è l’immagine di P mediante
l’applicazione (X, Y ): è quindi una probabilità su B(IR2 ). Il Teorema 4.3.4
si estende senza difficoltà al caso vettoriale, in particolare presa ϕ : IR2 → IR
boreliana e limitata, vale la formula
Z ZZ
ϕ X(ω), Y (ω) dP(ω) = ϕ(x, y) dPX,Y (x, y)
Ω IR2
Nella parte destra della formula sopra scritta si può scambiare l’ordine di
integrazione, inoltre quando vengono scritte delle integrazioni successive (se
non vi sono parentesi) vengono svolte da destra verso sinistra: scriveremo
cosı̀ più semplicemente
ZZ Z Z
ϕ(x, y) dP⊗Q (x, y) = dP(x) ϕ(x, y) dQ(y)
IR2 IR IR
Proposizione 4.4.3. Sia (X, Y ) una variabile doppia con densità f (x, y):
anche le componenti X ed Y ammettono densità f1 ed f2 che soddisfano le
formule
Z +∞ Z +∞
f1 (x) = f (x, y)dy f2 (y) = f (x, y) dx
−∞ −∞
Proposizione 4.4.5. Sia (X, Y ) una variabile doppia con densità: le va-
riabili X e Y sono indipendenti se e solo se tra le densità vale la seguente
relazione (quasi ovunque)
d h−1 (y)
Z
= ϕ(y) f h−1 (y) dy
B d y
∂x ∂x
g(u, v) = f x(u, v), y(u, v) . ∂u
∂y
∂v
∂y
∂u ∂v
a b
dove con si intende il valore assoluto del determinante della matrice
c d
a b
.
c d
4.5. ESEMPI 89
1 − x2 +∞ − 12 √2y− √x 2
Z +∞ Z
1
− 21 y 2 +(x−y)2
g(x) = e dy = e 4 e 2 dy
2π −∞ 2π −∞
√
Facendo il cambio di variabile 2y − √x2 = t , l’integrale sopra scritto
risulta eguale a
x2 +∞
1 e− 4
Z
t2 1 1 x2
√ e− 2 dt = √ √ e− 4
2π 2 −∞ 2π 2
cioè (X + Y ) ∼ N (0, 2).
1 1
Esercizio 4.5.6. Se X ∼ N (0, 1), allora X 2 ∼ Γ ,
2 2
.
92 CAPITOLO 4. PROBABILITÀ GENERALE
Dimostrazione. È sempre
Snuna
conseguenza della diseguaglianza di Chebi-
Sn 1
K che E n = m e che V ar n = n2 V ar(X1 ) + · · · +
shev, osservando
V ar(Xn ) ≤ n .
Esercizio 4.6.3. Sia (Xn )n≥1 una successione di variabili aleatorie dotate di
momento secondo e supponiamo che
lim E Xn = c lim V ar Xn = 0
n→∞ n→∞
Definizione
4.6.6 (Convergenza in legge). Si dice che la successione di
v.a. Xn n≥1 converge in legge (o anche in distribuzione) alla v.a. X se per
ogni f : IR → IR continua e limitata, si ha
lim E f Xn = E f X
n→∞
Z Z Z Z
f − ϕ dF ≤ |f | dF + |f − ϕ| dF + |f | dF ≤
]−∞,−M ] ]−M,M ] ]M,+∞[
≤ F (−M ) + ε + 1 − F (M ) ≤ 3ε
R
In modo analogo si prova che si ha |f − ϕ| dFn ≤ 5ε .
Si ottengono allora le disuguaglianze:
4.7. APPENDICE 95
Z Z Z Z Z Z
f dFn − f dF ≤ |f −ϕ| dFn + ϕ dFn − ϕ dF + |f −ϕ|dF ≤ 9ε
Alla luce del risultato precedente, il Teorema 2.7.5 (teorema Limite Cen-
trale per variabili Binomiali) può essere visto come un risultato di convergen-
za in Legge. In verità quel risultato è valido in ipotesi molto più generali, e la
dimostrazione è lasciata ad un corso più avanzato: tuttavia è comodo poter
utilizzare subito questo risultato generale. Quello che viene qui enunciato,
senza dimostrazione, è il Teorema Limite Centrale di Paul Lévy:
Sn − nµ √ X n − µ
√ = n
nσ σ
4.7 Appendice
4.7.1 Alcune leggi di probabilità di rilevante interesse
in Statistica
Prima di illustrare alcune leggi di probabilità di rilevante interesse nell’infe-
renza statistica, introduciamo la definizione di quantile: data una funzione
di ripartizione F ed un numero 0 < α < 1, intuitivamente lo α-quantile è
96 CAPITOLO 4. PROBABILITÀ GENERALE
Le leggi di probabilità che vengono ora esposte, sono state introdotte per
l’applicazione a problemi di inferenza statistica.
Il motivo per cui è stato dato un nome particolare a questa legge Gamma
è il seguente: se (X1 , . . . , Xn ) sono indipendenti gaussiane N (0, 1) , allora
X12 + · · · + Xn2 ha legge χ2 (n) (la prova di questo fatto è una conseguenza
immediata dell’Esercizio 4.5.6 e della Proposizione 4.5.2).
Per agevolare i conti con questa particolare legge di probabilità, sono state
predisposte le tavole della legge Chi-quadro: più precisamente, in funzione
dei gradi di libertà n e del numero α, queste tavole assegnano il valore χ2(α, n)
dello α–quantile
della
legge χ2 (n) (cioè, per una variabile X con densità χ2 (n)
si ha P X ≤ χ2(α, n) = α ).
h √ i √
nX
= {−∞<x<+∞ , y>0} ϕ √nyx f1 (x)f2 (y) dx dy
RR
E ϕ √
Y
R +∞ R +∞ √
= 0 f2 (y) dy −∞ ϕ √nyx f1 (x) dx
R +∞ R +∞ √ √
t y y
= 0 f2 (y) dy ∞ ϕ(t)f1 √n √n dt
R +∞ h R +∞ √ √ i
t y y
= −∞ ϕ(t) 0 f1 n f2 (y) n dy dt
√ √
√
nX
e ne segue che la densità di √
Y
è la funzione
Z +∞ t √y √
y
g(t) = f1 √ f2 (y) √ dy
0 n n
Inserendo al posto di f1 ed f2 i valori delle densità, e portando avanti conti
faticosi anche se non difficili, si prova che la densità g è data da g(x) =
2 − n+1
cn 1 + xn 2
dove cn è una opportuna costante.
Per poter fare dei conti effettivi, sono state predisposte le tavole della
legge di Student: in funzione dei gradi di libertà n e di α, riportano il valore
t(α, n) dello α–quantile della legge τ (n)).
Poiché T ha una legge simmetrica (cioè la sua densità è una funzione pari)
si constata facilmente che vale l’eguaglianza t(α n) = −t (1−α ,n) ; ne segue che
se serve individuare un numero t tale che si abbia P |T | > t = α , questo
numero è dato da t = t(1− α2 ,n) .
Definizione 4.7.4 (Legge di Fisher). Siano Cn e Cm due variabili indi-
pendenti con legge rispettivamente χ2 (n) e χ2 (m) : si chiama legge di Fisher
Fn,m la legge di
Cn /n
Cm /m
Il calcolo della densità di tale variabile può essere condotto con passaggi
analoghi a quelli appena fatti: la densità risultante è evidentemente
n
nulla
x 2 −1
sulla semiretta negativa, e per x positivo vale c(n, m) n+m .
(m+nx) 2
Anche per la legge di Fisher sono state compilate opportune tavole che
danno, per alcuni valori di α, lo α-quantile della legge Fn,m .
98 CAPITOLO 4. PROBABILITÀ GENERALE
4.8 Esercizi
Esercizio 4.8.1. Sia X una v.a. con densità a valori positivi: provare che
vale la formula
100 CAPITOLO 4. PROBABILITÀ GENERALE
Z +∞
E[X] = P X > x dx
0
Esercizio 4.8.7. Sia (X, Y ) una variabile aleatoria doppia con densità con-
giunta
Esercizio 4.8.9. Sia (Xn )n≥1 una successione di variabili aleatorie indipen-
denti uniformemente distribuite sull’intervallo [0, 1] e siano rispettivamente
Mn = max(X1 , . . . , Xn ) e Vn = min(X1 , . . . , Xn ).
a) Calcolare le densità di Mn e Vn .
b) Indagare sulla convergenza in probabilità delle due successioni (Mn )n≥1
e (Vn )n≥1 .
102 CAPITOLO 4. PROBABILITÀ GENERALE
Capitolo 5
b) F è la σ-algebra di Borel su Ω ;
103
104 CAPITOLO 5. STATISTICA SU UNO SPAZIO GENERALE
dove h., .i è il prodotto scalare in IRk . Con questa definizione più generale il
Teorema 5.2.2 rimane vero ed il principio della dimostrazione non cambia, è
solo un poco più complicato.
Vediamo ora la dimostrazione del Teorema 5.2.2.
R
Dimostrazione. Poichè si deve avere f (θ, x) dx = 1, ne segue che
Z −1
c(θ) = exp θ T (x) g(x) dx = exp − ψ(θ)
Osservazione 5.2.3. Vediamo perché (come è stato affermato nel corso del-
θ
la dimostrazione) necessariamente V ar T (Xi ) > 0 : ricordo che solo le
costanti hanno varianza 0, e se T (x) fosse costante (quasi ovunque) la den-
sità f (θ, x) sarebbe proporzionale alla funzione g(x) e in definitiva queste
densità sarebbero tutte eguali tra loro e questo contraddice l’ipotesi che a
due parametri θ1 e θ2 diversi corrispondono due probabilità Pθ1 e Pθ2 diver-
se. Appare chiaro quindi che non si può avere V arθ T (Xi ) = 0 per ogni
parametro θ, ma si potrebbe obiettare che potrebbe essere eguale a 0 magari
per un solo θ ∈ Θ .
In realtà non è cosı̀ : la variabile T (Xi ) o è una costante per ogni pro-
babilità Pθ o non lo è per nessuna (e quindi ψ 00 (θ) o è sempre 0 oppure è
sempre strettamente positivo). Infatti le probabilità definite dalle densità
f (θ, x) ammettono gli stessi insiemi trascurabili (nel linguaggio della teoria
della misura sono equivalenti ), e ricordiamo che la densità f (θ, x) è la densità
della variabile Xi sotto Pθ . Ricordando che una funzione a valori positivi
ha integrale 0 se e solo se è nulla fuori di un insieme trascurabile, e poiché
exp θ T (x) è sempre strettamente positivo, un boreliano A è trascurabile
per la densità f (θ, x) se e solo se g(x) è nulla quasi ovunque sull’insieme A
(rispetto alla misura di Lebesgue): questa condizione dunque non dipende
dal parametro θ .
+∞ h cn−1 cn−2
Z
1 i
(1 − α) = xn−1 e−x dx = e−c + +···+c+1
(n − 1)! c (n − 1)! (n − 2)!
essere fatto, con passaggi simili a quelli sopra indicati, ma i conti espliciti
diventano complicati.
Possiamo allora accontentarci di una maggiorazione ottenuta con la dise-
guaglianza di Chebishev:
P
P V ar2 i Xi 2
X i 1 n V ar X i 1
P2 i − ≥ c ≤ 2
= 2
=
n 2 c nc 4nc2
−1/2
Prendendo c = 4nα si ottiene la diseguaglianza voluta.
5.5 Esercizi
Esercizio 5.5.1. Consideriamo un campione di taglia n di v.a. con densità
−(x−θ)
e x≥θ
f (θ, x) =
0 x<θ
dove 0 < θ < +∞.
a) Indagare se esiste una statistica esaustiva T e la stima di massima
verosimiglianza di θ.
b) Esaminare se tale stima è corretta.
Si vuole esaminare ora il test dell’ipotesi
113
114 CAPITOLO 6. STATISTICA SUI MODELLI GAUSSIANI
c) la variabile
√ √ X
n n − 1 qP 2
i≤n Xi − X
ha densità di Student T (n − 1) .
c) la variabile √
n X −m
S
ha densità di Student T (n − 1) .
Dimostrazione. Possiamo scrivere Xi = σ Yi + m , dove Y1 , . . . , Yn sono indi-
pendenti con densità N (0, 1) e si applicano i risultati appena ottenuti nella
Proposizione 6.1.2
Si hanno infatti le seguenti eguaglianze:
X = σY + m;
− X)2
P
i (Xi
X
= (Yi − Y )2 ;
σ2 i
√ √
n X −m nσY √ √ Y
= q P = n n − 1 qP 2 .
S σ2 i (Yi −Y )
2
Yi − Y
n−1 i≤n
1 P (x − m)2
2 i i
L m, σ ; x1 , . . . , xn = n exp − =
(2π) 2 σ n 2 σ2
116 CAPITOLO 6. STATISTICA SUI MODELLI GAUSSIANI
x2i m X n m2
P
−n i
= (2π) 2 exp − + 2 xi − − n log σ
2 σ2 σ i
2 σ2
L’insieme dei parametri Θ è IR×]0, +∞[ e come d’abitudine, indichiamo
con X1 , . . . , Xn le proiezioni coordinate.
Si dice che la media è nota se il parametro m è fisso (e di conseguenza come
insieme dei parametri si considera Θ =]0, +∞[ ) ed analoga è naturalmente
la definizione di modello con varianza nota.
h P X − X 2 i
i i
E = V ar X1
n−1
La prova di questo fatto è lasciata per esercizio.
Notiamo che abbiamo appena indicato una funzione del parametro e della
variabie X la cui legge non dipende dal parametro m: possiamo dunque
agevolmente utilizzare il metodo della quantità pivot cercando un intervallo
di fiducia della forma [X(ω) − d , X(ω) + d] , con d tale che
n √n d√ n
m m
P X −m >d =P X − m > ≤ 0, 05
σ σ
118 CAPITOLO 6. STATISTICA SUI MODELLI GAUSSIANI
n o n √n √ o
n
m0 m0
0, 02 = P X − m0 ≥ d = P X − m0 ≥ d
σ σ
√
e di conseguenza si sceglie σn d = q0,98 = 2, 055 . Si rifiuta quindi l’ipotesi se
X(ω) (cioè la media aritmetica dei dati osservati) supera m0 + 2,055 √ σ .
n
al livello α .
al livello α .
Si tratta di un test unilatero sulla varianza, e si arriva alla regione critica
nX 2 o
D = Xi − X ≥ c
i
verosimiglianza è data da
n
Y k
Y
L m1 , m2 , σ12 , σ22 ; x1 , . . . , xn , y1 , . . . , yk ) = fm1 ,σ22 (xi ) fm2 ,σ22 (yj )
i=1 j=1
mentre il test dell’ipotesi H0 m1 ≤ m2 avrà regione critica
n o
D = Zn,k ≥ t(1−α , n+k−2) .
Esempio 6.4.4. Le misurazioni delle tibie da scheletri provenienti dalle
tombe Etrusche di Cerveteri danno i seguenti risultati:
(xi − x)2
P
13 misurazioni x = 47, 2 = 7, 92 ,
12
mentre analoghe misurazioni dalle tombe di Ladispoli portano a
(yj − y)2
P
8 misurazioni y = 44, 9 = 9, 27 .
7
Il risultato è casuale o si può affermare (al livello 0,05) che gli abitanti di
Cerveteri erano effettivamente più alti?
Consideriamo i dati come risultati ottenuti su due campioni gaussiani
indipendenti: per prima cosa ci poniamo il problema se possiamo considerare
eguali le due varianze. Vogliamo più precisamente effettuare, al livelo 0,05,
il test
H0 σ22 = σ12 H1 σ22 > σ12
contro
(infatti, poiché la stima della varianza sul secondo campione risulta maggiore,
non ci poniamo il problema che σ22 possa essere minore: o è eguale, cioè il
risultato è casuale, o è effettivamente maggiore).
9,27
Dalle tavole si ricava il valore F(0,95 ; 7,12) = 2, 91 , e poiché 7,92 = 1,17 ,
accettiamo l’ipotesi dell’eguaglianza tra le due varianze.
A questo punto possiamo effettuare il test dell’ipotesi
H0 m1 = m2 contro H1 m1 > m2
I valori osservati per la variabile Z13 , 8 portano a 1,761. Poiché t(0,95 ;19) =
1,729 , si rifiuta l’ipotesi e si conclude (al livello 0,05 ) che gli abitanti di
Cerveteri erano effettivamente più alti.
126 CAPITOLO 6. STATISTICA SUI MODELLI GAUSSIANI
Xi = θ1 + θ2 zi + · · · + θk zik−1 + σWi
con z1 6= z2 6= · · · =
6 zn (e k < n).
1 z1 . . . z1k−1
A= ...
k−1
1 zn . . . zn
0 = hAt A y, yi = hA y, A yi = kA yk2
cioè X XX
atij xj = atij ajs ys
j j s
cioè, come si usa dire, si stimano i parametri col metodo dei minimi
quadrati.
Osservazione 6.5.7 (Una curiosità storica). È facile verificare che Gauss
è morto un anno prima che nascesse Markov, e viene dunque naturale chieder-
si come possano aver trovato un teorema insieme: in realtà la formulazione
del Teorema 6.5.5 come è enunciata sopra è una rielaborazione dovuta a
Markov del metodo dei minimi quadrati ideato da Gauss.
Il primo utilizzo di questo metodo è stata fatto per risolvere un proble-
ma di astronomia: nel 1801 l’astronomo Piazzi aveva scoperto Cerere (il
più grande degli asteroidi del sistema solare interno) e ne aveva seguito la
traiettoria per qualche giorno, poi Cerere era diventato invisibile.
Le misurazioni effettuate vennero pubblicate e ne nacque una specie di
sfida scientifica per ricostruire la traiettoria del pianetino: Gauss (che aveva
solo 24 anni) a partire dalle misurazioni effettuate da Piazzi e ideando il me-
todo dei minimi quadrati, ricostruı̀ la traiettoria di Cerere e previde quan-
do e dove sarebbe riapparso. Dopo alcuni mesi Cerere venne nuovamente
osservato proprio dove Gauss aveva previsto.
6.6 Esercizi
Esercizio 6.6.1. Vengono prodotti artigianalmente dei manufatti che do-
vrebbero essere lunghi 120 cm, e si considera che la produzione e’ buona se
almeno il 90 % hanno una lunghezza compresa tra i 118 ed i 122 cm : assu-
mendo che la variabile aleatoria che rappresenta la lunghezza dei manufatti
130 CAPITOLO 6. STATISTICA SUI MODELLI GAUSSIANI
sia gaussiana, imporre delle limitazioni sulla varianza affinchè tale condizione
sia soddisfatta. P 2
Se vengono misurati 27 pezzi e si trova i≤27 xi − 120 = 54, 86 , si può
accettare al livello 0,05 l’ipotesi che la produzione sia di buona qualità ?
2
P
i≤n (Xi −X n )
e Sn2 = n−1
.
Xn+1 −X n
a) Determinare la distribuzione di probabilità di Sn
;
b) ottenere un intervallo di fiducia per la variabile sopra scritta e dedurne
un intervallo di previsione per Xn+1 dati X1 , . . . , Xn .