Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Statistica I
OBIETTIVO DEL CORSO E RISULTATI DI APPRENDIMENTO ATTESI
prof. Diego Zappa Trattasi di un corso a contenuto prevalentemente metodologico, in cui vengono presentati i
principali argomenti relativi alle macro-aree (a) statistica descrittiva, (b) calcolo delle probabilità e
campionamento.
Appunti ad uso degli studenti I principali macro-argomenti saranno: indici sintetici per variabili unidimensionali, introduzione
allo studio di fenomeni bivariati, schemi di campionamento e costruzione di variabili casuali
campionarie. Il corso prevede lo svolgimento di lezioni a contenuto sia metodologico sia applicato,
senza soluzione di continuità.
Al termine del corso i partecipanti sapranno come si effettua la sintesi informativa di una variabile
statistica (o di più variabili statistiche), comprendere i primi rudimenti relativi allo studio di
fenomeni aleatori.
0.5 n fissato alfa=5%
0.6
0.7
PROGRAMMA DEL CORSO
120
0.8
0.9 110
1 100
1.1
1.2 90
1.3
1.4
1.5 1/lamda
80
70
OBIETTIVI FORMATIVI CHE LO STUDENTE POTREBBE ACQUISIRE NEL CORSO
1.6
1.7
1.8
1.9
n 60
50
I parte: statistica descrittiva
2
2.1
2.2
40
30 Dopo avere descritto il contenuto delle scienze statistiche, verrà introdotta la tassonomia dei
2.3
caratteri statistici, di cui si proporranno le principali rappresentazioni tabellari e grafiche.
20
-10 2.4
-85
-86
-87
-88
-89
-90
-91
-92
-93
-94
-95
-96
-97
-98
-99 2.5 10
5.5
0
5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
4.5
Seguirà la presentazione dei principali indici per descrivere variabili statistiche unidimensionali e
0 sigma
4
3.5
6
3
5.5 5
2.5
4.5 4
gdl
2
3.5 3
1.5
delta 2.5 2
1
0.9
0.8 0.8
0.7
– Indici di dispersione e indici di variabilità globale.
0.6
0.6
– Indici di forma.
Seguirà l’introduzione all’analisi statistica di fenomeni bidimensionali, di cui si commenteranno i
0.5
0.4
0.4
0.2 0.3
0.2
concetti di dipendenza e di indipendenza in presenza di:
0 0.1
– simmetria informativa (indici di connessione e concetto di indipendenza stocastica);
-2 0 2 4 6 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5
– asimmetria informativa (introduzione ai modelli di regressione lineari nei parametri, impiego del
Distrib H0 Distrib H1 c0
metodo dei minimi quadrati e misure di adattamento ai dati).
Boostrap media campionaria mediana semisomma
2
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
LUOGO e ORARIO RICEVIMENTO Avvertenza: il materiale potrà subire aggiornamenti durante il corso
Orario e luogo di ricevimento
Il Prof. Diego Zappa riceve gli studenti come da avviso pubblicato sul sito www.unicatt.it presso il delle lezioni
Dipartimento di Scienze statistiche (edificio di via Lanzone, 18, III piano).
(controllare pagina web http://docenti.unicatt.it/ita/Diego_Zappa )
3 4
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
oooooooo e si definisce
𝑛
𝑓
𝑁
𝑛
𝑓 1
𝑁
5 6
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
lo La funzione di retro-ripartizione è
R. Effettuando lo spoglio di A si ottiene
i A ni fi
dove - E,F,I,S sono le k=4 modalità 10
- 3,3,2,2 sono frequenze assolute 1 E 3 0.3 --
2 F 3 0.3 -316 𝑛
𝐹 ≡𝐺 𝑓 𝑝𝑒𝑟 𝑗 1, … , 𝑘
[ri=
- 0.3, 0.3, 0.2, 0.2 sono frequenze
3 I 2 0.2 /10->
𝑁
relative
313Ant 10
=
4 S 2 0.2 21,0
->
N=10 F=1
oooooooo oooooooo
X ni fi Fj Gj
Funzione di ripartizione il luogo dei punti (xj , Fj), dove
Di
648 3 0.3 0.3 1
masto
649 1 0.1 0.4 0.7
650 3 0.3 0.7 0.6
𝑛 651 2 0.2 0.9 0.3
𝐹 𝑓 𝑝𝑒𝑟 𝑗 1, … , 𝑘 652 1 0.1 1 0.1
𝑁
N=10 1
7 8
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
oooooooo
Caratteri quantitativi
Rappresentazioni Grafiche - Discreti
o Istogrammi
Caratteri qualitativi in ordinata: frequenze assolute o relative
- Barre
o in ordinata: frequenze assolute o relative
o Torte
o ...
Dati
Giorno Prezzo Titolo X
chiusura
Titolo X
7.25
7.20
7.15
pêdoktzzäwwçèûpörêadênto
1 6.99 7.10
7.05
2 7.10 7.00
3 7.04 6.95
6.90
4 7.12 6.85
5 7.21 1 2 3 4 5 6 7 8
giorno
6 7.08
7 7.18
8 7.16
9 10
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
oooooooo
- Continui
Esempio serie storica (15/07/2011) o Istogrammi (a barre contigue)
La seguente tabella riporta le serie di dati raccolti nell’arco di 12 giorni su: in ordinata: densità di frequenza (frequenze
S=Spread medio giornaliero di rendimento BTP-Bund, D=presenza/assenza ridotte) di=ni/wi
in giornata di decisioni sul rating del debito pubblico di qualche paese
europeo. dove wi=ampiezza della classe (ovvero xi
xi-1 )
Giorno 1 2 3 4 5 6 7 8 9 10 11 12
S 177 180 185 180 190 210 200 185 240 280 340 260
1.1. Raggruppamento in classi di ampiezza costante 0.05
Si raccolgano i dati della variabile S nelle classi 170|200, 200|250, Classi: xi-1 | xi ni
2.5
11 12
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
S Classi_S1 Classi_S2
1.3. Raggruppamento in classi di ampiezza non costante
177 170-|200 (170,200]
Classi: xi-1 | xi ni Wi ni 180 170-|200 (170,200]
di =w 185 170-|200 (170,200]
i 180 170-|200 (170,200]
190 170-|200 (170,200]
6.95 | 7.05 2 0.1 20 210 200-|250 (200,250]
7.05 | 7.15 3 0.1 30 200 170-|200 (170,200]
7.15 | 7.20 2 0.05 40 185 170-|200 (170,200]
240 200-|250 (200,250]
7.20 | 7.25 1 0.05 20 280 250-|350 (250,350]
340 200-|250 (250,350]
260 250-|350 (250,350]
SBAGLIATO CORRETTO
3.5 45
Classi_S1 ni wi di
3 40 170-|200 7 30 7/30
35 200-|250 2 50 2/50
2.5
30 250-|350 3 100 3/100
d e n s ità d i
2 25
fre q
fre q
1.5 20
1 15
10
0.5
5
0 0
6.9 6.95 7 7.05 7.1 7.15 7.2 7.25 7.3 6.9 6.95 7 7.05 7.1 7.15 7.2 7.25 7.3
-o-o-o-o-o-o-o-o-
Esempio di istogramma con classi di ampiezza non costante (prova
15/07/2011)
Giorno 1 2 3 4 5 6 7 8 9 10 11 12
S 177 180 185 180 190 210 200 185 240 280 340 260 -o-o-o-o-o-o-o-o-
Si raccolgano i dati della variabile S nelle classi 170|200, 200|250,
250|350 e si chiami la nuova serie S*. Rappresentare, con opportuni
grafici, S*.
13 14
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Caratteri numerabili X ni fi Fj Gj
PFONZLONE
A GRaD
.N,
648 3 0.3 0.3 1
Età in anni Freq rel Fi 649 1 0.1 0.4 0.7
compiuti
18 0.05 0.05 1 650 3 0.3 0.7 0.6
19 0.20 0.25 651 2 0.2 0.9 0.3
0.8
20 0.40 0.65 652 1 0.1 1 0.1
21 0.15 0.80 N=10 1
0.6
22 0.10 0.90
23 0.10 1.00
0.4
0.2
0
16 17 18 19 20 21 22 23 24 25
0.2
0
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
oooooooo
15 16
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
d e n s ità d i
25
fre q
20
1. Internalità : 15
𝑥 min 𝑿 𝑿 max 𝑿 𝑥 10
5
0
6.9 6.95 7 7.05 7.1 7.15 7.2 7.25 7.3
2. Moltiplicativa (proporzionalità)
𝑐𝑿 𝑐 𝑿
𝑿≼𝒀
17 18
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
*I InCEDERE
CHE
Ci siano più Caratteri numerabili
autre.c.
Percentile di ordine p : xp (o x(p)) con 0<p<1 Di uguale
ordine
Con l’impostazione A
“modalità o classe che occupa la posizione p-esima di una mosz
distribuzione ordinata di valori” Età in anni Freq rel Fi Retro-
compiuti ripartizione
A) 18 0.05 0.05 1
1
le
I quartile
④õ↳ 19 0.2 0.25 0.95
-
-
I
Q UA R T I E
I quartie
I
* quartile / Mediana 20 0.4 0.65 0.75
𝑥 : 𝑓 𝑝 ∧ 𝑓 1 𝑝 >
->
III quartile 21 0.15 0.8 0.35
- nono decile
nono decile
22
23
S 0.1
0.1
0.9
1
0.2
0.1 I
B) sia F(X) la funzione di ripartizione. Allora 1) si Zf!
s t avo
t rova mesi a n a
I
3)
guaina
2) Trov
y 0.85 =
𝑥 ∶𝐹 𝑥 𝑝 Con l’impostazione B
il
è
non
reciproco
)
- Se F è una funzione invertibile allora, 𝐹 𝑝 𝑥 1.1
1
- Se non esiste inversa, la soluzione potrebbe non essere 0.9
unica 0.8
0.7
0.6
0.4
0.2
0.1
p=0.75 (x0.75=III quartile) 0
16 17 18 19 20 21 22 23 24 25
19 20
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Tutti i valori
{x : x < x0.25 RI 1.5 x > x0.75+ RI 1.5 }
vengono chiamati “outlier”.
x(n)=7
Esempio
x0.75=5
Sia
xi ni Fj Gj
X={1,2,2,3,4,5,5,5,7} ovvero 1 1 1/9 1
7
x0.5=4
2 2 3/9 8/9
Da cui
3 1 4/9 6/9
x(1)= 1
e 3
2-. (5-.]..5 4 1 5/9 5/9
x0.25=2 5 3 8/9 4/9 x0.25=2
x0.5=4 7 1 1 1/9
x(1)=1
x0.75=5
x(n)= 7
RI= 5-2=3
RI1.5= 4.5
23 24
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Box-Plot (rappresentazione “orizzontale”) > boxplot(D, range=1.5, border=1, col="grey", ylab="D", yaxt="n")
> axis(2, c(quantile(D), 3.5), cex.axis=.8)
x(1)=1 x(n)=7
-o-o-o-o-o-o-o-o-
Esempio di boxplot (21/06/2012)
D 2 0 1 1 3 2 1 0 2 4
A E F S I E S I F F E -o-o-o-o-o-o-o-o-
0%
0.0 oo
25%
1.0
50%
1.5
75% 100%
2.0 4.0
4 3 2
+ [ .
z..3.
s
7
25 26
u 3 V
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Medie analitiche
N.B.
Si consideri X o una sua trasformazione g(X)
1- 𝑀 𝑋 ∑ 𝑥 𝑛 prende il nome di momento
Per variabili X non negative o trasformazioni g(X) su supporto ℝ ,
si definisce media potenziata di ordine r di X ( o di g(X) ) dall’origine di ordine r che è definito anche per variabili X
non positive o sue trasformazioni g(X).
𝑀 𝑋
=>
-
1
𝑁 zigem 𝑥 𝑛 𝑥 𝑓 ≡𝜇
2- Mr(X) per r=1 si chiama media (aritmetica) di X
𝑀 𝑋
1
𝑁
𝑥 𝑛 ≡ 𝑥̅ ≡ 𝜇
1
1 𝑀 𝑔 𝑋 𝑔 𝑥 𝑛 ≡𝑔 𝑋 ≡𝜇 𝑔 𝑋
𝑀 𝑔 𝑋 𝑔 𝑥 𝑛 𝑔 𝑥 𝑓 ≡𝜇 𝑔 𝑋 𝑁
𝑁
3- se X è in classi, per la classe xi1|xi si considera, per
xi+xi1
convenzione, il solo valore centrale 2 := cxi
Proprietà di 𝑀 𝑋
27 28
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
↓
B) Qual è la soluzione a 𝜃: ∑ 𝑔 𝑥 𝜃 𝑓 0 ovvero
𝜃: 𝑀 𝑔 𝑋 𝜃 =0 ?
C) Qual è la soluzione a
min 𝑔 𝑥 𝜃 𝑓 min 𝑀 𝑔 𝑋 𝜃
si ha per 𝜃 𝑔 𝑋
29 30
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
0 𝑥 𝑓 𝑥 𝑓 2𝑥 𝑥 𝑓 𝑥 𝑓 𝑥 𝑓 𝑉𝐸𝑅𝑂 !
=
𝑥 𝑓 f 1
f,x0,5
=
-
-
con 𝑓 𝑓 e𝑥 𝑥 . Dimostrare che
𝑀 𝑋 𝑀𝑒 𝑋 𝑀 𝑋 𝑀 𝑋
↳.wonQue e -
media quadrati
MEDIA
certi
Della
𝑀 𝑋 𝑀𝑒 𝑋 𝑥 𝑥 𝑓 𝑥 𝑥 𝑓
𝑥 𝑓 𝑥 𝑓 2𝑥 𝑥 𝑓 4[x 1] -
E(Xi x)f=
=
-
𝑀 𝑋 𝑀 𝑋 𝑥 𝑥 𝑓 𝑥 𝑓 𝑓
𝑥 𝑓 𝑥 1 𝑓 𝑥 𝑓 𝑥 1 𝑓
=(x- n)fr =
𝑥 𝑓 𝑥 1 𝑓 𝑥 𝑓 𝑥 1 𝑓 2𝑥 𝑥 𝑓 1 𝑓
𝑥 𝑓 𝑥 𝑓 2𝑥 𝑥 𝑓
𝑥 𝑓 𝑥 1
𝑥 𝑓 𝑥 1
𝑓
𝑓 2𝑥 𝑥 𝑓 1 𝑓
fr(=1 1) -
0
𝑥 𝑓 2𝑥 𝑥 𝑓
𝑥 1 𝑓
𝑥 𝑓 𝑥 𝑥 𝑓 2𝑥 𝑓 2𝑥 𝑥 𝑓 1 𝑓
31 32
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
ovvero
𝜎 𝑀 𝑋 𝜇 𝑥 𝜇 𝑓
1
𝑅 𝜃 |𝑥 𝜃| 𝑛 |𝑥 𝜃| 𝑓 per 𝑟 0
𝑁
𝑥 𝑓 𝜇 𝑓 2 𝑥 ∙𝜇 𝑓
Proprietà di 𝑅 𝜃 𝑀𝑋 𝜇 2𝜇 𝑀𝑋 𝜇
- 𝑅 𝜃 0 ∀𝑟 ≔ 𝑉𝑎𝑟 𝑋
- Per 𝑟 𝑟 vale 𝑅 𝜃 𝑅 𝜃
33 34
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
x a
=
by
+
↑(a by
+
-
(a-
ry))) 624T(y
=
-
my)) 6Var(t)
=
Si dimostri che
- NON è un operatore lineare
𝑉𝑎𝑟 𝑏𝑋 𝑐𝑌 𝑉𝑎𝑟 𝑏𝑋 𝑉𝑎𝑟 𝑐𝑌
Se 𝒀 𝒂 𝒃𝑿 allora
𝑉𝑎𝑟 𝑏𝑋 𝑐𝑌 𝑉𝑎𝑟 𝑏𝑋 𝑉𝑎𝑟 𝑐𝑌 2𝑏𝑐 𝑉𝑎𝑟 𝑋 𝑉𝑎𝑟 𝑌
𝑉𝑎𝑟 𝑌 𝑀 𝑌 𝜇 𝑀 𝑎 𝑏𝑋 𝑎 𝑏𝜇 𝐶𝑜𝑣 𝑋, 𝑌 𝑉𝑎𝑟 𝑋 𝑉𝑎𝑟 𝑌
𝑀 𝑏𝑋 𝑏𝜇 𝑀𝑏 𝑋 𝜇
Poiché
𝑏 𝑀 𝑋 𝜇 𝑏 𝑉𝑎𝑟 𝑋
𝐶𝑜𝑣 𝑋, 𝑌
𝜌
W Y a
𝑉𝑎𝑟 𝑋 𝑉𝑎𝑟 𝑌
0
=
Se 𝒀 𝒂 𝒃𝑿
E 𝒄𝒁
E allora
y zw Y
=
+
-
dove 𝜌 (vedi argomenti su regressione) è il coeff di correlazione
War(y)= lineare che è sempre 1, si ha che la diseguaglianza è vera!
𝑉𝑎𝑟 𝑌 𝑀 𝑌 𝜇
Var(w) +
N.B.
𝑀 ~
𝑎 𝑏𝑋 𝑐𝑍 𝑎
~ 𝑏𝜇 𝑐𝜇
+Var(y) - la varianza di una combinazione lineare è maggiore della
+ 2.2. Cou combinazione lineare delle varianze
𝑀 𝑏𝑋 𝑐𝑍 𝑏𝜇 𝑐𝜇 - lo scarto quadratico medio di una combinazione lineare è minore
(w,y) della combinazione lineare degli scarti quadratici medi
EC
𝑀 𝑏𝑋 𝑏𝜇 𝑀 𝑐𝑍 𝑐𝜇 RAGGRUPPO
2𝑀 𝑏𝑋 𝑏𝜇 𝑐𝑍 𝑐𝜇
Eranormato
𝑏 𝑉𝑎𝑟 𝑋 𝑐 𝑉𝑎𝑟 𝑍 2𝑏𝑐 𝑀 𝑋 𝜇 𝑍 𝜇
35 36
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
37 38
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Si deduce che
Esempio guida
fij
X|Y=yj (ovvero avendo fissato la colonna j) ha pesi f per
.j Frequenze assolute
j=1,2,...k
Y M F ni.
X
fij 19 5 5 10
Y|X=xi (ovvero avendo fissato la riga i) ha pesi f per i=1,2,...h 20 8 10 18
i.
21 5 10 15
22 2 5 7
h fij k fij
n.j 20 30 50
Infatti solo in questo caso f = 1 e f = 1
.j i.
i=1 j=1
Frequenze relative
oooooooo Y
X M F fi.
19 0,1 0,1 0,2
20 0,16 0,2 0,36
21 0,1 0,2 0,3
22 0,04 0,1 0,14
f.j 0,4 0,6 1
fij
Frequenze condizionate (per riga) f
.j
X|Y M F
19 0,1 /0,4 = 0,25 0,1 /0,6 = 0,165
20 0,16/0,4 = 0,4 0,2 /0,6 = 0,335
21 0,1 /0,4 = 0,25 0,2 /0,6 = 0,335
22 0,04/0,4 = 0,1 0,1 /0,6 = 0,165
0,4 /0,4 = 1 0,6 /0,6 =1
-o-o-o-o-o-o-o-o-
39 40
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
D 2 0 1 1 4 2 1 0 2 4
A E F S I E S I F F E n.j 2 3 3 2 N= 10
Si effettui lo spoglio dei dati, costruendo la corrispondente tabella a doppia La variabile marginale A è descritta da ni.
entrata.
E 3
A F 3
Effettuando lo spoglio congiunto di A e D si I 2
ottiene la tabella a lato dove j= 1 2 3 4 S 2
- nij si chiamano frequenze (assolute) D N= 10
congiunte i nij 0 1 2 4 ni.
- ni. si chiamano frequenze (assolute) 1 E 0 0 1 2 3 D
marginali di riga 2 F 2 0 1 0 3 Un esempio di variabile condizionata nij 0 1 2 4 ni.
A
- n.j si chiamano frequenze (assolute) 3 I 0 2 0 0 2 D|A=”F”
marginali di colonna 4 S 0 1 1 0 2 A F 2 0 1 0 3
- la tabella si chiama tabella a doppia entrata e n.j 2 3 3 2 N= 10
descrive il fenomeno congiunto (A,D)
D
Un esempio di variabile condizionata nij 2
A|D=2 E 1
A F 1
I 0
S 1
n.j 3
41 42
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Le stesse interpretazioni fatte in precedenza possono essere svolte usando B (Classi) fi1 / f.1
le frequenze relative 1320‐|1330 0.1/0.4=0.25
Z 1330‐|1335 0.1/0.4=0.25
fij C N S fi. 1335‐|1350 0.2/0.4=0.50
1320‐|1330 0.1 0 0 0.1 F=1
B (Classi) 1330‐|1335 0.1 0 0.2 0.3
1335‐|1350 0.2 0.3 0.1 0.6
-o-o-o-o-o-o-o-o-
f.j 0.4 0.3 0.3 F=1
43 44
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
45 46
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Alcuni indici sintetici per distribuzioni condizionate Teo. Media a due stadi
Si consideri la v.s. (quantitativa) Y e una variabile X (covariata di
Y). Allora vale che
Medie condizionate : 𝑀 𝑌|𝑋 𝑥 e𝑀 𝑋 𝑌 𝑦
𝑀 𝑀 𝑌|𝑋 𝜇
𝑀 𝑌 |𝑋 𝑥 𝜇 | 𝜇 𝑥 = ∑ 𝑦𝑛 ∑ 𝑦
. . Dim.:
per i=1,2,...,h
1
𝑀 𝑀 𝑌|𝑋 𝑀 𝑦 𝑛 |𝑋 𝑥
𝑛.
𝑀 𝑋𝑌 𝑦 𝜇 | 𝜇 𝑦 = ∑ 𝑥𝑛 ∑ 𝑥
. .
per j=1,2,...,k 1 1
𝑦𝑛 𝑛.
a
𝑁 𝑛.
~
1 1 1
Varianze condizionate: 𝑉𝑎𝑟 𝑌|𝑋 𝑥 e 𝑉𝑎𝑟 𝑋 𝑌 𝑦 𝑦𝑛 𝑦 𝑛 𝑦 𝑛. 𝜇
𝑁 𝑁 𝑁
-
𝑉𝑎𝑟 𝑌|𝑋 𝑥 𝜎 𝜎 𝑦 𝑥 𝑛
| =
.
∑ L Frequenza marginte
Si riprenda la tabella
𝑉𝑎𝑟 𝑋 𝑌 𝑦 𝜎 𝜎 = ∑ 𝑥 𝑦 𝑛 D
|
.
0 | 20 20 | 60 60 | 80 ni.
per j=1,2,...,k B 1 1 0 2
S M 1 3 1 5
(si hanno scritture analoghe a quelle delle medie condizinate nel
A 0 0 3 3
caso di impiego delle frequenze relative)
Con riferimento ad un fenomeno bivariato, si possono enunciare i Si utilizzino i punti centrali delle classi di D e la si rinomini in
seguenti teoremi. Y
10 40 70 ni .
B 1 1 0 2
X M 1 3 1 5
A 0 0 3 3
47 48
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
1
AGGIUNGO e 10260
> 𝑦 𝑥 𝑥 𝑛
Es. 𝑁
Le
medie condizionett
sommatore)
Y M F ni. 1
X
𝑦 𝑥 𝑥 𝑛
19 5 5 10 𝑁
20 8 10 18
21 5 10 15 1
ât
𝑦 𝑥 𝑛
i
22 2 5 7 𝑁
n.j 20 30 50
MX(X|Y) n.j 𝑥 𝑛
MX(X|Y=y1) 20,2 20
MX(X|Y=y2) 20,5 30 no riscrivo come:
2 𝑦 𝑥 𝑥 𝑛
50
-(ry(i) my) mig -
𝑀 𝑀 𝑋|𝑌 𝜇 = 20,38 1 1
Crequenze
𝑦 𝑥 𝑛 𝑛.
𝑁 𝑛.
-------- o - o -------- fo r m a to r i a delle
marginalisi
Eb
Ri.
49 50
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Si ha 𝑀 𝑀 𝑌|𝑋 𝜇 46
51 52
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Si consideri la tabella
La funzione di regressione
yc 10
=
0 | 20
Y
x c 40
=
20 | 60
=..
60 | 80 ni.
(3)
(3) (2)
1 1 0 0 1
X 2 0 3 3 6
3 0 2 1 3
n.j 1 5 4 10
1 -
M[ Y| X=1 ] 10 1 4 M(y(x)2 Ri
M[ Y| X=2 ] 55 6
I
100
6
M[ Y| X=3 ] 50 3 3 3
(70) 10
(0.0)
(102) Var(m(y/x)] (49)=
+
+
My(y1x 3)
= =
50 => 2575
=
-
1 74
57 58
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
che prende il nome di funzione di regressione ovvero è il luogo dei Esempio tratto da : P_0-portfolio 2016-2017.xlsx
punti passanti PER le medie condizionate. Una misura della
capacità delle medie condizionate di rappresentare il fenomeno 1- dati singoli
bivariato è dato dal rapporto di correlazione 2- dati in tabella
3- dati in tabella con funzione di regressione
𝑉𝑎𝑟 𝑀 𝑌|𝑋 4- funzione di regressione
𝜂
𝑉𝑎𝑟 𝑌
1 4
-o-o-o-o-o-o-o-o-
2 3
Q.
- cosa suggerisce la funzione di regressione?
- cosa avremmo potuto fare partendo direttamente dai (molti)
dati in figura 1?
- nel caso in cui partissimo direttamente dai dati singoli, come
posso valutare la capacità di descrivere il fenomeno bivariato?
59 60
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Y=a0+a1 X+...+ap Xp
Y=a0+a1X
↑
> CON INTERCERE
Y=a0+a1g(X)
Exp(Y)=(a0+a1g(X))
ln(Y)=(a0+a1g(X))
...
(Temi: TUTTI)
61 62
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
2 2 0 1 0 0 0 3
passare tra i punti e non per i punti?
3 0 1 0 1 1 0 3
5 0 0 0 0 1 1 2 Strategia
n.j 2 1 3 1 2 1 10 Cercare {𝑎 , 𝑎 , … , 𝑎 } in modo da perdere la minore quantità
possibile di informazioni, avendo scelto una opportuna funzione
per misurare la perdita di informazioni.
Strumento
Metodo dei minimi quadrati
(2)
Si supponga, in generale, di avere dati raggruppati in una Tabella
“a doppia entrata”. Ci si ponga l’obiettivo
(2)
min 𝑦 𝑎 𝑎 𝑥 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛
, ,…,
63 64
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
𝑦 𝑎 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑦 𝑦 residuo in (xi,yj)
Si dovrà quindi risolvere
𝜕𝑑𝑒𝑣𝑟𝑒𝑠
⎧ 2 𝑦 𝑎 𝑎 𝑥 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛 0
𝜕𝑎
⎪ 16.0
……… 15.0
14.0
⎨𝜕𝑑𝑒𝑣𝑟𝑒𝑠 13.0
⎪ 𝜕𝑎 2 𝑥 𝑦 𝑎 𝑎 𝑥 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛 0 12.0
⎩ 11.0
10.0 𝑦
9.0
𝜕𝑑𝑒𝑣𝑟𝑒𝑠
2 𝑦 𝑎 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛 0
𝜕𝑎
65 66
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
1
𝑦 𝑎 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛 0
𝑁
Si noti che, le frequenze congiunte, nij, possono quindi essere scritte
come se fossero delle frequenze associate alle righe corrispondenti
quindi 𝑀 𝑌 𝑎 𝑎 𝑋 ⋯ 𝑎 𝑋 0 in tabella. In tal caso, indicizzando ciascuna riga solo con i (per
i=1,…,hxk) e ponendo (xi,yj) (xi,yi) e nij ni si ha che il problema
ovvero 𝑀 𝑌 𝑌 0. dei minimi quadrati può essere in modo equivalente ritrascritto in
forma più semplice e senza l’uso della doppia sommatoria come
Da cui si deduce che la somma dei residui è nulla e che segue
𝑀 𝑌 𝑀 𝑌 min 𝑦 𝑎 𝑎 𝑥 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛
, ,…,
𝜕𝑑𝑒𝑣𝑟𝑒𝑠 𝜕𝑓 𝑥 ; 𝑎 , 𝑎 , … , 𝑎 𝜕𝑑𝑒𝑣𝑟𝑒𝑠
2 𝑦 𝑓 𝑥 ;𝑎 ,𝑎 ,…,𝑎 𝑛 0 ⎧ 2 𝑦 𝑎 𝑎 𝑥 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛 0
𝜕𝑎 𝜕𝑎 𝜕𝑎
⎪
…
^) . ⎨𝜕𝑑𝑒𝑣𝑟𝑒𝑠
che non garantisce che M(Y)=M(Y ⎪ 𝜕𝑎 2 𝑥 𝑦 𝑎 𝑎 𝑥 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛 0
⎩
oooooooo
N.B. TUTTI i calcoli possono essere fatti “riscrivendo” la tabella a in cui si nota l’evidente notazione più semplice.
doppia entrata in modo equivalente come segue
Esempio (rilevante)( a).Hp: 𝑌 𝑎 𝑎 𝑋 Se si usa la rappresentazione della tabella come prima suggerito
ovvero
Y X Y ni
ni.
X 6 7 8 11 12 15 1 8 2
Tut
1 0 0 2 0 0 0 2 2 6 2
2 2 0 1 0 0 0 3 2 8 1
3 0 1 0 1 1 0 3 3 7 1
5 0 0 0 0 1 1 2 3 11 1
n.j 2 1 3 1 2 1 10 3 12 1
5 12 1
5 15 1
si ha quindi
min 𝑦 𝑎 𝑎 𝑥 𝑛
(2) ,
(2)
≡ min 𝑦 𝑎 𝑎 𝑥 𝑛
,
𝜕𝑑𝑒𝑣𝑟𝑒𝑠
⎧ 𝜕𝑎 2 𝑦 𝑎 𝑎 𝑥 𝑛 0
Si risolva 𝜕𝑑𝑒𝑣𝑟𝑒𝑠
⎨ 2 𝑥 𝑦 𝑎 𝑎 𝑥 𝑛 0
⎪ 𝜕𝑎
⎩
1
min 𝑦 𝑎 𝑎 𝑥 𝑛 ⎧ 𝑦 𝑎 𝑎 𝑥 𝑛 0
, 𝑁
1
⎨ 𝑥 𝑦 𝑎 𝑎 𝑥 𝑛 0
⎪ 𝑁
⎩
69 70
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
1 1 1
⎧ 𝑦 𝑛 𝑎 𝑛 𝑎 𝑥 𝑛 0
𝑁 𝑁 𝑁 In particolare 𝐶𝑜𝑣 𝑋, 𝑌 può essere positiva o negativa mentre il
1 1 1 denominatore di 𝑎 è sempre positivo.
⎨ 𝑥𝑦 𝑛 𝑥𝑎 𝑛 𝑎 𝑥 𝑛 0
⎪ 𝑁 𝑁 𝑁
⎩ Il segno della Cov quindi definisce l’inclinazione della retta di
𝑀 𝑌 𝑎 𝑎 𝑀 𝑋 0 regressione ed esprime l’intensità (non normalizzata) della
dipendenza lineare tra 𝑋 𝑒 𝑌.
𝑀 𝑋𝑌 𝑎 𝑀 𝑋 𝑎 𝑀 𝑋 0
Si osservi inoltre che, usando la “nuova” tabella, i calcoli delle
𝑴 𝑿𝒀 𝑴 𝑿 𝑴 𝒀 𝑪𝒐𝒗 𝑿, 𝒀 statistiche necessarie per i parametri possono essere eseguiti “in
𝑎 colonna” come da esempio seguente.
𝑀 𝑋 𝑀 𝑋 𝑉𝑎𝑟 𝑋
𝑎 𝑀 𝑌 𝑎 𝑀 𝑋 𝑿 𝒀 ni 𝑿𝒀𝑿𝟐 𝒀𝟐 𝑿 ∙ 𝑛 𝒀∙𝑛 𝑿𝒀 ∙ 𝑛 𝑿𝟐 ∙ 𝑛 𝒀𝟐 ∙ 𝑛
1 8 2 8 1 64 2 16 16 2 128
2 6 2 12 4 36 4 12 24 8 72
N.B. L’Hessiano (matrice delle derivate seconde - elementi divisi 2 8 1 16 4 64 2 8 16 4 64
per 2𝑁) è 3 7 1 21 9 49 3 7 21 9 49
3 11 1 33 9 121 3 11 33 9 121
1 𝑀 𝑋 3 12 1 36 9 144 3 12 36 9 144
𝐻
𝑀 𝑋 𝑀 𝑋 5 12 1 60 25 144 5 12 60 25 144
5 15 1 75 25 225 5 15 75 25 225
il cui determinante, |𝐻| 𝑀 𝑋2 𝑀 𝑋 2
, è quindi 𝑉𝑎𝑟 𝑋 0. 𝑛 𝒙𝒊 𝑛 𝑦𝑛 𝒙𝒊 𝑦 𝑛 𝒙𝒊 𝑛 𝒚𝟐𝒊 𝑛
Quindi la soluzione trovata è un minimo.
=10 =27 =93 =281 = 91 = 947
N.B. Si rammenti che quando si è parlato di varianza di una da cui agevolmente ottenere i momenti necessari per i calcoli
combinazione lineare di variabili, era emersa una statistica nota
⑧
come covarianza. Tale statistica compare qui al numeratore del Per l’esempio
coefficiente angolare. In generale si definisce covarianza
281 27 93
𝑀 𝑋𝑌 𝑀 𝑋 𝑀 𝑌 𝐶𝑜𝑣 𝑋, 𝑌 ∙ 2.99
𝑪𝒐𝒗 𝑿, 𝒀 𝑴 𝑋 𝜇 𝑌 𝜇 ⎧
𝑎 10 10 10 1.65193
𝑴 𝑋𝑌 𝜇 𝑌 𝑋𝜇 𝜇 𝜇 𝑀 𝑋 𝑀 𝑋 𝑉𝑎𝑟 𝑋 91 27 1.81
𝑴 𝑋𝑌 𝜇 𝜇 𝜇 𝜇 𝜇 𝜇 10 10
⎨ 93 27
𝑴 𝑋𝑌 𝜇 𝜇 ⎪𝑎 𝑀 𝑌 𝑎 𝑀 𝑋 1.65193 ∙ 4.83978
⎩ 10 10
che coincide con l’espressione al numeratore di 𝑎 .
71 72
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
^ =4.8398 + 1.6519X
Y
𝑦 𝑌
=4.83978+
n
xi(=X) 𝒀 ni 1.65193xi i xi(=X) 𝑦 ni
1.0 8 2 6.4917 2 1.0 6.4917 2 N.B. le frequenze
2.0 6 2 8.1436 2 2.0 8.1436 3 associate ai
2.0 8 1 8.1436 da cui 3.0 9.7956 3 valori interpolati
9.7956 sono le frequenze
3.0 7 1 5.0 13.0994 2
della marginale X
3.0 11 1 9.7956
3.0 12 1 9.7956
5.0 12 1 13.0994
(2)
5.0 15 1 13.0994
(2)
Residui
yi 𝑦
^ xi(=X) yi (=Y) ni ni
Y=4.8398 + 1.6519X (=residui)
1.0 8.0 2 1.5083 2
N.B. le frequenze
2.0 6.0 2 -2.1436 2
associate ai residui
2.0 8.0 1 da cui -0.1436 1 sono le frequenze
3.0 7.0 1 -2.7956 1 (congiunte) delle
3.0 11.0 1 1.2044 1 singole coordinate
3.0 12.0 1 2.2044 1
5.0 12.0 1 -1.0994 1
5.0 15.0 1 1.9006 1
𝑀 𝑌 𝑀 𝑌 = 9.3
𝑀 𝑌 𝑌 0 ovvero ∑ 𝑦 𝑦 𝑛 0
73 74
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
-o-o-o-o-o-o-o-o-o-o- Infatti:
1) da 0 si ha che 𝑀 𝑌 𝑌 0.
Teorema : scomposizione della varianza di un modello di
regressione
2) Stante la struttura lineare nei parametri, moltiplicando per 𝑎
Si consideri un modello del tipo 𝑌 𝑎 𝑋 𝑎 ⋯ 𝑎 𝑋 (ovvero l’equazione del gradiente corrispondente a , ripetendo
un modello con presente il termine noto a0).
l’operazione per tutte le equazioni, sostituendo al posto di
Allora vale la scomposizione della varianza di Y come segue: 𝑎 , 𝑎 , … , 𝑎 i valori 𝑎 , 𝑎 , … , 𝑎 ,
= Var(𝑌) + Var[Y𝑌]
75 76
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
77 78
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
<0
=0 >0
Riprendendo l’esempio (a) si ha
oooooooo
X Y nij 2.5
1.0 2.3 2 (2)
2
y = x - 5x + 6.3 (2)
2.0 0.3 3 2 R =1
2
3.0 0.3 3
4.0 2.3 2 1.5
y = 1.1
2
1 R =0
0.5
(3) (3)
0
0 1 2 3 4 5
-o-o-o-o-o-o-o-o-o-o
79 80
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
a) I) 𝑌 𝑎 , 𝑙 𝑋; 𝑎 , , … , 𝑎 ,
II) 𝑌 𝑎 , 𝑙 𝑋; 𝑎 , , … , 𝑎 ,
Confronti possibili :
2 2
RI ⋛ RII oppure 𝜎 ⋛ 𝜎 oppure 𝜎 ∗ 2 ⋛ 𝜎 ∗ 2
oooooooo
b) I) 𝑌 𝑎 , 𝑙 𝑋; 𝑎 , , … , 𝑎 , II) 𝑌 𝑙 𝑋; 𝑎 , ,…,𝑎 ,
oooooooo
c) I) 𝑌 𝑎 , 𝑙 𝑋; 𝑎 , , … , 𝑎 ,
II) 𝑞 𝑌 𝑎 , 𝑙 𝑋; 𝑎 , , … , 𝑎 ,
81 82
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Es. I) 𝑌 𝑎0,𝐼 𝑎1,𝐼 exp 𝑋 II) ln 𝑌 𝑎0,𝐼𝐼 𝑎1,𝐼𝐼 𝑋 Se il modello (II) è linearizzabile e se q1() allora, si linearizzi
il modello (II), si calcolino i parametri, quindi, utilizzando
Per il modello II si dovrà calcolare la devianza residua 𝑌 𝑞 ℎ 𝑙 𝑋; 𝑎 , ,…,𝑎 ,
utilizzando 𝑌 𝑒𝑥𝑝 𝑎 , 𝑎, 𝑋 si calcoli 𝜎∗𝐼𝐼
si ha
e) I) 𝑌 𝑙 𝑋; 𝑎 , , … , 𝑎 ,
83 84
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
𝑌 ∗ =𝑏 ∗ +b1𝑋 ∗
Utilizzando ^
Y=
X*= ln(X) Y* = (Y)0.5 nij ^
X Y [ln{12.55405X 0.564034}]2 YY nij
0 2.8284 2
1 8.0 6.40112 1.598881 2
0.6931 2.4495 2
2 6.0 8.53225 -2.53225 2
0.6931 2.8284 1
2 8.0 8.53225 -0.53225 1
1.0986 2.6458 1
3 7.0 9.92059 -2.92059 1
1.0986 3.3166 1
3 11.0 9.92059 1.079406 1
1.0986 3.4641 1
3 12.0 9.92059 2.079406 1
1.6094 3.4641 1
5 12.0 11.8186 0.181392 1
1.6094 3.873 1
5 15.0 11.8186 3.181392 1
85 86
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
𝑓 𝑓 𝑓 . ∙ 𝑓. ∀𝑖, 𝑗 -o-o-o-o-o-o-o-o-o-o-
87 88
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
𝑛 𝑛 . ∙ 𝑛. 𝑛
𝑁 2 max 2 = N[min{(h1),(k1)}]
𝑛 . 𝑛. 𝑁 𝑁
𝑛 𝑁∙𝑁 𝑁 𝑛
𝑁 2 𝑁 1
𝑛 . 𝑛. 𝑁 𝑁 𝑛 . ∙ 𝑛. Indice di connessione 2 normalizzato
𝑓 𝑓 𝑓
𝑁 𝑁 1 2
𝑓 𝑓 . ∙ 𝑓. Indipendenza ⟸0 1 ⟹ Dipendenza
stocastica max 2 funzionale
𝑛 𝑛 ∙𝑛 𝑛 ∙- 𝑛. 𝑛
-
Y
fi.
𝑛 . ∙ 𝑛. 𝑛 . ∙ 𝑛. 𝑛
-. ∙ 𝑛. 𝑛. X D E
A 0,2 0,3 0,5
B 0,1 0 0,1
1
𝑛 1 𝑘 C 0 0,4 0,4
𝑛. f.j 0,3 0,7 1
si ha 𝑓
𝜒 𝑁 1
𝑛 𝑓 . ∙ 𝑓.
𝜒 𝑁 1 𝑁 𝑘 1
𝑛 . ∙ 𝑛. , , , ,
200 1 =
, , , , , , , ,
200 1,428671 1 85,72
Analogamente considerando che vale anche
𝑛 𝑛 ∙ 𝑛. max 2 = 200[(2-1)] =200
𝑛 . ∙ 𝑛. 𝑛 . ∙ 𝑛.
si ha 2 85,72
42,86%
𝜒 𝑁 ℎ 1 max 2 200
In sintesi
89 90
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Esempio: confronto del segno della variazione percentuale di Relazione tra indipendenza stocastica, indipendenza in media,
IntesaSanPaolo vs Generali al termine di 937 giornate di incorrelazione
contrattazione
Q. Se esiste indipendenza stocastica, esiste dipendenza in
IntesaSanPaolo media? NO
Negativo Positivo
Negativo 370 112 482 |
Generali
Positivo 113 342 455 Si ricordi che si ha indipendenza in media se 𝜂 0
483 454 937
ovvero se 𝑉𝑎𝑟 𝑀 𝑌|𝑋 =0.
Tabella con
.∙ . ∗ Ma 𝑉𝑎𝑟 𝑀 𝑌|𝑋 ∑ 𝑥 𝑛.
IntesaSanPaolo
Negativo Positivo
Generali
Negativo 0,588043263 0,05732356 Quindi devo dimostrare che se esiste indipendenza stocastica
Positivo 0,058102974 0,566219683 𝑥 ∀𝑖.
𝜒 937 1,2697 1 =252,7089
Però 𝜇 𝑥 = ∑ 𝑦𝑛 ∑ 𝑦 che nel caso di indip.
. .
max 2 = 937[(2-1)] =937 stoc. è pari a 𝜇 𝑥 = ∑ 𝑦
. .
∑ 𝑦 𝑓. .
.
2
26,97%
max 2
Q. Se esiste indipendenza stocastica, esiste correlazione (ovvero
covarianza diversa da zero)? NO
-o-o-o-o-o-o-o-o- Richiamando la formula della covarianza è noto che
𝑀 𝑋𝑌 𝑀 𝑋 𝑀 𝑌 𝐶𝑜𝑣 𝑋, 𝑌 . Quindi per dimostrare che
𝐶𝑜𝑣 𝑋, 𝑌 0 basta dimostrare che 𝑀 𝑋𝑌 𝑀 𝑋 𝑀 𝑌 quando c’è
indipendenza stocastica.
Se esiste indipendenza stocastica
1 1 𝑛 . 𝑛.
𝑀 𝑋𝑌 𝑥𝑦𝑛 𝑥𝑦
𝑁 𝑁 𝑁
1 1
𝑥𝑛. 𝑦 𝑛. 𝑀 𝑋 𝑀 𝑌
𝑁 𝑁
e quindi 𝐶𝑜𝑣 𝑋, 𝑌 0 e quindi 𝜌 0.
91 92
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Quindi
Q. Se esiste indipendenza in media, esiste correlazione (ovvero “Se esiste indipendenza stocastica esiste indipendenza in media”
covarianza diversa da zero)? NO “Se esiste indipendenza stocastica, esiste incorrelazione”
“Se esiste indipendenza in media esiste incorrelazione”
Come detto sopra se esiste indipendenza in media 𝑥 ∀𝑖.
Richiamando la formula della covarianza è noto che Ovvero
𝑀 𝑋𝑌 𝑀 𝑋 𝑀 𝑌 𝐶𝑜𝑣 𝑋, 𝑌 . Quindi per dimostrare che
𝐶𝑜𝑣 𝑋, 𝑌 0 basta dimostrare che 𝑀 𝑋𝑌 𝑀 𝑋 𝑀 𝑌 quando c’è indipendenza stocastica =>
indipendenza in media. Sapendo che indipendenza in media =>
incorrelazione
1 1 𝑛
𝑀 𝑋𝑌 𝑥𝑦𝑛 𝑥𝑛. 𝑦
𝑁 𝑁 𝑛. N.B.
1 >MoltiDLICO E 1 1 0, DD Il viceversa NON è vero, ovvero
𝑥𝑛. 𝑥 DER
Mi.
𝑁
“Se esiste incorrelazione allora può esistere dipendenza in media”
“Se esiste indipendenza in media può esistere connessione !!!”
se esiste indipendenza in media si avrà
=
1 1
𝑀 𝑋𝑌 𝑥𝑛. 𝑥𝑛.
↑ 𝑁 𝑁
𝑀 𝑋𝑌 𝑀 𝑋 𝑀 𝑌
93 94
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
95 96
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
a) Approccio Classico: Dato un esperimento, se ha dimensione Se si è interessati alla probabilità di osservare A essendosi verificato
(cardinalità) finita ovvero se i possibili modi con cui si realizzerà la B, significa che si vuole sapere la probabilità che dopo B compaia
manifestazione dell’esperimento sono in numero finito e se anche A.
ciascuno dei possibili modi è equiprobabile allora
Utilizzando l’approccio classico tale operazione si riconduce a
# casi favorevoli al manifestarsi di E
P(E) = # casi possibili # casi favorevoli a (AB) P(AB)
P(A | B ) = # casi favorevoli a B = P(B) con P(B)>0
b) Approccio Frequentista: dato un esperimento, se ha da cui dedurre P(AB) = P(B)P(A|B) (formula delle probabilità
dimensione (cardinalità) infinita o è un’infinità al più numerabile e composte)
se l’esperimento è ripetibile (nelle stesse condizioni sperimentali)
allora
{n.b. A mero scopo illustrativo si veda quanto segue!!!}
# manifestazioni di E
P(E) = lim n Esempio: una stima della probabilità di avere il segno “-“ per IntesSanPaolo
n
avendo osservato il segno “-” per Generali sarebbe 76,7%
IntesaSanPaolo
Negativo Positivo
c) Definizione Bayesiana o soggettivista, : è il “prezzo” p che un Generali
Negativo 370 112 482
individuo coerente stima equo attribuire ad un importo unitario Positivo 113 342 455
483 454 937
esigibile solo se si manifesta E ovvero è il “prezzo” p che un
individuo stima equo “pagare” per partecipare alla scommessa “se P(AB)
si manifesterà E riscuoto un importo unitario (es, 1 euro) Ripensando alle tabelle a doppia entrata, P(A|B) = P(B) ha la stessa
interpretazione delle distribuzioni condizionate relative che erano state
definite come o .
. .
97 98
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Esempio: Se la tabella dovesse comprendere le probabilità di accadimento Introduzione a Variabili Casuali e Modelli Probabilistici
di eventi congiunti/marginali, avremmo
Pr(XY)
In generale: una v.c. X è una funzione avente dominio in e che
Y
X R S Pr(X)
associa ad ogni evento aleatorio E un numero x reale e inoltre
G 0,2 0,3 0,5
associa ad x la probabilità dell’evento E.
H 0,1 0 0,1
M 0 0,4 0,4 Quindi X : ℝ.
Pr(Y) 0,3 0,7 1
me x
= capiti
Se dato l’evento E lo codifico con x (o in semintervallo di ℝ) allora
-o-o-o-o-o-o- vale che Pr(X=x)=Pr(E).
P(A | B ) = P(A) se il condizionamento a B non influenza il
manifestarsi di A
X
P(B | A ) = P(B) se il condizionamento ad A non influenza il
manifestarsi di A E
Pr{E}=Pr{x} x
Si deduce che P(AB)=P(A)P(B)
99 100
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
-o-o-o-o-o-o-
V.C. Discrete
La funzione
1- 𝐹 𝑥 è non decrescente ovvero se x1 < x2 𝐹 𝑥 𝐹 𝑥
𝑝 𝑥 𝑃 𝑋 𝑥 𝑃 𝑋 𝑥
2- lim F x = 0 ; lim F x =1 𝑃 𝑋 𝑥 𝑃 𝑋 𝑥 𝑃 𝑋 𝑥
x x+
𝐸 𝑋 ∑ ∈ℝ 𝑥 𝑝 𝑥 𝜇 caso discreto
101 102
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
P(W) 1 2 3 4 5 6
1 1/6 × 1/6 0.02778 0.02778 0.02778 0.02778 0.02778
2 0.02778 0.02778 0.02778 0.02778 0.02778 0.02778
3 0.02778 0.02778 0.02778 0.02778 0.02778 0.02778
4 0.02778 0.02778 0.02778 0.02778 0.02778 0.02778
5 0.02778 0.02778 0.02778 0.02778 0.02778 0.02778
6 0.02778 0.02778 0.02778 0.02778 0.02778 0.02778
1
Da cui W~U(36) p(w) = 36
105 106
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
107 108
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
109 110
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
E(X) = n 3
Var(X)=n(1) R: p(1;3,0.45) = 0.451(10.45)31
1
Esempi
- v.c. x vincite in n tentativi ad un gioco d’azzardo
- v.c. numero di palline di colore C estratte con reimmissione da
un’urna che contiene una frazione di palline C
111 112
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
5
R: p(3;5,0.45) = 0.453(10.45)53
3
X Pr(X)
0 0.050328438
1 0.205889063 E(X)= 2.25
2 0.336909375 Var(X)= 1.2375
3 0.275653125
4 0.112767188
5 0.018452813
5
R: p(x;5,0.45) = 0.45x(10.45)5x
x
113 114
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
1 0.949672 9 0.108387377 0.24237116 0.866016217 F.d.R. (sx) Contr F.d.R. (sx) Pr(X) (dx)
10 0.14188893 0.384260091 0.75762884
2 0.743783 11 0.158305831 0.542565922 0.615739909
3 0.406873 12 0.151110112 0.693676034 0.457434078
4 0.13122 13 0.123635546 0.81731158 0.306323966
5 0.018453 14 0.086705448 0.904017028 0.18268842
N.B. la dicitura (x1) contenuta in FX (x1) è necessaria per 15 0.052023269 0.956040297 0.095982972
16 0.026602808 0.982643105 0.043959703
garantire la non duplicazione dell’informazione essendo una v.c. 17 0.011523141 0.994166246 0.017356895
discreta. Infatti: 18 0.004190233 0.998356479 0.005833754
19 0.001263085 0.999619564 0.001643521
Es. se x=1: P(X 1) = 1 P(X < 1) = 1 FX( x1 ) = 1 FX(x=0) 20 0.00031003 0.999929594 0.000380436
21 6.03954E-05 0.999989989 7.04062E-05
= 1-0.050328=0.949672 22 8.98444E-06 0.999998974 1.00108E-05
23 9.58814E-07 0.999999932 1.02633E-06
24 6.53737E-08 0.999999998 6.75132E-08
25 2.1395E-09 1 2.1395E-09
115 116
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Pr[x - 2,
volte numeri 2
Pr(x 13
dato
vincere 10
↑> s c e n a r i o 1
L fo r m a , scenari
due
incompatibili:ACCADE
poich
O
sono
L'ALTRO
117 118
uno O
Poisson: X ~ P()
Pr{1002} =
10 3 3 p(x;) = (x!)1 e x x=0,1,…
Pr 𝐴 1 0.37581
𝑥 15 15
Pr 𝐵|𝐴
6
0.4 1 0.4 0.13824
È definibile come la probabilità di x accadimenti (numerabili)
C.
4 avvenuti in arco temporale T sotto le ipotesi che l’accadimento
10 3 3 nell’unità di tempo t avvenga con media , che la probabilità di
Pr 𝐴̅ 1 1 Pr 𝐴 0.62419
𝑥 15 15 avere più di un accadimento avvenga con misura nulla e che il
7 verificarsi degli eventi tra unità di tempo sia una successione
Pr 𝐵|𝐴̅ 0.6 1 0.6 0.290304
4 indipendente dal tempo.
da cui (a)"(as sfanas= =
Es.
Pr 𝐵 0.37581 ∙ 0.13824 0.62419 ∙ 0.290304 0.233157 - numero di sinistri nell’anno
- molti fenomeni assicurativi
↳. magia! E media
una
ponderete
- numero di rialzi di un titolo nell’arco della giornata (?)
E(X)=
Var(X)=
119 120
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Si considerino 6 dadi con k=6, 12, 24, 1000, 10000, 100000 facce.
121 122
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Tale rapporto consente di interpretare la densità di classe come il Si nota che al crescere di k il luogo di punti “converge” verso un
rapporto incrementale di 𝐹 𝑦 rispetto alla classe 𝑦 ⊣𝑦 . luogo che rasenta la continuità.
Se ora si prova a definire un elevato numero di classi (ne Quindi per k che tende ad infinito e con classi di ampiezza
sceglieremo 1000) di ampiezza arbitraria (è come se si dividesse infinitesima, è possibile pensare alla Funzione di ripartizione come
l’intervallo (0,1] in 1000 sezioni), si ottiene se si trattasse di una funzione continua. La densità verrebbe quindi
ad essere interpretata come l’applicazione del limite del rapporto
incrementale
𝐹 𝑦 𝐹 𝑦
lim 𝐹 𝑦 ≡𝑓 𝑦 𝑝𝑒𝑟 𝑘 → ∞
→ 𝑦 𝑦
0 𝑦 0
𝐹 𝑦 𝑦 0 𝑦 1
Dove si osserva una convergenza del grafico ad una densità intorno
ad 1 solo per il caso di dadi con elevato k. Questi valori (si noti 1 𝑦 1
bene) non sono probabilità ma densità, se lo fossero dovremmo
osservare valori in ordinata pari a 1/k che per k piuttosto grande si ricava anche l’andamento della funzione di densità
tendono a zero!
1 0 𝑦 1
𝑓 𝑦; 0,1
Interessante è il comportamento della F.d.R. per k crescente. 0 𝑎𝑙𝑡𝑟𝑜𝑣𝑒
123 124
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Dalle precedenti considerazioni emerge che per k perde di descrivere la scelta (soggettiva) di probabilità di accadimento di un
significato lo studio della probabilità del tipo P(Y=y) mentre rimane fenomeno aleatorio.
valido lo studio della densità (che si rammenta non è una
probabilità). Ricordando che in generale In generale molti modelli definiti su supporto continuo possono
essere visti come un comportamento asintotico di opportuni
𝐹 𝑦 𝐹 𝑦 𝑃 𝑌∈ 𝑦 ⊣ 𝑦 𝑑 ∙ 𝑦 𝑦 meccanismi aleatori definiti nel discreto!
𝐹 𝑥 = P( X(,x] ) = P 𝑋 𝑥
si ha che per classi di ampiezza piccola a piacere, ovvero per
𝑦 𝑦 𝑑𝑦 Se 𝐹 è assolutamente continua si può scrivere
𝑃 𝑌∈ 𝑦 ⊣𝑦 𝑑 ∙ 𝑑𝑦 𝐹 𝑥 𝑓 𝑦 𝑑𝑦 P 𝑋 𝑥
e che al limite
𝑓 𝑥 prende il nome di funzione di densità (f.d.d.) con le seguenti
lim 𝑑 ∙ 𝑑𝑦 𝑓 𝑦 𝑑𝑦 proprietà
→
𝑓 𝑥 ∶ℝ→ℝ ∀𝑥 ∈ ℝ
Nell’esempio in figura la probabilità
. 𝑓 𝑥 𝑑𝑥 1
𝑃 𝑌∈ 0 | 0.5 1 𝑑𝑦 0.5
⎧ 𝑓 𝑦 𝑑𝑦 0 𝑥 𝑎
c. Tutti gli intervalli continui del tipo (a,b], (a,b), [a,b] hanno la
stessa misura di probabilità ⎪
𝐹 𝑥 1 𝑥 𝑎 𝑎 𝑥 𝑏
⎨ 𝑓 𝑦 𝑑𝑦 𝑑𝑦
𝑏 𝑎 𝑏 𝑎
d. 𝑓 𝑧 𝑏 𝑎 = 𝑓 𝑧 x = 𝑓 𝑥 𝑑𝑥 con x piccolo a piacere e ⎪ 𝑥 𝑏
⎩1
zx . Tale risultato può interpretarsi, per il teorema del valor
medio del calcolo integrale, come una probabilità. 𝑏 𝑎
𝐸 𝑋 𝑥𝑓 𝑥 𝑑𝑥
2
I momenti (Valore Atteso di ordine r) di una v.c. continua Var(X) = E(X2) [E(X)]2 =
Analogamente alle v.c. discrete è possibile definire il valore atteso
di X di ordine r.
𝐸 𝑋 ∑ ∈ℝ 𝑥 𝑝 𝑥 𝜇 caso discreto
𝐸 𝑋 ∈ℝ
𝑥 𝑓 𝑥 𝑑𝑥 𝜇 caso continuo
127 128
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
o generi a n t
Normale: X ~ N(, 2) 𝐹 𝑥 ; 𝜇, 𝜎 𝑝
di
Funzione
dente
,
Media= 1 Varianza= 4
A= -1.5
inserisci la
probabilità 0.9
cumulata = B= 2
E(X) =
Percentile 3.563103131 Probabilità 0.585812688
Var(X) = 2
1
0.8
0.6
0.4
0.2
0
-10.0 -5.0 0.0 5.0 10.0 -10.0 -5.0 0.0 5.0 10.0
con x1<x2 e con x1, x2 assegnati, o, assegnato il valore di p (con Per costruzione E(Z)=0 e Var(Z)=1. Considerando che trattasi di
0<p<1), risolvere una trasformazione lineare di X, si può dimostrare che
129 130
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
se X~N(,2) allora Z~N(0,1) . - assegnato z0, incrociando la riga corrispondente alla parte
intera e al I decimale di z nella prima colonna, con la colonna
Considerando che si tratta di una trasformazione strettamente corrispondente al II decimale di z nella prima riga, si ha la
monotona (e utilizzando la sola notazione 𝐹 𝑥 al posto di soluzione di Φ 𝑧 𝑝
𝐹 𝑥; 𝜇, 𝜎 laddove non ci siano problemi di interpretazione), se
siamo interessati a risolvere 𝐹 𝑥 si potrà scrivere es. (1.90+0.06)=(1.96) = 0.975
𝑥 𝜇 N.B: Se z0, si noti che stante la simmetria della funzione di
𝐹 𝑥 𝑝 ≡ 𝐹 𝑝
𝜎 densità rispetto allo 0 si ha : Φ 𝑧 1 Φ 𝑧 !!! ovvero es.
ovvero (1.96) = 1(1.96)= 10.975
Trovata la soluzione, 𝑧 , si avrà 𝑧 , da cui ricavare 𝑥 . es. p=0.6628, 1(0.6628) = 0.4+0.02 =0.42
Analogamente se siamo interessati a 𝑃 𝑋 𝑥 𝑝, assegnato x2 N.B. Se p0.5, si noti che stante la simmetria della funzione di
densità rispetto allo 0 si ha : Φ 𝑝 Φ 1 𝑝 ovvero
𝑋 𝜇 𝑥 𝜇 𝑥 𝜇 𝑧 𝑧 . Quindi, ad esempio, se p=0.0495, z0.0495 = z.9505
𝑃 𝑋 𝑥 𝑃 𝑃 𝑍
𝜎 𝜎 𝜎 , da cui z0.0495 = 1.65.
𝑥 𝜇
≡Φ Φ 𝑧
𝜎 N.B. Come già accennato la tavola riporta solo percentili fino e non
.
Questo significa che per qualunque v.c. X è possibile eseguire i oltre il max di 3.09. Il motivo è che già 𝑓 𝑧 𝑑𝑧 0.9990 ,
calcoli necessari, disponendo di una “tavola” per la sola v.c. Z che ovvero (3.09)1. Quindi per valori z* > 3.09 si assumerà
riporti i valori della funzione di ripartizione e (ovviamente) i (z*)1.
corrispondenti percentili. La tavola riportata più sotto consente, per Nelle applicazioni standard in genere si è interessati a percentili non
i soli percentili di ordine 0.50 e per il dominio positivo oltre tale soglia. Alcuni testi riportano tavole con valori di z anche
discretizzato di Z: z=0, 0.01, 0.02,..., 3.09 , di risolvere i seguenti .
fino a 4.09 con cui sia avrebbe 𝑓 𝑧 𝑑𝑧 0.9999. Ci si è
problemi: limitati al valore 3.09 per motivi di semplicità.
131 132
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
↑
N.B. Il fatto che la tabella riporti solo percentili con progressione Percentili della variabile casuale normale standardizzata
fissa di 0.01 può creare problemi numerici quando si è interessati a
percentili non inclusi in tale progressione. In questi casi se abbiamo 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
bisogno del valore di zp per un p che esattamente non è riportato in 0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
tabella (es. p=0.10) si procederà come segue: si prenderanno i due 0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
valori più prossimi a p, si estrarranno i percentili corrispondenti e 0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
se ne farà la semisomma (meglio ancora sarebbe fare 0.5 0.6915 0.6950 0.6985 !
0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
l’interpolazione dei due estremi). 0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 -
0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
es. p=0.10 => 0.9-0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
133 134
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
(z1)=0.8997 z1=1.28
Cenni al metodo Montecarlo per il calcolo di integrali definiti
(z1)=.025 1(z1)=1.025 (z1)=.9750 z1=+1.96
Si supponga di voler calcolare l’area sottesa da f.d.d. di una v.c.
gaussiana (o di un’altra funzione continua). Ad esempio:
ovvero z1= 1.96
1 1 𝑥 1
Se es. X~N(1,4) 𝑓 𝑥; 𝜇 1, 𝜎 4 𝑑𝑥 exp 𝑑𝑥
2√2𝜋 2 2
x
0.9
FX(x0.9) = 0.9 FX = 0.9 (z0.9)= 0.9 z1.285 da cui
Sebbene sia possibile calcolare l’area, pari a 0.685, si supponga di
x0.9 non disporre della tavola delle probabilità né di un computer. Si
=1.285 x0.9 1+21.285
disegni la funzione e l’area a cui si è interessati. Si calcoli
max 𝑓 𝑥; 𝜇, 𝜎 0.199
1.51 ∈ ,
21
P(1.5<X2) = P 2 <Z 2 = P(1.25<Z0.5) =
e si introduca un rettangolo di vertici con coordinate
= (0.5) (1.25) = (0.5) [1(+1.25)] =
= .6915 [10.8944] = 0.5859 (-4,0) , (2,0) , (2, 0.199) , (-4, 0.199)
dove si evince che l’area del rettangolo è pari a 1.197 mentre l’area
cercata è pari a 0.685 ovvero il 57.2264% dell’area del rettangolo.
Questo dettaglio apre lo spunto su come calcolare l’area desiderata.
135 136
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
∑ 𝑋
→ 𝜋 per 𝑛 → ∞
𝑛
∑
N.B. nel seguito verrà indicata come la
137 138
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
v.c. media campionaria, 𝑋. (N.B. La somma (o la media) di v.c. Gaussiane È una v.c.
gaussiana).
∑
Inoltre da → 𝑍~ 𝑁 0,1 si deduce che
/√
𝑋 𝜇
→ 𝑍~ 𝑁 0,1
𝜎/√𝑛
𝜎
𝑋 → 𝑁 𝜇,
𝑛
come anche
1
𝑛∑ 𝑋 𝜇
→ 𝑍 ~ 𝑁 0,1
𝜎/√𝑛
■
∑ 𝑋 𝑛𝜇
→ 𝑍~ 𝑁 0,1
𝜎√𝑛
ovvero
∑ 𝑋 𝑛𝜇
lim 𝑃 𝑧 Φ 𝑧
→ 𝜎√𝑛
139 140
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
N.B. si noti che con solamente n=3 v.c. Xi~U(6) si inizia già ad
intravvedere la classica forma a campana della normale
141 142
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
I) Esempio (media di v.c. unif. Discrete) II) Esempio (somma di v.c. unif. Discrete)
Si ipotizzi ora di limitarsi al caso di 25 dadi a 6 facce numerate da Analogamente se fossimo stati interessati alla v.c. somma dei
1 a 6. Si supponga di essere interessati alla v.c. punteggio medio nel punteggi, ovvero ∑ 𝑋 , avremmo potuto scrivere,
lancio dei 25 dadi. Si è quindi interessati alla v.c. ∑ 𝑋 , dove
2
-
√25 III) Esempio (somma di v.c. Bernoulliane)
ovvero
Ricordando l’esempio proposto in occasione della presentazione
1 2.9167 della v.c. binomiale relativo a “F ) Qual è la probabilità che su 25
𝑋 → 𝑁 3.5,
25 25 gg consecutivi si registri il segno (+) x volte” si è visto che la
distribuzione ha all’incirca un andamento campanulare.
=I
da cui dedurre, ad esempio, Si reinterpreti tale risultato, ricordando che il modello Binomiale è
descrivibile come somma di n v.c. 𝑋 i.i.d. di Bernoulli di parametro
e
.
1
↓ 4 3.5 Sapendo quindi che ∑ 𝑋 ~ Bin(25,) e che il problema di cui
𝑃 𝑋 4 ≅ Φ⎛ ⎞ 0.928381 sopra equivale a
25 2.9167
⎝ 25 ⎠
Pr{∑ 𝑋 = x} = Pr{∑ 𝑋 x} Pr{∑ 𝑋 < x}
Il calcolo esatto (complicato da eseguire) avrebbe restituito
0.935873 . = Pr{∑ 𝑋 x} Pr{∑ 𝑋 (x1)}=
143 144
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
25 25 𝑥 𝟎. 𝟓 𝑛𝜋
𝜋 1 𝜋 𝜋 1 𝜋 𝑃 𝑋 𝑥 ≅Φ
𝑗 𝑗 𝑛𝜋 1 𝜋
145 146
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Se fossimo interessati allo studio della v.c. frazione di successi su n Esempi ulteriori
prove bernoulliane Xi di parametro , ovvero alla media definita (prova del 05/09/2014) 0,32.(0,512 0,384
0,096)
+
𝜋 1 𝜋 Pr(x 1,2,) 1) la probabilità che nelle prime 2 estrazioni ci sia una sola pallina
=
~sia
3
Ad esempio, utilizzando il TLC, la probabilità di osservare su 25 1 0.28672
3
giorni al più il 30% di rialzi sarebbe calcolabile con I Prduiasca eszriy. Pr(almenac
in 2
In 3 nere)
ETR.
30 100 ∙ 0.28672
Pr 𝑍
100 ∙ 0.28672 ∙ 1 0.28672
Pr 𝑍 0.293755 1 0.615527
147 148
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
[(i).(-).( -)).[(i)()) )
ovvero circa 29 vincite. -
-
(?) (f)Fo).
(prova del 16/01/2015) ((i)(E)(r-fo))
&.
=
La risposta avrebbe richiesto la soluzione del problema: 1) la probabilità che nelle prime 2 estrazioni ci sia una sola pallina
bianca, nelle successive 2 estrazioni ce ne siano 2 gialle e
Pr 𝑋 𝑥 0.45 nell’ultima 1 nera; I E V E N T. 1.1.1 M O D E L LO BINOMILE
2
(R: 1 ∙ ∙ 0.00768 )
1 Pr 𝑋 𝑥 1 0.45 1
Pr 𝑋 𝑥 0.55
2) la probabilità di vincere almeno 10 volte su 100 replicazioni
ovvero usando del gioco descritto al punto 1).
->
Pr ⎛𝑍 ⎞
Il calcolo di cui prima si riconduce a 0.00768 ∙ 1 0.00768
⎝ 1000 ⎠
10 100 ∙ 0.00768 Pr 𝑍 0.9708 0.165825
Pr 𝑍
100 ∙ 0.00768 ∙ 1 0.00768
Se il quesito 2) fosse stato
Pr 𝑍 10.57522 ≅ 0 “2) qual è il numero massimo di perdite attese, sapendo che su 1000
replicazioni del gioco descritto al punto 1) la probabilità di vincere
almeno x volte è pari al 75%?
Se il quesito 2) fosse stato
La risposta avrebbe richiesto la soluzione del problema:
2) la probabilità di vincere almeno 10 volte su 1000 replicazioni
del gioco descritto al punto 1). Pr 𝑋 𝑥 0.75
1000 ovvero l’uso di
Pr 𝑋 10 ∑ 0.00768 1 0.00768 .
𝑥
Se avessimo usato il TLC, il calcolo di cui prima si riconduce a
𝑋 1000 ∙ 0.00768
𝑍 ∼ 𝑁 0,1
10 1000 ∙ 0.00768 1000 ∙ 0.00768 ∙ 1 0.00768
Pr 𝑍 0.200345
1000 ∙ 0.00768 ∙ 1 0.00768
La soluzione per x (vincite) si ottiene per
𝑥 1000 ∙ 0.00768
Se il quesito 2) fosse stato Pr 𝑍 0.75
“2) calcolare la probabilità che la frazione di successi su 1000 1000 ∙ 0.00768 ∙ 1 0.00768
replicazioni del gioco descritto al punto 1) sia minore del 0.5%”, la 𝑥 . 1000 ∙ 0.00768
Pr 𝑍 0.25
risposta avrebbe richiesto l’uso di 1000 ∙ 0.00768 ∙ 1 0.00768
𝑋
0.00768
𝑍 1000 ∼ 𝑁 0,1 𝑥 . 1000 ∙ 0.00768
0.00768 ∙ 1 0.00768 Φ 0.25
1000 1000 ∙ 0.00768 ∙ 1 0.00768
151 152
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
𝑥 . 1000 ∙ 0.00768
0.67449
1000 ∙ 0.00768 ∙ 1 0.00768 25 50 ∙ 0.17842
Pr 𝑍
50 ∙ 0.17842 ∙ 1 0.17842
𝑥 . 1000 ∙ 0.00768
0.67449 1000 ∙ 0.00768 ∙ 1 0.00768 Pr 𝑍 5.39192 ≅ 0
(prova del 16/01/2015) 2) la probabilità di vincere non più di 25 volte su 100 replicazioni
Si consideri il seguente gioco. Da un’urna, A, con 5 palline, di cui del gioco descritto al punto 1).
1 bianca e 4 nere, viene estratta una pallina che viene inserita in
un’altra urna, B, contenente 9 palline di cui 8 bianche e 1 nera. 100
Pr 𝑋 25 ∑ 0.17842 1 0.17842 .
Calcolare: 𝑥
1) la probabilità di estrarre dall’urna B due palline nere su 5 Se avessimo usato il TLC, il calcolo di cui prima si riconduce a
estrazioni eseguite con reimmissione.
25 100 ∙ 0.17842
Pr 𝑍 Pr 𝑍 1.8695
𝑃 "𝑝𝑢𝑛𝑡𝑜 1" 100 ∙ 0.17842 ∙ 1 0.17842
𝑃 1 bianca dall' urna A 𝑃 2 nere su 5 da urna B|1 bianca dall' urna A 0.9692
𝑃 1 nera dall' urna A 𝑃 2 nere su 5 da urna B|1 nera dall' urna A
0.2 ∙ 0.0729 0.8 ∙ 0.2048 0.17842
153 154
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Pr 𝑋 𝑥 0.95
ovvero l’uso di
𝑋 100 ∙ 0.17842
𝑍 ∼ 𝑁 0,1
100 ∙ 0.17842 ∙ 1 0.17842
La soluzione si ottiene da
𝑥 100 ∙ 0.17842
Pr 𝑍 0.95
100 ∙ 0.17842 ∙ 1 0.17842
𝑥 . 100 ∙ 0.17842
Pr 𝑍 0.05
100 ∙ 0.17842 ∙ 1 0.17842
𝑥 . 100 ∙ 0.17842
Φ 0.05
100 ∙ 0.17842 ∙ 1 0.17842
𝑥 . 100 ∙ 0.17842
1.64485
100 ∙ 0.17842 ∙ 1 0.17842
155 156
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Indici di forma
Per giudicare se una distribuzione differisce dall’andamento di una Esempio: prova del 13/02/2015
gaussiana, utili indici sono i c.d. indici di forma La tabella seguente riporta quotazioni dei bond decennali russi (B)
e del prezzo del petrolio (P) , rilevati in cinque giorni di
Def. Si dice simmetrica una distribuzione tale che contrattazioni. (n.b. dati fittizi):
𝜇 𝑀𝑒 𝑋 𝑀𝑜 𝑋
giorno Lun Mart Merc Giov Ven
Indice di asimmetria B 142 140 139 140 142
𝛾 0⇒𝜇 𝑀𝑒 𝑋 𝑀𝑜 𝑋 P 50 49 49 51 53
𝑀 𝑋 𝜇
𝛾 ⇒ 𝛾 0⇒𝜇 𝑀𝑒 𝑋 𝑀𝑜 𝑋
𝜎 Si calcoli per la marginale B, asimmetria e curtosi.
𝛾 0⇒𝜇 𝑀𝑒 𝑋 𝑀𝑜 𝑋
Indice di curtosi
𝛾 0 ⇒ 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑧𝑖𝑜𝑛𝑒 𝑝𝑙𝑎𝑡𝑖𝑐𝑢𝑟𝑡𝑖𝑐𝑎
𝑀 𝑋 𝜇
𝛾 3⇒ 𝛾 0 ⇒ 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑧𝑖𝑜𝑛𝑒 𝑛𝑜𝑟𝑚𝑜𝑐𝑢𝑟𝑡𝑖𝑐𝑎
𝜎
𝛾 0 ⇒ 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑧𝑖𝑜𝑛𝑒 𝑙𝑒𝑝𝑡𝑜𝑐𝑢𝑟𝑡𝑖𝑐𝑎
157 158
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Soluzione: si effettua un’estrazione casuale, tramite campionamento, di Da tali espressioni si deduce che
un sottoinsieme di n unità da , ovvero di un campione {1, 2, ..., n}, a) il vettore x={x1,x2, ...,xn} contiene le misurazioni fatte su un
su cui misurare le grandezze {x1, x2, ..., xn} con cui fare delle opportune campione casuale che (prima ancora di essere estratto) indicheremo
con X={X1,X2,Xn}, ovvero vettore composto da n “variabili
sintesi tramite una statistica t(), il cui risultato numerico, ^t = t(x ,x ,
1 2 aleatorie”. In generale X={X1,X2,Xn}.
...,xn), prenderà il nome di stima del parametro . b) In generale la variabile X (da cui provengono le Xi) ha distribuzione
(), che dipende da un vettore di parametri ={1, 2, ..., k} ed è
Nella pratica il problema sopra descritto è in genere preceduto da una
identificabile assegnando un valore al vero ma ignoto vettore di
altrettanto tipica domanda del finanziatore dell’indagine su :
parametri .
“a) quanto costa fare il campionamento da ovvero quanto deve essere c) Limitandoci al caso uniparametrico, {}, scrivere ^t = t(x ,x , ...,x )1 2 n
minimamente grande n affinché ^t sia “rappresentativo” del vero ma ignoto significa che ho a disposizione le misure e ho scelto t(): di fatto se
? “ voglio ottimizzare il campionamento devo conoscere, prima di
effettuare le misura, quale statistica t() userò.
...ed è in genere seguito da due tipiche domande dello sperimentatore: d) Se vale c) significa che la scrittura ^t = t(x1,x2, ...,xn), prima di
effettuare il campionamento, è intesa come realizzazione della v.c.
“b) quale funzionale t() devo scegliere per avere una buona stima di ? La
T ^ = T(X ,X , ...,X ), noto come stimatore, dove {X ,X , ...,X } si
1 2 n 1 2 n
stima ^t che ho ottenuto può essere ritenuta “uguale” ad una misura di mio
0 ipotizzano, spesso per semplicità, essere v.c. aventi la stessa
specifico interesse? “ distribuzione di X e in genere si ipotizzano indipendenti in senso
stocastico, ovvero sono un insieme di v.c. i.i.d..
Daremo una limitata risposta al punto a) (per approfondimenti vedi corso
sulle tecniche di campionamento) mentre ci concentreremo su N.B. i) la distribuzione , definita a meno di , in genere viene scelta
un’introduzione alla risposta al punto b) ). sulla base di considerazioni empiriche o di conoscenza del fenomeno
oggetto di studio (esempio in base alla applicazione del TLC) e potrà
essere indicata con ; ii) T(X) è una v.c. il cui studio consentirà di
individuare i criteri per la scelta del miglior funzionale T() (e quindi
161 162
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
il miglior stimatore) per in modo da perdere la minor quantità di Si considerino i seguenti due tipici esempi.
informazioni e di disporre delle proprietà di T(X) con riferimento al
parametro o a sue trasformazioni. Si ipotizzi che la v.c X abbia definito un’applicazione da in modo tale
che il dominio in risulti di cardinalità finita del tipo X {x1, x2, ..., xn} e
che la distribuzione di probabilità su sia nota ovvero sia noto che
In generale Pr{X=xi}=i per i=1,2,...n.
Oggetto sarà, scelta una procedura di campionamento e la distribuzione ,
lo studio del miglior stimatore ^=T() la cui realizzazione campionaria t() Caso a) Se si ipotizza di estrarre con reimmissione n unità dal dominio di X,
sarà la stima, ^t, da associare a . Analogamente si potrebbe essere interessati significa che stiamo considerando n v.c. i.i.d. ad X. Al fine di conoscere la
allo studio di come scegliere . distribuzione della v.c. campionaria {X1, X2,..., Xn}, dovremo costruire
TUTTE le possibili disposizioni di ordine n CON ripetizione di elementi
estraibili da X e associare a tali coppie la corrispondente probabilità di
Variabili casuali campionarie estrazione (la verosimiglianza). Nel caso in cui tale misura non sia nota, si
può ipotizzare di eseguire infinite volte il campionamento. Al crescere delle
In generale si è detto che X={X1,X2,Xn} è una v.c. . replicazioni andrà a convergenza (in forma debole) la distribuzione della
Se le Xi sono i.i.d. ad una v.c. X~() discreta (continua) avente funzione di v.c. campionaria, di cui si conosceranno non solo tutti i possibili campioni
probabilità (di densità) pari a p(x;) ( f(x;) ) allora stante l’assunta estraibili di dimensione n ma anche la verosimiglianza associata.
indipendenza stocastica tra le Xi al campione x={x1,x2, ...,xn} si potrà
associare: Esempio: Si consideri un fenomeno aleatorio descritto dalla v.c.
X {1 , 0 , 1}.
n Si estragga con reimmissione un campione di due unità da X, ovvero si
la probabilità : Pr(X=x) = p(xi;)
i=1 costruisca la v.c. campionaria {X1, X2}, dove X1 e X2 sono v.c. i.i.d. a X.
n
( la densità di frequenza: f(x;) = f(xi;) )
i=1 Trattandosi di una v.c. con un numero limitato di manifestazioni possiamo
individuare le possibili determinazioni del campione casuale {X1, X2}
che prenderanno il nome di verosimiglianza del campione x. come indicato nella tabella sottostante.
Si deduce che la stima ^t = t(x1,x2, ...,xn) avrà probabilità (densità) pari alla {X1,X2} 1,1 1,0 1,1 0,1 0,0 0,1 1,1 1,0 1,1
verosimiglianza.
In generale qualunque trasformazione di X viene chiamata v.c. campionaria Si introduca una trasformazione della v.c. campionaria. Se fossimo
ed è fondamentale comprenderne la sua costruzione per le considerazioni interessati alla v.c. 𝑊 = (funzione quindi del campione {X1,X2} )
inferenziali che seguiranno nei prossimi paragrafi. potremmo completare la tabella, aggiungendo un’ulteriore riga come segue
163 164
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
{X1,X2} 1,1 1,0 1,1 0,1 0,0 0,1 1,1 1,0 1,1 Caso b) Se si ipotizza di estrarre senza reimmissione n unità dal dominio di
W 1 0,5 0 0,5 0 0,5 0 0,5 1 X, significa che stiamo considerando la v.c. campionaria {X1, X2,..., Xn}, con
n v.c. NON i.i.d. ad X. Al fine di conoscere la distribuzione della v.c.
Assumendo che gli eventi in X possano manifestarsi con probabilità pari campionaria {X1,X2,...,Xn}, dovremo costruire TUTTE le possibili
rispettivamente a {¼,½ ,¼}, potremmo anche calcolare E(X)=0 e disposizioni di ordine n senza ripetizione di coppie di elementi estraibili da
Var(X)=0.5. X e associare a tali coppie la corrispondente probabilità di estrazione
Se si ipotizza di replicare il campionamento molte volte (tendenti ad (facendo attenzione al condizionamento in fase di costruzione della n-upla
infinito) potremmo associare a ciascun campione la corrispondente considerata).
probabilità di accadimento, che al divergere delle prove converge a
Esempio: Si consideri la v.c. X {1 , 0 , 1} i cui eventi possono
{X1,X2} 1,1 1,0 1,1 0,1 0,0 0,1 1,1 1,0 1,1 manifestarsi con probabilità pari rispettivamente a {¼ , ½ , ¼}. Si estragga
Pr{X1X2} 1/41/4 1/41/2 1/41/4 1/21/4 1/21/2 1/21/4 1/41/4 1/41/2 1/41/4 senza reimmissione un campione di due unità da X ovvero si costruisca la
v.c. campionaria {X1, X2}.
ovvero alla misura di verosimiglianza del campione.
Le possibili determinazioni del campione casuale {X1, X2} con l’associata
Analogamente, usando la v.c. W, avremmo avuto la tabella
verosimiglianza sono riportate nella tabella sottostante.
{X1,X2} 1,1 1,0 1,1 0,1 0,0 0,1 1,1 1,0 1,1
{X1,X2} 1,0 1,1 0,1 0,1 1,1 1,0
Pr{X1X2} 1/41/4 1/41/2 1/41/4 1/21/4 1/21/2 1/21/4 1/41/4 1/41/2 1/41/4
Pr{X1X2} = 1/2 1/4 1/4 1/4 1/4 1/2
1/4 1/4 1/2 1/2 1/4 1/4
1/2 + 1/4 1/4 + 1/2 1/4 + 1/4 1/4 + 1/4 1/4 + 1/2 1/2 + 1/4
W 1 0,5 0 0,5 0 0,5 0 0,5 1 Pr{X1} Pr{X2|X1} =1/4 2/3 =1/4 1/3 =1/2 ½ =1/2 ½ =1/4 1/3 =1/4 2/3
Bias = T
167 168
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
Se la f.d.d. (o di probabilità) di T è nota, si definisca quindi l’ MSE (Mean Si supponga di essere interessati ad una buona stima del parametro =. Si
Squared Error) come usi a tale proposito lo stimatore ^ = T = T(X ,X ) = =𝑋 (identico
1 2
--------------------o-o-o-------------------- 1
E(𝑋)=E ∑ 𝑋 = n E(Xi) = e quindi [E(𝑋)]2= 0 !!!
da cui
169 170
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
S2 1
MSE() = E{[𝑋]2} = Var(𝑋) + [E(𝑋)]2 Pr{S2} 8/16 2/16
X
= 0.20834 + [0 ]2
Risulta quindi
Essendo noto che il parametro della popolazione è 0 si deduce
MSE 2(2) = E2{[S22]2} = Var2(S2) + [E2(S2)2]2
(ovviamente ancora) che 𝑋è uno stimatore non distorto del parametro . Si S
può però aggiungere che lo stimatore ottenuto col campionamento senza = 0.09375 + [0.25 2 ]2
reimmissione, avendo un MSE minore, è più efficiente.
Essendo (nel nostro caso “accademico”) noto che il parametro 2 della
--------------------o-o-o-------------------- popolazione è 0.5, si deduce che S2 NON è uno stimatore corretto (è
distorto) del parametro 2.
Esempio: Stimatore 𝑆 = ∑(𝑋 − 𝑋) per il parametro 2 di una
popolazione In generale, nel caso di campionamento CON reimmissione (e anche
quando ovviamente non è noto il “vero” valore del parametro 2) è possibile
Si riprenda ancora l’esempio iniziale della v.c. X {1 , 0 , 1} i cui eventi “correggere” la distorsione in base alle seguenti considerazioni. Siano Xi
possono manifestarsi con probabilità pari rispettivamente a {¼ , ½ , ¼}. i.i.d. con Var(Xi)=2< si ha
Si supponga di essere interessati ad una buona stima del parametro =2. Si
usi a tale proposito lo stimatore S2 = Var[{X1,X2,..., Xn}] = ∑ (𝑋 − 𝑋 ) = ∑ (𝑋 − 𝜇 + 𝜇 − 𝑋 ) =
= ∑ [(𝑋 − 𝜇) + (𝑋 − 𝜇) − 2(𝑋 − 𝜇)(𝑋 − 𝜇 )]
^ = T(X1,X2) = S2 = Var[{X1,X2}] =
1 𝑋 +𝑋 1 Applicando il valore atteso
= 𝑋 − = (𝑋 − 𝑋)
2 2 2
1
𝐸 [𝑆 ] = 𝐸 (𝑋 − 𝑋 ) =
ovvero la varianza della v.c. campionaria. Si vuole verificare SE 𝑛
E(S2) =2. 1
Usando il campionamento con reimmissione la v.c. campionaria S2 si = 𝐸 (𝑋 − 𝜇 + 𝜇 − 𝑋) =
sarebbe presentata come segue: 𝑛
1
{X1,X2} 1,1 1,0 1,1 0,1 0,0 0,1 1,1 1,0 1,1 = 𝐸 {(𝑋 − 𝜇 ) + (𝑋 − 𝜇 ) − 2(𝑋 − 𝜇 )(𝑋 − 𝜇)} =
𝑛
Pr{X1X2} 1/41/4 1/41/2 1/41/4 1/21/4 1/21/2 1/21/4 1/41/4 1/41/2 1/41/4
S2 0 1 0 0.25 1 0.25 0 1 1
= 𝐸 (𝑋 − 𝜇) + 𝐸 [(𝑋 − 𝜇 ) ] − 2𝐸 (𝑋 − 𝜇 )(𝑋 − 𝜇) =
𝑛 𝑛
( ad esempio preso {x1,x2}={0,1}, s2 = ½ {(00.5)2+(10.5)2} = 0.25 )
𝜎
=𝜎 + − 2𝐸 [(𝑋 − 𝜇)(𝑋 − 𝜇)] =
da cui ottenere 𝑛
171 172
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
da cui dedurre che è uno stimatore distorto della varianza e che uno avremmo per la v.c. S2 la seguente distribuzione
stimatore NON distorto è
S2 1
Pr{S2} 2/12
𝑛 𝟏
𝑆 = 𝑆 = (𝑋 − 𝑋 )
𝑛−1 𝒏−𝟏 MSE 2(2) = E2{[S22]2} = Var2(S2) + [E2(S2)2]2
S
!!!!!
= 0.078125 + [0.375 2 ]2
n n n n1
Infatti E S2 = E(S2) =
2 =2. Essendo noto che il parametro 2 della popolazione era 0.5, si deduce che
n1 n1 n1 n
S2 NON è stimatore distorto del parametro 2.
2 Anche in questo caso è possibile definire una procedura di correzione dello
Nel nostro esempio, quindi, se moltiplichiamo S2 per otteniamo
21 stimatore.
{X1,X2} 1,1 1,0 1,1 0,1 0,0 0,1 1,1 1,0 1,1
Pr{X1X2} 1/41/4 1/41/2 1/41/4 1/21/4 1/21/2 1/21/4 1/41/4 1/41/2 1/41/4 N.B. A parità di stimatori DISTORTI si può però aggiungere che lo
2 stimatore ottenuto col campionamento senza reimmissione, avendo un MSE
Sc 0 2 0 0.5 2 0.5 0
minore è più efficiente (+0.09375 vs +0.15625 del campionamento con
da cui ottenere reimmissione).
2
Sc 2
In generale si fa comunque notare che se il criterio di scelta consiste solo
2 nel preferire lo stimatore T* per il quale MSET*() = minimo, questo non
Pr{ Sc } 8/16 2/16
implica dover scegliere necessariamente stimatori all’interno della classe
dei non distorti. Ad esempio lo stimatore varianza campionaria ha MSE
2 minore dello stimatore noto come varianza campionaria corretta per
da cui E(Sc ) = 0.5 = 2 !!!!
dimensioni del campione 2 (v. ad es. B.V. Frosini (2001), Metodi Statistici,
2 Carocci p. 377).
Analogamente se moltiplichiamo E(S2) per otteniamo 0.252 =0.5 =2
21
173 174