Appunti Di Statistica

Diego Zappa, Appunti di Statistica I – fac.
ScBancFinAss, UCSC - Milano
UNIVERSITÀ CATTOLICA DEL SACRO CUORE Da Guida dello studente

LARGO A.GEMELLI, 1 - 20123 MILANO
DENOMINAZIONE DEL CORSO STATISTICA I
Facoltà di Scienze Bancarie Finanziarie e Assicurative CREDITI FORMATIVI (ORE DI AULA) 10 CFU (70 ORE)
COLLOCAZIONE NEL PIANO DI STUDI PRIMO ANNO (LT – TUTTI I CORSI)
PERIODO DI SVOLGIMENTO SECONDO SEMESTRE
DOCENTE PROF. DIEGO ZAPPA
Statistica I
OBIETTIVO DEL CORSO E RISULTATI DI APPRENDIMENTO ATTESI
prof. Diego Zappa Trattasi di un corso a contenuto prevalentemente metodologico, in cui vengono presentati i
principali argomenti relativi alle macro-aree (a) statistica descrittiva, (b) calcolo delle probabilità e
campionamento.
Appunti ad uso degli studenti I principali macro-argomenti saranno: indici sintetici per variabili unidimensionali, introduzione
allo studio di fenomeni bivariati, schemi di campionamento e costruzione di variabili casuali
campionarie. Il corso prevede lo svolgimento di lezioni a contenuto sia metodologico sia applicato,
senza soluzione di continuità.
Al termine del corso i partecipanti sapranno come si effettua la sintesi informativa di una variabile
statistica (o di più variabili statistiche), comprendere i primi rudimenti relativi allo studio di
fenomeni aleatori.
0.5 n fissato alfa=5%
0.6
0.7
PROGRAMMA DEL CORSO
120
0.8
0.9 110
1 100
1.1
1.2 90
1.3
1.4
1.5 1/lamda
80
70
OBIETTIVI FORMATIVI CHE LO STUDENTE POTREBBE ACQUISIRE NEL CORSO
1.6
1.7
1.8
1.9
n 60
50
I parte: statistica descrittiva
2
2.1
2.2
40
30 Dopo avere descritto il contenuto delle scienze statistiche, verrà introdotta la tassonomia dei
2.3
caratteri statistici, di cui si proporranno le principali rappresentazioni tabellari e grafiche.
20
-10 2.4
-85
-86
-87
-88
-89
-90
-91
-92
-93
-94
-95
-96
-97
-98
-99 2.5 10
5.5
0
5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
4.5
Seguirà la presentazione dei principali indici per descrivere variabili statistiche unidimensionali e
0 sigma
4
3.5
6
3
5.5 5
2.5
4.5 4
gdl
2
3.5 3
1.5
delta 2.5 2
1
bidimensionali. In particolare verranno presentati i seguenti argomenti:

1
– Indici di posizione.
1
0.9
0.8 0.8
0.7
– Indici di dispersione e indici di variabilità globale.
0.6
0.6
– Indici di forma.
Seguirà l’introduzione all’analisi statistica di fenomeni bidimensionali, di cui si commenteranno i
0.5
0.4
0.4
0.2 0.3
0.2
concetti di dipendenza e di indipendenza in presenza di:
0 0.1
– simmetria informativa (indici di connessione e concetto di indipendenza stocastica);
-2 0 2 4 6 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5
– asimmetria informativa (introduzione ai modelli di regressione lineari nei parametri, impiego del
Distrib H0 Distrib H1 c0
metodo dei minimi quadrati e misure di adattamento ai dati).
Boostrap media campionaria mediana semisomma
Dopo il completamento della trattazione dei precedenti argomenti la studentessa/lo studente è in

grado di effettuare le principali analisi descrittive di dataset e di produrre semplici report
interpretativi del fenomeno oggetto di analisi.
Milano  Febbraio 2021
II parte: calcolo delle probabilità e campionamento
Si inizierà con una introduzione al calcolo delle probabilità. In particolare verranno presentati i
seguenti argomenti:
– Definizione assiomatica, frequentista e classica di probabilità.
– Lo schema dell’urna.
– Definizione di variabile casuale.
– Principali variabili casuali: uniforme (discreta e continua), di Bernoulli, binomiale, normale (o
gaussiana).
– La legge dei grandi numeri e teorema del limite centrale (solo enunciati).
Si procederà quindi con l’introduzione di elementi utili per affrontare argomenti di inferenza
statistica, tra cui:
2
Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano Diego Zappa, Appunti di Statistica I – fac. ScBancFinAss, UCSC - Milano
– principali tecniche di campionamento;

– definizione di verosimiglianza;
– distribuzione di alcune variabili casuali campionarie (in particolare della media campionaria). Premessa
Dopo il completamento della trattazione dei precedenti argomenti, la studentessa/lo studente è in
grado di affrontare le prime nozioni relative alle procedure decisionali in condizioni di incertezza.
Il materiale contenuto in queste pagine è stato composto con l’intento
BIBLIOGRAFIA di aiutare gli studenti nel seguire le lezioni, evitando, per quanto
Dispense a cura del docente
G. CICCHITELLI, Statistica – Principi e metodi, Pearson, 2018.
possibile, di impegnarli nel “ricopiare formule”.
Gli argomenti meno complessi sono presenti in forma estremamente
DIDATTICA DEL CORSO
Si alterneranno lezioni metodologiche a lezioni con prevalente contenuto esemplificativo.
sintetica, mentre concetti/argomenti più complessi sono corredati anche
da brevi commenti.
METODO E CRITERI DI VALUTAZIONE
Prova scritta suddivisa in due parti. Ai fini della valutazione finale, le due parti hanno uguale peso
Si suggerisce di utilizzare tale materiale affiancando la lettura
(50%). sistematica del testo di riferimento e svolgendo/seguendo gli esercizi
Le prove comprendono esercizi sia applicati che teorici. È prevista una sezione obbligatoria che,
se non superata, rende la prova non sufficiente. Il superamento di questa sezione, senza aver svolto proposti in aula.
alcun esercizio della sezione istituzionale, non rende la prova sufficiente.
LUOGO e ORARIO RICEVIMENTO Avvertenza: il materiale potrà subire aggiornamenti durante il corso
Orario e luogo di ricevimento
Il Prof. Diego Zappa riceve gli studenti come da avviso pubblicato sul sito www.unicatt.it presso il delle lezioni
Dipartimento di Scienze statistiche (edificio di via Lanzone, 18, III piano).
(controllare pagina web http://docenti.unicatt.it/ita/Diego_Zappa )
3 4
Statistica Un carattere (X) può assumere la modalità xi, per i=1,..,k

Metodo della ricerca empirica
Tramite il c.d. spoglio dei dati si ricava ni :
- frequenza assoluta con cui la modalità xi si è
manifestata.
Terminologia/notazione - frequenza assoluta con cui si sono osservate
modalità all’interno della classe xi-1 | xi (intervallo
Popolazione: il rilevabile (di dimensione N) di valori)
Campione: il rilevato (di dimensione n) o | classe chiusa a dx e aperta a sx
Unità statistica: h = 1,...,N (h = 1,...,n) o | classe chiusa a sx e aperta a dx
o || classe chiusa a sx e a dx
Dell’unità statistica, h-esima, posso misurare uno o più caratteri oooooooo
(indicati esempio con X).
La successione {xi, ni } per i=1,..,k si definisce “serie”
Caratteri :
- qualitativi (Se X è raggruppata in classi si parla di seriazione)
o sconnessi (nominali)
o rettilinei (ordinali) Con riferimento ad una popolazione composta da N individui
- quantitativi classificati in base a k modalità, si ha
o discreti
o continui 𝑁 𝑛
oooooooo e si definisce
𝑛
𝑓
𝑁
la frequenza relativa della modalità xi. Ovviamente deve valere
𝑛
𝑓 1
𝑁
5 6
con le seguenti proprietà

oooooooo
1- 𝐹 è definita su tutto ℝ
Esempio (tema 21/06/2012)
La seguente tabella riporta informazioni su D = dividendo per azione (in 2- per x < xmin , 𝐹 = 0; per x > xmax , 𝐹 = 1
percentuale) e A= tipologia del titolo, riferito a 10 titoli azionari (n.b. dati
simulati).
3- per xj < xj+1 , 𝐹  𝐹
D 2 0 1 1 4 2 1 0 2 4
A E F S I E S I F F E 4- per xj  xj* < xj+1 , 𝐹 = 𝐹 ∗
Si effettui lo spoglio dei dati, costruendo la corrispondente tabella a doppia

entrata. oo d'a
spagna
lo La funzione di retro-ripartizione è
R. Effettuando lo spoglio di A si ottiene
i A ni fi
dove - E,F,I,S sono le k=4 modalità 10
- 3,3,2,2 sono frequenze assolute 1 E 3 0.3 --
2 F 3 0.3 -316 𝑛
𝐹 ≡𝐺 𝑓 𝑝𝑒𝑟 𝑗 1, … , 𝑘
[ri=
- 0.3, 0.3, 0.2, 0.2 sono frequenze
3 I 2 0.2 /10->
𝑁
relative
313Ant 10
=
4 S 2 0.2 21,0
->
N=10 F=1
oooooooo oooooooo
Esempio di funzione di ripartizione e di retroripartizione

Con riferimento ad un carattere ordinabile (e ordinato in senso (vedi prova 9/4/2010 )
crescente) si definisce v T -
-
X ni fi Fj Gj
Funzione di ripartizione il luogo dei punti (xj , Fj), dove
Di
648 3 0.3 0.3 1
masto
649 1 0.1 0.4 0.7
650 3 0.3 0.7 0.6
𝑛 651 2 0.2 0.9 0.3
𝐹 𝑓 𝑝𝑒𝑟 𝑗 1, … , 𝑘 652 1 0.1 1 0.1
𝑁
N=10 1
7 8
Caratteri quantitativi
Rappresentazioni Grafiche - Discreti
o Istogrammi
Caratteri qualitativi  in ordinata: frequenze assolute o relative
- Barre
o in ordinata: frequenze assolute o relative
o Torte
o ...
- Seriazioni (Serie storica)

- Torte o in ascissa: tempo, t.
- ... o in ordinata: valore della variabile al tempo t.
Dati
Giorno Prezzo Titolo X
chiusura
Titolo X
7.25
7.20
7.15
pêdoktzzäwwçèûpörêadênto
1 6.99 7.10
7.05
2 7.10 7.00
3 7.04 6.95
6.90
4 7.12 6.85
5 7.21 1 2 3 4 5 6 7 8
giorno
6 7.08
7 7.18
8 7.16
9 10
- Continui
Esempio serie storica (15/07/2011) o Istogrammi (a barre contigue)
La seguente tabella riporta le serie di dati raccolti nell’arco di 12 giorni su:  in ordinata: densità di frequenza (frequenze
S=Spread medio giornaliero di rendimento BTP-Bund, D=presenza/assenza ridotte) di=ni/wi
in giornata di decisioni sul rating del debito pubblico di qualche paese
europeo. dove wi=ampiezza della classe (ovvero xi 
xi-1 )
Giorno 1 2 3 4 5 6 7 8 9 10 11 12
S 177 180 185 180 190 210 200 185 240 280 340 260
1.1. Raggruppamento in classi di ampiezza costante 0.05
Si raccolgano i dati della variabile S nelle classi 170|200, 200|250, Classi: xi-1 | xi ni
2.5
250|350 e si chiami la nuova serie S*. Rappresentare, con opportuni grafici, 2
le serie S e S*. 6.98 | 7.03 1 1.5

7.03 | 7.08 2 1
7.08 | 7.13 2 0.5
7.13 | 7.18 2 0
7.18 | 7.23 1 6.98 --| 7.03 7.03 --| 7.08 7.08 --| 7.13 7.13 --| 7.18 7.18 --| 7.23
(n.b. si usa anche la notazione xi-1 | xi  ( xi-1 , xi ]
1.2. Raggruppamento in classi di ampiezza costante 0.10

Classi: xi-1 | xi ni 4.5
4
6.98 | 7.08 3 3.5
3
7.08 | 7.18 4 2.5
oooooooo 7.18 | 7.28 1 2
1.5
1
0.5
0
6.98 --| 7.08 7.08 --| 7.18 7.18 --| 7.28
11 12
S Classi_S1 Classi_S2
1.3. Raggruppamento in classi di ampiezza non costante
177 170-|200 (170,200]
Classi: xi-1 | xi ni Wi ni 180 170-|200 (170,200]
di =w 185 170-|200 (170,200]
i 180 170-|200 (170,200]
190 170-|200 (170,200]
6.95 | 7.05 2 0.1 20 210 200-|250 (200,250]
7.05 | 7.15 3 0.1 30 200 170-|200 (170,200]
7.15 | 7.20 2 0.05 40 185 170-|200 (170,200]
240 200-|250 (200,250]
7.20 | 7.25 1 0.05 20 280 250-|350 (250,350]
340 200-|250 (250,350]
260 250-|350 (250,350]
SBAGLIATO CORRETTO
3.5 45
Classi_S1 ni wi di
3 40 170-|200 7 30 7/30
35 200-|250 2 50 2/50
2.5
30 250-|350 3 100 3/100
d e n s ità d i
2 25
fre q
fre q
1.5 20
1 15
10
0.5
5
0 0
6.9 6.95 7 7.05 7.1 7.15 7.2 7.25 7.3 6.9 6.95 7 7.05 7.1 7.15 7.2 7.25 7.3
-o-o-o-o-o-o-o-o-
Esempio di istogramma con classi di ampiezza non costante (prova
15/07/2011)
Giorno 1 2 3 4 5 6 7 8 9 10 11 12
S 177 180 185 180 190 210 200 185 240 280 340 260 -o-o-o-o-o-o-o-o-
Si raccolgano i dati della variabile S nelle classi 170|200, 200|250,
250|350 e si chiami la nuova serie S*. Rappresentare, con opportuni
grafici, S*.
R. Una riclassificazione possibile è
13 14
Esempio di funzione di ripartizione e di retroripartizione

Rappresentazioni Grafiche: Funzione di ripartizione (vedi prova 9/4/2010 )
Caratteri numerabili X ni fi Fj Gj
PFONZLONE
A GRaD
.N,
648 3 0.3 0.3 1
Età in anni Freq rel Fi 649 1 0.1 0.4 0.7
compiuti
18 0.05 0.05 1 650 3 0.3 0.7 0.6
19 0.20 0.25 651 2 0.2 0.9 0.3
0.8
20 0.40 0.65 652 1 0.1 1 0.1
21 0.15 0.80 N=10 1
0.6
22 0.10 0.90
23 0.10 1.00
0.4
0.2
0
16 17 18 19 20 21 22 23 24 25
Caratteri non numerabili

Età (IN CLASSI) Freq rel Fi
15-|18 0.05 0.05
18-|19 0.3 0.35 1
19-|21 0.45 0.8

21-|22 0.1 0.9 0.8
22-|25 0.1 1
0.6
0.4
0.2
0
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
15 16
Indici di posizione (Medie) (X) Moda : Mo(X)

“modalità a cui è associata la maggiore frequenza o la classe
a cui è associata la maggiore densità di frequenza”
Sia
 𝑿 ∶ 𝑿 →ℝ Classe
45 Modale
 𝑿 si chiama indice di posizione se valgono le seguenti 40
35
proprietà : 30
d e n s ità d i
25
fre q
20
1. Internalità : 15
𝑥 min 𝑿  𝑿 max 𝑿 𝑥 10
5
0
6.9 6.95 7 7.05 7.1 7.15 7.2 7.25 7.3
2. Moltiplicativa (proporzionalità)
 𝑐𝑿 𝑐  𝑿
3. Monotonicità: date due v.s. X e Y tali che
𝑿≼𝒀
allora deve valere

 𝑿  𝒀
17 18
*I InCEDERE
CHE
Ci siano più Caratteri numerabili
autre.c.
Percentile di ordine p : xp (o x(p)) con 0<p<1 Di uguale
ordine
Con l’impostazione A
“modalità o classe che occupa la posizione p-esima di una mosz
distribuzione ordinata di valori” Età in anni Freq rel Fi Retro-
compiuti ripartizione
A) 18 0.05 0.05 1
1
le
I quartile
④õ↳ 19 0.2 0.25 0.95
-
-
I
Q UA R T I E
I quartie
I
* quartile / Mediana 20 0.4 0.65 0.75
𝑥 : 𝑓 𝑝 ∧ 𝑓 1 𝑝 >
->
III quartile 21 0.15 0.8 0.35
- nono decile
nono decile
22
23
S 0.1
0.1
0.9
1
0.2
0.1 I
B) sia F(X) la funzione di ripartizione. Allora 1) si Zf!
s t avo
t rova mesi a n a
I
3)
guaina
2) Trov
y 0.85 =
𝑥 ∶𝐹 𝑥 𝑝 Con l’impostazione B
il
è
non
reciproco
)
- Se F è una funzione invertibile allora, 𝐹 𝑝 𝑥 1.1
1
- Se non esiste inversa, la soluzione potrebbe non essere 0.9
unica 0.8
0.7
0.6
Es. p=0.25 (x0.25=I quartile) 0.5
0.4
p=0.5 (x0.5=Mediana / II quartile) 0.3
0.2
0.1
p=0.75 (x0.75=III quartile) 0
16 17 18 19 20 21 22 23 24 25
p=0.1  c (x0.1c=decile c-esimo) con c=1,2,...,9

Valore Mediano Nono decile (x0.9)
x0.5 “22” o “23”
19 20
Il Box-Plot (o Box and Wiskers Plot)

Caratteri non numerabili
Sia :
Con l’impostazione A x(1)= Min
Età (IN CLASSI) Freq rel Fi Retro-ripartizione
1
x0.25=I quartile
15-|18 0.05 0.05
I quartile 18-|19 0.3 0.35 0.95 x0.5= Mediana
Mediana / III quartile 19-|21 0.45 0.8 0.65 x0.75=III quartile
nono decile 21-|22 0.1 0.9 0.2 x(n)= Max
nono decile 22-|25 0.1 1 0.1
Data una serie di valori, il seguente grafico prende il nome

Con l’impostazione B
di Box-Plot
1.1
1
0.9
0.8
Max
0.7 III quartile
0.6
Mediana
0.5
0.4 I quartile
0.3
Min
0.2
0.1
0
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Posto x0.75 x0.25= RI (Range Interquatilico), se
I quartile (x0.25) Percentile x0.90 SE x(1)> x0.25 RI  1.5

allora Min = x(1)
Classe del I quartile Classi del Nono altrimenti Min = x0.25 RI  1.5
decile
oooooooo SE x(n)< x0.75+ RI  1.5

allora Max = x(n)
(v. file FdR rip.xls) altrimenti Max = x0.75+ RI  1.5
21 22
Box-Plot (rappresentazione “verticale”)
Dati da Esempio Dati da esempio con (n)= 11 allora
Tutti i valori
{x : x < x0.25 RI  1.5  x > x0.75+ RI  1.5 }
vengono chiamati “outlier”.
x(n)=7
Esempio
x0.75=5
Sia
xi ni Fj Gj
X={1,2,2,3,4,5,5,5,7} ovvero 1 1 1/9 1
7
x0.5=4
2 2 3/9 8/9
Da cui
3 1 4/9 6/9
x(1)= 1
e 3
2-. (5-.]..5 4 1 5/9 5/9
x0.25=2 5 3 8/9 4/9 x0.25=2
x0.5=4 7 1 1 1/9
x(1)=1
x0.75=5
x(n)= 7
RI= 5-2=3
RI1.5= 4.5
23 24
Box-Plot (rappresentazione “orizzontale”) > boxplot(D, range=1.5, border=1, col="grey", ylab="D", yaxt="n")
> axis(2, c(quantile(D), 3.5), cex.axis=.8)
> text(x=1,c(quantile(D), 3.5), c("min","I quart","med","III

quart","max","1.5*range interq"),col="red",
x0.25=2 x0.5=4 x0.75=5 cex=2)
x(1)=1 x(n)=7
Se avessimo avuto x(n)= 11 allora
(Un confronto tra due distribuzioni)
(v. file Esempi)
-o-o-o-o-o-o-o-o-
Esempio di boxplot (21/06/2012)
D 2 0 1 1 3 2 1 0 2 4
A E F S I E S I F F E -o-o-o-o-o-o-o-o-
1.1) Si effettui lo spoglio dei dati, costruendo la corrispondente tabella a

doppia entrata. Si rappresenti con un grafico opportuno la
distribuzione condizionata A|D=2 e si rappresenti la marginale D con
un box-plot.
ese
-C2-1J...s
> quantile(D) os
0%
0.0 oo
25%
1.0
50%
1.5
75% 100%
2.0 4.0
4 3 2
+ [ .
z..3.
s
7
25 26
u 3 V
Medie analitiche
N.B.
Si consideri X o una sua trasformazione g(X)
1- 𝑀 𝑋 ∑ 𝑥 𝑛 prende il nome di momento
Per variabili X non negative o trasformazioni g(X) su supporto ℝ ,
si definisce media potenziata di ordine r di X ( o di g(X) ) dall’origine di ordine r che è definito anche per variabili X
non positive o sue trasformazioni g(X).
𝑀 𝑋
=>
-
1
𝑁 zigem 𝑥 𝑛 𝑥 𝑓 ≡𝜇
2- Mr(X) per r=1 si chiama media (aritmetica) di X
𝑀 𝑋
1
𝑁
𝑥 𝑛 ≡ 𝑥̅ ≡ 𝜇
1
1 𝑀 𝑔 𝑋 𝑔 𝑥 𝑛 ≡𝑔 𝑋 ≡𝜇 𝑔 𝑋
𝑀 𝑔 𝑋 𝑔 𝑥 𝑛 𝑔 𝑥 𝑓 ≡𝜇 𝑔 𝑋 𝑁
𝑁
3- se X è in classi, per la classe xi1|xi si considera, per
xi+xi1
convenzione, il solo valore centrale 2 := cxi
Proprietà di 𝑀 𝑋
- 𝑀 𝑋 è un indice di posizione con 𝑟 ∈ ℝ -o-o-o-o-o-o-

- Per r=0 il limite
𝑘
𝑁
𝑛
lim 𝑀𝑟 𝑋 lim 𝑀𝑟 𝑋 𝑀0 𝑋 𝑥𝑖 𝑖
→ →
𝑖 1
Prende il nome di media geometrica. In particolare vale

1
log 𝑀 𝑋 𝑛 𝑙𝑜𝑔 𝑥
𝑁
- lim 𝑀𝑟 𝑋 𝑥 lim 𝑀𝑟 𝑋 𝑥
→ →
- Per 𝑟 𝑟 vale 𝑀 𝑋 𝑀 𝑋
27 28
Esempio su medie (13/02/2015) Proprietà di 𝑀 𝑋

La tabella seguente riporta quotazioni dei bond decennali russi (B) e del
prezzo del petrolio (P) , rilevati in cinque giorni di contrattazioni. (n.b. dati A) M(X) è un operatore lineare (ovvero la media di una
fittizi):
combinazione lineare è la combinazione lineare delle
giorno Lun Mart Merc Giov Ven medie).
B 142 140 139 140 142
P 50 49 49 51 53 Es. Se Y=a+bX allora M(Y) = a+bM(X)
1.2a) Calcolare, se possibile, media, deviazione standard, asimmetria e 𝑀 𝑌 𝑎 𝑏∙𝑥 𝑓
momento secondo dall’origine della marginale B
M(B) = 140.6
M(B2) = 19769.8
𝑎 𝑓 𝑏∙𝑥 𝑓 𝑎 𝑏∙𝑀 𝑋
Funzione media potenziata per B* = B-min(B)+1 ovvero
B* 4 2 1 2 4 Se Y=a + bX +cZ allora M(Y) = a+bM(X)+cM(Z)

all'esame
non chiese al disegnarlo
↓
B) Qual è la soluzione a 𝜃: ∑ 𝑔 𝑥 𝜃 𝑓 0 ovvero
𝜃: 𝑀 𝑔 𝑋 𝜃 =0 ?
La soluzione è per 𝜃 𝑔 𝑋 . Quindi se g(X) = X allora

M(X  ) = 0 !!!
C) Qual è la soluzione a
min 𝑔 𝑥 𝜃 𝑓 min 𝑀 𝑔 𝑋 𝜃
si ha per 𝜃 𝑔 𝑋
Il gradiente è 2 ∑𝑘𝑖 1 𝑔 𝑥𝑖 𝜃 𝑓𝑖 0 da cui 𝜃 𝑔 𝑋

L’hessiano è 2 ∑𝑘𝑖 1 𝑓𝑖 0.
Per cui 𝜃 𝑔 𝑋 è soluzione di minimo.
Quindi se g(X) = X allora min 𝑀 𝑋 𝜃 si ha per
-o-o-o-o-o-o- d 𝜃 .
29 30
Esempio su proprietà di minimo della media aritmetica 𝑥 𝑓 𝑥 𝑓 𝑥 𝑓 𝑥 𝑓 2𝑥 𝑓 2𝑥 𝑥 𝑓 𝑓

Si consideri la tabella seguente
2𝑥 𝑓 𝑥 𝑓 𝑥 𝑓 2𝑥 𝑓 2𝑥 𝑥 𝑓
𝑋 𝑓
𝑥 𝑓 ->
fn fz x
-
+
0 𝑥 𝑓 𝑥 𝑓 2𝑥 𝑥 𝑓 𝑥 𝑓 𝑥 𝑓 𝑉𝐸𝑅𝑂 !
=
𝑥 𝑓 f 1
f,x0,5
=
-
-
con 𝑓 𝑓 e𝑥 𝑥 . Dimostrare che
𝑀 𝑋 𝑀𝑒 𝑋 𝑀 𝑋 𝑀 𝑋
↳.wonQue e -
media quadrati
MEDIA
certi
Della
Si osservi che dovendo essere 𝑓 1 𝑓 0.5 si ha 𝑀𝑒 𝑋 𝑥 .

Da cui perchè variabil L. =
e
le
-Sono sve
𝑀 𝑋 𝑀𝑒 𝑋 𝑥 𝑥 𝑓 𝑥 𝑥 𝑓
𝑥 𝑓 𝑥 𝑓 2𝑥 𝑥 𝑓 4[x 1] -
E(Xi x)f=
=
-
𝑀 𝑋 𝑀 𝑋 𝑥 𝑥 𝑓 𝑥 𝑓 𝑓
𝑥 𝑓 𝑥 1 𝑓 𝑥 𝑓 𝑥 1 𝑓
=(x- n)fr =
𝑥 𝑓 𝑥 1 𝑓 𝑥 𝑓 𝑥 1 𝑓 2𝑥 𝑥 𝑓 1 𝑓
ovvero si tratta di dimostrare che

-
f1 >0
𝑥 𝑓 𝑥 𝑓 2𝑥 𝑥 𝑓
𝑥 𝑓 𝑥 1
𝑥 𝑓 𝑥 1
𝑓
𝑓 2𝑥 𝑥 𝑓 1 𝑓
fr(=1 1) -
0
𝑥 𝑓 2𝑥 𝑥 𝑓
𝑥 1 𝑓
𝑥 𝑓 𝑥 𝑥 𝑓 2𝑥 𝑓 2𝑥 𝑥 𝑓 1 𝑓
31 32
Indici di dispersione N.B.
Sia g(X,)= |X| la funzione scarto dall’indice di posizione . - Se r = 2 e = si ha

Si ponga
R2()    scarto quadratico medio
𝜇 𝑔 𝑋, 𝜃 𝑔 𝑥 ,𝜃 𝑓 ≡ 𝑅 𝜃 per 𝑟 0
[R2()]2  2  varianza
ovvero
𝜎 𝑀 𝑋 𝜇 𝑥 𝜇 𝑓
1
𝑅 𝜃 |𝑥 𝜃| 𝑛 |𝑥 𝜃| 𝑓 per 𝑟 0
𝑁
𝑥 𝑓 𝜇 𝑓 2 𝑥 ∙𝜇 𝑓
è la media potenziata di g(X,) di ordine r > 0 ed è detto indice di

dispersione dal centro  di ordine r. 𝑀𝑋 𝜇 2𝜇 𝑥𝑓
Proprietà di 𝑅 𝜃 𝑀𝑋 𝜇 2𝜇 𝑀𝑋 𝜇
- 𝑅 𝜃 0 ∀𝑟 ≔ 𝑉𝑎𝑟 𝑋
- lim 𝑅𝑟 𝜃 min |𝑥𝑖 𝜃|

→ - 𝑅 𝜇 𝑀 |𝑋 𝜇| prende il nome di momento
lim 𝑅𝑟 𝜃 max|𝑥𝑖 𝜃| centrale di ordine r
→
- Per 𝑟 𝑟 vale 𝑅 𝜃 𝑅 𝜃
33 34
x a
=
by
+
Var(x) m[(y- my)"]

Proprietà di 𝑉𝑎𝑟 𝑋 Esempio su proprietà dello scarto quadratico medio di una
=
↑(a by
+
-
(a-
br,)]= combinazione lineare (per una piena dimostrazione si vedano gli

argomenti sulla regressione)
- 𝑉𝑎𝑟 𝑋 0 M(62(y
=
-
ry))) 624T(y
=
-
my)) 6Var(t)
=
Si dimostri che
- NON è un operatore lineare
𝑉𝑎𝑟 𝑏𝑋 𝑐𝑌 𝑉𝑎𝑟 𝑏𝑋 𝑉𝑎𝑟 𝑐𝑌
Se 𝒀 𝒂 𝒃𝑿 allora
𝑉𝑎𝑟 𝑏𝑋 𝑐𝑌 𝑉𝑎𝑟 𝑏𝑋 𝑉𝑎𝑟 𝑐𝑌 2𝑏𝑐 𝑉𝑎𝑟 𝑋 𝑉𝑎𝑟 𝑌
𝑉𝑎𝑟 𝑌 𝑀 𝑌 𝜇 𝑀 𝑎 𝑏𝑋 𝑎 𝑏𝜇 𝐶𝑜𝑣 𝑋, 𝑌 𝑉𝑎𝑟 𝑋 𝑉𝑎𝑟 𝑌
𝑀 𝑏𝑋 𝑏𝜇 𝑀𝑏 𝑋 𝜇
Poiché
𝑏 𝑀 𝑋 𝜇 𝑏 𝑉𝑎𝑟 𝑋
𝐶𝑜𝑣 𝑋, 𝑌
𝜌
W Y a
𝑉𝑎𝑟 𝑋 𝑉𝑎𝑟 𝑌
0
=
Se 𝒀 𝒂 𝒃𝑿
E 𝒄𝒁
E allora
y zw Y
=
+
-
dove 𝜌 (vedi argomenti su regressione) è il coeff di correlazione
War(y)= lineare che è sempre 1, si ha che la diseguaglianza è vera!
𝑉𝑎𝑟 𝑌 𝑀 𝑌 𝜇
Var(w) +
N.B.
𝑀 ~
𝑎 𝑏𝑋 𝑐𝑍 𝑎
~ 𝑏𝜇 𝑐𝜇
+Var(y) - la varianza di una combinazione lineare è maggiore della
+ 2.2. Cou combinazione lineare delle varianze
𝑀 𝑏𝑋 𝑐𝑍 𝑏𝜇 𝑐𝜇 - lo scarto quadratico medio di una combinazione lineare è minore
(w,y) della combinazione lineare degli scarti quadratici medi
EC
𝑀 𝑏𝑋 𝑏𝜇 𝑀 𝑐𝑍 𝑐𝜇 RAGGRUPPO
2𝑀 𝑏𝑋 𝑏𝜇 𝑐𝑍 𝑐𝜇
Eranormato
𝑏 𝑉𝑎𝑟 𝑋 𝑐 𝑉𝑎𝑟 𝑍 2𝑏𝑐 𝑀 𝑋 𝜇 𝑍 𝜇
* 𝑏 𝑉𝑎𝑟 𝑋 𝑐 𝑉𝑎𝑟 𝑍 2𝑏𝑐 𝐶𝑜𝑣 𝑋, 𝑍
35 36
La Tabella “a doppia entrata”

Il coefficiente di variazione (introduzione allo studio di fenomeni bivariati)
Con riferimento ad una variabile definita su ℝ+ , il rapporto X

Y y1 y2 ... yj ... yk ni.

x1 n11 n12 ... ... ... n1k n1 .
cv =  => prende il nome di coefficiente di variazione x2 n21 n22 ... ... ... n2k n2 .
È utile per: ... ... ... ... ... ... ... ...
- confrontare fenomeni aventi unità misura differente (es. la xi ... ... ... nij ... ... ni .
volatilità di un portafoglio in euro vs la volatilità di un ... ... ... ... ... ... ... ...
paniere in dollari) xh nh1 nh2 ... ... ... nhk nh .
- verificare se al variare della media (condizionata) rimane n.j n.1 n.2 ... n.j ... n.k N=nij
costante il rapporto con lo scarto quadratico medio
(condizionato).
Le variabili condizionate sono
In particolare si definisce:
“omoschedastico”: un fenomeno che al variare della media X|Y=yj (ovvero avendo fissato j) con pesi nij per j=1,2,...k
condizionata non cambia in varianza (tipico di molti fenomeni Y|X=xi (ovvero avendo fissato i) con pesi nij per i=1,2,...h
sperimentali)
Le marginali sono X e Y con pesi ni. e n.j rispettivamente.
“eteroschedastico”: un fenomeno che al variare della media
condizionata cambia anche in varianza (tipico dei fenomeni
Attenzione quando le distribuzioni condizionate vengono espresse
finanziari e di molti fenomeni assicurativi)
sulla base di frequenze relative, fij=nij/N e fi.=ni./N e/o f.j=n.j/N .
Esempio: tasso medio e dispersione della sinistrosità al variare della Infatti da

Y y1 y2 ... yj ... yk fi.
classe Bonus Malus di un portafoglio clienti di tre compagnie di X
assicurazione (X,Y,W). x1 f11 f12 ... ... ... f1k f1.
x2 f21 f22 ... ... ... f2k f2.
Classe BM (X) (X) (Y) (Y) (W) (W) cv(X) cv(Y) cv(W)
... ... ... ... ... ... ... ...
1-4 0.01 0.02 0.01 0.05 0.01 0.4 2 5 4
5-8 0.25 0.5 0.25 0.5 0.25 0.4 2 2 0.625 xi ... ... ... fij ... ... fi.
8-11 0.9 1.8 0.9 0.6 0.9 0.4 2 0.667 0.44 ... ... ... ... ... ... ... ...
11-15 1.1 2.2 1.1 0.8 1.1 0.4 2 1.38 0.36 xh fh1 fh2 ... ... ... fhk fh.
f.j f.1 f.2 ... f.j ... f.k 1
37 38
Si deduce che
Esempio guida
fij
X|Y=yj (ovvero avendo fissato la colonna j) ha pesi f per
.j Frequenze assolute
j=1,2,...k
Y M F ni.
X
fij 19 5 5 10
Y|X=xi (ovvero avendo fissato la riga i) ha pesi f per i=1,2,...h 20 8 10 18
i.
21 5 10 15
22 2 5 7
h fij k fij
n.j 20 30 50
Infatti solo in questo caso  f = 1 e  f = 1
.j i.
i=1 j=1
Frequenze relative
oooooooo Y
X M F fi.
19 0,1 0,1 0,2
20 0,16 0,2 0,36
21 0,1 0,2 0,3
22 0,04 0,1 0,14
f.j 0,4 0,6 1
fij
Frequenze condizionate (per riga) f
.j
X|Y M F
19 0,1 /0,4 = 0,25 0,1 /0,6 = 0,165
20 0,16/0,4 = 0,4 0,2 /0,6 = 0,335
21 0,1 /0,4 = 0,25 0,2 /0,6 = 0,335
22 0,04/0,4 = 0,1 0,1 /0,6 = 0,165
0,4 /0,4 = 1 0,6 /0,6 =1
-o-o-o-o-o-o-o-o-
39 40
Esempio (tema 21/06/2012) D

La seguente tabella riporta informazioni su D = dividendo per azione (in La variabile marginale D è descritta da 0 1 2 4
percentuale) e A= tipologia del titolo, riferito a 10 titoli azionari (n.b. dati
simulati).
D 2 0 1 1 4 2 1 0 2 4
A E F S I E S I F F E n.j 2 3 3 2 N= 10
Si effettui lo spoglio dei dati, costruendo la corrispondente tabella a doppia La variabile marginale A è descritta da ni.
entrata.
E 3
A F 3
Effettuando lo spoglio congiunto di A e D si I 2
ottiene la tabella a lato dove j= 1 2 3 4 S 2
- nij si chiamano frequenze (assolute) D N= 10
congiunte i nij 0 1 2 4 ni.
- ni. si chiamano frequenze (assolute) 1 E 0 0 1 2 3 D
marginali di riga 2 F 2 0 1 0 3 Un esempio di variabile condizionata nij 0 1 2 4 ni.
A
- n.j si chiamano frequenze (assolute) 3 I 0 2 0 0 2 D|A=”F”
marginali di colonna 4 S 0 1 1 0 2 A F 2 0 1 0 3
- la tabella si chiama tabella a doppia entrata e n.j 2 3 3 2 N= 10
descrive il fenomeno congiunto (A,D)
D
Un esempio di variabile condizionata nij 2
A|D=2 E 1
A F 1
I 0
S 1
n.j 3
41 42
Esempio (tema 9/4/2010) es. Se si considera la distribuzione B|Z=”C”, si avrebbe

Sono stati raccolti nella tabella seguente i prezzi per litro di benzina (B), Z
esposti da 10 distributori dislocati sul territorio nazionale (Z: N=nord, fij C
C=centro, S=sud). 1320‐|1330 0.1
B (Classi) 1330‐|1335 0.1
B 1333 1345 1337 1348 1329 1347 1331 1336 1334 1345
Z S C C S C N C N S N
1335‐|1350 0.2
f.j 0.4
Utilizzando per la variabile B le classi 1320-|1330 , 1330-|1335 ,
1335-|1350 , raggruppare B e Z in una tabella a doppia entrata. Ovvero in modo equivalente B (Classi) fi1
1320‐|1330 0.1
Usando le frequenze assolute 1330‐|1335 0.1
Z 1335‐|1350 0.2
nij C N S ni. f.1 =0.4
1320‐|1330 1 0 0 1
B (Classi) 1330‐|1335 1 0 2 3 Non si tratta di una coerente distribuzione ( la somma delle freq relative
non è pari ad 1). Bisogna riproporzionare le frequenze congiunte rispetto
1335‐|1350 2 3 1 6
alla frequenza marginale (0.4) della modalità condizionante, da cui
n.j 4 3 3 N=10 ottenere
Le stesse interpretazioni fatte in precedenza possono essere svolte usando B (Classi) fi1 / f.1
le frequenze relative 1320‐|1330 0.1/0.4=0.25
Z 1330‐|1335 0.1/0.4=0.25
fij C N S fi. 1335‐|1350 0.2/0.4=0.50
1320‐|1330 0.1 0 0 0.1 F=1
B (Classi) 1330‐|1335 0.1 0 0.2 0.3
1335‐|1350 0.2 0.3 0.1 0.6
-o-o-o-o-o-o-o-o-
f.j 0.4 0.3 0.3 F=1
Importante dettaglio emerge quando si considerano le distribuzioni

Esempio scatterplot di tabella a doppia entrata (13/04/2012)
condizionate relative
La tabella seguente riporta le distribuzioni condizionate relative al
differenziale BTP-Bund (S: B=”< 300”, M=”300|400”, A=”> 400”) dei
contratti di apertura di conto deposito (D) stipulati da una banca (n.b. dati
fittizi):
43 44
D Esempio su scatterplot (17/01/2014)

0 | 20 20 | 60 60 | 80 La tabella seguente riporta le variazioni dello spread Btp-Bund (S) decennali
e dell’indice FTSEMIB (F) registrati a fine giornata in 10 giorni di
B 0.5 0.5 0
contrattazione :
S M 0.2 0.6 0.2
A 0 0 1 S -8 2 0 5 10 -5 -3 -2 1 -4
F +1 +0.5 0 -0.5 -1 -0.5 0 0 0 +.5
Ricostruire le frequenze assolute congiunte, sapendo che n1.=2, Si rappresenti con un grafico opportuno il fenomeno congiunto (S, F).
n2.=5, n3.=3.
D
0 | 20 20 | 60 60 | 80 ni.
B 1 1 0 2
S M 1 3 1 5
A 0 0 3 3
Fare un opportuno grafico del fenomeno congiunto (S,D) .

N.b. verranno usati i punti centrali delle classi. La tabella può essere
riscritta come segue
S D D nij
(punto
centrale)
B 0 | 20 10 1
M 0 | 20 10 1
B 20 | 60 40 1
M 20 | 60 40 3
M 60 | 80 70 1
A 60 | 80 70 3
45 46
Alcuni indici sintetici per distribuzioni condizionate Teo. Media a due stadi
Si consideri la v.s. (quantitativa) Y e una variabile X (covariata di
Y). Allora vale che
Medie condizionate : 𝑀 𝑌|𝑋 𝑥 e𝑀 𝑋 𝑌 𝑦
𝑀 𝑀 𝑌|𝑋 𝜇
𝑀 𝑌 |𝑋 𝑥 𝜇 | 𝜇 𝑥 = ∑ 𝑦𝑛 ∑ 𝑦
. . Dim.:
per i=1,2,...,h
1
𝑀 𝑀 𝑌|𝑋 𝑀 𝑦 𝑛 |𝑋 𝑥
𝑛.
𝑀 𝑋𝑌 𝑦 𝜇 | 𝜇 𝑦 = ∑ 𝑥𝑛 ∑ 𝑥
. .
per j=1,2,...,k 1 1
𝑦𝑛 𝑛.
a
𝑁 𝑛.
~
1 1 1
Varianze condizionate: 𝑉𝑎𝑟 𝑌|𝑋 𝑥 e 𝑉𝑎𝑟 𝑋 𝑌 𝑦 𝑦𝑛 𝑦 𝑛 𝑦 𝑛. 𝜇
𝑁 𝑁 𝑁
-
𝑉𝑎𝑟 𝑌|𝑋 𝑥 𝜎 𝜎 𝑦  𝑥 𝑛 
| =
.
∑ L Frequenza marginte
per i=1,2,...,h Es. 1. colonne (=)

n.j
Si riprenda la tabella
𝑉𝑎𝑟 𝑋 𝑌 𝑦 𝜎 𝜎 = ∑ 𝑥  𝑦 𝑛 D
|
.
0 | 20 20 | 60 60 | 80 ni.
per j=1,2,...,k B 1 1 0 2
S M 1 3 1 5
(si hanno scritture analoghe a quelle delle medie condizinate nel
A 0 0 3 3
caso di impiego delle frequenze relative)
Con riferimento ad un fenomeno bivariato, si possono enunciare i Si utilizzino i punti centrali delle classi di D e la si rinomini in
seguenti teoremi. Y
10 40 70 ni .
B 1 1 0 2
X M 1 3 1 5
A 0 0 3 3
47 48
Si calcoli 𝑀 𝑀 𝑌|𝑋 𝜇 Teo. Scomposizione della varianza

Essendo Si consideri la v.s. (quantitativa) Y e una variabile X (covariata di
MY(Y|X) ni. Y). Allora vale che
MY(Y|X=B) 25 2
𝑀 𝑉𝑎𝑟 𝑌|𝑋 𝑉𝑎𝑟 𝑀 𝑌|𝑋 𝜎
MY(Y|X=M) 40 5
MY(Y|X=A) 70 3 Dim.:
10
1
Si ha 𝑀 𝑀 𝑌|𝑋 𝜇 46 Var 𝑌 𝑦  𝑛.
𝑁
1
AGGIUNGO e 10260
> 𝑦  𝑥  𝑥  𝑛
Es. 𝑁
Le
medie condizionett
E quino, aggiungo u n ' a l t r a
sommatore)
Y M F ni. 1
X
𝑦  𝑥  𝑥  𝑛
19 5 5 10 𝑁
20 8 10 18
21 5 10 15 1
ât
𝑦  𝑥 𝑛
i
22 2 5 7 𝑁
n.j 20 30 50
MX(X|Y) n.j  𝑥  𝑛
MX(X|Y=y1) 20,2 20
MX(X|Y=y2) 20,5 30 no riscrivo come:
2 𝑦  𝑥  𝑥  𝑛
50
-(ry(i) my) mig -
𝑀 𝑀 𝑋|𝑌 𝜇 = 20,38 1 1
Crequenze
𝑦  𝑥 𝑛 𝑛.
𝑁 𝑛.
-------- o - o -------- fo r m a to r i a delle
marginalisi
Eb
Ri.
49 50
1 𝑉𝑎𝑟 𝑀 𝑌|𝑋 𝑀 𝑉𝑎𝑟 𝑌|𝑋 =279+225= 𝑉𝑎𝑟 𝑌 = 504

 𝑥  𝑛.
𝑁
2 &->
Es. Fai da solo
 𝑥  𝑦  𝑥 𝑛
𝑁 Y M F ni.
X
19 5 5 10
𝑀 𝑉𝑎𝑟 𝑌|𝑋 𝑉𝑎𝑟 𝑀 𝑌|𝑋 0 ⑪
 20 8 10 18
21 5 10 15
22 2 5 7
n.j 20 30 50
Es. PERCHE E 0
=
- L
Si riprenda la tabella ↳a media degli arti dalla

Medit E 0 =
MX(X|Y) n.j VarX(X|Y) n.j

MX(X|Y=y1) 20,2 20 VarX(X|Y=y1) 0,86 20
Y
MX(X|Y=y2) 20,5 30 VarX(X|Y=y2) 0,91667 30
10 40 70 ni .
B 1 1 0 2 50 50
X M 1 3 1 5
A 0 0 3 3
VarY[MX(X|Y)] = 0,0216 MY[VarX(X|Y)] = 0,894
Si calcoli 𝑀 𝑉𝑎𝑟 𝑌|𝑋 𝑉𝑎𝑟 𝑀 𝑌|𝑋 𝜎
VarY[MX(X|Y)] + MY[VarX(X|Y)] =0,0216+0,894=Var(X)=0,9156
MY(Y|X) ni. VarY(Y|X) ni.
25 2 225 2
-------- o - o --------
MY(Y|X=B) VarY(Y|X=B)
MY(Y|X=M) 40 5 VarY(Y|X=M) 360 5
MY(Y|X=A) 70 3 VarY(Y|X=A) 0 3 Vedi file xls.
10 10
Si ha 𝑀 𝑀 𝑌|𝑋 𝜇 46
𝑉𝑎𝑟 𝑀 𝑌|𝑋 279 𝑀 𝑉𝑎𝑟 𝑌|𝑋 = 225
51 52
Si consideri la tabella
La funzione di regressione
yc 10
=
0 | 20
Y
x c 40
=
20 | 60
=..
60 | 80 ni.
(3)
(3) (2)
1 1 0 0 1
X 2 0 3 3 6
3 0 2 1 3
n.j 1 5 4 10
Si è già visto come disegnare il grafico congiunto e il calcolo delle

medie condizionate Y|X ovvero Supponiamo di rimuovere le coordinate della tabella, e di unire
M(n(y) )) x0 (ss.)+
(s0.3)
49 r(t)
+
con una spezzata le coordinate delle medie condizionate. Si ottiene

=
=
MY(Y|X) ni. (r(y) =)] ? -100 (3025.5) (2.500.3)

+
+
=
2.555
=
1 -
M[ Y| X=1 ] 10 1 4 M(y(x)2 Ri
M[ Y| X=2 ] 55 6
I
100
6
M[ Y| X=3 ] 50 3 3 3
(70) 10
(0.0)
(102) Var(m(y/x)] (49)=
+
+
My(y1x 3)
= =
50 => 2575
=
-
1 74
Da cui 𝑉𝑎𝑟 𝑀 𝑌|𝑋 = 174 , 𝑉𝑎𝑟 𝑌 = 369 .
Da cui dedurre per differenza (in base al teorema sulla

scomposizione della varianza) 𝑀 𝑉𝑎𝑟 𝑌|𝑋 = 195.
Di seguito viene riportato il grafico (X,Y) a cui sono state aggiunte

(in rosso) le coordinate delle medie condizionate
57 58
che prende il nome di funzione di regressione ovvero è il luogo dei Esempio tratto da : P_0-portfolio 2016-2017.xlsx
punti passanti PER le medie condizionate. Una misura della
capacità delle medie condizionate di rappresentare il fenomeno 1- dati singoli
bivariato è dato dal rapporto di correlazione 2- dati in tabella
3- dati in tabella con funzione di regressione
𝑉𝑎𝑟 𝑀 𝑌|𝑋 4- funzione di regressione
𝜂
𝑉𝑎𝑟 𝑌
1 4
che per il nostro esempio è pari a 𝜂 0,4715.

Significa che le sole medie condizionate hanno la capacità di
spiegare la dipendenza in media di Y da X per il 47,15% della
variabilità complessiva.
Domanda: è possibile associare alla funzione di regressione un

polinomio?
-o-o-o-o-o-o-o-o-
2 3
Q.
- cosa suggerisce la funzione di regressione?
- cosa avremmo potuto fare partendo direttamente dai (molti)
dati in figura 1?
- nel caso in cui partissimo direttamente dai dati singoli, come
posso valutare la capacità di descrivere il fenomeno bivariato?
59 60
Modelli interpolanti : la Regressione (Una possibile generalizzazione)

Se si ipotizza di disporre di m+1 variabili {Y,X1,...,Xm} e di essere
Si ipotizzi di disporre delle variabili {Y,X}. Si ipotizzi di essere interessati allo studio della dipendenza di Y da X1,...,Xm e che esista
interessati allo studio della dipendenza di Y da X . Si ipotizzi che una funzione
esista una funzione (ignota nella forma) del tipo
Y=f(X1,...,Xm ; 𝛼 , 𝛼 , … , 𝛼 )
𝑌 𝑓 𝑋 ;𝜽
di cui non si conosce la struttura, assumendo f(.) derivabile fino ad
Assumendo f(.) derivabile fino ad almeno al p-esimo ordine, usando almeno il primo ordine, usando ad esempio lo sviluppo in serie di
lo sviluppo in serie di Taylor, si supponga di sviluppare in serie f(.) Taylor, oggetto dello studio potrà essere
e di essere interessati allo studio della funzione polinomiale
(approssimante quella vera)
𝑌 𝑎 𝑎 𝑋 ⋯ 𝑎 𝑋
𝑌 𝑎 𝑎 𝑋 ⋯ 𝑎 𝑋
Ad esempio se si considerano le sole variabili 𝑋 , 𝑋 il modello di
Si ottiene un modello lineare nei parametri. riferimento potrà ad esempio essere
Alternative possono essere modelli aventi struttura non lineare (nei
parametri). In questo corso (ed in genere nelle applicazioni) si è
𝑌 𝑎 𝑎 𝑋 𝑎 𝑋
interessati a modelli al più linearizzabili nei parametri.
I modelli comunemente usati per descrivere la dipendenza di Y da

X possono, ad esempio, essere
Y=a0+a1 X+...+ap Xp
Y=a0+a1X
↑
> CON INTERCERE
Y=a1X > Senza INTERCETA
Y=a0+a1g(X)
Exp(Y)=(a0+a1g(X))
ln(Y)=(a0+a1g(X))
...
(Temi: TUTTI)
61 62
Il metodo dei minimi quadrati Si consideri il generico polinomio : 𝑌 𝑎 𝑎 𝑋 ⋯ 𝑎 𝑋

( n.b. di ordine p (#medie condizionate1) ! )
Esempio guida
Y Problema
ni.
X 6 7 8 11 12 15
Come calcolare {𝑎 , 𝑎 , … , 𝑎 } sapendo che il modello potrà al più
1 0 0 2 0 0 0 2
S
2 2 0 1 0 0 0 3
passare tra i punti e non per i punti?
3 0 1 0 1 1 0 3
5 0 0 0 0 1 1 2 Strategia
n.j 2 1 3 1 2 1 10 Cercare {𝑎 , 𝑎 , … , 𝑎 } in modo da perdere la minore quantità
possibile di informazioni, avendo scelto una opportuna funzione
per misurare la perdita di informazioni.
Strumento
Metodo dei minimi quadrati
(2)
Si supponga, in generale, di avere dati raggruppati in una Tabella
“a doppia entrata”. Ci si ponga l’obiettivo
(2)
min 𝑦 𝑎 𝑎 𝑥 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛
, ,…,
L’argomento del problema di minimo è noto anche come devianza

residua (devres).
Quindi si può anche affermare che il problema si pone l’obiettivo
Q. qual è l’ordine massimo del polinomio che possiamo usare di minimizzare la devianza residua.
nell’esempio guida?
63 64
16.0 Disponendo di 𝑎 , 𝑎 , … , 𝑎 , si definiscono

15.0
14.0
13.0
12.0
11.0
𝑌 𝑎 𝑎 𝑋 ⋯ 𝑎 𝑋 modello interpolante
10.0
𝑌 𝑎 𝑎 𝑋 𝑎 𝑋 ⋯ 𝑎 𝑋
9.0
8.0
(2) 𝑦 𝑎 𝑎 𝑥 ⋯ 𝑎 𝑥 valore interpolato di yj in xi
7.0
𝑦 𝑎 𝑎 𝑥 𝑎 𝑥 ⋯ 𝑎 𝑥
6.0 (2)
5.0 𝑌 𝑎 𝑎 𝑋 ⋯ 𝑎 𝑋 𝑌 𝑌 variabile residuo
0.0 1.0 2.0 3.0 4.0 5.0 6.0
𝑦 𝑎 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑦 𝑦 residuo in (xi,yj)
Si dovrà quindi risolvere
𝜕𝑑𝑒𝑣𝑟𝑒𝑠
⎧ 2 𝑦 𝑎 𝑎 𝑥 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛 0
𝜕𝑎
⎪ 16.0
……… 15.0
14.0
⎨𝜕𝑑𝑒𝑣𝑟𝑒𝑠 13.0
⎪ 𝜕𝑎 2 𝑥 𝑦 𝑎 𝑎 𝑥 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛 0 12.0
⎩ 11.0
10.0 𝑦
9.0
che è un sistema di equazioni lineare nelle incognite 𝑎 , 𝑎 , … , 𝑎 . 8.0 (2)

Si dimostra che l’Hessiano (matrice delle derivate parziali seconde) 7.0
6.0 (2) 𝑦 𝑦 3 REVISO
è positivo nella soluzione del sistema e quindi la soluzione del 5.0

0.0 1.0 2.0 3.0 4.0 5.0 6.0
sistema di equazioni È un minimo.
La soluzione restituirà valori da associare ad 𝑎 , 𝑎 , … , 𝑎 che

verranno indicati con 𝑎 , 𝑎 , … , 𝑎 Si noti che posto 𝑌 𝒂𝟎 𝑎 𝑋 ⋯ 𝑎 𝑋 da
2 𝑦 𝑎 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛 0
𝜕𝑎
e sostituendo al posto di 𝑎 , 𝑎 , … , 𝑎 i valori 𝑎 , 𝑎 , … , 𝑎 , soluzione

del sistema di equazioni ottenuto col metodo dei minimi quadrati,
si ricava che
65 66
1
𝑦 𝑎 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛 0
𝑁
Si noti che, le frequenze congiunte, nij, possono quindi essere scritte
come se fossero delle frequenze associate alle righe corrispondenti
quindi 𝑀 𝑌 𝑎 𝑎 𝑋 ⋯ 𝑎 𝑋 0 in tabella. In tal caso, indicizzando ciascuna riga solo con i (per
i=1,…,hxk) e ponendo (xi,yj)  (xi,yi) e nij  ni si ha che il problema
ovvero 𝑀 𝑌 𝑌 0. dei minimi quadrati può essere in modo equivalente ritrascritto in
forma più semplice e senza l’uso della doppia sommatoria come
Da cui si deduce che la somma dei residui è nulla e che segue
𝑀 𝑌 𝑀 𝑌 min 𝑦 𝑎 𝑎 𝑥 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛
, ,…,
Se invece Y= f(X; a0, a1,..., ap) (es. Y= exp(a0+a1X+...+apXp) )
𝜕𝑑𝑒𝑣𝑟𝑒𝑠 𝜕𝑓 𝑥 ; 𝑎 , 𝑎 , … , 𝑎 𝜕𝑑𝑒𝑣𝑟𝑒𝑠
2 𝑦 𝑓 𝑥 ;𝑎 ,𝑎 ,…,𝑎 𝑛 0 ⎧ 2 𝑦 𝑎 𝑎 𝑥 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛 0
𝜕𝑎 𝜕𝑎 𝜕𝑎
⎪
…
^) . ⎨𝜕𝑑𝑒𝑣𝑟𝑒𝑠
che non garantisce che M(Y)=M(Y ⎪ 𝜕𝑎 2 𝑥 𝑦 𝑎 𝑎 𝑥 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛 0
⎩
N.B. TUTTI i calcoli possono essere fatti “riscrivendo” la tabella a in cui si nota l’evidente notazione più semplice.
doppia entrata in modo equivalente come segue
X Y nij nij  ni N.B. (terminologia) si parla di

X\Y y1 y2 … Yj … yk-1 yk
x1 y1 n11 n1
x1 n11 n12 … n1j … n1,k-1 n1k
x1 y2 n12 n2
- regressione pesata (ponderata) se almeno un 𝑛 è  1
x2 n21 n22 … n2j … n2,k-1 n2k
- regressione semplice se tutti gli 𝑛 sono = 1
… … … … … … … … … … … …
Xi … … … nij … … … xi yj nij ni
In generale, per motivi di semplicità, si userà il termine
… … … … … … … …
xh-1 … … … … … nh-1,k-1 nh-1,k
… … … … “regressione” senza specifico distinguo tra i due casi a meno che il
xh … … … … … n h,k-1 nhk xh-1 yk-1 nh-1,k-1 nhxk-1 contesto non lo renda necessario.
xh yk nhk nhxk
67 68
Esempio (rilevante)( a).Hp: 𝑌 𝑎 𝑎 𝑋 Se si usa la rappresentazione della tabella come prima suggerito
ovvero
Y X Y ni
ni.
X 6 7 8 11 12 15 1 8 2
Tut
1 0 0 2 0 0 0 2 2 6 2
2 2 0 1 0 0 0 3 2 8 1
3 0 1 0 1 1 0 3 3 7 1
5 0 0 0 0 1 1 2 3 11 1
n.j 2 1 3 1 2 1 10 3 12 1
5 12 1
5 15 1
si ha quindi
min 𝑦 𝑎 𝑎 𝑥 𝑛
(2) ,
(2)
≡ min 𝑦 𝑎 𝑎 𝑥 𝑛
,
da cui le derivate prime
⎧ 𝜕𝑎 2 𝑦 𝑎 𝑎 𝑥 𝑛 0
Si risolva 𝜕𝑑𝑒𝑣𝑟𝑒𝑠
⎨ 2 𝑥 𝑦 𝑎 𝑎 𝑥 𝑛 0
⎪ 𝜕𝑎
⎩
1
min 𝑦 𝑎 𝑎 𝑥 𝑛 ⎧ 𝑦 𝑎 𝑎 𝑥 𝑛 0
, 𝑁
1
⎨ 𝑥 𝑦 𝑎 𝑎 𝑥 𝑛 0
⎪ 𝑁
⎩
69 70
1 1 1
⎧ 𝑦 𝑛 𝑎 𝑛 𝑎 𝑥 𝑛 0
𝑁 𝑁 𝑁 In particolare 𝐶𝑜𝑣 𝑋, 𝑌 può essere positiva o negativa mentre il
1 1 1 denominatore di 𝑎 è sempre positivo.
⎨ 𝑥𝑦 𝑛 𝑥𝑎 𝑛 𝑎 𝑥 𝑛 0
⎪ 𝑁 𝑁 𝑁
⎩ Il segno della Cov quindi definisce l’inclinazione della retta di
𝑀 𝑌 𝑎 𝑎 𝑀 𝑋 0 regressione ed esprime l’intensità (non normalizzata) della
dipendenza lineare tra 𝑋 𝑒 𝑌.
𝑀 𝑋𝑌 𝑎 𝑀 𝑋 𝑎 𝑀 𝑋 0
Si osservi inoltre che, usando la “nuova” tabella, i calcoli delle
𝑴 𝑿𝒀 𝑴 𝑿 𝑴 𝒀 𝑪𝒐𝒗 𝑿, 𝒀 statistiche necessarie per i parametri possono essere eseguiti “in
𝑎 colonna” come da esempio seguente.
𝑀 𝑋 𝑀 𝑋 𝑉𝑎𝑟 𝑋
𝑎 𝑀 𝑌 𝑎 𝑀 𝑋 𝑿 𝒀 ni 𝑿𝒀𝑿𝟐 𝒀𝟐 𝑿 ∙ 𝑛 𝒀∙𝑛 𝑿𝒀 ∙ 𝑛 𝑿𝟐 ∙ 𝑛 𝒀𝟐 ∙ 𝑛
1 8 2 8 1 64 2 16 16 2 128
2 6 2 12 4 36 4 12 24 8 72
N.B. L’Hessiano (matrice delle derivate seconde - elementi divisi 2 8 1 16 4 64 2 8 16 4 64
per 2𝑁) è 3 7 1 21 9 49 3 7 21 9 49
3 11 1 33 9 121 3 11 33 9 121
1 𝑀 𝑋 3 12 1 36 9 144 3 12 36 9 144
𝐻
𝑀 𝑋 𝑀 𝑋 5 12 1 60 25 144 5 12 60 25 144
5 15 1 75 25 225 5 15 75 25 225
il cui determinante, |𝐻| 𝑀 𝑋2 𝑀 𝑋 2
, è quindi 𝑉𝑎𝑟 𝑋 0. 𝑛 𝒙𝒊 𝑛 𝑦𝑛 𝒙𝒊 𝑦 𝑛 𝒙𝒊 𝑛 𝒚𝟐𝒊 𝑛
Quindi la soluzione trovata è un minimo.
=10 =27 =93 =281 = 91 = 947
N.B. Si rammenti che quando si è parlato di varianza di una da cui agevolmente ottenere i momenti necessari per i calcoli
combinazione lineare di variabili, era emersa una statistica nota
⑧
come covarianza. Tale statistica compare qui al numeratore del Per l’esempio
coefficiente angolare. In generale si definisce covarianza
281 27 93
𝑀 𝑋𝑌 𝑀 𝑋 𝑀 𝑌 𝐶𝑜𝑣 𝑋, 𝑌 ∙ 2.99
𝑪𝒐𝒗 𝑿, 𝒀 𝑴 𝑋 𝜇 𝑌 𝜇 ⎧
𝑎 10 10 10 1.65193
𝑴 𝑋𝑌 𝜇 𝑌 𝑋𝜇 𝜇 𝜇 𝑀 𝑋 𝑀 𝑋 𝑉𝑎𝑟 𝑋 91 27 1.81
𝑴 𝑋𝑌 𝜇 𝜇 𝜇 𝜇 𝜇 𝜇 10 10
⎨ 93 27
𝑴 𝑋𝑌 𝜇 𝜇 ⎪𝑎 𝑀 𝑌 𝑎 𝑀 𝑋 1.65193 ∙ 4.83978
⎩ 10 10
che coincide con l’espressione al numeratore di 𝑎 .
71 72
In definitiva si ottiene il modello interpolante Valori interpolati
^ =4.8398 + 1.6519X
Y
𝑦 𝑌
=4.83978+
n
xi(=X) 𝒀 ni 1.65193xi i xi(=X) 𝑦 ni
1.0 8 2 6.4917 2 1.0 6.4917 2 N.B. le frequenze
2.0 6 2 8.1436 2 2.0 8.1436 3 associate ai
2.0 8 1 8.1436 da cui 3.0 9.7956 3 valori interpolati
9.7956 sono le frequenze
3.0 7 1 5.0 13.0994 2
della marginale X
3.0 11 1 9.7956
3.0 12 1 9.7956
5.0 12 1 13.0994
(2)
5.0 15 1 13.0994
(2)
Residui
yi 𝑦
^ xi(=X) yi (=Y) ni ni
Y=4.8398 + 1.6519X (=residui)
1.0 8.0 2 1.5083 2
N.B. le frequenze
2.0 6.0 2 -2.1436 2
associate ai residui
2.0 8.0 1 da cui -0.1436 1 sono le frequenze
3.0 7.0 1 -2.7956 1 (congiunte) delle
3.0 11.0 1 1.2044 1 singole coordinate
3.0 12.0 1 2.2044 1
5.0 12.0 1 -1.0994 1
5.0 15.0 1 1.9006 1
Essendo il modello dotato di termine noto si ha che
𝑀 𝑌 𝑀 𝑌 = 9.3
𝑀 𝑌 𝑌 0 ovvero ∑ 𝑦 𝑦 𝑛 0
73 74
La devianza residua ovvero il valore numerico della funzione di

perdita calcolata usando la soluzione per i parametri ottenuti coi N.B. => M[(𝑌 𝜇 𝑌 𝑌 =
minimi quadrati è pari a ∑ 𝑦 𝑦 𝑛 = 32.7069. = M[𝑌 𝑌 𝑌 ] 𝜇 M( 𝑌 𝑌) =0
-o-o-o-o-o-o-o-o-o-o- Infatti:
1) da 0 si ha che 𝑀 𝑌 𝑌 0.
Teorema : scomposizione della varianza di un modello di
regressione
2) Stante la struttura lineare nei parametri, moltiplicando per 𝑎
Si consideri un modello del tipo 𝑌 𝑎 𝑋 𝑎 ⋯ 𝑎 𝑋 (ovvero l’equazione del gradiente corrispondente a , ripetendo
un modello con presente il termine noto a0).
l’operazione per tutte le equazioni, sostituendo al posto di
Allora vale la scomposizione della varianza di Y come segue: 𝑎 , 𝑎 , … , 𝑎 i valori 𝑎 , 𝑎 , … , 𝑎 ,
𝑉𝑎𝑟 𝑌 𝑉𝑎𝑟 𝑌 𝑉𝑎𝑟 𝑌 𝑌

⎧ 𝑎 𝑦 𝑎 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛 0
⎪
…
= Varianza spiegata dal modello + ⎨
+Varianza residua (non spiegata) ⎪ 𝑎 𝑥 𝑦 𝑎 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛 0
⎩
= 𝜎𝑎0 𝑎1 𝑋 ⋯ 𝑎𝑝 𝑋𝑝 𝜎𝑎∗0 𝑎1 𝑋 ⋯ 𝑎𝑝 𝑋𝑝
e quindi sommando tutte le equazioni, si ottiene
DIMOSTRAZIONE
𝑎 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑦 𝑎 𝑎 𝑥 ⋯ 𝑎 𝑥 𝑛 0
Var(Y) = 𝑀 𝑌 𝜇 =
ovvero,
𝑀𝑌 𝑌 𝑌 0
=𝑀 𝑌 𝑌 𝑌 𝜇 =
=𝑀 𝑌 𝜇 +𝑀 𝑌 𝑌 +2𝑀 𝑌 𝜇 𝑌 𝑌 =
= Varianza dei valori interpolati + Varianza dei residui + 0
= Var(𝑌) + Var[Y𝑌]
75 76
N.B. SE Y=f(X;a1,..., ap) , ovvero senza a0 , allora potrebbe NON

valere la scomposizione della varianza in quanto potrebbe essere Misure di adattamento
𝑀 𝑌 𝑌 0
SE vale la scomposizione della varianza, ovvero
-o-o-o-o-o-o-o-o-o-o-
𝑉𝑎𝑟 𝑌 𝑉𝑎𝑟 𝑌 𝑉𝑎𝑟 𝑌 𝑌
N.B. anche se il modello non è lineare e anche se M(𝑌 𝑌)0,
ovvero anche se M(Y)M(𝑌) , la varianza residua 𝜎 ∗ si calcolerà allora la 𝑏𝑜𝑛𝑡à 𝑑𝑖 𝑎𝑑𝑎𝑡𝑡𝑎𝑚𝑒𝑛𝑡𝑜 di un 𝑚𝑜𝑑𝑒𝑙𝑙𝑜 𝑑𝑖 𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛e
si esprime con l’𝑖𝑛𝑑𝑖𝑐𝑒 𝑑𝑖 𝑎𝑑𝑎𝑡𝑡𝑎𝑚𝑒𝑛𝑡𝑜 (noto anche come
sempre come M[ 𝑌 𝑌 ] sebbene non si tratti propriamente di una
𝑖𝑛𝑑𝑖𝑐𝑒 𝑑𝑖 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑧𝑖𝑜𝑛𝑒)
varianza.
adattamento ai dati nullo

𝑉𝑎𝑟 𝑌 𝑌
Per l’esempio (a) da 0  R2 = =1 1
𝑉𝑎𝑟 𝑌
^ ^y (=Y
^) ^ 
yi yi yi yi
^y ^ i perfetto adattamento ai dati
i (=Y) ni (=residui) ni (=residui) ni
6.4917 2 1.5083 2 6.4917 1.5083 2
8.1436 3 -2.1436 2 8.1436 -2.1436 2
9.7956 3 e da -0.1436 1 o da 8.1436 -0.1436 1
In particolare se : 𝑌 𝑎 𝑎 𝑋 si ottiene
13.0994 2 -2.7956 1 9.7956 -2.7956 1
1.2044 1 9.7956 1.2044 1 𝑉𝑎𝑟 𝑌 𝑉𝑎𝑟 𝑎 𝑎 𝑋 𝑎 𝑉𝑎𝑟 𝑋
2.2044 1 9.7956 2.2044 1 𝑅 𝜌
𝑉𝑎𝑟 𝑌 𝑉𝑎𝑟 𝑌 𝑉𝑎𝑟 𝑌
-1.0994 1 13.0994 -1.0994 1
1.9006 1 13.0994 1.9006 1
𝐶𝑜𝑣 𝑋, 𝑌
𝑉𝑎𝑟 𝑋 ∙ 𝑉𝑎𝑟 𝑌
si ha quindi
𝑉𝑎𝑟 𝑌 = 𝑉𝑎𝑟 𝑌 + 𝑉𝑎𝑟 𝑌 𝑌 = 𝜎𝑎0 𝜎𝑎∗0 N.B.

𝑎1 𝑋 𝑎1 𝑋
-
8.21 = 4.9393 + 3.270718 𝜌 è l’indice di determinazione lineare
-o-o-o-o-o-o-o-o-o-o 1  𝜌  1 è il coefficiente di correlazione lineare
77 78
<0
=0 >0
Riprendendo l’esempio (a) si ha
4.9393 [Cov(X,Y)]2 [2.99]2

𝜌 = = 8.21 = = = 0.6016
Var(X)Var(Y) 1.818.21
N.B. Si deduce che
𝜎𝑎0 𝑎1 𝑋 = 𝑉𝑎𝑟 𝑌 [ 𝜌 ] =4.9393

-o-o-o-o-o-o-o-o-o-o
e
𝜎𝑎∗0 𝑎1 𝑋 = 𝑉𝑎𝑟 𝑌 [1 𝜌 ] = 3.270718
Esempio (b) [ casi estremi ]
X Y nij 2.5
1.0 2.3 2 (2)
2
y = x - 5x + 6.3 (2)
2.0 0.3 3 2 R =1
2
3.0 0.3 3
4.0 2.3 2 1.5
y = 1.1
2
1 R =0
0.5
(3) (3)
0
0 1 2 3 4 5
-o-o-o-o-o-o-o-o-o-o
79 80
Esempio tratto da : P_0-portfolio 2016-2017.xlsx

Confronto tra Modelli
Usando i dati già commentati per la costruzione della funzione di
regressione, il modello di regressione polinomiale di ordine 1 È frequente dover effettuare confronto tra modelli al fine di misurare
sarebbe stato : quale tra quelli proposti si adatta meglio ai dati
Alcuni possibili casi
a) I) 𝑌 𝑎 , 𝑙 𝑋; 𝑎 , , … , 𝑎 ,
II) 𝑌 𝑎 , 𝑙 𝑋; 𝑎 , , … , 𝑎 ,
 Confronti possibili :
2 2
RI ⋛ RII oppure 𝜎 ⋛ 𝜎 oppure 𝜎 ∗ 2 ⋛ 𝜎 ∗ 2
Es. I) 𝑌 𝑎0,𝐼 𝑎1,𝐼 𝑋 II) 𝑌 𝑎0,𝐼𝐼 𝑎1,𝐼𝐼 ln 𝑋
b) I) 𝑌 𝑎 , 𝑙 𝑋; 𝑎 , , … , 𝑎 , II) 𝑌 𝑙 𝑋; 𝑎 , ,…,𝑎 ,
 possibile confronto: 𝜎∗𝐼 ⋛ 𝜎𝐼𝐼

∗
Es. I) 𝑌 𝑎0,𝐼 𝑎1,𝐼 exp 𝑋 II) 𝑌 𝑎1,𝐼𝐼 X2
c) I) 𝑌 𝑎 , 𝑙 𝑋; 𝑎 , , … , 𝑎 ,
II) 𝑞 𝑌 𝑎 , 𝑙 𝑋; 𝑎 , , … , 𝑎 ,
Dopo aver calcolato i parametri e se  q1() allora, calcolato

𝜎∗𝐼𝐼 , utilizzando 𝑌 𝑞 𝑎 , 𝑙 𝑋; 𝑎 , , … , 𝑎 ,
81 82
 possibile confronto : 𝜎∗𝐼 ⋛ 𝜎𝐼𝐼

∗
II) 𝑞 𝑌 ℎ 𝑙 𝑋; 𝑎 , ,…,𝑎 ,
Es. I) 𝑌 𝑎0,𝐼 𝑎1,𝐼 exp 𝑋 II) ln 𝑌 𝑎0,𝐼𝐼 𝑎1,𝐼𝐼 𝑋 Se il modello (II) è linearizzabile e se  q1() allora, si linearizzi
il modello (II), si calcolino i parametri, quindi, utilizzando
Per il modello II si dovrà calcolare la devianza residua 𝑌 𝑞 ℎ 𝑙 𝑋; 𝑎 , ,…,𝑎 ,
utilizzando 𝑌 𝑒𝑥𝑝 𝑎 , 𝑎, 𝑋 si calcoli 𝜎∗𝐼𝐼
oooooooo  possibile confronto : 𝜎∗𝐼 ⋛ 𝜎𝐼𝐼

∗
Es. vedi infra

d) I) 𝑌 𝑎 , 𝑙 𝑋; 𝑎 , , … , 𝑎 , oooooooo
II) 𝑌 ℎ 𝑎 , 𝑙 𝑋; 𝑎 , ,…,𝑎 ,
N.B. Si deduce che, in generale, se i due modelli non hanno la
Se il modello (II) è linearizzabile allora, si linearizzi il modello variabile dipendente espressa nella stessa forma funzionale o se
(II), si calcolino i parametri; quindi, utilizzando uno dei due non possiede termine noto, allora il confronto potrà
𝑌 ℎ𝑎 , 𝑙 𝑋; 𝑎 , , … , 𝑎 , , si calcoli 𝜎∗𝐼𝐼 essere effettuato SOLO sulla base della varianza residua,
opportunamente calcolata, di entrambi i modelli.
 possibile confronto : 𝜎∗𝐼 ⋛ 𝜎𝐼𝐼
∗
Es. I) 𝑌 𝑎0,𝐼 𝑎1,𝐼 exp 𝑋 II) 𝑌 𝑎0,𝐼𝐼 exp 𝑎1,𝐼𝐼 𝑋
Dall’esempio(a)
Per il modello II si dovrà linearizzare in
ln 𝑌 ln 𝑎0,𝐼𝐼 𝑎1,𝐼𝐼 𝑋
Si consideri come (II) modello: √𝑌 ln 𝑏 𝑋
Quindi calcolati i parametri calcolare la devianza residua
utilizzando
Si deduce che
𝑌 𝑎0,𝐼𝐼 exp 𝑎1,𝐼𝐼 𝑋 √𝑌 ln 𝑏 𝑏 ln 𝑋
dove
Si introducano le trasformazioni
𝑎 , exp 𝑎 , e𝑎 , ln 𝑎 ,
oooooooo 𝑌 ∗ = √𝑌 𝑏 ∗ = ln(b0) 𝑋 ∗ =ln(X)
si ha
e) I) 𝑌 𝑙 𝑋; 𝑎 , , … , 𝑎 ,
83 84
𝑌 ∗ =𝑏 ∗ +b1𝑋 ∗
Utilizzando ^
Y=
X*= ln(X) Y* = (Y)0.5 nij ^
X Y [ln{12.55405X 0.564034}]2 YY nij
0 2.8284 2
1 8.0 6.40112 1.598881 2
0.6931 2.4495 2
2 6.0 8.53225 -2.53225 2
0.6931 2.8284 1
2 8.0 8.53225 -0.53225 1
1.0986 2.6458 1
3 7.0 9.92059 -2.92059 1
1.0986 3.3166 1
3 11.0 9.92059 1.079406 1
1.0986 3.4641 1
3 12.0 9.92059 2.079406 1
1.6094 3.4641 1
5 12.0 11.8186 0.181392 1
1.6094 3.873 1
5 15.0 11.8186 3.181392 1
Si ottiene da cui si nota che

* *
^b = Cov(X ,Y ) ^ )=9.1798  M(Y)=8.88778
1 Var(X*) = 0.564034 M(Y
𝑏 ∗ =M(Y*)  b^1M(X*) = 2.530043
^ )= 0.1202 0
Quindi M(YY
Il confronto (caso e) dell’elenco dei confronti) col modello
1
Ya0+a1X deve essere fatto calcolando la varianza residua su un * II = N(yiy^i)2nij = 4.2393
2
modello che abbia come variabile dipendente Y (e quindi non

(Y)0.5 ). Dal modello (Y)0.5=ln{b0X b1} si può scrivere
N.B. per definizione di devianza residua, il calcolo della
(impropriamente detta) varianza residua avviene SENZA sottrarre
Y=[ln{b0X b1}]2 il quadrato della media dei residui ovvero [0.1202]2
2 2
Essendo 𝑏 ∗ = ln 𝑏 si ha che, sotto opportune condizioni (...), Essendo * I = 3.270718  * II = 4.2393
b^0=exp(𝑏 ∗ )=exp(2.530043) = 12.55405
si deduce che il modello (I) si adatta meglio ai dati.
b^1
I residui si possono quindi calcolare come Y[ln{b^0 X }]2
ovvero
85 86
Connessione Frequenze assolute

x Y  + ni.
“Esiste connessione quando NON esiste indipendenza stocastica”  3 9 12
+ 6 18 24
quindi n.j 9 27 36
“Se 2 o più variabili sono indipendenti in senso stocastico allora
NON esiste connessione”
Distribuzioni relative condizionate X|Y e Y|X
Def: X e Y sono indipendenti in senso stocastico se

X|Y  + fi. Y|X  + f.j
 0.33 0.33 0.33  0.25 0.25 0.25
𝑛 . ∙ 𝑛. + 0.67 0.67 0.67 + 0.75 0.75 0.75
𝑛 𝑛 ∀𝑖, 𝑗
𝑁
--
-iGi fij f.j
  indipendenza stocastica
=
ovvero (equivalentemente) se >pact fig=fi. fig f.j =
𝑓 𝑓 𝑓 . ∙ 𝑓. ∀𝑖, 𝑗 -o-o-o-o-o-o-o-o-o-o-
Da 𝑓 𝑓 𝑓 . ∙ 𝑓. si deduce che X e Y sono indipendenti in senso

stocastico se Domanda: “Se NON esiste indipendenza stocastica, come misurare
l’intensità della dipendenza funzionale?”
𝑓 𝑓
𝑓. e 𝑓 . ∀𝑖, 𝑗
𝑓. 𝑓. Indice di Pearson
ovvero se tutte le distribuzioni di frequenza condizionate
somigliano alla distribuzione (relativa) della marginale 𝑛 𝑛 𝑛 𝑛 2𝑛 𝑛
𝜒
𝑛 𝑛
𝑛 . ∙ 𝑛. 𝑛 . ∙ 𝑛.
𝑛 2 𝑛
𝑁 𝑁
𝑁
𝑛 . ∙ 𝑛.
Esempio: 2 titoli di borsa classificati in base alle variazioni di segno
registrate in 36 giorni di contrattazione
87 88
𝑛 𝑛 . ∙ 𝑛. 𝑛
𝑁 2 max 2 = N[min{(h1),(k1)}]
𝑛 . 𝑛. 𝑁 𝑁
𝑛 𝑁∙𝑁 𝑁 𝑛
𝑁 2 𝑁 1
𝑛 . 𝑛. 𝑁 𝑁 𝑛 . ∙ 𝑛. Indice di connessione 2 normalizzato
𝑓 𝑓 𝑓
𝑁 𝑁 1 2
𝑓 𝑓 . ∙ 𝑓. Indipendenza ⟸0 1 ⟹ Dipendenza
stocastica max 2 funzionale
Massimo valore raggiungibile con l’Indice di Pearson

Esempio: Assumendo N=200
Considerando che
Mi.
Mij
𝑛 𝑛 ∙𝑛 𝑛 ∙- 𝑛. 𝑛
-
Y
fi.
𝑛 . ∙ 𝑛. 𝑛 . ∙ 𝑛. 𝑛
-. ∙ 𝑛. 𝑛. X D E
A 0,2 0,3 0,5
B 0,1 0 0,1
1
𝑛 1 𝑘 C 0 0,4 0,4
𝑛. f.j 0,3 0,7 1
si ha 𝑓
𝜒 𝑁 1
𝑛 𝑓 . ∙ 𝑓.
𝜒 𝑁 1 𝑁 𝑘 1
𝑛 . ∙ 𝑛. , , , ,
200 1 =
, , , , , , , ,
200 1,428671 1 85,72
Analogamente considerando che vale anche
𝑛 𝑛 ∙ 𝑛. max 2 = 200[(2-1)] =200
𝑛 . ∙ 𝑛. 𝑛 . ∙ 𝑛.
si ha 2 85,72
42,86%
𝜒 𝑁 ℎ 1 max 2 200
In sintesi
89 90
Esempio: confronto del segno della variazione percentuale di Relazione tra indipendenza stocastica, indipendenza in media,
IntesaSanPaolo vs Generali al termine di 937 giornate di incorrelazione
contrattazione
Q. Se esiste indipendenza stocastica, esiste dipendenza in
IntesaSanPaolo media? NO
Negativo Positivo
Negativo 370 112 482 |
Generali
Positivo 113 342 455 Si ricordi che si ha indipendenza in media se 𝜂 0
483 454 937
ovvero se 𝑉𝑎𝑟 𝑀 𝑌|𝑋 =0.
Tabella con
.∙ . ∗ Ma 𝑉𝑎𝑟 𝑀 𝑌|𝑋 ∑  𝑥  𝑛.
IntesaSanPaolo
Negativo Positivo
Generali
Negativo 0,588043263 0,05732356 Quindi devo dimostrare che se esiste indipendenza stocastica
Positivo 0,058102974 0,566219683  𝑥  ∀𝑖.
𝜒 937 1,2697 1 =252,7089
Però 𝜇 𝑥 = ∑ 𝑦𝑛 ∑ 𝑦 che nel caso di indip.
. .
max 2 = 937[(2-1)] =937 stoc. è pari a 𝜇 𝑥 = ∑ 𝑦
. .
∑ 𝑦 𝑓.  .
.
2
26,97%
max 2
Q. Se esiste indipendenza stocastica, esiste correlazione (ovvero
covarianza diversa da zero)? NO
-o-o-o-o-o-o-o-o- Richiamando la formula della covarianza è noto che
𝑀 𝑋𝑌 𝑀 𝑋 𝑀 𝑌 𝐶𝑜𝑣 𝑋, 𝑌 . Quindi per dimostrare che
𝐶𝑜𝑣 𝑋, 𝑌 0 basta dimostrare che 𝑀 𝑋𝑌 𝑀 𝑋 𝑀 𝑌 quando c’è
indipendenza stocastica.
Se esiste indipendenza stocastica
1 1 𝑛 . 𝑛.
𝑀 𝑋𝑌 𝑥𝑦𝑛 𝑥𝑦
𝑁 𝑁 𝑁
1 1
𝑥𝑛. 𝑦 𝑛. 𝑀 𝑋 𝑀 𝑌
𝑁 𝑁
e quindi 𝐶𝑜𝑣 𝑋, 𝑌 0 e quindi 𝜌 0.
91 92
Quindi
Q. Se esiste indipendenza in media, esiste correlazione (ovvero “Se esiste indipendenza stocastica esiste indipendenza in media”
covarianza diversa da zero)? NO “Se esiste indipendenza stocastica, esiste incorrelazione”
“Se esiste indipendenza in media esiste incorrelazione”
Come detto sopra se esiste indipendenza in media  𝑥  ∀𝑖.
Richiamando la formula della covarianza è noto che Ovvero
𝑀 𝑋𝑌 𝑀 𝑋 𝑀 𝑌 𝐶𝑜𝑣 𝑋, 𝑌 . Quindi per dimostrare che
𝐶𝑜𝑣 𝑋, 𝑌 0 basta dimostrare che 𝑀 𝑋𝑌 𝑀 𝑋 𝑀 𝑌 quando c’è indipendenza stocastica =>
indipendenza in media. Sapendo che indipendenza in media =>
incorrelazione
1 1 𝑛
𝑀 𝑋𝑌 𝑥𝑦𝑛 𝑥𝑛. 𝑦
𝑁 𝑁 𝑛. N.B.
1 >MoltiDLICO E 1 1 0, DD Il viceversa NON è vero, ovvero
𝑥𝑛.  𝑥 DER
Mi.
𝑁
“Se esiste incorrelazione allora può esistere dipendenza in media”
“Se esiste indipendenza in media può esistere connessione !!!”
se esiste indipendenza in media si avrà
=
1 1
𝑀 𝑋𝑌 𝑥𝑛.   𝑥𝑛.  
↑ 𝑁 𝑁
da cui si deduce che in caso di indipendenza in media
𝑀 𝑋𝑌 𝑀 𝑋 𝑀 𝑌
e quindi 𝐶𝑜𝑣 𝑋, 𝑌 0 e quindi 𝜌 0.
93 94
Elementi di calcolo delle probabilità Si definiscano le seguenti regole (assiomi o postulati)
La probabilità, P, è la misura del verificarsi di un evento aleatorio, 1- P(A) 0

E, ovvero è la misura P(E) 2- P() = 1 & eve n to cer te
3- P(Ai) = P(Ai) se Ai  Aj =   ij

Gli eventi (osservabili) possono essere elementari,  , o classi
(insiemi) di eventi (es. A1, A2, ..., B1, B2,... ), anche ottenuti tramite
operazione di insiemi come ad esempio Ai , Ai , A , ... Dai postulati si può dimostrare (ad esempio)
>2 -
A
L’insieme di tutti i possibili eventi costituisce lo spazio, , dei 1- P( A )= 1P(A)

possibili eventi 2- P(AB) = P(A)+P(B) - P(AB)
3- P() = 0
Una prova sperimentale dovrà quindi restituire un evento o una 4- P(A \ B ) ( P(A – B) ) = P(A)  P(AB)
classe (un sottoinsieme) appartenente a , ovvero Ai 5- P(AB) = P(B) se BA
6- ...
Come definire e quindi misurare P(E) ?
Si deduce che 0P(E)1
In generale sia P una funzione di insiemi che assegna ad ogni evento
Ai, un numero.
95 96
Document shared on www.docsity.com
Downloaded by: ohitssasha (sashadipaolo@gmail.com)
Come calcolare P(E) ? Eventi condizionati ed Eventi indipendenti
a) Approccio Classico: Dato un esperimento, se  ha dimensione Se si è interessati alla probabilità di osservare A essendosi verificato
(cardinalità) finita ovvero se i possibili modi con cui si realizzerà la B, significa che si vuole sapere la probabilità che dopo B compaia
manifestazione dell’esperimento sono in numero finito e se anche A.
ciascuno dei possibili modi è equiprobabile allora
Utilizzando l’approccio classico tale operazione si riconduce a
# casi favorevoli al manifestarsi di E
P(E) = # casi possibili # casi favorevoli a (AB) P(AB)
P(A | B ) = # casi favorevoli a B = P(B) con P(B)>0
b) Approccio Frequentista: dato un esperimento, se  ha da cui dedurre P(AB) = P(B)P(A|B) (formula delle probabilità
dimensione (cardinalità) infinita o è un’infinità al più numerabile e composte)
se l’esperimento è ripetibile (nelle stesse condizioni sperimentali)
allora
{n.b. A mero scopo illustrativo si veda quanto segue!!!}
# manifestazioni di E
P(E) = lim n Esempio: una stima della probabilità di avere il segno “-“ per IntesSanPaolo
n 
avendo osservato il segno “-” per Generali sarebbe 76,7%
IntesaSanPaolo
Negativo Positivo
c) Definizione Bayesiana o soggettivista, : è il “prezzo” p che un Generali
Negativo 370 112 482
individuo coerente stima equo attribuire ad un importo unitario Positivo 113 342 455
483 454 937
esigibile solo se si manifesta E ovvero è il “prezzo” p che un
individuo stima equo “pagare” per partecipare alla scommessa “se P(AB)
si manifesterà E riscuoto un importo unitario (es, 1 euro) Ripensando alle tabelle a doppia entrata, P(A|B) = P(B) ha la stessa
interpretazione delle distribuzioni condizionate relative che erano state
definite come o .
. .
97 98
Esempio: Se la tabella dovesse comprendere le probabilità di accadimento Introduzione a Variabili Casuali e Modelli Probabilistici
di eventi congiunti/marginali, avremmo
Pr(XY)
In generale: una v.c. X è una funzione avente dominio in  e che
Y
X R S Pr(X)
associa ad ogni evento aleatorio E un numero x reale e inoltre
G 0,2 0,3 0,5
associa ad x la probabilità dell’evento E.
H 0,1 0 0,1
M 0 0,4 0,4 Quindi X :   ℝ.
Pr(Y) 0,3 0,7 1
me x
= capiti
Se dato l’evento E lo codifico con x (o in semintervallo di ℝ) allora
-o-o-o-o-o-o- vale che Pr(X=x)=Pr(E).
P(A | B ) = P(A) se il condizionamento a B non influenza il
manifestarsi di A
X
P(B | A ) = P(B) se il condizionamento ad A non influenza il
manifestarsi di A E
Pr{E}=Pr{x} x
Si deduce che P(AB)=P(A)P(B)
Tale condizione, se verificata, definisce una situazione di

indipendenza stocastica tra A e B.
{ n.b. A mero scopo illustrativo!!!}

Ripensando alla fattorizzazione delle frequenze congiunte come condizione
per garantire assenza di connessione, P(AB)=P(A)P(B) ha la stessa  ℝ
interpretazione di 𝑓 𝑓 . 𝑓. .
Es. preso un dado a 6 facce etichettate con {A,B,C,D,E,F} posso

applicare una v.c. che trascodifichi {A,B,C,D,E,F} in
{1,2,3,4,5,6}.
Se il dado è regolare, vale che Pr(A)=1/6=Pr(X=1) .
99 100
-o-o-o-o-o-o-
V.C. Discrete
Una v.c. si dice discreta se i valori X costituiscono un insieme finito

Ogni v.c. X è caratterizzata da una funzione di ripartizione 𝐹 𝑥 o al più numerabile. La F.d.R. è definita da
così definita: 𝐹 𝑥 = 𝑃 𝑋 𝑥
𝐹 𝑥 𝑃 𝑋 𝑥 𝑃 𝑋 𝑥
La F.d.R gode delle seguenti proprietà
La funzione
1- 𝐹 𝑥 è non decrescente ovvero se x1 < x2  𝐹 𝑥 𝐹 𝑥
𝑝 𝑥 𝑃 𝑋 𝑥 𝑃 𝑋 𝑥
2- lim F x = 0 ; lim F x =1 𝑃 𝑋 𝑥 𝑃 𝑋 𝑥 𝑃 𝑋 𝑥
x x+
3- 𝐹 𝑥 è continua a destra ovvero lim + F x = F x

x  x0 è detta funzione di probabilità (f.d.p.) e assegna massa (di
probabilità) p0 all’evento X=x.
-o-o-o-o-o-o-
I momenti (Valore Atteso di ordine r) di una v.c. discreta
Analogamente alle v.s. è possibile definire il valore atteso di X di

ordine r.
𝐸 𝑋 ∑ ∈ℝ 𝑥 𝑝 𝑥 𝜇 caso discreto
{ n.b. A mero scopo illustrativo!!!}

Ripensando ai momenti dall’origine di ordine r, 𝐸 𝑋 ha la stessa
interpretazione di 𝑀 𝑋 con 𝑓 inteso come 𝑝 𝑥 .
101 102
Alcuni (rilevanti) modelli probabilistici

1 1 2 3 k
p(y) = k dove y= k , k , k ,..., k
Modello Uniforme Discreto: X ~ U(k)
-o-o-o-o-o-o-
È la v.c. casuale per eccellenza per descrivere l’evento elementare
di un generico gioco d’azzardo con eventi equiprobabili (v. Es. - v.c. lancio di una moneta
concezione classica delle probabilità).
1
Si supponga di classificare i possibili (k) eventi del gioco con X~U(2) p(x) = 2 con x=1,2
x = 1,2,3,...., k. Si ha che
ovvero esempio : “testa”=1, “croce”=2.
1
p(x) = k dove x= 1,2,3,...., k
È ovviamente possibile trasformare X in Y=X1 ovvero
“testa”:=0, “croce”:=1.
1 𝑥
𝐹 𝑥 P 𝑋 𝑥
𝑘 𝑘 Da cui
1
Y~U(2) p(y) = 2 con y=0,1.
1 1 𝑘 1 𝑘 𝑘 1
𝐸 𝑋 𝑥∙𝑝 𝑥 𝑥
𝑘 𝑘 2 2 In tal caso
(k+1)
E(Y) = E(X)  1 = 2 1
𝑉𝑎𝑟 𝑋 𝐸 𝑋 𝐸 𝑋 𝑥 ∙𝑝 𝑥 𝐸 𝑋
Var(Y) = Var(X1) =Var(X)
1
𝑥 𝐸 𝑋
𝑘
1 1 1 1 𝑘 1 1
𝑘 𝑘 𝑘 𝑘 1
𝑘 6 2 3 2 12
Si noti che se riproporzioniamo X creando Y=X / k in modo che Y

sia sempre definita tra 0 e 1 avremo la stessa struttura
probabilistica. Con
103 104
Es. - v.c. lancio di un dado

1 - Se considero la v.c. lancio di due dadi NON considerando rilevante
X~U(6) p(x) = 6 con x=1,2,...,6 l’ordine (e ipotizzandoli indipendenti in senso stocastico) ottengo la v.c.
DADO (etichetta p(“faccia”) v.c. X p(x) F.d.R. W={X,Y} 1 2 3 4 5 6

“faccia”) 1 {1,1}
2 {2,1} {2,2}
A 1/6 1 1/6 1/6 3 {3,1} {3,2} {3,3}
B 1/6 2 1/6 2/6 4 {4,1} {4,2} {4,3} {4,4}
C 1/6 => 3 1/6 3/6 5 {5,1} {5,2} {5,3} {5,4} {5,5}
D 1/6 4 1/6 4/6 6 {6,1} {6,2} {6,3} {6,4} {6,5} {6,6}
E 1/6 5 1/6 5/6
F 1/6 6 1/6 6/6 P(W) 1 2 3 4 5 6
1 1/36
E(X)= 3.5 >6 1
2 1/36 × 2 1/36
Var(X)= 2.91667 3 1/36 × 2 1/36 × 2 1/36
4 1/36 × 2 1/36 × 2 1/36 × 2 1/36
5 1/36 × 2 1/36 × 2 1/36 × 2 1/36 × 2 1/36
- Se considero il lancio di due dadi (X e Y) considerando rilevante 6 1/36 × 2 1/36 × 2 1/36 × 2 1/36 × 2 1/36 × 2 1/36
l’ordine (e ipotizzandoli indipendenti in senso stocastico) ottengo la v.c.
che non è uniforme
W={X,Y} 1 2 3 4 5 6
1 {1,1} {1,2} {1,3} {1,4} {1,5} {1,6}
2 {2,1} {2,2} {2,3} {2,4} {2,5} {2,6}
3 {3,1} {3,2} {3,3} {3,4} {3,5} {3,6}
4 {4,1} {4,2} {4,3} {4,4} {4,5} {4,6}
5 {5,1} {5,2} {5,3} {5,4} {5,5} {5,6}
6 {6,1} {6,2} {6,3} {6,4} {6,5} {6,6}
P(W) 1 2 3 4 5 6
1 1/6 × 1/6 0.02778 0.02778 0.02778 0.02778 0.02778
2 0.02778 0.02778 0.02778 0.02778 0.02778 0.02778
3 0.02778 0.02778 0.02778 0.02778 0.02778 0.02778
4 0.02778 0.02778 0.02778 0.02778 0.02778 0.02778
5 0.02778 0.02778 0.02778 0.02778 0.02778 0.02778
6 0.02778 0.02778 0.02778 0.02778 0.02778 0.02778
1
Da cui W~U(36) p(w) = 36
105 106
- v.c. somma e media di 3 dadi indipendenti (X,Y,Z)

- Se si è interessati alla somma dei punteggi si ha la v.c.
X+Y+Z
V=X+Y 1 2 3 4 5 6 Z
1 2 3 4 5 6 7 (X+Y) 1 2 3 4 5 6
2 3 4 5 6 7 8
2 3 4 5 6 7 8 3 4 5 6 7 8 9
3 4 5 6 7 8 9 4 5 6 7 8 9 10
4 5 6 7 8 9 10 5 6 7 8 9 10 11
5 6 7 8 9 10 11 6 7 8 9 10 11 12
6 7 8 9 10 11 12 7 8 9 10 11 12 13
8 9 10 11 12 13 14
9 10 11 12 13 14 15
V=X+Y P(V=X+Y) (ovvero) 10 11 12 13 14 15 16
2 0.027778 =1 x 1/36 11 12 13 14 15 16 17
3 0.055556 =2 x 1/36 12 13 14 15 16 17 18
4 0.083333 =3 x 1/36
5 0.111111 =4 x 1/36 E(X+Y)= 7
6 0.138889 =5 x 1/36 Var(X+Y)= 5.833333 1 2 3 4 5 6
P(X+Y+Z) =
7 0.166667 =6 x 1/36
P(X+Y)×P(Z)
8 0.138889 =5 x 1/36 0.00463 0.00463 0.00463 0.00463 0.00463 0.00463
2
9 0.111111 =4 x 1/36 0.009259 0.009259 0.009259 0.009259 0.009259 0.009259
3
10 0.083333 =3 x 1/36 0.013889 0.013889 0.013889 0.013889 0.013889 0.013889
4
11 0.055556 =2 x 1/36 0.018519 0.018519 0.018519 0.018519 0.018519 0.018519
5
12 0.027778 =1 x 1/36
6 0.023148 0.023148 0.023148 0.023148 0.023148 0.023148
7 0.027778 0.027778 0.027778 0.027778 0.027778 0.027778
che non è una v.c. uniforme discreta e che è identica sia che si consideri 8 0.023148 0.023148 0.023148 0.023148 0.023148 0.023148
l’ordine di accadimento dei dadi sia che non lo si consideri. 9 0.018519 0.018519 0.018519 0.018519 0.018519 0.018519
10 0.013889 0.013889 0.013889 0.013889 0.013889 0.013889
11 0.009259 0.009259 0.009259 0.009259 0.009259 0.009259
12 0.00463 0.00463 0.00463 0.00463 0.00463 0.00463
Esempio: Pr(X+Y+Z=4) = Pr(X+Y=2)xPr(Z=2) + Pr(X+Y=3)xPr(Z=1) =
= 1/36 x 1/6 + 2/36 x 1/6 = 1/72= 0,01388889
107 108
v.c. v.c. v.c. P(X+Y+Z)

(X+Y+Z)/3 (X+Y+Z)/18 Bernoulli: X ~ Be()
X+Y+Z
3 1 0.166667 0.00462963
4 1.333333 0.222222 0.01388889 p(x;) =x(1)1x x=0,1
5 1.666667 0.277778 0.02777778 E(X+Y+Z)= 10.5
6 2 0.333333 0.0462963 Var(X+Y+Z)= 8.75
7 2.333333 0.388889 0.06944444 E(X)=
8 2.666667 0.444444 0.09722222 E[(X+Y+Z)/3]= 3.5 Var(X)=(1)
9 3 0.5 0.11574074 Var[(X+Y+Z)/3]= 0.972222
10 3.333333 0.555556 0.125
3.666667 0.611111 0.125
FX(x=1) =P(X1) = 0(1)10 +1(1)11 =1
11 E[(X+Y+Z)/18]= 0.583333
12 4 0.666667 0.11574074 Var[(X+Y+Z)/18]= 0.027006
13 4.333333 0.722222 0.09722222
14 4.666667 0.777778 0.06944444 Es.
15 5 0.833333 0.0462963
5.333333 0.888889 0.02777778
- v.c. vincita o perdita ad un gioco d’azzardo (v. es. moneta
16
17 5.666667 0.944444 0.01388889 truccata)
18 6 1 0.00462963 - v.c. aumento o ribasso (a fine contrattazioni) di un titolo di borsa
109 110
Binomiale: X ~ Bin(n,) Esempio

Un titolo (X) a fine giornata ha una probabilità pari a 0.45 di
𝑛 registrare un segno (+) e il segno è indipendente dal segno registrato
𝑝 𝑥; 𝑛, 𝜋 𝜋 1 𝜋 per 𝑥 0,1, … , 𝑛
𝑥 il giorno precedente
𝑛
𝐹 𝑥 𝑃 𝑋 𝑥 𝑥 𝜋 1 𝜋
A ) Qual è la probabilità che su 3 gg consecutivi registri il
segno (+) 1 volta
Viene tipicamente usata in tutti quegli esperimenti di esito
dicotomico (vero/falso, bianco/nero, ecc.) che si succedono in - Pot
modo indipendente in senso stocastico (es. nel c.d. campionamento X ~ Bin(3,=0.45)
casuale semplice) e di cui si è interessati all’evento somma di
successi dopo n prove. gg
È definibile come somma di n eventi aleatori indipendenti in senso Casi 1 2 3 Pr(Casi)
stocastico (i.i.d) di tipo Bernoulliano di parametro  . 1 + - - 0.45×0.55×0.55
Quindi data una X ~ Bin(n,) è possibile scrivere 𝑋 ∑ 𝑋 con 2 - + - 0.55×0.45×0.55
3 - - + 0.55×0.55×0.45
Xi ~ Be() e i.i.d. per i=1,…,n. Da tale risultato si deduce
Pr(A)=3×0.55^2×0.45
E(X) = n 3
 
Var(X)=n(1) R: p(1;3,0.45) =  0.451(10.45)31
1
Esempi
- v.c. x vincite in n tentativi ad un gioco d’azzardo
- v.c. numero di palline di colore C estratte con reimmissione da
un’urna che contiene una frazione  di palline C
- v.c. x aumenti (o riduzioni di valore) (a fine contrattazioni) in n

giorni consecutivi di un titolo di borsa
111 112
B ) Qual è la probabilità che su 5 gg consecutivi registri il

segno (+) 3 volte D ) Qual è la probabilità che su 5 gg consecutivi si registri il segno (+) non
più di x volte
X ~ Bin(5,=0.45)
x
R : P(Xx)= FX(x) =  p(i;5,0.45) =
gg i=0
Casi 1 2 3 4 5 Pr(Casi) x 5
 
1 + + + - - 0.45×0.45×0.45×0.55×0.55 =   0.45i(10.45)5i per x=0,1,2,3,4,5
i
2 + + - + - 0.45×0.45×0.55×0.45×0.55 i=0
3 + + - - + 0.45^3×0.55^2
4 + - + + - 0.027565
5 + - + - + 0.027565 X F(X)
6 + - - + + 0.027565 0 0.050328
7 - + + + - 0.027565 1 0.256218
8 - + + - + 0.027565 2 0.593127
9 - + - + + 0.027565 3 0.86878
10 - - + + + 0.027565 4 0.981547
Pr(B)=10×0.45^3×0.55^2 5 1
5
 
R: p(3;5,0.45) =  0.453(10.45)53
3
C ) Qual è la probabilità che su 5 gg consecutivi registri il segno (+)

x volte
X Pr(X)
0 0.050328438
1 0.205889063 E(X)= 2.25
2 0.336909375 Var(X)= 1.2375
3 0.275653125
4 0.112767188
5 0.018452813
5
 
R: p(x;5,0.45) =  0.45x(10.45)5x
x
113 114
F ) Qual è la probabilità che su 25 gg

E ) Qual è la probabilità che su 5 gg consecutivi si registri il segno (+) consecutivi si registri il segno (+) x volte
almeno x volte
X Pr(X) F.d.R. Contr F.d.R.
0.18
x-1 0 3.22899E-07 3.22899E-07 1 0.16
R : P(X x)= 1-FX (x1) = 1  p(i;5,0.45) per x=1,2,3,4,5 1 6.60476E-06 6.92766E-06 0.999999677 1
0.14
2 6.48467E-05 7.17744E-05 0.999993072 0.12
i=0 3 0.000406766 0.00047854 0.999928226
0.75
0.1
P(X  x)= 1 per x=0 4 0.001830447 0.002308987 0.99952146 0.5 0.08
5 0.00629008 0.008599067 0.06
0.997691013
0.25 0.04
6 0.017154764 0.025753831 0.991400933
0.02
X P(Xx) 7 0.038096943 0.063850774 0.974246169 0 0
0 1 8 0.070133009 0.133983783 0.936149226 0 2 4 6 8 10 12 14 16 18 20 22 24
1 0.949672 9 0.108387377 0.24237116 0.866016217 F.d.R. (sx) Contr F.d.R. (sx) Pr(X) (dx)
10 0.14188893 0.384260091 0.75762884
2 0.743783 11 0.158305831 0.542565922 0.615739909
3 0.406873 12 0.151110112 0.693676034 0.457434078
4 0.13122 13 0.123635546 0.81731158 0.306323966
5 0.018453 14 0.086705448 0.904017028 0.18268842
N.B. la dicitura (x1) contenuta in FX (x1) è necessaria per 15 0.052023269 0.956040297 0.095982972
16 0.026602808 0.982643105 0.043959703
garantire la non duplicazione dell’informazione essendo una v.c. 17 0.011523141 0.994166246 0.017356895
discreta. Infatti: 18 0.004190233 0.998356479 0.005833754
19 0.001263085 0.999619564 0.001643521
Es. se x=1: P(X  1) = 1  P(X < 1) = 1  FX( x1 ) = 1  FX(x=0) 20 0.00031003 0.999929594 0.000380436
21 6.03954E-05 0.999989989 7.04062E-05
= 1-0.050328=0.949672 22 8.98444E-06 0.999998974 1.00108E-05
23 9.58814E-07 0.999999932 1.02633E-06
24 6.53737E-08 0.999999998 6.75132E-08
25 2.1395E-09 1 2.1395E-09
115 116
Esempio: probabilità di eventi condizionati (prova del 13/07/2015)

(prova del 13/02/2015)
3a) Si consideri il seguente gioco. Viene lanciato un dado non
3a) Si consideri il seguente gioco. Da un’urna, A, con 3 palline di regolare a 5 facce numerate da 1 a 5. La faccia i-esima (per
cui 2 bianche, viene estratta 1 pallina. Se la pallina è bianca, questa
viene inserita in un’altra urna, B, che contiene 8 palline bianche e 1
t i=1,…,5) ha probabilità i/15. Se su 10 lanci si ottengono non più di
una volta un numero 2, allora, da un’urna, che contiene il 40% di
nera; se la pallina estratta da A non è bianca, allora nell’urna B palline bianche, vengono estratte con reimmissione 6 palline. Se
viene inserita una pallina nera. Calcolare la probabilità di estrarre lanciando il dado, su 10 lanci si ottengono almeno 2 volte numeri
2, da un’altra urna, che contiene il 60% di palline bianche,
Li
dall’urna B una pallina bianca su 5 estrazioni eseguite con
reimmissione. vengono estratte con reimmissione 7 palline.
=S paise e
b i an ch e a s e re
Calcolare la probabilità di estrarre 4 palline bianche.
R: si tratta di uno schema dell’urna a 2 stadi come di seguito
rappresentato
Pr[x - 2,
volte numeri 2
Pr(x 13
dato
vincere 10
↑> s c e n a r i o 1
L’evento B rappresenta l’evento desiderato (avere 4 palline bianche).

↳> Pr Esce
che 1 pallina BIANCA
Il calcolo si presenta come segue:
Lu vobto
pallina
sol
so
Bianca
c ha
e ccade
proate
Pr 𝐵 Pr 𝐴 Pr 𝐵|𝐴 Pr 𝐴̅ Pr 𝐵|𝐴̅
5 EStrIZIONI c o n g i u n to :
↓Evento che i vin ce

Pr{«Vincere»}=Pr{1 Bianca su 5 estrazioni da urna B} = lo scenario e
= Pr{Bianca da A} * Pr{1 Bianca su 5 estrazioni da urna B|estratto 1 Bianca da A} +

+ Pr{Bıanca da A} * Pr{1 Bianca su 5 estrazioni da urna B |estratto 1 Bıanca da A} = dove
= 2/3 * 0.00045 + 1/3 * 0.0064 = 0.002433
L fo r m a , scenari
due
incompatibili:ACCADE
poich
O
sono
L'ALTRO
117 118
uno O

is is eyis is s ..()" e..() +

=
Poisson: X ~ P()
Pr{1002} =
10 3 3 p(x;) = (x!)1 e x x=0,1,…
Pr 𝐴 1 0.37581
𝑥 15 15
Pr 𝐵|𝐴
6
0.4 1 0.4 0.13824
È definibile come la probabilità di x accadimenti (numerabili)
C.
4 avvenuti in arco temporale T sotto le ipotesi che l’accadimento
10 3 3 nell’unità di tempo t avvenga con media , che la probabilità di
Pr 𝐴̅ 1 1 Pr 𝐴 0.62419
𝑥 15 15 avere più di un accadimento avvenga con misura nulla e che il
7 verificarsi degli eventi tra unità di tempo sia una successione
Pr 𝐵|𝐴̅ 0.6 1 0.6 0.290304
4 indipendente dal tempo.
da cui (a)"(as sfanas= =
Es.
Pr 𝐵 0.37581 ∙ 0.13824 0.62419 ∙ 0.290304 0.233157 - numero di sinistri nell’anno
- molti fenomeni assicurativi
↳. magia! E media
una
ponderete
- numero di rialzi di un titolo nell’arco della giornata (?)
E(X)=
Var(X)=
Sotto opportune ipotesi (n e 0) il modello Bin(n,) si

approssima col modello P() con = n
119 120
Da v.c. discreta a v.c. continua
Una motivazione dei modelli probabilistici nel continuo
Si considerino 6 dadi con k=6, 12, 24, 1000, 10000, 100000 facce.
Si tratta di 6 v.c. uniformi discrete, X ~U(k).
Di ciascuna si consideri la trasformazione in 𝑌 .

La corrispondente F.d.R è raffigurata come segue
Y è ancora una v.c. discreta. Il dominio di Y sarà sempre
nell’intervallo (0,1] e la probabilità di ciascun evento sarà pari a .
Si supponga di effettuare la rappresentazione grafica tramite un
istogramma con classi di ampiezza arbitrariamente prese pari a
𝑦 ⊣ 𝑦 := { (0, 0.05] , (0.05,0.25] , (0.25,0.40] , (0.40,0.65] ,

(0.65,0.80], (0.8,0.95], (0.95,1] }
(se si scelgono classi diverse il seguito del discorso non perde in

generalità). Si osservi che al crescere delle facce del dado la densità di classe si
Le classi sono di ampiezza non costante e per rappresentare stabilizza su 1. Si nota inoltre che le F.d.R. hanno comportamenti
l’istogramma, dovremo usare le densità di classe ovvero il rapporto simili, i cui salti sono dovuti alla quota di probabilità della classe i-
tra la massa di probabilità di classe e la sua ampiezza esima, ovvero
𝑃 𝑌∈ 𝑦 ⊣𝑦 𝐹 𝑦 𝐹 𝑦 𝑃 𝑌∈ 𝑦 ⊣𝑦 𝑑 ∙ 𝑦 𝑦
𝑑
𝑦 𝑦
da cui
Si ottiene
𝐹 𝑦 𝐹 𝑦
𝑑
𝑦 𝑦
121 122
Tale rapporto consente di interpretare la densità di classe come il Si nota che al crescere di k il luogo di punti “converge” verso un
rapporto incrementale di 𝐹 𝑦 rispetto alla classe 𝑦 ⊣𝑦 . luogo che rasenta la continuità.
Se ora si prova a definire un elevato numero di classi (ne Quindi per k che tende ad infinito e con classi di ampiezza
sceglieremo 1000) di ampiezza arbitraria (è come se si dividesse infinitesima, è possibile pensare alla Funzione di ripartizione come
l’intervallo (0,1] in 1000 sezioni), si ottiene se si trattasse di una funzione continua. La densità verrebbe quindi
ad essere interpretata come l’applicazione del limite del rapporto
incrementale
𝐹 𝑦 𝐹 𝑦
lim 𝐹 𝑦 ≡𝑓 𝑦 𝑝𝑒𝑟 𝑘 → ∞
→ 𝑦 𝑦
ovvero la derivata prima della funzione di ripartizione in 𝑦 .

Essendo la funzione che definisce la Funzione di ripartizione
convergente verso la funzione
0 𝑦 0
𝐹 𝑦 𝑦 0 𝑦 1
Dove si osserva una convergenza del grafico ad una densità intorno
ad 1 solo per il caso di dadi con elevato k. Questi valori (si noti 1 𝑦 1
bene) non sono probabilità ma densità, se lo fossero dovremmo
osservare valori in ordinata pari a 1/k che per k piuttosto grande si ricava anche l’andamento della funzione di densità
tendono a zero!
1 0 𝑦 1
𝑓 𝑦; 0,1
Interessante è il comportamento della F.d.R. per k crescente. 0 𝑎𝑙𝑡𝑟𝑜𝑣𝑒
123 124
Dalle precedenti considerazioni emerge che per k perde di descrivere la scelta (soggettiva) di probabilità di accadimento di un
significato lo studio della probabilità del tipo P(Y=y) mentre rimane fenomeno aleatorio.
valido lo studio della densità (che si rammenta non è una
probabilità). Ricordando che in generale In generale molti modelli definiti su supporto continuo possono
essere visti come un comportamento asintotico di opportuni
𝐹 𝑦 𝐹 𝑦 𝑃 𝑌∈ 𝑦 ⊣ 𝑦 𝑑 ∙ 𝑦 𝑦 meccanismi aleatori definiti nel discreto!
e che un qualunque intervallo è pensabile come suddiviso in h

sottointervalli V.c. Continue (in generale)
Per le v.c. continue i valori X() non sono numerabili. Dalla

𝑃 𝑌∈ 𝑦 ⊣𝑦 𝑑 ∙ 𝑦 𝑦 definizione di F.d.R. è noto che
𝐹 𝑥 = P( X(,x] ) = P 𝑋 𝑥
si ha che per classi di ampiezza piccola a piacere, ovvero per
𝑦 𝑦 𝑑𝑦 Se 𝐹 è assolutamente continua si può scrivere
𝑃 𝑌∈ 𝑦 ⊣𝑦 𝑑 ∙ 𝑑𝑦 𝐹 𝑥 𝑓 𝑦 𝑑𝑦 P 𝑋 𝑥
e che al limite
𝑓 𝑥 prende il nome di funzione di densità (f.d.d.) con le seguenti
lim 𝑑 ∙ 𝑑𝑦 𝑓 𝑦 𝑑𝑦 proprietà
→
𝑓 𝑥 ∶ℝ→ℝ ∀𝑥 ∈ ℝ
Nell’esempio in figura la probabilità
. 𝑓 𝑥 𝑑𝑥 1
𝑃 𝑌∈ 0 | 0.5 1 𝑑𝑦 0.5
e per la monotonicità di 𝐹 , preso 𝑎 𝑏,

Essendo costante la densità di una v.c. uniforme, il modello
uniforme descrive l’accadimento di un fenomeno che con
probabilità costante potrà assumere qualunque valore sul dominio 𝐹 𝑏 𝐹 𝑎 𝑓 𝑥 𝑑𝑥 𝑓 𝑥 𝑑𝑥
assegnato. Tale modello, sul dominio (0,1], è molto utile per
125 126
Uniforme: X ~ U(a,b) > solo quest. Te o r i c
È quindi teoricamente possibile misurare la probabilità di

qualunque sottoinsieme di ℝ. 1
𝑓 𝑥; 𝑎, 𝑏 𝑎 𝑥 𝑏
𝑏 𝑎
Si noti che definita una successione 𝑎 crescente con 𝑎 𝑥 si ha
per n dove per b=1 e a=0 si ha X ~U(0,1).
Si osservi che
P(X  lim
n
(an,x0]) = lim
n
𝑓 𝑥 𝑑𝑥 0 1
𝑑𝑦 1
𝑏 𝑎
per la proprietà di continuità da destra della 𝐹 . Ne consegue che:
Essendo la funzione di ripartizione di una v.c. continua è definita
come
a. X=x0 è un evento non impossibile ma di misura nulla
(ovvero Pr(X=x0)=0 )
𝐹 𝑥 𝑓 𝑦 𝑑𝑦
b. f(x0) non rappresenta una probabilità ma solo la densità della v.c.
X in x0 si ha
⎧ 𝑓 𝑦 𝑑𝑦 0 𝑥 𝑎
c. Tutti gli intervalli continui del tipo (a,b], (a,b), [a,b] hanno la
stessa misura di probabilità ⎪
𝐹 𝑥 1 𝑥 𝑎 𝑎 𝑥 𝑏
⎨ 𝑓 𝑦 𝑑𝑦 𝑑𝑦
𝑏 𝑎 𝑏 𝑎
d. 𝑓 𝑧 𝑏 𝑎 = 𝑓 𝑧 x = 𝑓 𝑥 𝑑𝑥 con x piccolo a piacere e ⎪ 𝑥 𝑏
⎩1
zx . Tale risultato può interpretarsi, per il teorema del valor
medio del calcolo integrale, come una probabilità. 𝑏 𝑎
𝐸 𝑋 𝑥𝑓 𝑥 𝑑𝑥
2
I momenti (Valore Atteso di ordine r) di una v.c. continua Var(X) = E(X2)  [E(X)]2 =
Analogamente alle v.c. discrete è possibile definire il valore atteso
di X di ordine r.
𝐸 𝑋 ∑ ∈ℝ 𝑥 𝑝 𝑥 𝜇 caso discreto
𝐸 𝑋 ∈ℝ
𝑥 𝑓 𝑥 𝑑𝑥 𝜇 caso continuo
127 128
o generi a n t
Normale: X ~ N(, 2) 𝐹 𝑥 ; 𝜇, 𝜎 𝑝
di
Funzione
dente
,
1 1 𝑥 𝜇 dove l’interesse è trovare il percentile 𝑥 di ordine p, ovvero

𝑓 𝑥; 𝜇, 𝜎 exp 𝑥∈ℝ
√2𝜋𝜎 2 𝜎 risolvere
𝐹 𝑝; 𝜇, 𝜎 𝑥
𝐹 𝑥; 𝜇, 𝜎 𝑓 𝑦; 𝜇, 𝜎 𝑑𝑦 I calcoli (esatti) vengono fatti tipicamente con l’ausilio di un pc .
Media= 1 Varianza= 4
N.B. / primitiva ma si può dimostrare che OGGETTO
desidero avere la probabilità

𝑓 𝑦; 𝜇, 𝜎 𝑑𝑦 1 desidero avere il percentile tra A(>-9) e B(<11)
A= -1.5
inserisci la
probabilità 0.9
cumulata = B= 2
E(X) = 
Percentile 3.563103131 Probabilità 0.585812688
Var(X) = 2
1
0.8
0.6
0.4
0.2
0
-10.0 -5.0 0.0 5.0 10.0 -10.0 -5.0 0.0 5.0 10.0
In alternativa è possibile utilizzare “tavole” che riportano i

percentili e i corrispondenti valori della F.d.R. della sola v.c.
𝑋 𝜇
𝑍
In genere l’interesse può essere il calcolo della probabilità di 𝜎
intesa come variabile standardizzata della generica v.c. X. In tal
𝑃 𝑥 𝑋 𝑥 =? , 𝑃 𝑋 𝑥 =?, 𝑃 𝑋 𝑥 =? caso i calcoli saranno necessariamente approssimati.
con x1<x2 e con x1, x2 assegnati, o, assegnato il valore di p (con Per costruzione E(Z)=0 e Var(Z)=1. Considerando che trattasi di
0<p<1), risolvere una trasformazione lineare di X, si può dimostrare che
129 130
se X~N(,2) allora Z~N(0,1) . - assegnato z0, incrociando la riga corrispondente alla parte
intera e al I decimale di z nella prima colonna, con la colonna
Considerando che si tratta di una trasformazione strettamente corrispondente al II decimale di z nella prima riga, si ha la
monotona (e utilizzando la sola notazione 𝐹 𝑥 al posto di soluzione di Φ 𝑧 𝑝
𝐹 𝑥; 𝜇, 𝜎 laddove non ci siano problemi di interpretazione), se
siamo interessati a risolvere 𝐹 𝑥 si potrà scrivere es. (1.90+0.06)=(1.96) = 0.975
𝑥 𝜇 N.B: Se z0, si noti che stante la simmetria della funzione di
𝐹 𝑥 𝑝 ≡ 𝐹 𝑝
𝜎 densità rispetto allo 0 si ha : Φ 𝑧 1 Φ 𝑧 !!! ovvero es.
ovvero (1.96) = 1(1.96)= 10.975
𝐹 𝑧 𝑝 ≡ Φ 𝑧 𝑝 - assegnato un valore di p0.5, per risolvere (zp) = p ovvero

1(p) = zp , si cerca la cella in tabella corrispondente a p,
sommando il valore corrispondente alla intestazione di riga in I
N.B. se Z ~ N(0,1) la F.d.R. viene indicata con (z) . colonna col valore intestazione di colonna in I riga .
Trovata la soluzione, 𝑧 , si avrà 𝑧 , da cui ricavare 𝑥 . es. p=0.6628, 1(0.6628) = 0.4+0.02 =0.42
Analogamente se siamo interessati a 𝑃 𝑋 𝑥 𝑝, assegnato x2 N.B. Se p0.5, si noti che stante la simmetria della funzione di
densità rispetto allo 0 si ha : Φ 𝑝 Φ 1 𝑝 ovvero
𝑋 𝜇 𝑥 𝜇 𝑥 𝜇 𝑧 𝑧 . Quindi, ad esempio, se p=0.0495, z0.0495 = z.9505
𝑃 𝑋 𝑥 𝑃 𝑃 𝑍
𝜎 𝜎 𝜎 , da cui z0.0495 = 1.65.
𝑥 𝜇
≡Φ Φ 𝑧
𝜎 N.B. Come già accennato la tavola riporta solo percentili fino e non
.
Questo significa che per qualunque v.c. X è possibile eseguire i oltre il max di 3.09. Il motivo è che già 𝑓 𝑧 𝑑𝑧 0.9990 ,
calcoli necessari, disponendo di una “tavola” per la sola v.c. Z che ovvero (3.09)1. Quindi per valori z* > 3.09 si assumerà
riporti i valori della funzione di ripartizione e (ovviamente) i (z*)1.
corrispondenti percentili. La tavola riportata più sotto consente, per Nelle applicazioni standard in genere si è interessati a percentili non
i soli percentili di ordine 0.50 e per il dominio positivo oltre tale soglia. Alcuni testi riportano tavole con valori di z anche
discretizzato di Z: z=0, 0.01, 0.02,..., 3.09 , di risolvere i seguenti .
fino a 4.09 con cui sia avrebbe 𝑓 𝑧 𝑑𝑧 0.9999. Ci si è
problemi: limitati al valore 3.09 per motivi di semplicità.
131 132
↑
N.B. Il fatto che la tabella riporti solo percentili con progressione Percentili della variabile casuale normale standardizzata
fissa di 0.01 può creare problemi numerici quando si è interessati a
percentili non inclusi in tale progressione. In questi casi se abbiamo 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
bisogno del valore di zp per un p che esattamente non è riportato in 0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
tabella (es. p=0.10) si procederà come segue: si prenderanno i due 0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
valori più prossimi a p, si estrarranno i percentili corrispondenti e 0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
se ne farà la semisomma (meglio ancora sarebbe fare 0.5 0.6915 0.6950 0.6985 !
0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
l’interpolazione dei due estremi). 0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 -
0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
es. p=0.10 => 0.9-0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
z1-0.8997= 1.28, z10.9015= 1.29 => 1.0 0.8413

1.1 0.8643
0.8438
0.8665
0.8461
0.8686
0.8485
0.8708
0.8508
0.8729
0.8531
0.8749
0.8554
0.8770
0.8577
0.8790
0.8599
0.8810
0.8621
0.8830
z10.90 (1.28+1.29)/2 1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944
- 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
Se analogamente cercassimo un valore di (z) avendo un z con più 1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
di due cifre decimali (la tabella consente il calcolo esatto solo se z 1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
ha al massimo 2 cifre decimali) si arrotonderà z alla II cifra 1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
decimale più vicina. 1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
es. z = 1.347  z= 1.35 => p = 10.9115 2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 -
0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
Es. P(Z1,96)= .975

P(Z1,96) = 1P(Z1,96) =10.975
P(Z>+1,64) =1P(Z+1,64) = 10.9495
P(Z>1,64) =1P(Z1,64)=1[1P(Z+1,64)] = P(Z+1,64)
P(Z>+1,64) =1P(Z+1,64)
133 134
(z1)=0.8997  z1=1.28
Cenni al metodo Montecarlo per il calcolo di integrali definiti
(z1)=.025  1(z1)=1.025  (z1)=.9750  z1=+1.96
Si supponga di voler calcolare l’area sottesa da f.d.d. di una v.c.
gaussiana (o di un’altra funzione continua). Ad esempio:
ovvero  z1= 1.96
1 1 𝑥 1
Se es. X~N(1,4) 𝑓 𝑥; 𝜇 1, 𝜎 4 𝑑𝑥 exp 𝑑𝑥
2√2𝜋 2 2
x 
 0.9 
FX(x0.9) = 0.9  FX  = 0.9  (z0.9)= 0.9  z1.285 da cui
  
Sebbene sia possibile calcolare l’area, pari a 0.685, si supponga di
x0.9 non disporre della tavola delle probabilità né di un computer. Si
=1.285  x0.9  1+21.285
 disegni la funzione e l’area a cui si è interessati. Si calcoli
max 𝑓 𝑥; 𝜇, 𝜎 0.199
1.51 ∈ ,
21
P(1.5<X2) = P 2 <Z 2  = P(1.25<Z0.5) =
 
e si introduca un rettangolo di vertici con coordinate
= (0.5) (1.25) = (0.5) [1(+1.25)] =
= .6915 [10.8944] = 0.5859 (-4,0) , (2,0) , (2, 0.199) , (-4, 0.199)
Il grafico si presenta come segue
dove si evince che l’area del rettangolo è pari a 1.197 mentre l’area
cercata è pari a 0.685 ovvero il 57.2264% dell’area del rettangolo.
Questo dettaglio apre lo spunto su come calcolare l’area desiderata.
135 136
Seguendo quanto riportato nel grafico seguente, si supponga di

allocare una griglia di n=100,625,2500,10000 punti all’interno Per comprendere l’importanza del modello gaussiano si considerino
dell’area del rettangolo. i seguenti due teoremi
Si contino i punti al di sotto della curva e si calcoli la frazione di
punti rispetto ad n.
Si moltiplichi tale numero per l’area del rettangolo. Teo. (legge debole dei grandi numeri)
Ciò che si ottiene, al crescere di n, è una stima sempre più precisa Se Xn() è una successione di n v.c. indipendenti ed identicamente
dell’area desiderata. distribuite (i.i.d.), se inoltre E(Xi)= e Var(Xi)=2 , allora la
successione ∑ 𝑋 obbedisce alla legge debole dei grandi numeri
ovvero
∑ 𝑋
→ 𝜇 per 𝑛 → ∞
𝑛
■
Quindi, ad esempio, se Xn() è una successione di n v.c. Be() i.i.d.
∑ 𝑋
→ 𝜋 per 𝑛 → ∞
𝑛
∑
N.B. nel seguito verrà indicata come la
L’esempio di cui sopra è stato proposto con una griglia

deterministica.
Nel caso si allocassero punti all’interno del rettangolo con la logica
casuale di una v.c. uniforme otterremmo una versione del c.d.
metodo Montecarlo per il calcolo degli integrali.
137 138
v.c. media campionaria, 𝑋. (N.B. La somma (o la media) di v.c. Gaussiane È una v.c.
gaussiana).
∑
Inoltre da → 𝑍~ 𝑁 0,1 si deduce che
/√
𝑋 𝜇
→ 𝑍~ 𝑁 0,1
𝜎/√𝑛
ovvero, sotto le ipotesi del TLC
𝜎
𝑋 → 𝑁 𝜇,
𝑛
come anche
Teorema del limite centrale (TLC) 𝑋 → 𝑁 𝑛𝜇, 𝑛𝜎

Sia Xn una successione di n v.c. i.i.d. con E(𝑋 )= e
0<Var(𝑋 )=2< per i=1,2,n,... . Allora la v.c.
1
𝑛∑ 𝑋 𝜇
→ 𝑍 ~ 𝑁 0,1
𝜎/√𝑛
■
Si deduce che anche
∑ 𝑋 𝑛𝜇
→ 𝑍~ 𝑁 0,1
𝜎√𝑛
ovvero
∑ 𝑋 𝑛𝜇
lim 𝑃 𝑧 Φ 𝑧
→ 𝜎√𝑛
139 140
Es. Quando è stata

introdotta la v.c.
(DADO(X)+DADO(Y)+DADO(Z))/3 si era ottenuta la distribuzione
v.c.M( X+Y+Z) P(X+Y+Z) Funz di rip v.c.M( X+Y+Z)

3 1 0.00463 0.00463
4 1.333333 0.013889 0.018519 0.14
5 1.666667 0.027778 0.046297 0.12
6 2 0.046296 0.092593 0.1
7 2.333333 0.069444 0.162037 0.08
8 2.666667 0.097222 0.259259 0.06
9 3 0.115741 0.375 0.04
10 3.333333 0.125 0.5 0.02
11 3.666667 0.125 0.625 0 Per apprezzare la convergenza verso la distribuzione gaussiana, nel
12 4 0.115741 0.740741 0 2 4 6 8
grafico seguente si riporta la funzione di ripartizione
13 4.333333 0.097222 0.837963
14 4.666667 0.069444 0.907407 dell’esperimento precedente con sovraimposta (in rosso) la curva
15 5 0.046296 0.953703 della funzione di ripartizione di una v.c. Z~N(0,1).
16 5.333333 0.027778 0.981481
17 5.666667 0.013889 0.99537
18 6 0.00463 1
N.B. si noti che con solamente n=3 v.c. Xi~U(6) si inizia già ad
intravvedere la classica forma a campana della normale
Il grafico seguente riporta la distribuzione della media di j dadi per

j=1,2,…,12.
Si nota come la forma della distribuzione della densità assume al
crescere di j l’andamento campanulare di una v.c. gaussiana.
Si osserva chiaramente la sovrapposizione delle due curve al

crescere del numero dei dadi.
141 142
I) Esempio (media di v.c. unif. Discrete) II) Esempio (somma di v.c. unif. Discrete)
Si ipotizzi ora di limitarsi al caso di 25 dadi a 6 facce numerate da Analogamente se fossimo stati interessati alla v.c. somma dei
1 a 6. Si supponga di essere interessati alla v.c. punteggio medio nel punteggi, ovvero ∑ 𝑋 , avremmo potuto scrivere,
lancio dei 25 dadi. Si è quindi interessati alla v.c. ∑ 𝑋 , dove
2
Xi~U(6) con xi=1,2,...,6. e 8
Scrivere la distribuzione esatta della media di 25 dadi -

𝑋 → 𝑁 253.5 , 252.9167
(indipendenti) non è un’operazione semplice né è agevole riportare
uno schema analogo al caso della media del punteggio nel lancio di
Quindi se volessimo sapere la probabilità di avere un punteggio
n =
3 dadi.
 70 lanciando 25 dadi, avremmo
Tuttavia ricordando che 𝐸 𝑋 3.5 e 𝑉𝑎𝑟 𝑋 , applicando il
TLC si può assumere che  70  87.5 
Te o re m a del
𝑃 ∑
centrale
l i m i te
𝑋 70   = .02021258
252.9167
media campionaria ->
~

1
𝑋 3.5
25 ∑ 𝑍 → 𝑁 0,1 Il calcolo esatto sarebbe stato 0.02295712
35/12 ⑧
-
√25 III) Esempio (somma di v.c. Bernoulliane)
ovvero
Ricordando l’esempio proposto in occasione della presentazione
1 2.9167 della v.c. binomiale relativo a “F ) Qual è la probabilità che su 25
𝑋 → 𝑁 3.5,
25 25 gg consecutivi si registri il segno (+) x volte” si è visto che la
distribuzione ha all’incirca un andamento campanulare.
=I
da cui dedurre, ad esempio, Si reinterpreti tale risultato, ricordando che il modello Binomiale è
descrivibile come somma di n v.c. 𝑋 i.i.d. di Bernoulli di parametro
e
.
1
↓ 4 3.5 Sapendo quindi che ∑ 𝑋 ~ Bin(25,) e che il problema di cui
𝑃 𝑋 4 ≅ Φ⎛ ⎞ 0.928381 sopra equivale a
25 2.9167
⎝ 25 ⎠
Pr{∑ 𝑋 = x} = Pr{∑ 𝑋  x}  Pr{∑ 𝑋 < x}
Il calcolo esatto (complicato da eseguire) avrebbe restituito
0.935873 . = Pr{∑ 𝑋  x}  Pr{∑ 𝑋  (x1)}=
143 144
25 25 𝑥 𝟎. 𝟓 𝑛𝜋
𝜋 1 𝜋 𝜋 1 𝜋 𝑃 𝑋 𝑥 ≅Φ
𝑗 𝑗 𝑛𝜋 1 𝜋
Nel nostro caso, ad esempio se avessimo calcolato

se ad esempio, cercassimo la probabilità di osservare su 25 giorni
7 rialzi, potremmo usare il TLC come segue. 25 7+0.5-250.45 6+0.5-250.45
Si standardizzi la somma delle n v.c. i.i.d. X~Be(), ovvero si P(  Xi = 7)    



=
 6.185   6.185 
introduca la v.c. i=1
∑ 𝑋 𝑛𝜋
𝑍 = 0.0657950.028069 = 0.037726
𝑛𝜋 1 𝜋
Usando il TLC ovvero la probabilità di calcolare successi “compresi tra 6.5 e 7.5” ,
avremmo ottenuto un valore molto più prossimo al valore atteso.
∑ 𝑋 𝑛𝜋
𝑍 → 𝑁 0,1
𝑛𝜋 1 𝜋 Analogamente se, ad esempio, cercassimo la probabilità di
osservare su 25 giorni al più 8 rialzi avremmo, usando il TLC
Quindi nel nostro esempio
8-250.45
P(∑ 𝑋  8)   
 = (1.3065) = 0.09568.
P(∑ 𝑋 = 7) =P(∑ 𝑋  7)P(∑ 𝑋  6)   6.185 
7250.45 6250.45 Si ricordi che il calcolo esatto era di 0.134.

   


 = 0.0437340.017386 = 0.026348.
 6.185   6.185 
Usando la correzione con +0.5 ovvero
Si ricordi che il calcolo esatto era già stato fatto ed è pari a 0.03809.
8+0.5-250.45
L’eccessiva approssimazione è dovuta al fatto che il calcolo P(∑ 𝑋  8)   
= (1.1055) = 0.13398
proposto di fatto calcola (nel continuo) successi “compresi tra 6,  6.185 
escluso, e 7 incluso”. In generale, ricordando che la v.c. binomiale
è discreta, al fine di rendere il calcolo più “coerente” con la avremmo ottenuto un valore molto più prossimo al valore atteso.
necessità di misurare la probabilità nell’intorno del numero
desiderato (nel nostro caso 7), si è soliti utilizzare una correzione
del tipo IV) Esempio (media di v.c. Bernoulliane)
145 146
Se fossimo interessati allo studio della v.c. frazione di successi su n Esempi ulteriori
prove bernoulliane Xi di parametro , ovvero alla media definita (prova del 05/09/2014) 0,32.(0,512 0,384
0,096)
+
dalla v.c. ∑ 𝑋 , applicando il TLC si deduce che

3a) Si consideri il seguente gioco. Da un’urna, A, con 10 palline di
1 cui 2 bianche e 8 nere, vengono estratte con reimmissione 5 palline.
∑ 𝑋 𝜋
𝑍 𝑛 → 𝑁 0,1 Calcolare: palline nere
palline bianche
𝜋 1 𝜋 Pr(x 1,2,) 1) la probabilità che nelle prime 2 estrazioni ci sia una sola pallina
=
𝑛 - bianca e che nelle successive 3 estrazioni ce ne siano almeno 2 nere; 203

 0.45(10.45) - 2 3
Nel nostro esempio ∑ 𝑋 ~ N0.45, 25 . ESTRAZIO(R:
2
1 ∙ 1 -Pr(x,2,3.5)
  O1 2
&
~sia
3
Ad esempio, utilizzando il TLC, la probabilità di osservare su 25 1 0.28672
3
giorni al più il 30% di rialzi sarebbe calcolabile con I Prduiasca eszriy. Pr(almenac
in 2
In 3 nere)
ETR.
2) la probabilità di vincere almeno 30 volte su 100 replicazioni del

 0.3-0.45  gioco descritto al punto 1).
P( ∑ 𝑋  0.3)   
 = (1.50756) = 0.0658.
 0.0099 R: Dovremmo calcolare
100
Pr 𝑋 30 ∑ 0.2872 1 0.2872 dove
N.B. Altre regole ed esempi che aiutano a comprendere quando il 𝑥
TLC è applicabile a somme di v.c. bernoulliane sono riportate nei 𝑋~𝐵𝑖𝑛 100, 0.28672 . Stante la complessità del calcolo e il
testi di riferimento numero elevato di replicazioni, è possibile approssimare il calcolo
introducendo la v.c.
𝑋 100 ∙ 0.28672
𝑍 ~𝑁 0,1
100 ∙ 0.28672 ∙ 1 0.28672
Il calcolo di cui prima si riconduce a
30 100 ∙ 0.28672
Pr 𝑍
100 ∙ 0.28672 ∙ 1 0.28672
Pr 𝑍 0.293755 1 0.615527
Se il quesito 2) fosse stato
147 148
“2) calcolare la probabilità che la frazione di successi su 100

replicazioni del gioco descritto al punto 1) sia non maggiore del 𝑥 100 ∙ 0.28672
20%”, la risposta avrebbe richiesto l’uso di Pr 𝑍 0.45
100 ∙ 0.28672 ∙ 1 0.28672
𝑋
0.28672 𝑥 . 100 ∙ 0.28672
𝑍 100 𝑁 0,1 Pr 𝑍 0.55
0.28672 ∙ 1 0.28672 100 ∙ 0.28672 ∙ 1 0.28672
100
𝑥 . 100 ∙ 0.28672
ovvero il calcolo della probabilità Φ 0.55
100 ∙ 0.28672 ∙ 1 0.28672
𝑥 . 100 ∙ 0.28672
0.2 0.28672 0.12566
Pr ⎛𝑍 ⎞ 100 ∙ 0.28672 ∙ 1 0.28672
0.28672 ∙ 1 0.28672
100 𝑥 . 100 ∙ 0.28672
⎝ ⎠
Pr 𝑍 1.91826 0.027539 0.12566 100 ∙ 0.28672 ∙ 1 0.28672
[(i).(-).( -)).[(i)()) )
ovvero circa 29 vincite. -
-
(?) (f)Fo).
(prova del 16/01/2015) ((i)(E)(r-fo))
&.
=

“2) qual è il numero minimo di vincite, x, attese , sapendo che su 3a) Si consideri il seguente gioco. Da un’urna, A, con 10 palline di
100 replicazioni del gioco descritto al punto 1) la probabilità di cui 2 bianche, 6 nere e 2 gialle, vengono estratte con reimmissione
vincere almeno x volte è pari al 45%? 5 palline. Calcolare: -
La risposta avrebbe richiesto la soluzione del problema: 1) la probabilità che nelle prime 2 estrazioni ci sia una sola pallina
bianca, nelle successive 2 estrazioni ce ne siano 2 gialle e
Pr 𝑋 𝑥 0.45 nell’ultima 1 nera; I E V E N T. 1.1.1 M O D E L LO BINOMILE
2
(R: 1 ∙ ∙ 0.00768 )
1 Pr 𝑋 𝑥 1 0.45 1
Pr 𝑋 𝑥 0.55
2) la probabilità di vincere almeno 10 volte su 100 replicazioni
ovvero usando del gioco descritto al punto 1).
𝑋 100 ∙ 0.28672 100

Pr 𝑋 10 ∑ 0.00768 1 0.00768
𝑍 ∼ 𝑁 0,1 𝑥
100 ∙ 0.28672 ∙ 1 0.28672 dove 𝑋~𝐵𝑖𝑛 100, 0.00768 . È possibile approssimare il calcolo
introducendo la v.c.
ovvero la soluzione al problema
149 150
-> E(7)
ni
=
𝑋 100 ∙ 0.00768 ovvero il calcolo della probabilità

𝑍 ∼ 𝑁 0,1
100 ∙ 0.00768 ∙ 1 0.00768 vr Vni(1 i)
0.005 0.00768
o
= -
=
->
Pr ⎛𝑍 ⎞
Il calcolo di cui prima si riconduce a 0.00768 ∙ 1 0.00768
⎝ 1000 ⎠
10 100 ∙ 0.00768 Pr 𝑍 0.9708 0.165825
Pr 𝑍
100 ∙ 0.00768 ∙ 1 0.00768
Pr 𝑍 10.57522 ≅ 0 “2) qual è il numero massimo di perdite attese, sapendo che su 1000
replicazioni del gioco descritto al punto 1) la probabilità di vincere
almeno x volte è pari al 75%?
La risposta avrebbe richiesto la soluzione del problema:
2) la probabilità di vincere almeno 10 volte su 1000 replicazioni
del gioco descritto al punto 1). Pr 𝑋 𝑥 0.75
1000 ovvero l’uso di
Pr 𝑋 10 ∑ 0.00768 1 0.00768 .
𝑥
Se avessimo usato il TLC, il calcolo di cui prima si riconduce a
𝑋 1000 ∙ 0.00768
𝑍 ∼ 𝑁 0,1
10 1000 ∙ 0.00768 1000 ∙ 0.00768 ∙ 1 0.00768
Pr 𝑍 0.200345
1000 ∙ 0.00768 ∙ 1 0.00768
La soluzione per x (vincite) si ottiene per
𝑥 1000 ∙ 0.00768
Se il quesito 2) fosse stato Pr 𝑍 0.75
“2) calcolare la probabilità che la frazione di successi su 1000 1000 ∙ 0.00768 ∙ 1 0.00768
replicazioni del gioco descritto al punto 1) sia minore del 0.5%”, la 𝑥 . 1000 ∙ 0.00768
Pr 𝑍 0.25
risposta avrebbe richiesto l’uso di 1000 ∙ 0.00768 ∙ 1 0.00768
𝑋
0.00768
𝑍 1000 ∼ 𝑁 0,1 𝑥 . 1000 ∙ 0.00768
0.00768 ∙ 1 0.00768 Φ 0.25
1000 1000 ∙ 0.00768 ∙ 1 0.00768
151 152
𝑥 . 1000 ∙ 0.00768
0.67449
1000 ∙ 0.00768 ∙ 1 0.00768 25 50 ∙ 0.17842
Pr 𝑍
50 ∙ 0.17842 ∙ 1 0.17842
𝑥 . 1000 ∙ 0.00768
0.67449 1000 ∙ 0.00768 ∙ 1 0.00768 Pr 𝑍 5.39192 ≅ 0
ovvero almeno 6 vincite ovvero al massimo 994 perdite

(prova del 16/01/2015) 2) la probabilità di vincere non più di 25 volte su 100 replicazioni
Si consideri il seguente gioco. Da un’urna, A, con 5 palline, di cui del gioco descritto al punto 1).
1 bianca e 4 nere, viene estratta una pallina che viene inserita in
un’altra urna, B, contenente 9 palline di cui 8 bianche e 1 nera. 100
Pr 𝑋 25 ∑ 0.17842 1 0.17842 .
Calcolare: 𝑥
1) la probabilità di estrarre dall’urna B due palline nere su 5 Se avessimo usato il TLC, il calcolo di cui prima si riconduce a
estrazioni eseguite con reimmissione.
25 100 ∙ 0.17842
Pr 𝑍 Pr 𝑍 1.8695
𝑃 "𝑝𝑢𝑛𝑡𝑜 1" 100 ∙ 0.17842 ∙ 1 0.17842
𝑃 1 bianca dall' urna A 𝑃 2 nere su 5 da urna B|1 bianca dall' urna A 0.9692
𝑃 1 nera dall' urna A 𝑃 2 nere su 5 da urna B|1 nera dall' urna A
0.2 ∙ 0.0729 0.8 ∙ 0.2048 0.17842
2) la probabilità di vincere almeno 25 volte su 50 replicazioni del Se il quesito 2) fosse stato

gioco descritto al punto 1). “2) calcolare la probabilità che la frazione di successi su 100
replicazioni del gioco descritto al punto 1) sia maggiore del
50 10%”, la risposta avrebbe richiesto l’uso di
Pr 𝑋 25 ∑ 0.17842 1 0.17842 dove 𝑋
𝑥 0.17842
𝑋~𝐵𝑖𝑛 50,0.17842 . È possibile approssimare il calcolo 𝑍 100 ∼ 𝑁 0,1
introducendo la v.c. 0.17842 ∙ 1 0.17842
𝑋 50 ∙ 0.17842 100
𝑍 ∼ 𝑁 0,1
50 ∙ 0.17842 ∙ 1 0.17842
ovvero il calcolo della probabilità
Il calcolo di cui prima si riconduce a
153 154
0.1 0.17842 𝑥 . 100 ∙ 0.17842

Pr ⎛𝑍 ⎞
0.17842 ∙ 1 0.17842 1.64485 100 ∙ 0.17842 ∙ 1 0.17842
⎝ 100 ⎠
Pr 𝑍 2.04824 1 0.020268 ovvero almeno 11 vincite

“2) qual è il numero minimo di vincite, x, attese, sapendo che su
100 replicazioni del gioco descritto al punto 1) la probabilità di
vincere almeno x volte è pari al 95%?
La risposta avrebbe richiesto la soluzione del problema:
Pr 𝑋 𝑥 0.95
ovvero l’uso di
𝑋 100 ∙ 0.17842
𝑍 ∼ 𝑁 0,1
100 ∙ 0.17842 ∙ 1 0.17842
La soluzione si ottiene da
𝑥 100 ∙ 0.17842
Pr 𝑍 0.95
100 ∙ 0.17842 ∙ 1 0.17842
𝑥 . 100 ∙ 0.17842
Pr 𝑍 0.05
100 ∙ 0.17842 ∙ 1 0.17842
𝑥 . 100 ∙ 0.17842
Φ 0.05
100 ∙ 0.17842 ∙ 1 0.17842
𝑥 . 100 ∙ 0.17842
1.64485
100 ∙ 0.17842 ∙ 1 0.17842
155 156
Indici di forma
Per giudicare se una distribuzione differisce dall’andamento di una Esempio: prova del 13/02/2015
gaussiana, utili indici sono i c.d. indici di forma La tabella seguente riporta quotazioni dei bond decennali russi (B)
e del prezzo del petrolio (P) , rilevati in cinque giorni di
Def. Si dice simmetrica una distribuzione tale che contrattazioni. (n.b. dati fittizi):
𝜇 𝑀𝑒 𝑋 𝑀𝑜 𝑋
giorno Lun Mart Merc Giov Ven
Indice di asimmetria B 142 140 139 140 142
𝛾 0⇒𝜇 𝑀𝑒 𝑋 𝑀𝑜 𝑋 P 50 49 49 51 53
𝑀 𝑋 𝜇
𝛾 ⇒ 𝛾 0⇒𝜇 𝑀𝑒 𝑋 𝑀𝑜 𝑋
𝜎 Si calcoli per la marginale B, asimmetria e curtosi.
𝛾 0⇒𝜇 𝑀𝑒 𝑋 𝑀𝑜 𝑋
Vedi file xls.
Indice di curtosi
𝛾 0 ⇒ 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑧𝑖𝑜𝑛𝑒 𝑝𝑙𝑎𝑡𝑖𝑐𝑢𝑟𝑡𝑖𝑐𝑎
𝑀 𝑋 𝜇
𝛾 3⇒ 𝛾 0 ⇒ 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑧𝑖𝑜𝑛𝑒 𝑛𝑜𝑟𝑚𝑜𝑐𝑢𝑟𝑡𝑖𝑐𝑎
𝜎
𝛾 0 ⇒ 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑧𝑖𝑜𝑛𝑒 𝑙𝑒𝑝𝑡𝑜𝑐𝑢𝑟𝑡𝑖𝑐𝑎
157 158
Variabili casuali e campionamento

Introduzione al campionamento
Nel paragrafo precedente si è detto
Problema tipico dello sperimentatore
“...assegnare una misura (un valore) ad un qualche indicatore sintetico
Come assegnare una misura (un valore) ad un qualche indicatore [...]
sintetico, tipicamente una media ma in generale un parametro  della ...estrazione casuale di un sottoinsieme da , con cui fare delle opportune
popolazione , (es. la frazione di potenziali acquirenti, la media dei sintesi tramite una statistica t() il cui risultato numerico, ^t = t(x ,x , 1 2
depositi, la volatilità di un derivato finanziario...) sapendo che NON si
...,xn), prenderà il nome di stima del parametro .”
possiedono i dati della intera popolazione?
Soluzione: si effettua un’estrazione casuale, tramite campionamento, di Da tali espressioni si deduce che
un sottoinsieme di n unità da  , ovvero di un campione {1, 2, ..., n}, a) il vettore x={x1,x2, ...,xn} contiene le misurazioni fatte su un
su cui misurare le grandezze {x1, x2, ..., xn} con cui fare delle opportune campione casuale che (prima ancora di essere estratto) indicheremo
con X={X1,X2,Xn}, ovvero vettore composto da n “variabili
sintesi tramite una statistica t(), il cui risultato numerico, ^t = t(x ,x ,
1 2 aleatorie”. In generale X={X1,X2,Xn}.
...,xn), prenderà il nome di stima del parametro . b) In generale la variabile X (da cui provengono le Xi) ha distribuzione
(), che dipende da un vettore di parametri ={1, 2, ..., k} ed è
Nella pratica il problema sopra descritto è in genere preceduto da una
identificabile assegnando un valore al vero ma ignoto vettore di
altrettanto tipica domanda del finanziatore dell’indagine su :
parametri .
“a) quanto costa fare il campionamento da  ovvero quanto deve essere c) Limitandoci al caso uniparametrico, {}, scrivere ^t = t(x ,x , ...,x )1 2 n
minimamente grande n affinché ^t sia “rappresentativo” del vero ma ignoto significa che ho a disposizione le misure e ho scelto t(): di fatto se
? “ voglio ottimizzare il campionamento devo conoscere, prima di
effettuare le misura, quale statistica t() userò.
...ed è in genere seguito da due tipiche domande dello sperimentatore: d) Se vale c) significa che la scrittura ^t = t(x1,x2, ...,xn), prima di
effettuare il campionamento, è intesa come realizzazione della v.c.
“b) quale funzionale t() devo scegliere per avere una buona stima di ? La
T  ^ = T(X ,X , ...,X ), noto come stimatore, dove {X ,X , ...,X } si
1 2 n 1 2 n
stima ^t che ho ottenuto può essere ritenuta “uguale” ad una misura  di mio
0 ipotizzano, spesso per semplicità, essere v.c. aventi la stessa
specifico interesse? “ distribuzione di X e in genere si ipotizzano indipendenti in senso
stocastico, ovvero sono un insieme di v.c. i.i.d..
Daremo una limitata risposta al punto a) (per approfondimenti vedi corso
sulle tecniche di campionamento) mentre ci concentreremo su N.B. i) la distribuzione , definita a meno di , in genere viene scelta
un’introduzione alla risposta al punto b) ). sulla base di considerazioni empiriche o di conoscenza del fenomeno
oggetto di studio (esempio in base alla applicazione del TLC) e potrà
essere indicata con ; ii) T(X) è una v.c. il cui studio consentirà di
individuare i criteri per la scelta del miglior funzionale T() (e quindi
161 162
il miglior stimatore) per  in modo da perdere la minor quantità di Si considerino i seguenti due tipici esempi.
informazioni e di disporre delle proprietà di T(X) con riferimento al
parametro  o a sue trasformazioni. Si ipotizzi che la v.c X abbia definito un’applicazione da  in modo tale
che il dominio in  risulti di cardinalità finita del tipo X {x1, x2, ..., xn} e
che la distribuzione di probabilità su  sia nota ovvero sia noto che
In generale Pr{X=xi}=i per i=1,2,...n.
Oggetto sarà, scelta una procedura di campionamento e la distribuzione ,
lo studio del miglior stimatore ^=T() la cui realizzazione campionaria t() Caso a) Se si ipotizza di estrarre con reimmissione n unità dal dominio di X,
sarà la stima, ^t, da associare a . Analogamente si potrebbe essere interessati significa che stiamo considerando n v.c. i.i.d. ad X. Al fine di conoscere la
allo studio di come scegliere . distribuzione della v.c. campionaria {X1, X2,..., Xn}, dovremo costruire
TUTTE le possibili disposizioni di ordine n CON ripetizione di elementi
estraibili da X e associare a tali coppie la corrispondente probabilità di
Variabili casuali campionarie estrazione (la verosimiglianza). Nel caso in cui tale misura non sia nota, si
può ipotizzare di eseguire infinite volte il campionamento. Al crescere delle
In generale si è detto che X={X1,X2,Xn} è una v.c. . replicazioni andrà a convergenza (in forma debole) la distribuzione della
Se le Xi sono i.i.d. ad una v.c. X~() discreta (continua) avente funzione di v.c. campionaria, di cui si conosceranno non solo tutti i possibili campioni
probabilità (di densità) pari a p(x;) ( f(x;) ) allora stante l’assunta estraibili di dimensione n ma anche la verosimiglianza associata.
indipendenza stocastica tra le Xi al campione x={x1,x2, ...,xn} si potrà
associare: Esempio: Si consideri un fenomeno aleatorio descritto dalla v.c.
X  {1 , 0 , 1}.
n Si estragga con reimmissione un campione di due unità da X, ovvero si
la probabilità : Pr(X=x) =  p(xi;)
i=1 costruisca la v.c. campionaria {X1, X2}, dove X1 e X2 sono v.c. i.i.d. a X.
n
( la densità di frequenza: f(x;) =  f(xi;) )
i=1 Trattandosi di una v.c. con un numero limitato di manifestazioni possiamo
individuare le possibili determinazioni del campione casuale {X1, X2}
che prenderanno il nome di verosimiglianza del campione x. come indicato nella tabella sottostante.
Si deduce che la stima ^t = t(x1,x2, ...,xn) avrà probabilità (densità) pari alla {X1,X2} 1,1 1,0 1,1 0,1 0,0 0,1 1,1 1,0 1,1
verosimiglianza.
In generale qualunque trasformazione di X viene chiamata v.c. campionaria Si introduca una trasformazione della v.c. campionaria. Se fossimo
ed è fondamentale comprenderne la sua costruzione per le considerazioni interessati alla v.c. 𝑊 = (funzione quindi del campione {X1,X2} )
inferenziali che seguiranno nei prossimi paragrafi. potremmo completare la tabella, aggiungendo un’ulteriore riga come segue
163 164
{X1,X2} 1,1 1,0 1,1 0,1 0,0 0,1 1,1 1,0 1,1 Caso b) Se si ipotizza di estrarre senza reimmissione n unità dal dominio di
W 1 0,5 0 0,5 0 0,5 0 0,5 1 X, significa che stiamo considerando la v.c. campionaria {X1, X2,..., Xn}, con
n v.c. NON i.i.d. ad X. Al fine di conoscere la distribuzione della v.c.
Assumendo che gli eventi in X possano manifestarsi con probabilità pari campionaria {X1,X2,...,Xn}, dovremo costruire TUTTE le possibili
rispettivamente a {¼,½ ,¼}, potremmo anche calcolare E(X)=0 e disposizioni di ordine n senza ripetizione di coppie di elementi estraibili da
Var(X)=0.5. X e associare a tali coppie la corrispondente probabilità di estrazione
Se si ipotizza di replicare il campionamento molte volte (tendenti ad (facendo attenzione al condizionamento in fase di costruzione della n-upla
infinito) potremmo associare a ciascun campione la corrispondente considerata).
probabilità di accadimento, che al divergere delle prove converge a
Esempio: Si consideri la v.c. X  {1 , 0 , 1} i cui eventi possono
{X1,X2} 1,1 1,0 1,1 0,1 0,0 0,1 1,1 1,0 1,1 manifestarsi con probabilità pari rispettivamente a {¼ , ½ , ¼}. Si estragga
Pr{X1X2} 1/41/4 1/41/2 1/41/4 1/21/4 1/21/2 1/21/4 1/41/4 1/41/2 1/41/4 senza reimmissione un campione di due unità da X ovvero si costruisca la
v.c. campionaria {X1, X2}.
ovvero alla misura di verosimiglianza del campione.
Le possibili determinazioni del campione casuale {X1, X2} con l’associata
Analogamente, usando la v.c. W, avremmo avuto la tabella
verosimiglianza sono riportate nella tabella sottostante.
{X1,X2} 1,1 1,0 1,1 0,1 0,0 0,1 1,1 1,0 1,1
{X1,X2} 1,0 1,1 0,1 0,1 1,1 1,0
Pr{X1X2} 1/41/4 1/41/2 1/41/4 1/21/4 1/21/2 1/21/4 1/41/4 1/41/2 1/41/4
Pr{X1X2} = 1/2 1/4 1/4 1/4 1/4 1/2
1/4  1/4  1/2  1/2  1/4  1/4 
1/2 + 1/4 1/4 + 1/2 1/4 + 1/4 1/4 + 1/4 1/4 + 1/2 1/2 + 1/4
W 1 0,5 0 0,5 0 0,5 0 0,5 1 Pr{X1}  Pr{X2|X1} =1/4  2/3 =1/4  1/3 =1/2  ½ =1/2  ½ =1/4  1/3 =1/4  2/3
ovvero, effettuando un opportuno spoglio dei dati,

Se poi fossimo stati interessati alla v.c. 𝑊 = avremmo dovuto
completare la tabella aggiungendo un’ulteriore riga del tipo
W 1 0.5  0.5 1
Pr{W} 1/16  6/16  1/16
{X1,X2} 1,0 1,1 0,1 0,1 1,1 1,0
1/2 1/4 1/4 1/4 1/4 1/2
Pr{X1X2} = 1/4  1/4  1/2  1/2  1/4  1/4 
da cui ad esempio poter ricavare che E(W)=0 e Var(W)=0.25 (si osservi che Pr{X1}  Pr{X2|X1}
1/2 + 1/4
=1/4  2/3
1/4 + 1/2
=1/4  1/3
1/4 + 1/4
=1/2  1/2
1/4 + 1/4
=1/2  ½
1/4 + 1/2
=1/4  1/3
1/2 + 1/4
=1/4  2/3
E(W)=E(X)=0 ). W 0,5 0 0,5 0,5 0 0,5
N.B. Si noti che, dato ad esempio {x1,x2}={1,0}, il valore di 𝑤 = =
−0.5 non viene calcolato usando la ponderazione con Pr{x1}= ¼, Pr{x2}=½, ovvero
in quanto trattasi di risultati campionari relativi al solo (ed unico) campione x che W 0.5  0.5
quindi non consente di misurare la probabilità associata alle singole modalità di Pr{W}  2/12 
 , mentre E(W) così come Var(W) sono applicati alla variabile W di cui si
suppone di conoscere gli esiti di tutte le possibili replicazioni.
da cui ad esempio poter ricavare che E(W)=0 e Var(W)=0.20834 contro
un E(X)=0 e Var(X)=0.5 e contro un valore di 0.25 di varianza campionaria
165 166
nel caso di estrazione con reimmissione. Si noti quindi che l’estrazione

senza reimmissione restituisce una variabile W con minore variabilità Cenni su : - stima puntuale
nell’intorno del valor medio. - errore quadratico medio (MSE)
- proprietà degli stimatori puntuali
Ad evidenza della non indipendenza all’interno del campione delle due
componenti del campione si noti che lo schema di cui sopra corrisponde a
Più sopra si è detto che “T(X) è una v.c. il cui studio consentirà di
X2 individuare i criteri per la scelta del miglior funzionale T() (e quindi il
-1 0 1 Pr{X1} miglior stimatore) per  in modo da perdere la minor quantità di
-1 0 2/12 1/12 3/12 informazioni e di disporre delle proprietà di T(X) con riferimento al
X1 0 1/4 0 ¼ 2/4 parametro  o a sue trasformazioni”.
1 1/12 2/12 0 3/12
Pr{X2} 4/12 4/12 4/12 Avendo costruito la v.c. campionaria possiamo introdurre alcuni elementi
che ci aiuteranno a comprendere quando uno stimatore, T(X), è un “buon
(tabella costruita rispettando l’ordinamento {X1,X2} ovvero riga E POI stimatore” di un parametro.
colonna).
Si ricordi che nella realtà sperimentale non si dispone delle informazioni
Dalla tabella emerge (basti guardare la distribuzione delle marginali) come sulla intera popolazione ma solo di uno specifico campione, ad esempio,
la seconda componente non sia somigliante alla prima. Si noti che considerando il caso a) di cui sopra, di 1 sola delle 9 coppie possibili, così
Cov(X1,X2) = 0.167 . come non sono note (salvo informazioni a priori) le informazioni sulla
misura di probabilità che caratterizza lo spazio campionario ( vedi la terna
--------------------o-o-o-------------------- {¼, ½ ¼}).
Poiché si deve comunque prendere una decisione su quale potrebbe essere

un ragionevole valore (stima) da assegnare al parametro  (o ad un suo
funzionale g() ) in base ad informazioni parziali (ovvero il campione
estratto dalla popolazione), è fondamentale chiedersi come definire la bontà
di uno stimatore (nel seguito spesso indicato genericamente con TT(X) ).
Una prima definizione è certamente costituita dalla misura della distorsione

(bias) definita come
Bias = T
ovvero di quanto la variabile aleatoria T sbaglierà nello stimare il vero ma

ignoto . Essendo T una v.c. abbiamo bisogno di una misura globale definita
su tutto il possibile dominio di .
167 168
Se la f.d.d. (o di probabilità) di T è nota, si definisca quindi l’ MSE (Mean Si supponga di essere interessati ad una buona stima del parametro =. Si
Squared Error) come usi a tale proposito lo stimatore ^ = T = T(X ,X ) = =𝑋 (identico
1 2
MSET() = E{Bias2} = quindi alla v.c. W dell’esempio del paragrafo precedente).

↳I (ricorda
media d i sto rs i o n ,
delle al quadrato la
variana) Si vuole verificare CHE E(𝑋) = ovvero che 𝑋 è uno stimatore non distorto

t
[T]2 p(t;), (per v.c. discrete) per la media.
= E{[T]2} =  Usando il campionamento con reimmissione la v.c. 𝑋 presentava la seguente
 [T]2 f(t;) dt (per v.c. continue) distribuzione
RT
In particolare X  0,5  0,5 1
Pr{ X }   6/16  1/16

MSET() = E{[T]2}
= E{[TE(T)+E(T)]2} =
da cui si era già dedotto che E(𝑋) = 0. In particolare
= E{[TE(T)]2}+ E{[E(T)]2}+
+2E{[TE(T)][E(T)]} MSE() = E{[𝑋]2} = Var(𝑋) + [E(𝑋)]2
X
= Var(T) + [E(T)]2+2[E(T)]E{[TE(T)] } = 0.25 + [0   ]2
= Var(T) + [E(T)]2
Essendo per ipotesi nota (nel nostro caso “accademico”) la distribuzione
dove il terzo addendo è pari a zero, essendo E{[TE(T)]}= E(T)E(T), esatta di X e quindi essendo noto che il parametro  della popolazione è
e dove [E(T)] è il valore atteso della distorsione (ovvero E(bias) ). esattamente 0, si deduce che 𝑋 è uno stimatore non distorto del parametro
.
Si deduce che perché MSET() sia minimo, un criterio di scelta tra gli
stimatori, consiste nel preferire quelli per i quali E(T)=  ovvero tali che In generale, nel caso realistico in cui non è noto il “vero” valore del
E(Bias)=0. Tali stimatori si dicono non-distorti (o corretti). All’interno parametro , 𝑋 = ∑ 𝑋 è stimatore non distorto del parametro . Infatti
della famiglia di stimatori non-distorti si preferirà lo stimatore che
se Xi sono i.i.d. e hanno E(Xi)=< si ha
possiederà un MSE minore (proprietà dell’efficienza).
--------------------o-o-o-------------------- 1
E(𝑋)=E ∑ 𝑋 = n E(Xi) = e quindi [E(𝑋)]2= 0 !!!
Esempio: Stimatore X = ∑ 𝑋 per il parametro  di una popolazione

Se avessimo usato il campionamento senza reimmissione avremmo per la
v.c. 𝑋 la seguente distribuzione
Si riprenda l’esempio iniziale della v.c. X  {1 , 0 , 1} i cui eventi possono
manifestarsi con probabilità pari rispettivamente a {¼ , ½ , ¼}. 𝑋   0,5
Pr{𝑋}  2/12 5/12
da cui
169 170
S2   1
MSE() = E{[𝑋]2} = Var(𝑋) + [E(𝑋)]2 Pr{S2}  8/16 2/16
X
= 0.20834 + [0   ]2
Risulta quindi
Essendo noto che il parametro  della popolazione è 0 si deduce
MSE 2(2) = E2{[S22]2} = Var2(S2) + [E2(S2)2]2
(ovviamente ancora) che 𝑋è uno stimatore non distorto del parametro . Si S
può però aggiungere che lo stimatore ottenuto col campionamento senza = 0.09375 + [0.25  2 ]2
reimmissione, avendo un MSE minore, è più efficiente.
Essendo (nel nostro caso “accademico”) noto che il parametro 2 della
--------------------o-o-o-------------------- popolazione è 0.5, si deduce che S2 NON è uno stimatore corretto (è
distorto) del parametro 2.
Esempio: Stimatore 𝑆 = ∑(𝑋 − 𝑋) per il parametro 2 di una
popolazione In generale, nel caso di campionamento CON reimmissione (e anche
quando ovviamente non è noto il “vero” valore del parametro 2) è possibile
Si riprenda ancora l’esempio iniziale della v.c. X  {1 , 0 , 1} i cui eventi “correggere” la distorsione in base alle seguenti considerazioni. Siano Xi
possono manifestarsi con probabilità pari rispettivamente a {¼ , ½ , ¼}. i.i.d. con Var(Xi)=2< si ha
Si supponga di essere interessati ad una buona stima del parametro =2. Si
usi a tale proposito lo stimatore S2 = Var[{X1,X2,..., Xn}] = ∑ (𝑋 − 𝑋 ) = ∑ (𝑋 − 𝜇 + 𝜇 − 𝑋 ) =
= ∑ [(𝑋 − 𝜇) + (𝑋 − 𝜇) − 2(𝑋 − 𝜇)(𝑋 − 𝜇 )]
^ = T(X1,X2) = S2 = Var[{X1,X2}] =
1 𝑋 +𝑋 1 Applicando il valore atteso
= 𝑋 − = (𝑋 − 𝑋)
2 2 2
1
𝐸 [𝑆 ] = 𝐸 (𝑋 − 𝑋 ) =
ovvero la varianza della v.c. campionaria. Si vuole verificare SE 𝑛
E(S2) =2. 1
Usando il campionamento con reimmissione la v.c. campionaria S2 si = 𝐸 (𝑋 − 𝜇 + 𝜇 − 𝑋) =
sarebbe presentata come segue: 𝑛
1
{X1,X2} 1,1 1,0 1,1 0,1 0,0 0,1 1,1 1,0 1,1 = 𝐸 {(𝑋 − 𝜇 ) + (𝑋 − 𝜇 ) − 2(𝑋 − 𝜇 )(𝑋 − 𝜇)} =
𝑛
Pr{X1X2} 1/41/4 1/41/2 1/41/4 1/21/4 1/21/2 1/21/4 1/41/4 1/41/2 1/41/4
S2 0  1  0 0.25 1 0.25 0 1 1
= 𝐸 (𝑋 − 𝜇) + 𝐸 [(𝑋 − 𝜇 ) ] − 2𝐸 (𝑋 − 𝜇 )(𝑋 − 𝜇) =
𝑛 𝑛
( ad esempio preso {x1,x2}={0,1}, s2 = ½ {(00.5)2+(10.5)2} = 0.25 )
𝜎
=𝜎 + − 2𝐸 [(𝑋 − 𝜇)(𝑋 − 𝜇)] =
da cui ottenere 𝑛
171 172
𝜎 Se avessimo usato il campionamento senza reimmissione la v.c. S2 si

=𝜎 + − 2𝐸 [(𝑋 − 𝜇) ] = sarebbe presentata come segue:
𝑛
𝜎 𝜎
=𝜎 + −2 = {X1,X2} 1,0 1,1 0,1 0,1 1,1 1,0
𝑛 𝑛 1/2 1/4 1/4 1/4 1/4 1/2
𝑛−1 Pr{X1X2} = ¼
1/2 + 1/4
1/4 
1/4 + 1/2
1/2 
1/4 + 1/4
1/2 
1/4 + 1/4
1/4 
1/4 + 1/2
1/4 
1/2 + 1/4
= 𝜎 Pr{X1}  Pr{X2|X1} =1/4  2/3 =1/4  1/3 =1/2  1/2 =1/2  1/2 =1/4  1/3 =1/4  2/3
𝑛  
S2 1 0.25 1 0.25
da cui dedurre che è uno stimatore distorto della varianza e che uno avremmo per la v.c. S2 la seguente distribuzione
stimatore NON distorto è
S2  1
Pr{S2}  2/12
𝑛 𝟏
𝑆 = 𝑆 = (𝑋 − 𝑋 )
𝑛−1 𝒏−𝟏 MSE 2(2) = E2{[S22]2} = Var2(S2) + [E2(S2)2]2
S
!!!!!
= 0.078125 + [0.375  2 ]2
 n   n   n  n1
Infatti E S2 =  E(S2) =  
 2 =2. Essendo noto che il parametro 2 della popolazione era 0.5, si deduce che
n1  n1 n1 n
S2 NON è stimatore distorto del parametro 2.
2 Anche in questo caso è possibile definire una procedura di correzione dello
Nel nostro esempio, quindi, se moltiplichiamo S2 per otteniamo
21 stimatore.
{X1,X2} 1,1 1,0 1,1 0,1 0,0 0,1 1,1 1,0 1,1
Pr{X1X2} 1/41/4 1/41/2 1/41/4 1/21/4 1/21/2 1/21/4 1/41/4 1/41/2 1/41/4 N.B. A parità di stimatori DISTORTI si può però aggiungere che lo
2 stimatore ottenuto col campionamento senza reimmissione, avendo un MSE
Sc 0  2  0 0.5 2 0.5 0
minore è più efficiente (+0.09375 vs +0.15625 del campionamento con
da cui ottenere reimmissione).
2
Sc   2
In generale si fa comunque notare che se il criterio di scelta consiste solo
2 nel preferire lo stimatore T* per il quale MSET*() = minimo, questo non
Pr{ Sc }  8/16 2/16
implica dover scegliere necessariamente stimatori all’interno della classe
dei non distorti. Ad esempio lo stimatore varianza campionaria ha MSE
2 minore dello stimatore noto come varianza campionaria corretta per
da cui E(Sc ) = 0.5 = 2 !!!!
dimensioni del campione 2 (v. ad es. B.V. Frosini (2001), Metodi Statistici,
2 Carocci p. 377).
Analogamente se moltiplichiamo E(S2) per otteniamo 0.252 =0.5 =2
21
173 174

Appunti Di Statistica

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Appunti Di Statistica

Caricato da

Copyright:

Formati disponibili

Diego Zappa, Appunti di Statistica I – fac.

ScBancFinAss, UCSC - Milano

UNIVERSITÀ CATTOLICA DEL SACRO CUORE Da Guida dello studente

bidimensionali. In particolare verranno presentati i seguenti argomenti:

Dopo il completamento della trattazione dei precedenti argomenti la studentessa/lo studente è in

– principali tecniche di campionamento;

Statistica Un carattere (X) può assumere la modalità xi, per i=1,..,k

la frequenza relativa della modalità xi. Ovviamente deve valere

con le seguenti proprietà

Si effettui lo spoglio dei dati, costruendo la corrispondente tabella a doppia

Esempio di funzione di ripartizione e di retroripartizione

- Seriazioni (Serie storica)

250|350 e si chiami la nuova serie S*. Rappresentare, con opportuni grafici, 2

le serie S e S*. 6.98 | 7.03 1 1.5

(n.b. si usa anche la notazione xi-1 | xi  ( xi-1 , xi ]

1.2. Raggruppamento in classi di ampiezza costante 0.10

R. Una riclassificazione possibile è

Esempio di funzione di ripartizione e di retroripartizione

Caratteri non numerabili

19-|21 0.45 0.8

Indici di posizione (Medie) (X) Moda : Mo(X)

3. Monotonicità: date due v.s. X e Y tali che

allora deve valere

Es. p=0.25 (x0.25=I quartile) 0.5

p=0.5 (x0.5=Mediana / II quartile) 0.3

p=0.1  c (x0.1c=decile c-esimo) con c=1,2,...,9

Il Box-Plot (o Box and Wiskers Plot)

Data una serie di valori, il seguente grafico prende il nome

I quartile (x0.25) Percentile x0.90 SE x(1)> x0.25 RI  1.5

oooooooo SE x(n)< x0.75+ RI  1.5

Box-Plot (rappresentazione “verticale”)

Dati da Esempio Dati da esempio con (n)= 11 allora

> text(x=1,c(quantile(D), 3.5), c("min","I quart","med","III

Se avessimo avuto x(n)= 11 allora

(Un confronto tra due distribuzioni)

(v. file Esempi)

1.1) Si effettui lo spoglio dei dati, costruendo la corrispondente tabella a

- 𝑀 𝑋 è un indice di posizione con 𝑟 ∈ ℝ -o-o-o-o-o-o-

Prende il nome di media geometrica. In particolare vale

Esempio su medie (13/02/2015) Proprietà di 𝑀 𝑋

B* 4 2 1 2 4 Se Y=a + bX +cZ allora M(Y) = a+bM(X)+cM(Z)

La soluzione è per 𝜃 𝑔 𝑋 . Quindi se g(X) = X allora

Il gradiente è 2 ∑𝑘𝑖 1 𝑔 𝑥𝑖 𝜃 𝑓𝑖 0 da cui 𝜃 𝑔 𝑋

Esempio su proprietà di minimo della media aritmetica 𝑥 𝑓 𝑥 𝑓 𝑥 𝑓 𝑥 𝑓 2𝑥 𝑓 2𝑥 𝑥 𝑓 𝑓

Si osservi che dovendo essere 𝑓 1 𝑓 0.5 si ha 𝑀𝑒 𝑋 𝑥 .

ovvero si tratta di dimostrare che

Indici di dispersione N.B.

Sia g(X,)= |X| la funzione scarto dall’indice di posizione . - Se r = 2 e = si ha

è la media potenziata di g(X,) di ordine r > 0 ed è detto indice di

- lim 𝑅𝑟 𝜃 min |𝑥𝑖 𝜃|

Var(x) m[(y- my)"]

br,)]= combinazione lineare (per una piena dimostrazione si vedano gli

* 𝑏 𝑉𝑎𝑟 𝑋 𝑐 𝑉𝑎𝑟 𝑍 2𝑏𝑐 𝐶𝑜𝑣 𝑋, 𝑍

La Tabella “a doppia entrata”

Con riferimento ad una variabile definita su ℝ+ , il rapporto X

Esempio: tasso medio e dispersione della sinistrosità al variare della Infatti da

Esempio (tema 21/06/2012) D

Esempio (tema 9/4/2010) es. Se si considera la distribuzione B|Z=”C”, si avrebbe

Importante dettaglio emerge quando si considerano le distribuzioni

D Esempio su scatterplot (17/01/2014)

Fare un opportuno grafico del fenomeno congiunto (S,D) .

per i=1,2,...,h Es. 1. colonne (=)

Si calcoli 𝑀 𝑀 𝑌|𝑋 𝜇 Teo. Scomposizione della varianza