1° parziale 2012/2013
Diagrammi ........................................................................................................................... 2
Media ............................................................................................................................... 4
Moda ................................................................................................................................ 5
Mediana ........................................................................................................................... 5
Varianza ........................................................................................................................... 7
Covarianza campionaria................................................................................................... 9
Stimatori............................................................................................................................. 15
Stimatore efficiente......................................................................................................... 16
Intervallo di confidenza................................................................................................... 17
Bernoulliana ....................................................................................................................... 18
Questa dispensa ha lo scopo di semplificare l’apprendimento dei concetti e delle formule
principali. Per approfondimenti contattare l’autore all’indirizzo jackwhile@yahoo.it
Diagrammi
A seconda del tipo di dato con il quale abbiamo a che fare possiamo fornire una
rappresentazione grafica.
Altri - 23%
Birra - 26%
Rum - 7%
Acqua - 14%
Vino - 30%
o quello a barre:
100000
90000
80000
70000
60000
50000
40000
30000
20000
10000
0
HTC Samsung Apple Nokia Motorola
Poi ci sono gli altri casi ovvero per caratteri quantitativi discreti:
3500
3000
2500
2000
1500
1000
500
0
2008 2009 2010 2011 2012 2013
35%
30%
25%
20%
15%
10%
5%
0%
Dobbiamo raccogliere i dati a seconda della loro tipologia, tramite diagrammi appena visti
e indici.
- Media
- Moda
- Mediana
Media
1 𝑥 +𝑥 +⋯+𝑥
µμ = 𝑀(𝑥) = 𝑥 =
𝑛 𝑛
Se abbiamo dati aggregati vuol dire che lo stesso valore non si presenta solitario, bensì se
è ripetuto mettiamo, o abbiamo, la frequenza con la quale si ripete.
µμ = 𝑀(𝑥) = 𝑥 𝑓 = 𝑥 𝑓 + 𝑥 𝑓 + ⋯+ 𝑥 𝑓
1 1
µμ = 𝑀(𝑥) = 𝑥𝑛 = (𝑥 𝑛 + 𝑥 𝑛 + ⋯ + 𝑥 𝑛 )
𝑛 𝑛
Se invece è suddivisa in classi, con classi assolute:
1
µμ = 𝑀(𝑥) = 𝑚𝑛
𝑁
µμ = 𝑀(𝑥) = 𝑚𝑓
Moda
Se le frequenze più elevate sono uguali, la variabile si dice bimodale quando 2, trimodale
quando 3, e così via.
Mediana
Come si trova?
Si ordinano i dati in ordine crescente e si prende il valore che sta nella posizione
𝑛+1
2
𝑛+1
4
3
(𝑛 + 1)
4
- la media interquartile =
- il range interquartile = 𝑄 − 𝑄
Varianza
1
𝑣𝑎𝑟(𝑥) = 𝜎 = (𝑥 − 𝜇)
𝑁
1
𝑣𝑎𝑟(𝑥) = 𝜎 = (𝑥 − 𝜇)𝑛
𝑁
1
𝑆 = (𝑥 − 𝑥)
𝑛−1
1
𝑆 = 𝑥 − 𝑛𝑥
𝑛−1
Lo scarto quadratico medio serve a dirmi di quanto mi discosto dalla media. È detto anche
deviazione standard. È pari alla radice quadrata della varianza.
Dati i casi visti prima, lo scarto quadratico medio per dati raggruppati è:
𝜎 = 𝜎
𝑆 = 𝑆
𝑉 −𝑉
Il coefficiente di variazione è:
𝜎
CV =
|𝜇 |
𝑆
CV =
|𝑥|
per un campione.
La disuguaglianza di Chebycheff
1
𝐹𝑟(𝜇 − 𝑘𝜎 < 𝑥 < 𝜇 + 𝑘𝜎) ≥ 1 −
𝑘
1
𝐶𝑜𝑣(𝑥𝑦) = 𝜎 = (𝑥 − 𝜇 ) 𝑦 − 𝜇
𝑁
dove:
𝑥 è il generico valore osservato tra le 𝑁 osservazioni della variabile 𝑥
Covarianza campionaria
1
𝐶𝑜𝑣(𝑥𝑦) = 𝑆 = (𝑥 − 𝑥)(𝑦 − 𝑦)
𝑛−1
dove:
Esso è dato dal rapporto tra Covarianza e il prodotto degli Scarti Quadratici Medi di 𝑥 e 𝑦
rispettivamente:
𝐶𝑜𝑣(𝑥𝑦)
𝜌=
𝜎 𝜎
𝑆
𝑟=
𝑆 𝑆
dove
𝑆 è la covarianza campionaria
Una regola pratica per riscontrare una relazione lineare è la verifica della seguente:
2
|𝑟| >
√𝑛
Vediamo ora dei grafici che rappresentino o meno la presenza di una relazione lineare
0
-4 -2 0 2 4
-1
-2
-3
-4
0
-4 -2 0 2 4
-1
-2
-3
-4
In caso invece di correlazione negativa (𝜌 = −0,66):
0
-4 -2 0 2 4
-1
-2
-3
-4
Se 𝜌 = 0 non vedo né una retta con pendenza positiva né una con pendenza negativa.
0
-4 -2 0 2 4
-1
-2
-3
-4
Modello di regressione lineare
𝑦 = 𝛽 +𝛽 𝑥
Assunti 𝑏 stimatore corretto per 𝛽 e 𝑏 stimatore corretto per 𝛽 , si può scrivere che il
valore stimato di 𝑦 è:
𝑦 =𝑏 +𝑏 𝑥
2 𝑏1
0
-4 -2 0 2 4
-1
𝑏0
-2
-3
-4
𝐶𝑜𝑣(𝑥𝑦) 𝑆
𝑏 = =𝑟
𝑆 𝑆
𝑏 = 𝑦 − 𝑏 𝑥̅
0≤𝑅 ≤1
Se 𝑅 = 0 il modello non è significativo, non è utilizzabile di fatto.
𝑅 =𝜌 nelle popolazioni
𝑅 =𝑟 nei campioni
Uno stimatore si dice corretto se il valore atteso di tale stimatore è uguale al parametro da
stimare
𝐸(𝑇 ) = 𝜃
lim 𝐸(𝑇 ) = 𝜃
Uno stimatore corretto è detto anche non distorto, ovvero a distorsione nulla.
𝐷 = 𝐸(𝑇 ) − 𝜃
Uno stimatore corretto per la media di una popolazione normale è la media campionaria
𝑥̅ ha le seguenti caratteristiche:
𝐸(𝑥̅ ) = 𝜇
𝜎
𝜎 ̅ =
𝑛
𝜎
𝜎 ̅ =
√𝑛
1
𝑝̂ = 𝑥
𝑛
si ha una distribuzione che può essere considerata una normale standard con buona
approssimazione, se
𝑛 ∙ 𝑝 ∙ (1 − 𝑝) > 9
Stimatore efficiente
Come si calcola:
𝐸𝑄𝑀 = 𝑉𝑎𝑟(𝑇 ) + 𝐷
𝐸𝑄𝑀 = 𝑉𝑎𝑟(𝑇 ) + 𝐷
𝐸𝑄𝑀 ≡ 𝑉𝑎𝑟(𝑇 )
poiché 𝐷 =0
Se vi sono più stimatori non distorti, è più efficiente quello con la varianza più piccola.
𝑉𝑎𝑟 𝜃
𝐸𝑁 =
𝑉𝑎𝑟 𝜃
Intervallo di confidenza
per la media di una distribuzione normale con varianza della popolazione nota:
𝜎 𝜎
𝐼𝐶 (𝜇) = 𝑥̅ − 𝑧 ; 𝑥̅ + 𝑧
√𝑛 √𝑛
𝜎
𝑀𝑎𝑟𝑔𝑖𝑛𝑒 𝑑𝑖 𝐸𝑟𝑟𝑜𝑟𝑒 = 𝑀𝐸 = 𝑧
√𝑛
𝑆 𝑆
𝐼𝐶 (𝜇) = 𝑥̅ − 𝑡 ; 𝑥̅ + 𝑡
√𝑛 √𝑛
Il margine d’errore:
𝑆
𝑀𝐸 = 𝑡
√𝑛
Intervalli di confidenza per la proporzione (grandi campioni)
𝑝̂ (1 − 𝑝̂ ) 𝑝̂ (1 − 𝑝̂ )
𝐼𝐶 (𝑝) = 𝑝̂ − 𝑧 ; 𝑝̂ + 𝑧
𝑛 𝑛
𝑝̂ (1 − 𝑝̂ )
𝑀𝐸 = 𝑧
𝑛
Bernoulliana
Ampiezza dell’intervallo 𝐿 = 2 ∙ 𝑀𝐸
𝑧∝ 𝜎
𝑛=
𝑀𝐸
𝑧∝
𝑛 = 0,25
𝑀𝐸