AppuntiStatistica Univers Varese

` degli Studi dellInsubria
Universita
Appunti ed Esempi di Statistica

ad uso degli studenti
Paolo Tenconi
Paolo Tenconi: Appunti di Statistica
Indice
1 Introduzione
9
1.1 I Dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.1 Classificazione dei Dati . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Aree della Statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Statistica Descrittiva
2 Analisi Univariata
2.1 Distribuzioni di Frequenza . . . . . . . . . . .
2.1.1 Dati Nominali, Ordinali e Quantitativi
2.1.2 Dati Quantitativi Continui . . . . . .
2.2 Funzione di Ripartizione . . . . . . . . . . . .
2.2.1 Dati Ordinali e Quantitativi Discreti .
2.2.2 Dati Quantitativi Continui . . . . . .
2.3 Indici di Posizione . . . . . . . . . . . . . . .
2.3.1 Moda e Classe Modale . . . . . . . . .
2.3.2 Medie alla Chisini . . . . . . . . . . .
2.3.3 Quantili . . . . . . . . . . . . . . . . .
2.4 Indici di Variabilità . . . . . . . . . . . . . . .
2.4.1 Considerazioni Aggiuntive . . . . . . .
2.5 Indici di Simmetria . . . . . . . . . . . . . . .
2.6 La Concentrazione . . . . . . . . . . . . . . .
2.6.1 Dati in Distribuzione Unitaria . . . .
2.6.2 Dati in Distribuzione di Frequenza . .
13
. . . . .
Discreti
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
3 Analisi Bivariata
3.1 Dati In Distribuzione di Frequenza . . . . . . . . . . .
3.1.1 Frequenze Congiunte, Marginali e Condizionate
3.1.2 Dipendenza Statistica . . . . . . . . . . . . . .
3.1.3 Dipendenza in Media o Regressiva . . . . . . .
3.1.4 Dipendenza Correlativa . . . . . . . . . . . . .
3.2 Dati In Distribuzione Unitaria . . . . . . . . . . . . .
3.2.1 Dipendenza Correlativa . . . . . . . . . . . . .
3.2.2 Dipendenza in Media (Regressione Lineare) . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
17
17
18
21
21
22
24
24
24
28
32
35
36
37
37
38
.
.
.
.
.
.
.
.
41
43
43
45
48
51
54
54
55

4 Esercizi di Statistica Descrittiva
59
II
77
Probabilit`
a
5 Teoria (Cenni)
5.1 Esperimento ed Eventi . . . . . . . . . . . .
5.2 Teorie della Probabilità . . . . . . . . . . .
5.2.1 Classica . . . . . . . . . . . . . . . .
5.2.2 Frequentista . . . . . . . . . . . . . .
5.2.3 Soggettiva . . . . . . . . . . . . . . .
5.2.4 Assiomatica . . . . . . . . . . . . . .
5.3 Proprietà della Probabilità . . . . . . . . .
5.3.1 Teorema delle Probabilità Totali . .
5.3.2 Teorema delle Probabilità Composte
5.3.3 Teorema di Bayes . . . . . . . . . .
6 Variabili Casuali
6.1 Variabili Casuali Discrete . .
6.1.1 Bernoulli . . . . . . .
6.1.2 Binomiale . . . . . . .
6.1.3 Poisson . . . . . . . .
6.1.4 Uniforme Discreta . .
6.2 Variabili Casuali Continue . .
6.2.1 Uniforme . . . . . . .
6.2.2 Esponenziale . . . . .
6.2.3 Normale Univariata .
6.2.4 Normale Multivariata
6.3 Momenti . . . . . . . . . . .
6.4 Disuguaglianza di Cebicev . .
6.5 Trasformazione di Variabile .
6.6 Esempi . . . . . . . . . . . . .
6.6.1 Bernoulli . . . . . . .
6.6.2 Binomiale . . . . . . .
6.6.3 Poisson . . . . . . . .
6.6.4 Esponenziale . . . . .
6.6.5 Normale . . . . . . . .
7 Convergenza
7.1 In Distribuzione . . . . .
7.2 In Probabilità . . . . . .
7.3 In Media r-esima . . . .
7.4 Quasi Certa . . . . . . .
7.5 Legge Debole dei Grandi
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
79
79
80
80
80
81
81
82
82
82
83
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
85
85
86
86
87
88
89
90
90
91
93
94
94
95
96
96
96
97
97
98
. . . . .
. . . . .
. . . . .
. . . . .
Numeri
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
99
99
100
100
101
101
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

7.6
Teorema del Limite Centrale . . . . . . . . . . . . . . . . . . . . . . . . . 101
8 Esercizi di Probabilit`
a
103
III Statistica Inferenziale
123
9 Introduzione
125
9.1 Campionamento da Variabili Casuali: il Modello Statistico . . . . . . . . 125
9.1.1 Costruzione del Modello Statistico . . . . . . . . . . . . . . . . . . 126
10 Metodi di Stima
129
10.1 Approccio Bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
10.2 Approccio Frequentista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
10.2.1 Proprietà degli Stimatori . . . . . . . . . . . . . . . . . . . . . . . 130
11 Stima Puntuale
135
11.1 Metodo Analogico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
11.2 Metodo dei Momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
11.3 Massima Verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
12 Esercizi di Stima Puntuale
141
13 Stima Intervallare
13.1 Intervalli di Confidenza per la Media . . . . . . . . . . . . . . . . .
13.1.1 Varianza Nota . . . . . . . . . . . . . . . . . . . . . . . . .
13.1.2 Varianza ignota . . . . . . . . . . . . . . . . . . . . . . . . .
13.2 Intervalli di Confidenza per la Varianza . . . . . . . . . . . . . . .
13.2.1 Premessa: Varianza Campionaria e Distribuzione 2 . . . .
13.2.2 Media nota . . . . . . . . . . . . . . . . . . . . . . . . . . .
13.2.3 Media Ignota . . . . . . . . . . . . . . . . . . . . . . . . . .
13.3 Intervalli di Confidenza per Stimatori di Massima Verosimiglianza
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14 Esercizi di Stima Intervallare

15 Prova delle Ipotesi
15.1 Teoria . . . . . . . . . . . . . . .
15.1.1 Definizioni . . . . . . . . .
15.1.2 Tipi di Ipotesi . . . . . .
15.1.3 Errori e Potenza del Test
15.1.4 Soglia critica . . . . . . .
15.1.5 Considerazioni . . . . . .
15.2 Test di Ipotesi per la Media . . .
15.2.1 Varianza Nota . . . . . .
15.2.2 Varianza ignota . . . . . .
151
. 154
. 154
. 154
. 155
. 155
. 156
. 157
. 157
159
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
165
. 165
. 166
. 166
. 167
. 171
. 173
. 176
. 176
. 176

15.3 Test di Ipotesi per la Varianza . . .
15.3.1 Media nota . . . . . . . . . .
15.3.2 Media Ignota . . . . . . . . .
15.4 Confronto Fra Medie . . . . . . . . .
15.4.1 Varianze Note . . . . . . . . .
15.4.2 Varianze Ignote . . . . . . . .
15.5 Test del Rapporto di Verosimiglianza
16 Esercizi Prova delle Ipotesi
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
177
177
178
178
178
179
179
181
Premessa
Le presenti note sono intese come ausilio allo studio per i corsi di Statistica di Base e di
Statistica Inferenziale. I capitoli con esercizi saranno ulteriormente arricchiti in futuro,
cos` come alcune parti teoriche. Le caselle ombreggiate indicano definizioni e concetti di
un certo rilievo, mentre le caselle a doppia bordatura sono atte ad evidenziare le formule
principali.
Qualsiasi commento, suggerimento o segnalazione di eventuali errori sarà gradito.
Varese, Febbraio 2007
Paolo Tenconi
1 Introduzione
1.1 I Dati
I dati costituiscono loggetto di analisi della statistica. E utile figurarli organizzati
tabularmente:
1.1.1 Classificazione dei Dati

Gli strumenti statistici adottati variano sulla base della natura dei caratteri e sullesaustività delle unità statistiche nei confronti del fenomeno sotto indagine
1.1.1.1 Natura dei Caratteri
Qualitativo
Nominale: fenomeno non quantitativo non soggetto ad ordinamento (definito

anche mutabile o sconnesso)
Ordinale: fenomeno non quantitativo passibile di ordinamento (definito anche
rettilineo)
Quantitativo
discreto: espresso numericamente e assumente un insieme numerabile (finito

o infinito) di modalità

continuo: espresso numericamente ed assumente potenzialmente tutto in insieme di valori compresi in un intervallo
Infine un carattere è trasferibile se può essere redistribuito fra le unità statistiche.
Ad esempio per i caratteri relativi alla tabella precedente, Sesso è nominale (non trasferibile), Titolo di studio è ordinale (non trasferibile), Età è quantitativo discreto (non
trasferibile), mentre Reddito è quantitativo continuo (trasferibile).
1.1.1.2 Esaustivit`
a dellindagine
Definiamo popolazione la totalità dei casi pertinenti allindagine. Distinguiamo fra
Censimento: tutta la popolazione viene rilevata
Campionamento: parte della popolazione è rilevata a causa di ostacoli di varia
natura. Esso è frutto di
Sperimentazione
Osservazione
Acquisizione: parte della popolazione è rilevata ma senza un rigoroso piano di campionamento, ossia la quota di popolazione non è rappresentativa della popolazione.
Ad esempio i dati raccolti da una società commerciale sui propri clienti costituiscono una parte dei potenziali clienti, ma non ne rappresentano un campione
rappresentativo poichè distorti dal fatto che essi sono già clienti).
10
1.2 Aree della Statistica

Statistica Descrittiva: attraverso metodi grafici ed indici è volta alla sintesi dei
dati. Applicata alla popolazione conduce a risultati certi, mentre applicata a parte
della popolazione ha mera significato di analisi esplorativa.
Statistica Inferenziale: cerca di raggiungere conclusioni circa la popolazione
disponendo di una limitata conoscenza di essa (campione), i risultati sono quindi
soggetti ad incertezza. La natura filosofica attribuita allincertezza ha dato luogo
a varie scuole inferenziali
Frequentista
Bayesiana
Fiduciale
Verosimiglianza
Data Mining: insieme di tecniche volte allanalisi di grosse mole di dati (casi
e caratteri), nata dalla fusione di varie discipline quali scienza dellinformazione,
computer science e statistica. Non si tratta quindi di una disciplina prettamente
statistica, soprattutto per il fatto che spesso i dati su cui si trova ad operare non
sono campioni rappresentativi, bens` mere acquisizioni di dati non rappresentative
della popolazione, perciò lincertezza delle conclusioni a cui giunge non è definibile
rigorosamente.
11
12
Parte I
Statistica Descrittiva
13
Grafici*
Funz.di
Ripartizione
Posizione
Variabilit
Forma
Indici**:
Distr.Freq.
Congiunta1
Bivariata
Statistica1
Regressiva
Correlativa
Dipendenza:
2
1)Soloperdatisecondari(indistribuzionedifrequenza)
2)Trattamentodifferentefradatisecondariedatigrezzi
*Trattamentodifferenteperdatiquantitatividiscretiequantitativicontinui
**Trattamentoanalogoperdatiquantitatividiscretiecontinui(perquestiultimisiprendeilvalorecentralediogni
classe),quantiliesclusi
Distr.di
Frequenza
Univariata
StatisticaDescrittiva
15
16
2 Analisi Univariata
2.1 Distribuzioni di Frequenza
I dati tabulari frutto della rilevazione sono definiti grezzi o organizzati in distribuzione
unitaria. Ad esempio se abbiamo rilevato il colore degli occhi dei presenti in unaula la
distribuzione unitaria potrebbe apparire come di seguito
Casi
Colore Occhi
1
V
2
C
3
C
4
A
5
V
6
C
7
V
...
...
N=20
C
N = 20 numero di casi osservati

V = V erdi, C = Castani, A = Azzurri
Il primo passo consiste nella costruzione della distribuzione di frequenza essa per i caratteri nominali, ordinali, quantitativi discreti subisce un trattamento comune. Per i dati
quantitativi continui si opera diversamente.
2.1.1 Dati Nominali, Ordinali e Quantitativi Discreti

Frequenze Assolute: conteggio delle singole modalit`
a occorse
Frequenze Relative: percentuale di riscontro delle singole modalit`
a
Relativamente allesempio sul colore degli occhi ipotizziamo di avere rilevato quanto
segue
Azzurri
Castani
Verdi
Frequenze
Assolute Relative
3
0,15
12
0,6
5
0,25
pi`
u formalmente anzichè la precedente rappresentazione tabulare si utilizza la seguente
forma

A C V
X
3 12 5

A
C
V
X
0, 15 0, 6 0, 25
17
nelle pagine a seguire indicheremo con

k il numero di modalit`
a che la distribuzione di frequenza assume (nellesempio
vi sono k = 3 modalità)
xi le singole modalit`
a (nellesempio A,C,V)
ni le frequenze assolute
fi le frequenze relative, vale sempre la relazione
Pk
i=1 fi
=1
Pk
N il numero di casi osservati, si noti in proposito che i=1 ni = N
La rappresentazione grafica della distribuzione di frequenza (assoluta e relativa) avviene

tramite grafico a barre oppure con grafico a torta (sconsigliato)
Frequenze Relative
fi
0.2
0.3
6
0
0.0
0.1
ni
0.4
10
0.5
12
0.6
Frequenze Assolute
Azzurri Castani
Modalit
Verdi
Azzurri Castani
Verdi
Modalit
Per i dati ordinali e quantitativi discreti lunica prescrizione nella costruzione e rappresentazione grafica della distribuzione di frequenza consiste nellordinare crescentemente
da sinistra verso destra le modalità osservate.
2.1.2 Dati Quantitativi Continui

Il mero conteggio delle singole modalità è impossibile in caso di dati quantitativi continui
in quanto essi assumono un numero troppo elevato di modalità (potenzialmente infinito).
Si creano quindi delle classi opportune per le quali vengono calcolate
18

Frequenze (assolute e relative)
Densit`
a di frequenza
avremo k classi e per ognuna di esse calcoleremo le densità come segue

hi =
fi
di
dove con di si intende lampiezza della classe. Quindi la densità di frequenza è un tasso
normalizzato di frequenza atto ad eliminare leffetto distorsivo introdotto dalla scelta di
classi di ampiezze differenti.
Indicheremo con
di lampiezza di una generica classe
hi la densit`
a di frequenza della classe
ci1 lestremo inferiore della classe
ci lestremo superiore della classe
Ipotizziamo di indicare con X il reddito rilevato sui cittadini di una determinata città.
Potremmo creare tre classi ed osservare quanto segue:

X
0 ` 1000 1000 ` 1500 1500 ` 5000

0, 25
0, 4
0, 35
è conveniente sintetizzare in una tabella la moteplicità di misure sin qui menzionate
ci1 ` ci
0 ` 1000
1000 ` 1500
1500 ` 5000
fi
0,25
0,4
0,35
di
1000
500
3500
hi
0, 25/1000
0, 4/500
0, 35/3500
la rappresentazione grafica avviene mediante istogramma
19
0.00010
Densit
0.00080
Istogramma
1000
5000
Classi
listogramma è quindi costruito in modo tale che larea sia pari ad uno.
2.1.2.1 Dati Quantitativi Discreti in Classi
E possibile costruire classi anche per dati quantitativi discreti, questo è ragionevole
laddove essi assumano un elevano numero di modalità. In tal caso si opera come precedentemente esposto adottando la correzione per la continuit`
a sottraendo 0, 5 agli estremi
inferiori delle classi ed agiungendo 0, 5 agli estremi superiori, al fine di ottenere classi
adiacenti.
Ad esempio i voti per un generico insegnamento potrebbero essere cos` distribuiti

[18, 20] [21, 25] [26, 30]
X
0, 4
0, 5
0, 1
adottando la correzione per la continuità si ottiene

X
20
17, 5 ` 20, 5 20, 5 ` 25, 5 25, 5 ` 30, 5

0, 4
0, 5
0, 1
2.2 Funzione di Ripartizione

La funzione di ripartizione è costituita dalle frequenze cumulate ed esprime la quota
delle frequenze attribuibili alle modalità non superiori ad una specifica di esse; essa non
è determinabile per dati nominali in quanto non soggetti ad ordinamento. In via generale
quindi
F (x) = F r (X x)
essa gode delle seguenti proprietà: F (x) [0, 1] , F () = 0 , F (+) = 1 .
2.2.1 Dati Ordinali e Quantitativi Discreti

Limiteremo lanalisi ai soli dati quantitativi discreti. La forma analitica della funzione
di ripartizione è
, x < x1
0
Pj
F (X) =
F (xj ) = i=1 fi , x1 ...xk
1
, x > xk

ad esempio per X
1
0
3
5
0, 1 0, 25 0, 15 0, 5
0 + 0, 1 = 0, 1
0, 1 + 0, 25 = 0, 35
F (X) =
0, 35 + 0, 15 = 0, 5
0, 5 + 0, 5 = 1
, x (, 1)
, x [1, 0)
, x [0, 3)
, x [3, 5)
, x [5, +)
nella successiva rappresentazione grafica si noti la continuità da destra della funzione
21
1.0
1.2
FUNZIONE DI RIPARTIZIONE
0.6
F(xi)
0.8
0.4
0.2
0.0
xi
2.2.2 Dati Quantitativi Continui

Landamento a salti di F (X) per dati discreti non ha senso per dati continui in quanto
essi possono assumere qualunque valore in un intervallo. La funzione cumulata delle
frequenze è non decrescente allinterno di ogni classe e in assenza di ulteriori
informazioni si assume luniforme distribuzione delle frequenze allinterno di ogni
classe, ne consegue una funzione lineare a tratti con pendenza in ogni classe pari alla
densità di frequenza, la forma analitica è la seguente
, x (, c0 )
0
Fi1 + hi (x ci1 ) , x [ci1 , ci ), i = 1...k
F (X) =
1
, x [ck , +)

ad esempio per X
0 ` 1000 1000 ` 1500 1500 ` 5000

0, 25
0, 4
0, 35
0,25
0
+ 1000 (x 0)
0,4
F (X) =
(x 1000)
0, 25 + 500
0,35
0, 65 + 3500 (x 1500)
22
, x (, 0)
, x [0, 1000)
, x [1000, 1500)
, x [1500, 5000)
, x [5000, +)
1.0
0.8
0.4
F(x)
0.6
0.0
0.2
1000
1000
2000
3000
4000
5000
6000
23
2.3 Indici di Posizione

Indicano dove è collocato il fenomeno osservato. Ne esistono vari, ognuno con proprietà, pregi e difetti peculiari, pertanto è sempre consigliabile un utilizzo congiunto. Ne
prenderemo in considerazione i principali.
2.3.1 Moda e Classe Modale

La moda per i dati qualitativi, ordinali e quantitativi discreti è data dal carattere riscontrato con maggior frequenza, mentre per i dati continui ci si riferisce alla classe modale
come la classe avente la maggior densità di frequenza. Nellesempio precedente sul colore degli occhi castani è la moda, mentre nellesempio sul reddito [1000, 1500) è la classe
modale.
Reddito
5000
Verdi
Azzurri Castani
1000
1500
0.0
0.1
0.00010
0.2
0.00025
hi
i
0.3
0.4
0.5
0.6
0.00080
Colore Occhi
2.3.2 Medie alla Chisini

Chisini (1929) diede per la media una definizione unificatrice, come di una quantit`
a
invariante che sostituita a N-termini non altera il risultato di una generica funzione
f (x1 , x2 , ..., xN ) = f M, M, ..., M

|
{z
}
N volte
Media Aritmetica
P
PN
ad esempio se f (x1 , x2 , ..., xN ) = N
i=1 xi allora f (M, M, ..., M ) =
i=1 M = n M
perciò secondo Chisini varrà luguaglianza
24
N
X
xi = n M
i=1
PN
M
i=1 xi
proprio la media aritmetica. Essa può essere riespressa in varie forme per essere calcolata
su dati grezzi, distribuzione delle frequenze assolute e relative. Le tre formule sono
sostanzialmente identiche, supponiamo di aver osservato i seguenti dati grezzi
X = {3; 1; 1; 1; 3; 5; 1; 5}
calcolata su dati grezzi avremo che

PN
M (X) =
i=1 xi
3+1+1+1+3+5+1+5
20
=
8
8
disponendo in modo crescente gli addendi al numeratore
M (X) =
=
=
(1 + 1 + 1 + 1) + (3 + 3) + (5 + 5)
8
14+32+52
20
=
8
8
Pk
i=1 xi ni
N
e spezzando gli addendi

M (X) = 1
=
k
X
4
2
2
+3 +5
8
8
8
xi fi
i=1
Per i dati continui per classi nelle due ultime formulazioni xi corrisponde al valore centrale
della classe xi = (ci ci1 ) /2
25

In sintesi la media può essere calcolata equivalentemente come segue:
PN
M (X) =
=
=
i=1 xi
N
Pk
i=1 xi
ni
N
k
X
xi fi
i=1
Questa triplice scrittura opera anche su alcuni degli indici di variabilità

e forma che incontreremo oltre.
essa gode delle seguenti proprietà

PN
e zero
1.
i=1 (xi M (X)) = 0 , la somma degli scarti rispetto alla media `
PN
2. min i=1 (xi c)2 = M (X) , la media aritmetica minimizza la varianza
c
3. M (X) [min (X) ; max (X)] , internalità: la media è compresa fra il minimo ed
il massimo
4. M ( + X) = + M (X) , la media di una trasformazione lineare dei dati è pari
alla medesima trasformazione lineare applicata alla media dei dati
P
5. M (X) = N1 kj=1 Mj (X) nj , la media è ricavabile come media ponderata delle
medie di ciascuno dei k sottogruppi ciascuno di ampiezza nj
Non sempre la media aritmetica è adatta nel senso che non lascia invariata la visione del
fenomeno, ad esempio per un capitale investito in regime di capitalizzazione composta
per tre anni ai tassi r1 = 0, 03; r2 = 0, 04; r3 = 0, 07 ci si potrebbe domandare quale
sia stato il tasso medio ottenuto nei tre anni, ovviamente la condizione è che il capitale
finale (montante) sia il medesimo, applicando lenunciato di Chisini
M ontante = C (1 + r1 ) (1 + r2 ) (1 + r3 ) = C (1 + r) (1 + r) (1 + r)
C
N
Y
(1 + ri ) = C (1 + r)3
i=1
e isolando r
v
u 3
uY
3
r=t
(1 + ri ) 1
i=1
Media Geometrica
lespressione precedente è proprio la media geometrica dei tassi di interesse. Per un
insieme generico di xi avremo
26
Mg (X) =
v
uN
uY
N
t x
i=1
v
u k
uY
N
t xni
i
i=1
k
Y
xfi i
i=1
essa gode delle seguenti proprietà

1. Mg (X) [min (X) ; max (X)] , internalità: è compresa fra il minimo ed il massimo
2. Mg (X) M (X) , è sempre non superiore alla media aritmetica
3. M (X) = Mg (X) , invarianza rispetto a cambiamenti di scala
4. Mg (X) = exp {M [log (X)]}
Media Armonica
Un altro tipo di media che si riscontra sovente è la media armonica
Ma (X) =
=
=
N
PN
1
i=1 xi
N
1
i=1 xi ni
Pk
1
1
i=1 xi fi
Pk
1. Ma (X) [min (X) ; max (X)] , internalità: è compresa fra il minimo ed il massimo
2. Ma (X) Mg (X) M (X) , è sempre non superiore rispetto alla media geometrica
3. M (X) = Mg (X) , invarianza rispetto a cambiamenti di scala
Medie potenziate
Unimportante sottoclasse delle medie di Chisini è dato dalle medie potenziate,Pricoprono

s
un ruolo di un certo rilievo in ambito statistico. Definendo f (x1 , ...xN ) = N
i=1 xi =
PN
f (M, ...M ) = i=1 M s = n M s
27
"P
N
s
i=1 xi
Ms (X) =
#1/s
N
"P
k
s
i=1 xi ni
N
"
#1/s
k
X
#1/s
xsi fi
i=1
in particolare per s = 1 si ottiene la media aritmetica, s = 2 la media quadratica, s = 1

la media armonica, mentre per s 0 si ottiene la media geometrica.
Una proprietà delle medie potenziate è che Ms < Ms se s < s, quindi M (X) > Mg (X) >
Ma (X).
2.3.3 Quantili
Il quantile di ordine [0, 1) è il minor valore che, dopo aver organizzato i dati in
modo crescente (pi`
u precisamente in ordine non decrescente), lascia alla propria sinistra
la proporzione dei dati.
Indicheremo il quantile con

q (X) , [0, 1]
di uso comune sono tre quantili
= 0, 25 noto come primo quartile, lo indicheremo con Q1 (X)
= 0, 50 noto come mediana (o secondo quartile) , lo
indicheremo con M e (X) oppure Q2 (X)
= 0, 75 noto come terzo quartile , lo indicheremo con Q3 (X)
2.3.3.1 Dati in Distribuzione Unitaria

In tal caso si applica la definizione appena fornita: i dati grezzi X vengono ordinati in
dopodichè si procede ad
modo non decrescente in una nuova distribuzione unitaria X
identificare lelemento che soddisfa la definizione di quantile
q (X) = X
[(N )+ ]
28

loperatore (N )+ indica il valore alla posizione (N )+ dove loperatore (...)+ indica
lintero superiore in caso di risultato non intero.
Nel caso = 0, 5 (mediana) la procedura è leggermente differente
[(N +1)/2]
Se N dispari Q2 (X) = X
[N/2] +X
[N/2+1]
X
2
Se N pari Q2 (X) =
Ad esempio dato il seguente insieme di 24 osservazioni X {1, 4, 1, 5, 7, 5, 1, 1, 5, 7, 1, 1, 7, 1, 5, 7, 5, 5, 1, 4, 1, 1, 7, 5}

{1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 4, 4, 5, 5, 5, 5, 5, 5, 5, 7, 7, 7, 7, 7}
si ottiene lordinamento non decrescente X
, ricaviamo i tre quartili
Q1 (X) = X
[(240,25)+ ] = X[6+ ] = X[6] = 1
Q2 (X) =
[24/12] +X
[24/12+1]
X
2
4+5
2
Q3 (X) = X
[(240,75)+ ] = X[18+ ] = X[18] = 5
2.3.3.2 Dati in Distribuzione di Frequenza
Dati Quantitativi Discreti: viene utilizzato il metodo grafico della funzione di ripartizione, dato il valore si procede allidentificazione della relativa controimmagine
sulla funzione di ripartizione. Nellesempio precedente la distribuzione di frequenza
è

1 4 5 7
X
10
2
7
5
24
24
24
24
0.50
F(xi)
0.75
7.0
5.0
4.5
4.0
1.0
0.25
xi
come si può osservare nel caso in cui il tratteggio cada esattamente in corrispondenza di uno dei tratti orizzontali continui di F (X) si procede a prendere il valore
29

medio compreso fra gli estremi del tratto. Nellesempio grafico quindi Q1 (X) = 1
, Q2 (X) = 4+5
2 = 4.5 e Q3 (X) = 5 .
Dati Quantitativi Continui: è possibile calcolare esattamente la controimmagine in ogni
punto di F (X). Si procede come segue:
1. Si individua la classe contenente la soluzione
2. q (X) = ci1 +
Fi1
hi
ove ci1è lestremo inferiore della classe, hi è la densità di classe, Fi1

la cumulata nellestremo inferiore
ad esempio applicando tale metodo per il calcolo del reddito mediano

0 ` 1000 1000 ` 1500 1500 ` 5000
X
0, 25
0, 4
0, 35
notiamo innanzitutto che questa cadrebbe sicuramente nella seconda classe in cui F (X)
0,4
ed = 0, 5 .
assume il valore 0, 5 . In tal caso ci1 = 1000 , Fi1 = 0, 25 , hi = 500
Applicando la formula presentata otteniamo
q0,5 (X) = 1000 +
0, 5 0, 25
' 1312, 5
0, 4/500
5000.0
6000.0
0.50
1000.0
1312.5
1500.0
0.0
1000.0
0.00
0.25
F(x)
0.65
1.00
La mediana gode delle seguenti proprietà

1. M e (X) [min (X) ; max (X)] , internalità: è compresa fra il minimo ed il massimo
30

2. min
c
PN
i=1 |xi
c| = M e (X) , minimizza lo scarto semplice medio
3. M e ( + X) = + M e (X) , la media di una trasformazione lineare dei dati è

pari alla medesima trasformazione lineare applicata alla media dei dati
31
2.4 Indici di Variabilit`

a
Indicano quanto il fenomento è disperso, cioè quanto tende ad assumere modalità differenti fra i casi.
Tranne che per gli indici pi`

u semplici (basati su statistiche dordine - cioè i quantili), la
gran parte appartenenti a questa classe prevede che per gni caso osservato venga calcolata una distanza fra esso ed un centro (ad esempio la media), dopodichè la totalità delle
distanze cos` generate viene sintetizzata con ben precisi indici di posizione (principalmente media e mediana). In questa ottica vanno intesi la varianza, lo scarto quadratico
medio e gli scarti semplici. Indicando con la misura distanza adottata, c il centro e G
lindice di sintesi
(X) = G [ (X; c)]
Ad esempio per il seguente insieme di dati
Casi
xi
1
3
2
5
3
1
4
3
5
5
6
7
7
18
calcoliamo i due centri M (X) = 6, Q2 (X) = 5 ; scegliamo inoltre come misure di distanza la differenza quadratica ed in valore assoluto attorno alla media e la sola differenza
in valore assoluto attorno alla mediana
Casi
1
2
3
4
5
6
7
xi
3
5
1
3
5
7
18
(xi M (X))2
9
1
25
9
1
1
144
|xi M (X) |
3
1
5
3
1
1
12
|xi Q2 (X) |
2
0
4
2
0
2
13
Varianza
sintetizziamo le prima colonna prendendone la media, otteniamo cos` la varianza
32
(X) = M (X M (X))
PN
M (X))2
N
Pk
2
(x
i M (X)) ni
i=1
=
N
k
X
=
(xi M (X))2 fi
i=1 (xi
i=1
nel nostro caso quindi

(3 6)2 + (5 6)2 + (1 6)2 + (3 6)2 + (5 6)2 + (7 6)2 + (18 6)2
7
2
2
(1 6) 1 + (3 6) 2 + (5 6)2 2 + (7 6)2 1 + (18 6)2 1
=
7
2
2
1
1
1
= (1 6)2 + (3 6)2 + (5 6)2 + (7 6)2 + (18 6)2
7
7
7
7
7
' 27, 14
2 (X) =
utile e di frequente utilizzo è la seguente riscrittura della varianza, utile fra laltro in
ambito di calcolo manuale

2 (X) = M X 2 M (X)2
è importante non confondere
addendi, il primo è la media dei quadrati (nel nosP7 x2 i due

32 +52 +12 +32 +52 +72 +182
2
i=2 i
tro caso M X =
=
' 63.143 mentre il secondo è il
7
7
2
quadrato della media aritmetica semplice M (X) = 62 la loro differenza dà appunto
27, 14.
Il
delle prime
varianza è noto come devianza D (X) =
Pkdue espressioni della
Pnumeratore
2
N
2
(x
M
(X))
n
(x
M
(X))
=
i
i
i
i=1
i=1
La radice quadrata della varianza è nota come scarto quadratico medio
(X) =
Devianza
Scarto quadratico
medio
p
2 (X)
relativamente allesempio precedente (X) ' 5, 21.

La media della seconda colonna dà vita allo scarto semplice medio
Scarto
medio
33
semplice
PN
i=1 |x
M (X) |
N
Pk
|x
i=1 i M (X) | ni
=
N
k
X
=
|x M (X) | fi
SSM (X) = M [|X M (X)|] =
i=1
coi dati precedenti si ha SSM (X) ' 3, 71.

Segnaliamo infino lo scarto semplice medio dalla mediana
PN
i=1 |x
Q2 (X) |
N
Pk
|x
i=1 i Q2 (X) | ni
=
N
k
X
=
|x Q2 (X) | fi
M [|X Q2 (X)|] =
i=1
il quale per i dati precedenti risulta essere M [|X Q2 (X)|] ' 3, 29 e lo scarto semplice
mediano dalla mediana , che si ottiene come mediana dellultima colonna della tabella
precedente.
Q2 [|X Q2 (X) |] = 2
esso gode della particolarità di essere resistente (robusto) verso osservazioni anomale
(valori estremi dovuti alla natura del fenomeno o ad errori di registrazione dei dati).
Coefficiente
variazione
di
Al fine di confrontare la variabilità fra fenomeni simili si ricorre allo scarto quadratico
medio relativizzato rispetto alla media, noto come coefficiente di variazione
CV (X) =
(X)
|M (X) |
infine due misure di variabilità basate su statistiche dordine sono il range o campo di
variazione
c (X) = max (X) min (X) = 18 1 = 17
e la differenza interquartilica
q (X) = Q3 (X) Q1 (X)
34
2.4.1 Considerazioni Aggiuntive

Definiamo momento centrale di ordine s
PN
i=1 (xi
M (X))s
=
N
Pk
Momento centrale
i=1 (xi
M (X))s ni X
=
(xi M (X))s fi
N
i=1
come caso particolare per s = 2 si ottiene la varianza.

2.4.1.1 Propriet`
a di devianza, varianza e scarto quadratico medio
Valgono le seguenti proprietà
1. D (X) 0, V (X) 0, (X) 0 ed assumono valore zero se tutti i casi assumono
uguale modalità

P
2
2
2 M (X)2 1
2. D (X) = N
i=1 xi N M (X) , V (X) = M X
3. Per Y = + X allora D (Y ) = 2 D (X) , V (Y ) = 2 V (X) , (Y ) = |b| (X)
Dim: ponendo = M (X) abbiamo

2 (X)
k
X
(xi ) fi2
i=1
k
X
x2i + 2 2xi fi
i=1
k
X
x2i fi + 2
i=1
M X
k
X
fi 2
i=1
2
k
X
xi fi
i=1
| {z }
| {z }
=1
M (X)2
35
2.5 Indici di Simmetria

La simmetria è lultimo degli aspetti caratterizzanti una distribuzione di frequenza che
prenderemo in considerazione. Nel seguente grafico sono rappresentati tre tipici casi
ASIMMETRIA
f(x)
Simmetria
Asimmetria Negativa
Asimmetria Positiva
0.0
0.2
0.4
0.6
0.8
1.0
Un primo segnale di asimmetria è ravvisabile quando la mediana non coincide con la

media, in caso di asimmetria positiva la media è maggiore della mediana e viceversa
in caso di asimmetria negativa. Utilizzeremo due indici atti a misurare la presenza di
asimmetria
1 (X) =
[Q3 (X)Q2 (X)][Q2 (X)Q1 (X)]

Q3 (X)Q1 (X)
2 F isher (X) =
Pk
i=1 (xi M (X))

3
fi
(X)
i quali si interpretano alla stessa stregua, se sono positivi vi è asimmetria positiva e

viceversa, mentre in caso risultino nulli vi è simmetria. A volte i due indici danno
risultati contrastanti, in tal caso generalmente vi è unasimmetria debole e sono necessarie
ulteriori indagini. Nel caso di dati continui per classi per il calcolo di 2 (X) si utilizza
il valore centrale della classe.
36
2.6 La Concentrazione
Lo studio della concentrazione riguarda lanalisi della ripartizione della totalità del carattere fra le varie unità statistiche; ha quindi senso solo per caratteri trasferibili. Di seguito
indicheremo con Y un carattere preventivamente ordinato in modo non decrescente.
2.6.1 Dati in Distribuzione Unitaria

Un
P carattere si dice equidistribuito se ognuna delle N unità statistiche ne possiede
N
i=1
yi
A
= N
, ossia una quota pari alla media aritmetica. In tutti gli altri casi si ha
concentrazione, in particolare massima concentrazione se y1 = ...yN 1 = 0 e yN = A .
In tutti gli altri casi è necessario determinare il grado di concentrazione, definiamo
P
Ammontare del carattere posseduto dalle i unit`
a pi`
u povere: Ai = ij=1 yj
N
Ammontare relativo del carattere posseduto dalle i unit`

a pi`
u povere: Qi =
Ai
A
Ammontare relativo del carattere posseduto dalle i unit`

a pi`
u povere in ipotesi di
equidistribuzione: Pi = Ni
Unendo le coppie di punti (Pi , Qi ) si ottiene la curva di concentrazione di Lorenz , mentre

la retta di punti (Pi , Pi ) rappresenta la retta di equidistribuzione. Larea compresa fra
queste due curve è larea di concentrazione
"N
#
1 1 X
Ac =
(Pi Pi1 ) (Qi + Qi1 ) , P0 = Q0 = 0
2 2
i=1
larea di concentrazione massima teorica è Amax =

concentrazione è
2N
Ac
G=
N 1
N 1
2N
, perciò larea relativa di
essa coincide (quindi utilizzeremo la stessa lettera) col

rapporto di concentrazione di Gini
PN 1
PN 1
Qi
i=1 (Pi Qi )
= 1 Pi=1
G=
PN 1
N 1
i=1 Pi
i=1 Pi
lindice G di Gini (quindi anche larea di concentrazione relativa) assumono valore nullo
in caso di equidistribuzione ed 1 in caso di massima concentrazione.
Ad esempio si consideri la seguente rilevazione x = {1; 1; 1; 3; 5; 5; 5; 10; 10; 20} , applicando quanto sopra otteniamo Ac ' 0, 234 e G ' 0, 5191 con la seguente curva di
Lorenz
37
0.508
0.344
0.262
0.18
0.098
0.9
0.8
0.6
0.5
0.4
0.2
0.1
0.3
0.049
0.033
0.016
0
0.7
Qi
0.672
Pi
2.6.2 Dati in Distribuzione di Frequenza

Identico ragionamento in caso di dati organizzati in distribuzione di frequenza, ragioniamo tuttavia in termini di classi di individui anzichè per individui singolarmente presi.
Ridefiniamo le grandezze esposte precedentemente
Ammontare
del carattere posseduto dalle prime i classi di individui pi`
u poveri:
P
Ai = ij=1 xi fi
Ammontare relativoPdel carattere posseduto dalle prime i-classi di indivudui pi`
u
poveri: Qi =
Ai
A
i
j=1
xi f i
M (X)
Ammontare relativo del carattere possedutoPdalle prime i-classi di individui pi`

u
i
poveri in ipotesi di equidistribuzione: Pi = j=1 fi
unendo i punti (Pi , Qi ) si ottiene la curva di concentrazione di Lorenz, mentre la retta

passante per i punti (Pi , Pi ) rappresenta la retta di equidistribuzione, larea fra esse
rappresenta larea di concentrazione
#
" k
X

1
1
Ac =
Pi Pi1
Qi + Qi1 , P0 = Q0 = 0
2 2
i=1
mentre il
rapporto di concentrazione di Gini è
G =
Pk1
i=1
(Pi Qi )
Pk1
i=1
38
Pi
Pk1
Qi
i=1
Pi
= 1 Pi=1
k1
[0, 1]

esso varrà 0 in caso di equidistribuzione ed 1 in caso di massima concentrazione.
Si consideri a titolo di esempio la seguente distribuzione

1
5
10 50
X
0, 5 0, 1 0, 3 0, 1
1.0
otteniamo P = {0, 5; 0, 6; 0, 9; 1}, Q = {0, 05; 0, 1; 0, 4; 1} per cui G = 0, 694 e Ac =

0, 32 la curva di Lorenz è
Qi*
0.6
0.8
0.2
0.4
0.0
0.0
0.2
0.4
0.6
0.8
1.0
Pi*
39
40
3 Analisi Bivariata
Grande parte della statistica è volta allidentificazione di relazioni intercorrenti fra caratteri quando esse non sono deterministiche, bens` disturbate.
Limiteremo lanalisi delle relazioni fra due caratteri, da qui il termine analisi bivariata,
dedicheremo solo un accenno allanalisi multivariata.
Prendiamo ad esempio in considerazione un modello teorico secondo il quale fra il grado
di pressione sullacceleratore e la velocità di un veicolo a parità di marcia esiste una
relazione lineare del tipo
V = 5 + P 190
150
0
50
100
Velocit
200
250
300
Relazione Deterministica
0.0
0.5
1.0
1.5
Pressione
trattasi tuttavia di una relazione teorica raramente soddisfatta, altri fattori ambientali
entrano in gioco oltre alla pressione sullacceleratore (velocità del vento,...) disturbando
tale relazione nel caso dovessimo effettuare delle rilevazioni empiriche. Tuttavia la relazione teorica costruita potrebbe mantenere la propria validità concettuale, la statistica
tenta di estrarre da dati disturbati le relazioni di fondo indicando fra laltro il grado di
tale disturbo.
41
300
Relazione Disturbata
250
150
100
Velocit
200
50
0.0
0.5
1.0
1.5
Pressione
Tratteremo due casi

1. Dati in distribuzione di frequenza vs. dati in distribuzione di frequenza
2. Dati grezzi vs. dati grezzi
42
3.1 Dati In Distribuzione di Frequenza

Limiteremo gli esempi al caso in cui una delle due variabili è discreta (X) mentre laltra
continua per classi (Y).
Consideriamo il seguente esempio in cui X = Anni di Scolarità e Y = Reddito Mensile;
potremmo osservare la seguente tabella
Y\X
0 ` 1000
1000 ` 1500
1500 ` 5000
5
0,1
0,05
0,05
0,2
8
0,03
0,1
0,07
0,2
13
0,02
0,18
0,1
0,3
18
0
0,17
0,13
0,3
0,15
0,5
0,35
1
3.1.1 Frequenze Congiunte, Marginali e Condizionate

3.1.1.1 Frequenze Congiunte
In prima analisi linteresse è rivolto alle frequenze congiunte, assolute o relative. Nella
tabella precedente la frequenza alla prima riga/seconda colonna indica che il 3% dei
casi osservati è pertinente a soggetti con 8 anni di scolarità e un reddito compreso
nellintervallo 0 ` 1000 , identico ragionamento per le altre celle.
indicando con i la generica riga e j la generica colonna della tabella

con R righe e C colonne, definiamo frequenze congiunte le frequenze
contenute nelle singole celle
nij per frequenze assolute
fij per frequenze relative
3.1.1.2 Distribuzioni Marginali

Partendo dalle frequenze congiunte è possibile calcolare le frequenze marginali e costruire
le distribuzioni marginali
43

Definiamo frequenze marginali le frequenze a margine di tabella
per il carattere indicato sulla prima riga (nellesempio X)
P
nij se trattasi di frequenze assolute
nj = R
PRi=1
fj = i=1 fij se trattasi di frequenze relative
per il carattere indicato sulla prima colonna (nellesempio Y)
P
ni = C
j=1 nij se trattasi di frequenze assolute
PC
fi = j=1 fij se trattasi di frequenze relative
nei dati in esempio abbiamo le seguenti distribuzioni marginali

Y
0 ` 1000 1000 ` 1500 1500 ` 5000

0, 15
0, 5
0, 35

X
5
8
13 18
0, 2 0, 2 0, 3 0, 3
3.1.1.3 Distribuzioni Condizionate

Come si distribuisce Y se limitiamo lanalisi ai soli casi in cui X=5? La risposta ad una
tale domanda è nota come distribuzione condizionata, nel nostro esempio abbiamo

Y |X = 5
0 ` 1000 1000 ` 1500 1500 ` 5000

0,1
0,2
0,05
02
0,05
0,2
prendiamo la prima modalità 0 ` 1000 , in questo caso la frequenza congiunta

f (Y = 0 ` 1000; X = 5) = 0, 1
deve essere relativizzata al fatto che stiamo limitando lanalisi ai soli soggetti che hanno
studiato 5 anni, quindi il 20% della popolazione, da qui il fatto che f (Y = 0 ` 1500|X = 5) =
0, 1/0, 2 = 0, 5 . Stesso ragionamento per le altre modalità della distribuzione condizionata.
Quante distribuzioni condizionate possiamo costruire? Le seguenti: Y |X = 5; Y |X =
8; Y |X = 13; Y |X = 18 e X|Y = 0 ` 1000; X|Y = 1000 ` 1500; X|Y = 1500 ` 5000.
44

Definiamo distribuzione di Y condizionata a X = xh
(
y1
...
yk
Y |X = xh
f (yk ,xh )
f (y1 ,xh )
...
f (xh )
f (xh )
analogamente per la distribuzione di Xcondizionata a Y = y h
(
x1
...
xk
X|Y = y h
f (x1 ,yh )
f (xk ,yh )
...
f (yh )
f (yh )
3.1.2 Dipendenza Statistica

Il massimo grado di indipendenza statistica lo si raggiunge quando le distribuzioni condizionate di Y |X = x sono tutte identiche fra loro (e coincidenti con la distribuzione
marginale di Y) e quando X|Y = y lo sono fra loro stesse (e coincidenti con la distribuzione marginale di X). Questo accade nella tabella di massima indipendenza statistica
Definiamo tabella teorica di massima indipendenza statistica la tabella

le cui frequenze congiunte sono date da
fij = fi fj , i, j se trattasi di frequenze relative
n n
n
ij = i N j , i, j se trattasi di frequenze assolute
in tal caso esprimiamo lindipendenza simbolicamente in questo modo:
X S Y .
Coi dati in esempio otteniamo la seguente tabella teorica di massima indipendenza

Y\X
0 ` 1000
1000 ` 1500
1500 ` 5000
5
0,03
0,1
0,07
0,2
8
0,03
0,1
0,07
0,2
13
0,045
0,15
0,105
0,3
18
0,045
0,15
0,105
0,3
0,15
0,5
0,35
1
E possibile verificare che le distribuzioni condizionate Y |X per questa tabella sono fra
loro identiche

0 ` 1000 1000 ` 1500 1500 ` 5000
Y |X = {5; 8; 13; 18} = Y
0, 15
0, 5
0, 35
45

ed anche le distribuzioni X|Y

X|Y = {0 ` 1000; 1000 ` 1500; 1500 ` 5000} = X
h(Y|X)
5
8
13 18
0, 2 0, 2 0, 3 0, 3
Y
0
500
150
0
100
13
M[Y|X=x]=1837,5
18
F(X|Y)
18
13
8
5
00
10
00
15
M[X|Y=y]=11,9
00
50
46

Pearson ha proposto un indice atto alla misurazione della distanza fra la tabella delle
frequenze osservate e la tabella teorica di massima indipendenza statistica
Lindice 2 (assoluto) di Pearson viene espresso in varie forme
2 = N
R X
C
X
n2ij
ni nj
i=1 j=1
!
1
R X
C
X
(ni,j n
i,j )2
=
n
i,j
i=1 j=1

2
R X
C
fi,j fi,j
X
= N
fi,j
i=1 j=1

le quantità (nij n
ij ) sono note come contingenze assolute, mentre fij fij
contingenze relative. Si preferisce la versione relativizzata dellindice di Pearson
2 =
2
[0, 1]
N min {(R 1) ; (C 1)}
in caso di massima indipendenza lindice sarà prossimo a zero (la tabella osservata coincide con quella teorica), mentre in caso di dipendenza statistica sarà
diverso da zero, in particolare prossimo a uno in caso di perfetta dipendenza
statistica.
Nel nostro esempio risulta che
2 =
0, 267794
= 0, 1339
2
quindi non esiste indipendenza statistica.

3.1.2.1 La Perfetta Dipendenza Statistica
In caso di perfetta dipendenza statistica nota la modalità assunta da una delle due variabili, è possibile risalire alla modalità assunta dallaltra. Indicando con una frequenza
non nulla
y1
y2
y3
x1
x2
x3
47

come si può notare se X = x1 è certo che Y = y1 , stesso ragionamento per le altre xi e
operando allinverso da Y verso X . Se la tabella non è quadrata il ragionamento opera
solo nella direzione della variabile con un minor numero di modalità
y1
y2
x1
x2
x3
qui nota X = xj è possibile risalire con certezza a Y = yi ma non viceversa (infatti se

Y = y2 non sappiamo se X = x2 oppure X = x3 ).
3.1.3 Dipendenza in Media o Regressiva

E un concetto non simmetrico, nel senso che è dfferente studiare Y R X e XR Y
. Questo tipo di indagine ha senso quando una delle due variabili causa logicamente
laltra
variabile indipendente: causa (nel nostro esempio scolarit`
a)
variabile dipendente: effetto (nel nostro esempio reddito)
studiare la dipendenza regressiva di Y dato X richiede la determinazione delle distribuzioni condizionate Y |X = x e le rispettive medie per verificare come queste variano.
Nel nostro esempio studieremo quindi M [Y |X = {5; 8; 13; 18}] utilizzando a tal fine una
tabella delle distribuzioni condizionate
Y\X
0 ` 1000
1000 ` 1500
1500 ` 5000
M [Y |X = x]
V [Y |X = x]
f (Y |X = 5)
0,5
0,25
0,25
1375
1265625
f (Y |X = 8)
0,15
0,5
0,35
1837,5
1139219
f (Y |X = 13)
0, 06
0,6
0, 3
1866, 6
990555,6
Valgono le due seguenti importanti relazioni
M [Y ] = M [M (Y |X)] =
k
X
i=1
48
M [Y |Xi ] f (Xi )
f (Y |X = 18)
0
0, 56
0, 43
2116, 6
982222,2

nel nostro esempio M [Y ] = 1375 0, 2 + 1837 0, 2 + 1866, 6 0, 3 + 2116, 6 0, 3 = 1837, 5
.
La seconda proprietà è nota come scomposizione della varianza
V [Y ]
| {z }
V arianza T ot.
M [V (Y |X)]
|
{z
}
V [M (Y |X)]
|
{z
}
M edia varianze condiz.
V arianza f ra medie condiz.
V arianza Residua
V arianza Spiegata
coi dati per lesempio in questione M [V (Y |X)] = 12656250, 2+11392190, 2+990555, 6

0, 3 + 982222, 2 0, 3 = 1072802, 083 , mentre V [M (Y |X)] = (1375 1837, 5)2 0, 2 +
(1837, 5 1837, 5)2 0, 2+(1866, 6 1837, 5)2 0, 3+(2116, 6 1837, 5)2 0, 3 = 66416, 67,
da cui V (Y ) = 1072802, 083 + 66416, 67 = 1139218, 75.
Studiare la dipendenza in media di Y |X significa

1. Determinare landamento delle medie condizionate M [Y |X = x]
2. Determinare la significatività della relazione tramite il grado di
varianza spiegata in rapporto alla varianza totale di Y
Rappresentiamo le medie condizionate sul grafico noto come spezzata (o funzione) di

regressione
2500
Spezzata di Regressione
M[Y|X=x]
2000
1500
1000
13
18
X=Scolarit
49

costriamo in seguito il rapporto di correlazione che vale zero nel caso in cui la varianza
spiegata è nulla e 1 se essa coincide con la varianza totale
2 =
vs
vr
=1
[0, 1)
vt
vt
per il nostro esempio abbiamo 2 = 0, 058 prossimo a zero quindi la variabile indipendente spiega poca parte della varianza totale della variabile dipendente, perci`
o
la relazione è statisticamente debole.
3.1.3.1 Relazioni con lindipendenza statistica
Il seguente grafico attraverso un esempio dà unidea della relazione che intercorre fra
indipendenza statistica e regressiva.
RelazionifraIndipendenzaStatisticaeRegressiva
Distribuzioni
identichegenerano
medieidentiche
IndipendenzaStatistica
(Distr.Condizionateidentiche)
F(Y|X)
Y
Medieidentichepossono
sorgeredadistribuzioni
differenti(es.graficoseguente)
M[Y|x1]=M[Y|X2]
x1
ma
F[Y|x1]F[Y|X2]
x2
X
50
IndipendenzaRegressiva
(MedieCondizionateidentiche)
3.1.4 Dipendenza Correlativa

Quando fra Xe Y esiste un legame che non necessariamente vede in una delle due variabili
la causa dellaltra, serve un indice simmetrico che misuri il grado di associazione fra
esse. In tal caso ci si riferisce allassociazione fra caratteri ed è sinonimo di movimento
congiunto, nel senso che allaumentare di X, Y tende generalmente a muoversi nessa
stessa direzione o in quella opposta, fermo restando che in caso di assenza di associazione
il movimento di Y sarebbe indeterminato. In caso di non associazione indicheremo
simbolicamente X C Y .
Due indici misurano lassociazione, la covarianza
PN
COV (X, Y ) =
=
i=1 (xi
R X
C
X
M (X)) (yi M (Y ))
N
(xi M (X)) (yj M (Y )) fi,j
i=1 j=1
= M (X Y ) M (X) M (Y )
la quale ha uninterpretezione esclusivamente di segno, se positiva indica comovimento

congiunto positivo, mentre se è negativa indica comovimento opposto; infine se è nulla
non vi è dipendenza correlativa.
Il secondo indice è il coefficiente di correlazione lineare che oltre ad uninterpretazione
di segno permette anche uninterpretazione sul grado di associazione lineare presente in
quanto esso varia fra -1 e 1
(X, Y ) =
COV (X, Y )
[1, 1]
(X) (Y )
nel seguente grafico vi sono alcuni esempi in merito, si noti lultimo grafico in cui pur
essendoci una relazione stretta ma non lineare il coefficiente di correlazione è basso
51
= 0.96
4.0
= 0.08
2 1
4.0
4.0
3.5
y
2 1
2.0
= 0.22
15
2 1
2 1
= 0.81
2.5
3.5
3.0
3.5
3.0
2.5
3.0
4.0
= 0.97
2 1
2.5
2.0
2.5
2.0
1
0
1
10
3.5
3.0
= 0.75
2 1
per quanto riguarda lesempio sulla relazione fra reddito e anni di scolarità, rammentando che M (X) = 11, 9 e M (Y ) = 1837, 5 e calcolando per ogni cella la quantit`
a
(xi M (X)) (yj M (Y )) fi,j otteniamo la seguente tabella
Y\X
0 ` 1000
1000 ` 1500
1500 ` 5000
(5 11, 9)
(500 1837, 5)
0, 1
(5 11, 9)
(1250 1837, 5)
0, 05
(5 11, 9)
(3250 1837, 5)
0, 05
(8 11, 9)
(500 1837, 5)
0, 03
(8 11, 9)
(1250 1837, 5)
0, 1
(8 11, 9)
(3250 1837, 5)
0, 07
13
(13 11, 9)
(500 1837, 5)
0, 02
(13 11, 9)
(1250 1837, 5)
0, 18
(13 11, 9)
(3250 1837, 5)
0, 1
18
(18 11, 9)
(500 1837, 5)
0
(18 11, 9)
(1250 1837, 5)
0, 17
(18 11, 9)
(3250 1837, 5)
0, 13
sommando poi tutte le celle otteniamo, come da definizione, la covarianza

COV (X, Y ) =
R X
C
X
(xi M (X)) (yj M (Y )) fi,j = 1158, 75
i=1 j=1
abbiamo stabilito che esiste associazione positiva, determiniamone ora il grado

(X, Y ) =
COV (X, Y )
1158, 75
=
= 0, 2212
(X) (Y )
24, 09 1139218, 75
giudichiamo la correlazione come positiva medio-bassa.

E pi`
u agevole adottare la formulazione COV (X, Y ) = M (X Y ) M (X) M (Y ) in
quanto si dispone già di M (X) e M (Y ) , facendo uso per la variabile continua per classi
52

Y dei valori centrali Y e calcolando per ogni cella la quantità xi yj e indicando fra (...)
la frequenza congiunta otteniamo la seguente tabella
Y \X
500
5
5 500 = 2500
(0,1)
(0,03)
(0,02)
(0,0)
1250
5 1250 = 6250
8 1250 = 10000
13 1250 = 16250
18 1250 = 22500
(0,05)
(0,1)
(0,18)
(0,17)
3250
5 3250 = 16250
8 3250 = 26000
13 3250 = 42250
13 3250 = 58500
(0,05)
(0,07)
(0,10)
(0,13)
8
8 500 = 4000
13
13 500 = 6500
18
18 500 = 9000
sommando infine le fi,j per le quali è risultato uno stesso valore a livello di xi yj
otteniamo la distribuzione di X Y

2500 4000 6250 6500 10000
16250
22500 26000 42250 58500
Z = XY
0, 1 0, 03 0, 05 0, 02 0, 1 0, 18 + 0, 05 0, 17 0, 07
0, 1
0, 13
P
da cui risulta che M (X Y ) = 10
i=1 zi f i = 23025 abbiamo ora tutti gli elementi per il
calcolo della covarianza: COV (X, Y ) = 23025 11, 9 1837, 5 = 11158, 75 .
53
3.2 Dati In Distribuzione Unitaria

3.2.1 Dipendenza Correlativa
Ipotizziamo ora di avere i seguenti dati in distribuzione unitariaP(prime tre colonne), per
il calcolo della covarianza dovremmo utilizzare COV (X, Y ) =
Casi
1
2
3
4
5
6
Media
Varianza
X
5
8
18
13
8
5
9,5
21, 583
Y
1100
1200
1900
2000
1500
1300
1500
116666, 6
N
i=1 (xi M (X))(yi M (Y
(xi M (X)) (yj M (Y ))

(5 9, 5) (1100 1500)
(8 9, 5) (1200 1500)
(18 9, 5) (1900 1500)
(13 9, 5) (2000 1500)
(8 9, 5) (1500 1500)
(5 9, 5) (1300 1500)
1383, 3
))
X Y
5500
9600
34200
26000
12000
6500
15633, 33
la media della quarta colonna è appunto la covarianza

PN
(xi M (X)) (yi M (Y ))
COV (X, Y ) i=1
= 1383, 3
N
in alternativa (e pi`
u rapidamente) evitando la costruzione di tale colonna avremmo
potuto costruire unicamente la quinta colonna calcolando la covarianza come
COV (X, Y ) = M (X Y ) M (X) M (Y ) = 15633, 33 9, 5 1500 = 1383, 3
il coefficiente di correlazione risulta essere
1383, 3
p
= 0, 8718
21, 583 116666, 6
(X, Y ) = p
54
3.2.2 Dipendenza in Media (Regressione Lineare)

Utilizziamo i dati dellesercizio precedente, disponiamo i punti su di un piano cartesiano
e facciamo passare fra essi una retta Y = + X tale che sia minima la quantità
N
X
[yi ( + xi )]2
2000
2500
i=1
1500
1000
10
15
20
questa è nota come retta dei minimi quadrati (o di regressione). Sul grafico i pallini
indicano le osservazioni, mentre le x la corrispondente stima. I valori e che risolvono
il problema sono
COV (X, Y )
V (X)
= M (Y ) M (X)
nel nostro esempio

=
1383, 3
' 64, 09
21, 583
= 1500 9, 5 ' 891, 12
55

3.2.2.1 Scomposizione della Varianza e R2
Per ogni yi osservato siamo in grado ora di associare un yi stimato
yi = 891, 12 + xi 64, 09
commettendo un errore i = yi yi
Casi
1
2
3
4
5
6
Media
Varianza
X
5
8
18
13
8
5
Y
1100
1200
1900
2000
1500
1300
1500
116666, 6
Y = + X
1211,58
1403,86
2044,79
1724,32
1403,86
1211,58
1500
88661,52
= Y Y
-111,58
-203,86
-144,79
275,68
96,14
88,42
0
28005,15
Dallesame delle medie e varianze delle colonne della tabella riemergono due importanti
relazioni, legate a quanto rilevato già in sede di analisi di dati in distribuzione di frequenza

M (Y ) = M Y

=
V Y
che è il noto teorema di scompo
V (Y )
+
V ()
| {z }
| {z }
| {z }
V arianza T otale
V arianza Spiegata
V arianza Residua
sizione della varianza

siamo alla ricerca di un indice che valga zero se V Y = 0 e che valga uno se V Y =
V (Y ) ; parimenti a quanto operato per lidentificazione dellindice 2 questo è dato da
R2 = 1

V Y
V ()
=
[0, 1]
V (Y )
V (Y )
ovviamente quanto R2 è pi`

u prossimo a uno tanto migliore sarà la qualità dellinterpolazione, viceversa nel caso in cui R2 sia basso. Unicamente nel caso bivariato vale la
relazione R2 = (X, Y )2 di notevole comodità per il calcolo manuale.
Nel nostro esempio R2 =
di interpolazione.
88661,52
116666,
6
' 0, 76 un valore medio alto che indica un buon grado
Osservazione: a parità di , un diverso R2 implica maggiore o minore forza della

relazione lineare, come evidenziato nel seguente grafico
56
3.5
3.5
3.0
2.5
2.5
3.0
2.0
2.0
2 1
2 1
3.2.2.2 La Previsione
Una volta noti , è possibile stimare Yi per nuovi casi non ancora osservati, quindi
con i > N . Nel nostro esempio supponiamo di osservare un nuovo caso per il quale
conosciamo solamente la scolarità, ad esempio 16 anni (x7 = 16) ; applicando i parametri
precedentemente ottenuti possiamo dare una stima del reddito per questa persona
y7 = 891, 12 + 16 64, 09 ' 1916, 6
3.2.2.3 Addendum: Regressione Multivariata
Per ogni unità oltre alla scolarità X (1) avremmo potuto osservare altre variabili indipendenti,in grado di influenzare il reddito, supponiamo che queste siano reddito del padre
X (2) e reddito della madre X (3) .
Casi
1
2
..
.
..
.
X (1)
5
8
..
.
..
.
X (2)
1000
1500
..
.
..
.
X (3)
900
1700
..
.
..
.
Y
1100
1200
..
.
..
.
definiamo la matrice delle variabili indipendenti

h
i
X(N 4) = 1|X (1) |X (2) |X (3)
57

ove la prima colonna è un vettore unitario, la relazione lineare ora diviene
Y = X +
con
0
1
=
2
3
che costituisce il vettore dei parametri che devono essere stimati affinchè sia minima la
quantità (indicando con T la matrice trasposta)
(Y X)T (Y X)
la soluzione è identificata attraverso semplici passaggi di minimizzazione di funzione
M in
(Y X)T (Y X)
= Y T Y Y T X (X)T Y (X)T (X)

= Y T Y 2Y T X T X T X
derivando rispetto a e uguagliando a zero

Y T Y 2Y T X T X T X
= 2Y T X 2 X T X = 0
= XT X
1
XT Y
Il resto dellanalisi (previsione, calcolo di R2 ) è identico al caso con una sola variabile
indipendente.
58
4 Esercizi di Statistica Descrittiva
59
Esercizio Nr. 1
Domanda 1. La seguente distribuzione sintetizza il numero di anni necessari al raggiungimento della laurea per gli iscritti alla Facoltà di Ingegneria per gli studenti che si
laureano entro i sette anni dalliscrizione:
n
4
5
6
7
Y = 0,10
0,35 0,40 0,15
a) Disegnare il diagramma a barre della distribuzione di frequenza
0.2
0.0
0.1
Frequenze
0.3
0.4
DIAGRAMMA A BARRE
Modalit
Figura 4.1:
b) Calcolare e rappresentare graficamente la funzione di ripartizione
La funzione di ripartizione è:
0.1
0.45
F (X) =
0.85
60
,
,
,
,
,
x<4
4x<5
5x<6
6x<7
x7

Mentre la sua rappresentazione grafica
0.6
0.8
0.4
0.2
Freq. Cumulate
1.0
1.2
0.0
Modalit
Figura 4.2:
c) Calcolarne moda, mediana, primo e terzo quartile, scarto quadratico medio, campo
di variazione e coefficiente di variazione
M (X) =
k
X
xi fi = 5.6
i=1
M oda (X) = 6
M e (X) = 6
Q1 (X) = 5
(barra evidenziata in blu nel graf ico a barre)

(controimmagine corrispondente alla linea rossa sulla f unz. di ripartizione)
(controimmagine corrispondente alla linea blu sulla f unz. di ripartizione)
Q3 (X) = 6
(controimmagine corrispondente alla linea verde sulla f unz. di ripartizione)

v
u k
uX
p
(X) =
V (X) = t
(xi M (X))2 fi = 0.8602
i=i
c (X) = M ax (X) M in (X) = 7-4 = 3

(X)
= 0.1536
|M (X) |
d) Dite se la distribuzione fornita è condizionata o meno e se s` a quale fenomeno
61

La distribuzione è condizionata al fatto che il numero di anni necessari al raggiungimento della laurea sia non superiore a sette. Quindi se intendiamo con Y
la distribuzione di frequenza riguardante iL tempo impiegato per raggiungere la
laurea per tutti gli iscritti otteniamo
X {Y |anni 7}
e) La Facoltà di Ingegneria dispone inoltre del dato per cui il tempo medio di coloro
che si laureano oltre il settimo anno è di 9 anni e questi costituiscono il 10% del
totale dei laureati, si calcoli il tempo medio di raggiugimento della laurea per tutti
gli studenti della Facoltà di Ingegneria
Avendo indicato con Y la distribuzione di frequenza relativa al numero di anni
necessari al raggiungimento della laurea per tutti gli studenti, otteniamo:
M (Y ) = M (Y |anni 7) .9 + M (Y |anni > 7) .1
avendo posto X = Y |anni 7 otteniamo
M (Y ) = M (X) .9 + M (Y |anni > 7) .1
= 5.6 .9 + 9 .1 = 5.94
Domanda 2. La Facoltà intende inoltre verificare se esiste una relazione fra numero
di anni impiegati a conseguire la laurea e quota di esami del primo anno superati con
successo entro il primo anno di corso.
La seguente tabella raccoglie, in via esemplificata, i dati rilevati sugli studenti fino ad
oggi laurati
X=Esami Sostenuti
Y=Anni
Laurea
4
5
6
7
0%
?
0.05
0.07
0.1
50%
0.03
0.1
0.06
0.05
100%
0.06
0.2
0.27
0
a) Si calcoli la frequenza congiunta mancante f (Y = 4, X = 0%)

Una distribuzione di frequenza multivariata deve, come nel caso univariato, rispettare
la condizione per cui la somma della frequenza di tutte le modalità possibili sommi
a uno:
r X
c
X
fij = 1
i=1 j=1
62

f11 = 1 .99 = .01
b) si calcoli la funzione di regressione (spezzata di regressione) del numero di anni
necessari al conseguimento della laurea (Y) sulla quota di esami superati entro il
primo anno dalliscrizione (X) e la si rappresenti graficamente
Dobbiamo costruire le tre distribuzioni condizionate Y |X = x
(
Y |X = 0%
(
Y |X = 50%
(
Y |X = 100%
4
0.01
0.23
4
0.03
0.24
4
0.06
0.53
0.05
0.23
0.07
0.23
0.1
0.23
0.1
0.24
0.06
0.24
0.05
0.24
0.2
0.53
0.27
0.53
0
0.53
e calcolarne le rispettive medie

M (Y |X = x) =
4
X
yi f (yi |X = x)
i=1
M (Y |X = 0%) =
1
[0.01 4 + 0.05 5 + 0.07 6 + 0.1 7] = 6.1304
0.23
M (Y |X = 50%) =
1
[0.03 4 + 0.1 5 + 0.06 6 + 0.05 7] = 5.5417
0.24
M (Y |X = 100%) =
1
[0.06 4 + 0.2 5 + 0.27 6 + 0 7] = 5.3962
0.53
E evidente la relazione negativa che intercorre fra percentuale di esami sostenuti

al primo anno e tempo impiegato per il raggiungimento della laurea, questo fatto
è del tutto ragionevole.
c) Si calcoli la distribuzione di frequenza della percentuale di esami sostenuti il primo

anno. Ritenete che la direzione didattica possa ritenersi soddisfatta dei risultati?
Si tratta di calcolare la distribuzione marginale di X

0% 50% 100%
X
0.23 0.24 0.53
Il fatto che pi`
u della metà degli studenti sostenga nel corso del primo anno tutti
gli esami previsti è da ritenersi soddisfacente per la direzione didattica.
63
SPEZZATA DI REGRESSIONE
5.8
5.6
Anni Laurea
6.0
5.4
0.0
0.2
0.4
0.6
0.8
1.0
Esami Sost.
Figura 4.3:
Domanda 3. Per lintero Ateneo i dati raccolti sui caratteri X = Percentuale esami
sostenuti il primo anno ed Y = Anni necessari al raggiungimento della laurea, sono
stati sintetizzati nelle seguenti misure: COV (X, Y ) = 0.3375, V (X) = 0.09, V (Y ) =
2.25, M (X) = 0.5, M (Y ) = 6.
a) Si calcolino i parametri della retta di regressione Y = + X
COV (X, Y )
-0.3375
=
= -3.75
V (X)
0.09
= M (Y ) M (X) = 6 -3.75 0.5 = 7.875
=
b) Si calcoli il coefficiente di correlazione (X; Y ) e lindice R2

(X, Y ) =
COV (X, Y )
COV (X, Y )
p
=
= -0.75
(X) (y)
V (X) V (Y )
R2 = (X, Y )2 = 0.5625
64

c) Si calcoli in media quanto impiega a raggiungere la laurea in Ateneo uno studente
che ha sostenuto il 75% degli esami previsti al primo anno
y (.75) = + .75 = 7.875+-3.75 .75 = 5.0625
65
Esercizio Nr. 2
Domanda 1. Data la seguente distribuzione statistica, riguardante il numero di tentativi necessari per superare lesame di Statistica, con media M (X) = 8, 45
n
?
7
10 15
X = 0,15
0,4 0,25 0,2
a) Determinare il valore della modalità mancante x1 e disegnare il diagramma a barre
della distribuzione di frequenza
Avendo a disposizione il valore di M (X) possiamo ricavare il valore mancante x1
attraverso la seguente relazione:
M (X) =
4
X
(xi M (X)) fi
i=1
8.45 = x1 0.15 + 7 0.4 + 10 0.25 + 15 0.2
x1 =
8.45 (7 0.4 + 10 0.25 + 15 0.2)

=1
0.15
b) Calcolare e rappresentare graficamente la funzione di ripartizione

La funzione di ripartizione è:
0.15
0.55
F (X) =
0.8
,
,
,
,
,
x<4
4x<5
5x<6
6x<7
x7
Mentre la sua rappresentazione grafica

c) Calcolarne moda, mediana, primo e terzo quartile, differenza interquartilica, scarto
66
0.2
0.0
0.1
Frequenze
0.3
0.4
DIAGRAMMA A BARRE
10
15
Modalit
Figura 4.4:
0.8
0.6
0.4
0.2
0.0
Freq. Cumulate
1.0
1.2
10
10
15
20
25
Modalit
Figura 4.5:
67

quadratico medio, campo di variazione e coefficiente di variazione
M oda (X) = 7
(barra evidenziata in blu nel graf ico a barre)
M e (X) = 7
(controimmagine corrispondente alla linea rossa sulla f unz. di ripartizi
Q1 (X) = 7
(controimmagine corrispondente alla linea blu sulla f unz. di ripartizion
Q3 (X) = 10
(controimmagine corrispondente alla linea verde sulla f unz. di ripartiz
q (X) = Q3 (X) Q1 (X) = 3

v
u k
uX
p
V (X) = t
(xi M (X))2 fi = 4.2834
(X) =
i=i
c (X) = M ax (X) M in (X) = 15-1 = 14

(X)
= 0.5069
|M (X) |
c) Calcolare un opportuno indice di asimmetria e concludere sulla presenza di asimmetria negativa o positiva
P4
2 F isher =
i=1 (xi
1 =
P4
3
M (X))3 fi
i=1 (xi M (X)) fi
=
3 = -0.0777
q
3
P4
2
i=1 (xi M (X)) fi
(Q3 (X) M e (X)) (M e (X) Q1 (X))

=1
Q3 (X) Q1 (X)
I segni dei valori assunti dai due indici sono discordi, questo induce ad una non
chiara presenza di asimmetria positiva o negativa. Dallosservazione del grafico a
barre tuttavia si può concludere a favore di una parziale presenza di asimmetria
positiva.
Domanda 2. Sia data la seguente distribuzione di frequenza marginale di X tratta

da uno studio su 2500 impiegati e riguardante il numero di ore trascorse giornalmente
davanti al PC:
n
0
3
5
8
X = 0,30
0,25 0,35 0,10
Nota inoltre la funzione di regressione di Y (indice di qualità della vista) su X:
M [Y |X = 0] = 3, 5 M [Y |X = 3] = 2, 1 M [Y |X = 5] = 2, 3 M [Y |X = 8] = 1, 5
68

a) Calcolare M[Y]
Dal noto teorema per cui la media delle medie condizionate è uguale alla media
non condizionata, ossia tradotto in formule
M (Y ) =
k
X
M (Y |X = xi ) f (xi )
i=1
M (Y ) = M (Y |X = 0) f (X = 0) + M (Y |X = 3) f (X = 3) +
+ M (Y |X = 5) f (X = 5) + M (Y |X = 8) f (X = 8)
M (Y ) = 3.5 0.3 + 2.1 0.25 + 2.3 0.35 + 1.5 0.1 = 2.53
b) La devianza spiegata DS
Indicando con ni le frequenze assolute ottenute da ni = fi N dove N = 2500
(casi osservati), otteniamo la devianza spiegata con la seguente formula:
DS =
4
X
(M (Y |X = xi ) M (X))2 ni
i=1
DS = (3.5 2.53)2 750 + (3.5 2.53)2 750 +

+ (2.3 2.53)2 875 + (1.5 2.53)2 250 =
= 1132.75
c) Sia inoltre DY = 2300 la devianza totale, si calcoli il rapporto di correlazione 2
Il rapporto di correlazione 2 è dato dal rapporto fra devianza spiegata (calcolata
al punto precedente) e devianza totale:
2 =
1132.75
DS
=
= 0.4925
DY
2300
Domanda 3. Da uno studio sulla relazione tra due fenomeni X e Y sono state effettuate N=100 rilevazioni. Note le seguenti quantità di sintesi M (Y ) = 1, 9 M (X) =
2, 7 M (XY ) = 3, 4 M (X 2 ) = 15 calcolare quanto segue:
a) Varianza, devianza, covarianza e codevianza di X

V (X) = M X 2 M (X)2 = 15 2.72 = 7.71
69

D (X) = V (X) N = 771
COV (X) = M (XY ) M (X) M (Y ) = 3.4 2.7 1.9 = -1.73
C (X, Y ) = COV (X, Y ) N = -173
b) I coefficienti e della retta di regressione y = + X
C (X, Y )
=
D (X)
C(X,Y )
N
D(X)
N
COV (X, Y )
= -0.2244
V AR (X)
= M (Y ) M (X) = 2.5058
c) Si interpretino i parametri ottenuti per la retta di regressione e si indichi la motivazione per la quale la covarianza assume sempre lo stesso segno del parametro
Il punto fondamentale è lesistenza di una relazione negativa fra la variabile Y e la
variabile X . Quindi ad un aumento di X corrisponde una diminuzione di Y .
Tale informazione era sin dallinizio desumibile dal segno assunto dalla covarianza,
infatti il segno di essa è sempre identico al segno del coefficiente della retta di
regressione, la motivazione è facilmente desumibile dalla formula di
=
COV (X, Y )
V (X)
visto che V (X) assume sempre segno positivo, è inevitabile che assuma sempre
lo stesso segno di COV (X, Y ).
d) Noto lindice di correlazione (X; Y ) = 0, 45 si calcoli e si interpreti lindice di
determinazione r2
r2 = (X, Y )2 = -0.452 = 0.2025
Come sappiamo r2 [0, 1] e questo per valori prossimi a zero indica un adattamento
non buono della retta di regressione.
70
Esercizio Nr. 3
Domanda 1.
La rilevazione delle temperature massime gionaliere nei mesi invernali nella città di
Varese ha dato luogo alla seguente n
distribuzione di frequenza:
[5,0) [0,5) [5,15)
Temp = [10,5)
0,1
0,4
0,3
0,2
a) Si disegni un opportuno grafico per la distribuzione di frequenza
Poichè trattasi di dati continui per classi utilizziamo listogramma in cui laltezza
di ogni parallelepipedo è data dalla densità di frequenza h , mentre la base indica
lampiezza della classe. Ne consegue che larea rappresenta la frequenza relativa
(f ) della classe:
f
h=
0.04
0.00
0.02
Densit
0.06
0.08
ISTOGRAMMA
10
10
15
Classi
Figura 4.6:
b) Si calcolino media, moda, varianza e scarto quadratico medio
71

Rammentando che per il calcolo di media, varianza e scarto quadratico medio ci si
riconduce al caso di una distribuzione discreta prendendo il valore medio di ogni
classe, otteniamo una nuova distribuzione
10+(5)
2
5+0
2
0+5
2
5+15
2
.1
.4
.3
.2
4
X
=
M (X) M X
x
i fi =
i=1
= -7.5 0.1 + -2.5 0.4 + 2.5 0.3 + 10 0.2 = 1
4
X
2
V (X) V X =
x
i M X
fi = 29
i=1
r
= 5.39
= V X
(X) X
Mentre il calcolo della moda è differente rispetto a quanto visto per le distribuzioni
discrete, infatti in questo caso la classe modale è quella che presenta la massima
densità
M oda (X) = 5 ` 0
Domanda 2. Si dia la definizione formale di funzione di ripartizione, la si calcoli per i

dati di cui allesercizio 1 e la si rappresenti graficamente.
F (x) = F req (X < x)

Essa presenta le seguenti proprietà
Monotonicit`
a crescente
0 F (x) 1
72

Dalle queste due proprietà ne discende che F () = 0 e F (+) = 1
Per le distribuzioni di frequenza continue per classi la funzione di ripartizione assume
laspetto di una retta spezzata
0
F (x) = F (xi1 ) +
, x (, min (X))
(x xi1 ) , x (xi1 , xi )
, x (max (X) , +)
f (x)
x
dove xi1 , f (x) , x sono rispettivamente estremo inferiore, frequenza e ampiezza

(x)
della classe a cui appartiene x. Rammentando che fx
= h (x) cioè non è nientaltro che
la densità della classe calcoliamo la funzione di ripartizione per la nostra distribuzione
-10 + 0.1
5 (x -10)
-5 + 0.4 (x -5)
5
F (x) =
0.3 (x 0)
0
+
0.2 (x 5)
5
+
10
,
,
,
,
,
,
x < -10
-10 x < -5
-5 x < 0
0x<5
5 x < 15
x 15
15
20
0.6
0.2
0.4
0.0
Freq. Cumulate
0.8
1.0
15
10
10
Classi
Figura 4.7:
73
Domanda 3.
Si dispone inoltre delle temperature gionaliere in tutti i comuni della Provincia di Varese
e dellaltitudine in metri di ogni comune. Questo tipo di dati ha dato origine alla seguente
tabella a doppia entrata:
Y=Temperatura
[10, 5)
[5, 0)
[0, 5)
[5, 15)
X=Altitudine
[200, 300) [300, 400)
0,05
0,08
0,07
0,10
0,12
0,10
0,07
0,03
[400, 1000)
0,15
0,15
0,07
0,01
a) Si calcoli la funzione di regressione (spezzata di regressione) della temperatura (Y)

sullaltitudine dei comuni (X) e la si rappresenti graficamente
Si tratta di calcolare le medie condizionate
M (Y |X = x) =
4
X
i=1
yi fyi |X=x =
4
X
i=1
yi
fyi ,x
fx
Trattandosi di variabili continue per classi, ricorriamo alla discretizzazione di Y

come di consueto
M (Y |X = 200 ` 300) = -7.5
0.05
0.07
0.12
0.07
+ -2.5
+ 2.5
+ 10
= 1.45
0.31
0.31
0.31
0.31
M (Y |X = 300 ` 400) = -7.5
0.08
0.1
0.1
0.03
+ -2.5
+ 2.5
+ 10
= -0.97
0.31
0.31
0.31
0.31
M (Y |X = 400 ` 1000) = -7.5
74
0.15
0.15
0.07
0.01
+ -2.5
+ 2.5
+ 10
= -3.22
0.38
0.38
0.38
0.38
SPEZZATA DI REGRESSIONE
Temperature
200
400
600
800
1000
Altitudini
Figura 4.8:
b) Si commenti il risultato di cui al punto a) indicandone la ragionevolezza

La funzione di regressione presenta un andamento decrescente, questo ad indicare
che allaumentare dellaltitudine dei comuni si riscontra una diminuzione della temperatura media. Questo risultato è del tutto ragionevole.
c) Si indichi la temperatura media per i comuni con altitudine 800 mt

Poichè i comuni con altitudine 800 mt rientrano nella classe 400 ` 1000 la temperatura media per essi risulta essere
M (Y |X = 400 ` 1000) = -3.22
75
76
Parte II
Probabilit`
a
77
5 Teoria (Cenni)
5.1 Esperimento ed Eventi
Abbiamo identificato nella popolazione la totalità dei dati afferenti una determinata
realtà. Esiste un tipo particolare di popolazione che è il frutto di un esperimento il cui
risultato dà luogo ad eventi elementari il cui esito è incerto. Sulla base degli eventi
elementari siamo interessati alla determinazione della probabilità di occorrenza di un
sottoinsieme di eventi elementari, definiti come eventi.
Ad esempio consideriamo la probabilità di ottenere un numero pari nel lancio di un dado:
Esperimento: lancio del dado
Eventi elementari: insieme dei risultati che si possono ottenere a ogni lancio
{1; 2; 3; 4; 5; 6}
Eventi: abbiamo scelto una partizione dei risultati tale che si possa ottenenere
{pari, dispari}
è consuetudine rappresentare insiemisticamente lesperimento
Dispari
4
6
1
3
5
Pari
Se indichiamo con Ei il generico evento a cui siamo interesati e con j il generico evento
elementare è palese che
X
P [Ei ] =
P (j )
j Ei
79

cioè la probabilità dellevento Ei è dato dalla somma delle probabilità dei singoli eventi
elementari appartenenti a Ei .
Nellesempio appena citato P [pari] = P [ = 2] + P [ = 4] + P [ = 6]
Ma come si determinano le probabilità degli eventi elementari j ?

Vi sono varie teorie basate sul significato intrinseco di probabilità
Classica
Frequentista
Soggettiva
Assiomatica
5.2 Teorie della Probabilit`

a
5.2.1 Classica
E la teorica pi`
u antica secondo la quale
P [j ] =
#Casi F avorevoli
#Casi P ossibili
(loperatore # indica la numerosità). Il limite di questa teoria è che questo concetto

di probabilità si può applicare ad esperimenti in cui i casi possibili sono tutti equiprobabili. Quindi funziona nellesempio del dado, avendosi che P [ = 2] = 16 ; P [ = 4] =
1
1
1
a questo apparato non funzionerebbe con
6 ; P [ = 6] = 6 e quindi P [pari] = 2 . Ma gi`
esperimento con un dado anche dichiaratamente truccato.
5.2.2 Frequentista
E succeduta a quella classica a causa delle limitazioni di questultima. Come determinare
P [j ] nellesempio del dado truccato? Secondo la teoria frequentista
P [j ] = limn
#Successi
#T entativi
cioè la probabilità emerge naturalmente come percentuale di successi ripetendo lesperimento allinfinito (da qui il nome di teoria frequentista), si noti che la probabilit`
a è
oggettiva e insita nelloggetto di indagine.
Tuttavia anche questa teoria ha dei limiti: non sempre lesperimento è ripetibile e spesso
quando lo è non è detto che le condizioni in cui viene ripetuto siano immutabili.
80
5.2.3 Soggettiva
La probabilit`
a di un evento è data dalla fiducia che un soggetto ha nel suo verificarsi,
intesa questa come la somma di denaro che il soggetto è disposto a pagare per ottenere
1 in caso di successo e zero in caso di insuccesso. Si noti che la probabilità ora non è
pi`
u insita nelloggetto di indagine, ma nella mente di chi la osserva (da qui il termine
teoria soggettiva), questo costituisce un punto debole per i fautori delloggettività della
probabilità, infatti soggetti diversi, in virt`
u di una differente avversione al rischio, avranno giudizi differenti circa il verificarsi di un medesimo evento. Il vantaggio principale è
dovuto alla possibilità di applicare la probabilità anche ad eventi irripetibili (si consideri
ad esempio la probabilità che luomo metta piede su Marte nei prossimo 10 anni).
5.2.4 Assiomatica
E una teoria astratta basata su postulati. Evita quindi di definire cosa sia la probabilità,
fornendo le caratteristiche minime che un apparato deve possedere affinchè si possa
parlare di probabilità.
Dato un esperimento per il quale siamo interessati alla probabilit`
a di uno o pi`
u
eventi (che contengono eventi elementari )
Sugli eventi (trattati come insiemi) sono definite le operazioni di unione, intersezione, negazione e differenza
Definiamo algebra la classe { di eventi tali che
{
se A { A {
S

k=1 Ak {
Data una algebra { definiamo probabilit`
a una funzione che associa ad ogni A { un
numero [0, 1]
P : { [0, 1]
tale probabilità deve soddisfare i seguenti assiomi:
1. Eventi sottoinsieme di formano una algebra
2. P [A] [0, 1] , A {
3. P [] = 1
4. Se A B = P [A B] = P [A] + P [B]
S
P
5. P[
n=1 An ] =
n=1 P [An ] , per An a due a due incompatibili
Dagli assiomi discendono una serie di propriet`
a della probabilit`
a, fra cui analizzeremo le
principali
Teorema delle probabilit`
a totali
81

Teorema delle probabilit`
a composte
Teorema di Bayes
5.3 Propriet`
a della Probabilit`
a
5.3.1 Teorema delle Probabilit`
a Totali
Ci limiteremo al caso di due eventi
P [A B] = P (A) + P (B) P (A B)
mentre è semplice determinare P (A) e P (B), per quanto riguarda P (A B) distinguiamo tre casi:
1. AB = in tal caso gli eventi sono incompatibili perciò P (A B) = P (A)+P (B)
2. A B 6= in tal caso gli eventi sono compatibili e distinguiamo due casi
a) A e B sono due eventi indipendenti A B quindi per definizione P (A B) =
P (A) P (B), ne segue che P (A B) = P (A) + P (B) P (A) P (B)
b) A e B sono eventi dipendenti in tal caso per determinare P (A B) si ricorre
al seguenti teorema delle probabilit`
a composte
5.3.2 Teorema delle Probabilit`

a Composte
P (A B) = P (A|B) P (B) = P (B|A) P (A)

ad esempio consideriamo gli eventi A = {oggi piove} = 0, 2 e B = {uso la moto} = 0, 4
e supponiamo tre scenari
1. Se A B 6= significa che A e B sono incompatibili (ossia se piove io non uso mai
la moto), in tal caso P (A B) = 0, 2 + 0, 4 = 0, 6
2. Se la probabilità che io usi la moto non è influenzata
dal fatto che piova o meno
allora A e B sono indipendenti e P (B|A) = P B|A = P (B) quindi per il teorema
delle probabilità composte P (A B) = P (B|A) P (A) = P (B) P (A) , da ci`
o
P (A B) = 0, 2 + 0, 4 0, 2 0, 4
3. Se la probabilità che io usi la moto è influenzata dal fatto che piova o meno,
allora A e B non sono indipendenti, è necessario quindi conoscere P (B|A) oppure
P (A|B) per determinare P (A B) . Supponiamo che P (B|A) = 0, 1 cioè la
probabilità che io usi la moto quando piove è del 10% - quindi molto ridotta
rispetto al suo utilizzo in generale - per il teorema delle probabilità composte
P (A B) = P (B|A) P (A) = 0, 1 0, 2 quindi P (A B) = 0, 2 + 0, 4 0, 1 0, 2
82
5.3.3 Teorema di Bayes

Dato un evento E le cui cause possono essere varie Ai , i = 1, ...n1 , note le probabilit`
aa
priori sul verificarsi delle singole cause P (Ai ) , note le P (E|Ai ) ossia le probabilità che
si manifesti E posto che si è manifestata la generica causa Ai vogliamo determinare le
probabilit`
a a posteriori P (Ai |E) cioè posto che sia accaduto E si vuole determinare la
probabilità che sia stato causato dal generico Ai , questo è possibile grazie al teorema di
Bayes
P (E|Ai ) P (Ai )
P (Ai |E) = Pn
i=1 P (E|Ai ) P (Ai )
consideriamo il seguente esempio
E il paziente ha la tosse cronica
A1 il paziente ha linfluenza P (A1 ) = 0, 2
A2 il paziente ha la bronchite P (A2 ) = 0, 1
A3 il paziente ha lAIDS P (A3 ) = 0, 05
A4 il paziente è sano P (A4 ) = 0, 65
sono note le probabilit`
a che il paziente sviluppi la tosse cronica posto che soffra di
A1 , A2 , A3 , A4 : P (E|A1 ) = 0, 2 P (E|A2 ) = 0, 8 P (E|A3 ) = 0, 5 P (E|A4 ) = 0, 01
posto che il paziente ha la tosse cronica, quale è la probabilità ce ciò sia dovuto ad
influenza, bronchite,...?
P4
Sia P (E) =
i=1 P (E|Ai ) P (Ai ) = 0, 1515 (denominatore del teorema di Bayes),
determiniamo le singole P (Ai |E)
1 )P (A1 )
P (A1 |E) = P4P (E|A
=
P (E|A )P (A )
0,20,2
0,1515
= 0, 2640
2 )P (A2 )
P (A2 |E) = P4P (E|A
=
P (E|A )P (A )
0,80,1
0,1515
= 0, 5281
3 )P (A3 )
P (A3 |E) = P4P (E|A
=
P (E|A )P (A )
0,50,05
0,1515
4 )P (A4 )
P (A4 |E) = P4P (E|A
=
P (E|A )P (A )
0,010,65
0,1515
i=1
i=1
i=1
i=1
= 0, 1650
= 0, 0429
Osservazione: a priori la probabilità che un soggetto sia sano è P (A4 ) = 0, 65. In seguito
osserviamo che ha la tosse cronica (E), quindi abbiamo bisogno di aggiornare la nostra
P (A4 )con P (A4 |E)e sicuramente sarà ribassata alla luce del fatto che P (E|A4 )è bassa
(cioè molto raro che un soggetto sano abbia la tosse cronica), per il teorema di Bayes
P (A4 |E) = 0, 0429 . Ragionamento analogo per gli altri Ai .
1
Le cause Ai sono necessarie (almeno una accade) ed incompatibili.
83
84
6 Variabili Casuali
Una variabile casuale è una funzione che associa ad ogni evento elementare j un numero
reale. Può essere una funzione di tipo uno a uno o di tipo molti a uno, cioè a differenti
j può essere associato uno stesso numero reale.
x1
x2
x3
Ad esempio nel lancio del dado, possiamo creare una variabile casuale che associ il numero
1 se esce pari ed il numero 0 se esce dispari. Perciò f (1 = 1) = 0, f (2 = 2) = 1,
f (3 = 3) = 0, f (4 = 4) = 1 , f (5 = 5) = 0 , f (6 = 6) = 1 da cui

0
1
X
P (X = 0) P (X = 1)
P (X = 0) = P (1 ) + P (3 ) + P (5 ) =
1
2
, P (X = 1) = P (2 ) + P (4 ) + P (6 ) =
1
2
6.1 Variabili Casuali Discrete

Assumono un insieme distinto di n-valori (finito o infinito), affinchè si tratti di variabile
casuale devono essere rispettate le seguenti proprietà
P (xi ) [0, 1] , i
Pn
i=1 P (xi ) = 1
su di esse vale quanto detto per le distribuzioni di frequenza per dati quantitativi discreti.
85
6.1.1 Bernoulli
assume solo due stati (zero ed uno) ed è utilizzata per tutti gli esperimenti che danno
luogo ad eventi dicotomici
X Be ()

X
[0, 1]
0
1
1
E (X) = 0 (1 ) + 1 =

V(X) = E X 2 E (X)2 = 2 = (1 )
nel seguente grafico vi è lesempio di X Be ( = 0, 8)
1.0
Bernoulli
0.0
0.2
0.4
P(X)
0.6
0.8
0.0
0.2
0.4
0.6
0.8
1.0
6.1.2 Binomiale
E utilizzata quanto si effetuano n prove ciascuna delle quali è distribuita come una
Bernoulli
Pn e si prende la somma dei risultati, quindi se Y Be () allora definendo
X = i=1 yi avremo
X Bin (n, )
(
X
86
[0, 1]
n {N\0}
xi = 1; 2; .....n
n!
P (xi ) = xi !(nx
xi (1 )nxi
i )!

P
P
E (X) = E ( ni=1 yi ) = ni=1 E (yi ) = n
P
P
V(X) = V ( ni=1 yi ) = ni=1 V (yi ) = n (1 )
nel seguente grafico è riportato un esempio per X Bin (n = 7, = 0, 3)
0.15
0.00
0.05
0.10
P(X)
0.20
0.25
0.30
Binomiale
6.1.3 Poisson
E adatta per situazioni riguardanti la frequenza di occorrenza di eventi in un certo lasso
temporale (ad esempio numero di chiamate ad un centralino), in particolare sorge come
limite di una distribuzione binomiale quando limn n = quindi affinchè questo sia
vero è necessario che sia molto piccolo per compensare un n tendente ad infinito (per
questo è nota come distribuzione degli eventi rari)
X P o ()
(
X
>0
xi = 0; 1; .....
x
P (xi ) = e xi! i
E (X) =
V(X) =
il seguente grafico rappresenta una X P o ( = 5), per convenienza il supporto è stato

troncato sul valore x = 20 .
87
0.10
0.00
0.05
P(X)
0.15
Poisson
10
15
20
6.1.4 Uniforme Discreta
E adatta in situazioni in cui il fenomeno assume un insieme distinto e finito di Nmodalità, ciascuno con eguale probabilità di accadimento.
X U (N ) , N {N0}

X
E (X) =
N +1
2
V(X) =
N 2 1
12
xi = 1; .....N
P (xi ) = N1
il seguente grafico rappresenta una X U (N = 5)
88
0.15
0.00
0.05
0.10
P(X)
0.20
0.25
0.30
Uniforme Discreta
6.2 Variabili Casuali Continue

Assumono uninfinità continua di valori in un intervallo, perciò la probabilità di un
preciso valore x è nulla, mentre ha senso definire la probabilità che si verifichi un numero
entro un intervallo, avendo definito con f la funzione di densità
Z x2
P {X [x1 , x2 ]} =
f (x) dx
x1
le proprietà che la funzione di densità deve rispettare sono

f (x) 0
R +
f (x) dx = 1
si noti che f svolge il ruolo dellistogramma per dati continui per calssi, ma con classi
di ampiezza infinitesima. La probabilità nulla per un generico punto x
è dimostrabile
semplicemente
Z x+x
Z x
P (X = x
) = limx0
f (x) dx =
f (x) dx = 0
x
definiamo la funzione di ripartizione

Z
F (x) =
f (t) dt
da cui P (X [x1 , x2 ]) = F (x2 ) F (x1 )
89
6.2.1 Uniforme
f (x) =
F (x) =
Rx
1
a ba dx
E (X) =
Rb
a
1
ba dx
ix
x
ba a
=
1
ba
= xa
ba
h 2 ib

V (X) = E X 2 E (X)2 =
x
2
b2 a2
2(ba)
x [a, b]
a+b
2
(ba)2
12
fab(x)
ba
1
ba
b
x
6.2.2 Esponenziale
E utilizzata in situazioni riguardanti il tempo di attesa prima che un evento accada (es.
la rottura di un impianto,...), perciò si osservi che opportunamente x <+
X Exp ()
>0
f (x) = ex
F (x) =
Rx
E (X) =
V (X) =
90
0 e
1
1
2
x dx
= 1 ex
x0
f(x)
10
è nota come distribuzione priva di memoria (per questo si vedano gli esercizi).
6.2.3 Normale Univariata

Descrive bene molti fenomeni naturali e sociali (ad esempio reddito, altezza delle persone)
è molto importante in statistica poichè è la distribuzione limite della media campionaria
(teorema del limite centrale) e di altri stimatori.
X N , 2
f (x) =
x <,
2 2
exp
<,
2 <+
1
(x )2
2 2
Rx
F (x) = f (t) dt non esiste analiticamente, esistono soluzioni tabulate per

N = 0, 2 = 1 cui ogni normale N , 2 può essere ricondotta oppure soluzioni
numeriche grazie ai calcolatori
E (X) =
V (X) = 2
91
f2(x)
0.8
di seguito sono evidenziate alcune distribuzioni normali, particolare importanza ricopre

quella in rosso (linea marcata) che rappreenta la c.d. normale standard ad essa pu`
o
essere ricondotta ogni distribuzione normale, come specificato nel seguente paragrafo.
0.0
0.2
0.4
0.6
N(0,1)
N(2,1)
N(2,4)
N(3,0.25)
10
10
6.2.3.1 Standardizzazione

Se X N , 2 operando la seguente trasformazione nota come standardizzazione
otterremo
92
Z=

X
N = 0, 2 = 1
0.6

ad esempio se X N = 7, 2 = 2 e vogliamo determinare P (X < 5) possiamo
ricondurre il problema alla forma standardizzata al fine di utilizzare le tavole

X
57
5
P (X < 5) P
=P Z<
= P (Z < 1, 41) ' 0, 079
<
0.0
0.2
0.4
0,079
57
2
6.2.4 Normale Multivariata

Xp N (p , pp )
f (xp ) = p
1
2||
n
o
exp (x )T 1 (x )
E (Xp ) = p
V COV (Xp ) = pp
ad esempio

X

=
5
2

, =
2 3
3 6

la matrice può essere trasformata nella matrice di correlazione in virt`

u del fatto che
cov(x1 ,x2 )
3
(x1 , x2 ) = (x1 )(x2 ) = 2 6 ' 0, 87
93
6.3 Momenti
E possibile sintetizzare ogni variabile casuale, discreta o continua, attraverso gli indici
di posizione, variabilità e forma indicati precedentemente nella parte inerente la statistica descrittiva. Prendendo ad esempio i principali (a sinistra indicheremo la formula
per variabili casuali discrete, mentre a destra per quelle continue) abbiamo il momento
centrale (rispetto allorigine)
s =
k
X
xsi p (xi )
xs f (x) dx
i=1
si noti che per s = 1 si ottiene il valore atteso. Il momento centrale rispetto alla media
è dato da
Z +
k
X
s =
(x )s f (x) dx
(xi )s p (xi )
i=1
la varianza si ottiene per s = 2. Lindice di asimmetria di Fisher per una variabile

casuale di conseguenza è dato da
2 =
[
2 ]
3
2
3
3
6.4 Disuguaglianza di Cebicev

Media e varianza forniscono importanti informazioni sulla natura della variabile casuale,
la disuguaglianza di Cebicev stabilisce che per qualunque distribuzione
P (|X | < ) 1
1
2
>0
limportanza di tale teorema si ravvisa appunto nella sua generalità verso ogni distribuzione identificando un limite inferiore per la massa di probabilità racchiusa nellintervallo simmetrico attorno alla media di semiampiezza (quindi proporzionale alla
radice della varianza), come evidenziato nel seguente grafico
94
0.0
0.2
0.4
f(x)
0.6
0.8
1.0
di conseguenza ne scaturisce un limite superiore alla massa di probabilità esterna, poichè

la massa totale è uno
1
P (|X | > ) 2
6.5 Trasformazione di Variabile

Consideriamo una variabile casuale x fx , se sottoponiamo a trasformazione la variabile
y = h (x) con h funzione monotona (enunceremo soltanto il risultato finale) possiamo
derivare la funzione di densità della variabile trasformata

1
h1 (y)

fy (y) = fx h (y)
y
non consideriamo il caso in cui x sia un vettore aleatorio, segnaliamo che esiste un
risultato analogo a quanto esposto.

A titolo di esempio consideriamo x N , 2 , data la trasformazione y = ex ci
chiediamo quale distribuzione abbia y. Abbiamo che x = h1 (y) = log (y) e
log(y)
y
1
y
h1 (y)
y
quindi

)
1 log (y) 2 1
exp
fy (y) =
2
y
2 2
1
y>0
questa è la distribuzione lognormale.
95

Nel caso di variabili casuali discrete, se il numero di modalità non è troppo elevato, è
possibile ricorrere alla trasformazione manuale delle singole xi . Ad esempio se

2
0
3
X
0, 15 0, 6 0, 25
in seguito alla trasformazione Y = X 2 otteniamo

0
3
4
Y
0, 6 0, 25 0, 15
6.6 Esempi
6.6.1 Bernoulli
Le pompe idriche xyz hanno una probabilità di guastarsi nel primo anno del 10%.
Levento è dicotomico (guasta/non-guasta) quindi la distibuzione adatta è la Bernoulli
1 = non guasta
2 = guasta
X (1 ) = 0 , X (2 ) = 1

X
0
1
0, 9 0, 1
6.6.2 Binomiale
Abbiamo acquistato 5 pompe xyz , determiniamo la probabilità che nel primo anno se
ne guastino 0,1,2,3,4,5. Se il guasto per ogni pompa è distribuito come una Bernoulli
allora il numero totale dei guasti sarà distribuito come una Binomiale
X Bin (n = 5, = 0, 1)
P (X = 0) =
5!
0
50
0!(50)! 0, 1 0, 9
= 0, 59049
P (X = 1) =
5!
1
51
1!(51)! 0, 1 0, 9
= 0, 32805
P (X = 2) =
5!
2
52
2!(52)! 0, 1 0, 9
= 0, 0729
P (X = 3) =
5!
3
53
3!(53)! 0, 1 0, 9
= 0, 0081
P (X = 4) =
5!
4
54
4!(54)! 0, 1 0, 9
= 0, 00045
P (X = 5) =
5!
5
55
5!(55)! 0, 1 0, 9
= 0, 00001
possiamo calcolare la probabilità di eventi pi`

u complessi, ad esempio la probabilit`
a di
avere almeno un guasto P (X 1) = 1 P (X = 0) = 1 0, 59 = 0, 41. Il numero di
guasti medi (ossia il numero medio di guasti che avrebbero molte imprese che hanno
acquistato 5 pompe xyz ) E (X) = n = 5 0, 1 = 0, 5
96
6.6.3 Poisson
Il numero medio di fulmini che cadono durante un temporale in 10 km quadrati nellarco
di unora è 3, ritenendo appropriata la distribuzione di poisson (ad esempio possiamo
ritenere che ogni attimo - leggasi tentativo - sia buono per un fulmine (quindi infiniti tentativi), ma che la probabilità che questo si scateni in un attimo - leggasi come
probabilità di successo in una bernoulli - sia molto piccolo)
X P o ( = 3)
calcoliamo quanto segue
Probabilit`
a che un fulmine cada nella prossima ora P (X = 1) =
Probabilit`
a che non cadano fulmini P (X = 0) =
e3 30
0!
e3 31
3!
= 0, 1494
= 0, 0498
Fulmini che cadono in media (ossia se prendessimo molti temporali, facendo la

media del numero di fulmini in unora in 10 km quadrati) E (X) = 3
Distribuzione del numero di fulmini in un temporale di 3 ore in 10 km quadrati
Y P o ( = 3 3)
Probabilit`
a che in 3 ore non cadano fulmini P (Y = 0) =
e9 90
o!
= 0, 0001
6.6.4 Esponenziale
Il tempo di attesa medio affinchè si verifichi la prossima piena presso il torrente xyz è di
3 settimane. Delineare la variabile casuale tempo di attesa per la prossima piena.
Se il fenomeno non ha memoria, nel senso che il tempo per la prossima piena non è
influenzato da quanto tempo è trascorso dalla piena precedente, allora è adatta una
distribuzione esponenziale.

1
X Exp =
3
Calcoliamo quanto segue
Probabilit`
piena
h a che la
i h avvenga
ientro la prossima settimana
1
1
F (0) = 1 e 3 1 1 e 3 0 = 0, 2835 0 = 0, 2835
R1
0
f (x) dx = F (1)
Probabilit`
a che la piena avvenga nella prima settimana del mese prossimo, posto
che da qui al prossimo mese non ci sono state piene (poichè P (A|B) = P P(AB)
(B) )
P {(X [4, 5]) (X > 4)}

P (X > 4)
h
i h
i
1
1
P (X [4, 5]) = F (5) F (4) = 1 e 3 5 1 e 3 4 = 0, 074722
P (X [4, 5] |X > 4) =
97

P (X > 4) = 1 P (X 4) = F (4) = 0, 263597
P (X [4, 5] |X > 4) =
0, 074722
= 0, 2835
0, 263597
la quale si noti è identica alla probabilità di alluvione nella prossima settimana,

quindi se le condizioni dellesprimento sono immutate (non ci sono state alluvioni
fino ad ora e da qui al prossimo mese) la probabilità di alluvione nella settimana
è identica alla probabilità di alluvione nella prima settimana del prossimo mese.
6.6.5 Normale
La distribuzione del peso in kg dei cigni del lago di Varese segue una legge normale del
tipo

X N = 5; 2 = 0, 25
determinare la probabilit`
a di osservare cigni con peso superiore ai 6 kg

X 5
65
P (X > 6) P
>
= P (Z > 2) = 0, 0228
0, 25
0, 25
determinare P {X (4, 825; 6)}

4, 825 5 6 5
P {X (4, 825; 6)} P Z

;
= 0, 9772 0, 3632 = 0, 614
0, 25
0, 25
98
7 Convergenza
7.1 In Distribuzione
E una convergenza globale nel senso che non è richiesto che una singola estrazione da
Fn (x)sia prossima a F (x), ma solamente che effettuate molte estrazioni da Fn (x) e da
F (x) queste siano distribuite quasi nello stesso modo per n
limn Fn (x) = F (x)
Ad esempio se Fn (X) = x
1
n
con x
1
n, 1
1
n
avremmo che
limn Fn (x) = x
0.2
0.4
Fn(x)
0.6
0.8
1.0
ossia Fn (x) tende alla distribuzione uniforme, graficamente
0.0
F(x)
F0.5(x)
F3(x)
99
7.2 In Probabilit`
a
E una richiesta pi`
u forte rispetto alla convergenza in distribuzione, ora è richiesto che
estraendo coppie di numeri casuali (da Fn (x) e F (x)) e prendendone le differenze, la
probabilità di osservare differenze assolute < tende a zero per n
limn P [|Xn X| < ] = 1
equivalentemente ogni coppia di punti (x, xn ) dovrà disporsi sulla bisettrice entro le
bande con probabilità prossima a uno per n
xn
si noti che X può essere una costante.
7.3 In Media r-esima

Se estraiamo coppie di numeri casuali da Fn (X) e F (X) calcolando gli scarti |xn x|R
per ogni coppia e prendendone la media, se essa 0 per n abbiamo convergenza
in media R-esima
limn E|Xn X|R = 0
100
7.4 Quasi Certa

Non ha rilevanza ai nostri fini, è la convergenza pi`
u forte
P [limn Xn = X] = 1
7.5 Legge Debole dei Grandi Numeri

Se estraiamo (in forma indipendente) molti numeri da una stessa variabile casuale con
media allora la media di questi numeri estratti sarà tanto pi`
u prossima alla vera media
se il numero di estrazioni .

n X| < = 1
limn P |X
ossia la media campionaria tende in probabilità alla vera media della variabile casuale.
7.6 Teorema del Limite Centrale

E un teorema fondamentale (da qui il nome centrale) in quanto su di esso poggia parte
della teoria statistica asintotica (basata su grandi campioni).
Qualunque sia la distribuzione della variabile casuale (Bernoulli, Binomiale,...) la rispettiva media campionaria tende ad una distribuzione normale centrata sulla vera media
e con varianza sempre pi`
u piccola per campioni sempre pi`
u ampi.
n n
X
N
con
n =
X
Pn
i=1
2
,
n
xi
xi iid (indipendenti
tribuite)
ed identicamente dis-
e 2 finite
101
102
8 Esercizi di Probabilit`
a
103
Probabilit`
a Totali
Nellesperimento lancio di un dado si calcoli la probabilità dellevento numero pari o
minore uguale a tre
P {pari 3} = P {pari} + P { 3} P {pari 3}

3 3 1
+
=
6 6 6
AB
A
6
4
Come si può notare, essendo gli eventi A e B non incompatibili (a livello insiemistico ci`
o
è denotato dal fatto che i relativi insiemi sono non disgiunti), abbiamo dovuto sottrarne
a probabilità dellintersezione, al fine di evitare doppi conteggi circa le probabilità. Tale
è appunto la logica del teorema delle probabilità totali che qui riportiamo
P {A B} = P {A} + P {B} P {A B}
104
Probabilit`
a Composte
Il teorema delle probabilità composte ci aiuta a calcolare la probabilità di verificarsi di
uno o pi`
u eventi.
P {A B} = P {A|B} P {B} = P {B|A} P {A}
Sempre nel lancio di un dado, calcolare la probabilità che esca un numero pari e minore
uguale a quattro.
P {P ari 4} = P {P ari| 4} P { 4}
2 4
1
=
=
4 6
3
1
3
5
2
P {A B} = P {A|B} P {B}
4
B
Come caso particolare abbiamo lindipendenza fra eventi (da non confondersi con lincompatibilità), il caso in cui cioè P {A|B} = P {A}. Ciò significa che la probabilità
di verificarsi di Anon è influenzata dal fatto che si sia verificato B ; nel nostro esempio
infatti la probabilità che esca un numero pari non è influenzata dal fatto che sia uscito un
numero 4 (infatti in entrambi i casi abbiamo una probabilità 0,5 che esca un numero
pari). In tale caso la formula delle probabilità composte si semplifica nella seguente
P {A B} = P {A} P {B}
Ma attenzione funziona solo in caso di indipendenza: nellesempio precedente avrebbe

funzionato infatti
P {P ari 4} = P {P ari} P { 4}
1 4
1
= =
2 6
3
105
Calcoliamo ora P {P ari 3} in tal caso non abbiamo indipendenza, infatti P{P ari| 3} =
6
P {P ari} è quindi corretto utilizzare la seguente formula
P {P ari 3} = P {P ari| 3} P { 3} =
1 1
1
=
3 2
6
sarebbe invece scorretto utilizzare la seguente

P {P ari 3} = P {P ari} P { 3} =
1 1
1
=
2 2
4
Si calcoli ora la probabilità che esca un numero minore o uguale a quattro, posto che sia
uscito un numero pari
R: qui dobbiamo fare uso della relazione indicata in precedenza P {A B} = P {A|B} P {B} =
P {B|A} P {A} . Nel nostro caso A=Pari , B= 4, ci viene chiesto insomma di calcolare P {B|A}, con semplici passaggi algebrici isoliamo tale membro e troviamo che
P {B|A} = P P{AB}
{A}
P { 4|pari} =
=
=
106
P {pari 4}
P {pari}
P {pari| 4} P { 4}
P {pari| 4} P { 4} + P {pari| > 4} P {> 4}
2
4
2
4 + 6
1 2 = 3
2 4
4 6 + 2 6
Leggi di De Morgan
Prima legge
A B = A B
A
A
A
B
C
C
A B
AB
Seconda legge:
A B = A B
A
A
A
B
C
C
AB
A B
107
Probabilit`
a Totali e Composte
Nellesperimento lancio del dado, siamo interessati alla probabilità del verificarsi del
seguente evento: esce dispari e 3 oppure 3 oppure 4 oppure 5.
Innanzitutto procediamo alla formalizzazione del problema
P {evento} = P {dispari 3} P {3 4 5}
Ai fini della risoluzione è utile rappresentare graficamente il problema e scomporre

levento di interesse in eventi pi`
u semplici da trattare:
E2 = {3 4 5}
E1 = Dispari 3
4
1
E1 E2
3
5
2
Dispari
P {E} = P {disp} P { 3|disp} + P {3 4 5} P {E1 E2 } =

|
{z
} |
{z
}
E1
=
=
108
3 2 3 1
+
6 3 6 6
4
2
2 3 1
+ = =
6 6 6
6
3
E2
Marginalizzazione
Sia data la seguente lotteria: da unurna contenente 5 palline bianche e 10 nere se pesco
una pallina bianca partecipo alla lotteria A, mentre se pesco una pallina nera partecipo
alla lotteria B. Nella lotteria A si possono vincere 10 euro con probabilità 0,5 e perderne
altrettanti con probabilità 0,5. Nella lotteria B invece si ha una probabilità di 0,1 di
vincere 10 euro ed una probabilità 0,9 di perderne altrettanti.
Formulare la variabile aleatoria vincita-perdita di euro

10 10
X
1 p p
Calcolare la vincita attesa
Per la risoluzione ci può avvalere, a condizione che gli eventi Bi siano fra loro indipendenti
ed esaustivi, della seguente relazione
P {Ah } =
k
X
P (Ah |Bi ) P (Bi )
i=1
Nel nostro caso A1 = 1 p mentre A2 = p sfruttando quanto appena detto otteniamo,

indicando con lA = lotteria A e con lB = lotteria B
P (10) = 1 p = P (10|lA ) P (lA ) + P (10|lB ) P (lB )
P (10) = p = P (10|lA ) P (lA ) + P (10|lB ) P (lB )
esplicitando la formula per la media otteniamo
E (X) = 10 P (10) + 10 P (10)
sostituendo quanto sopra determinato otteniamo

E (X) = 10 {P (10|lA ) P (lA ) + P (10|lB ) P (lB )} +
+ 10 {P (10|lA ) P (lA ) + P (10|lB ) P (lB )}
e riordinando i termini
E (X) = {10 P (10|lA ) P (lA ) + 10 P (10|lA ) P (lA )} +
+ {10 P (10|lB ) P (lB ) + 10 P (10|lB ) P (lB )}
E (X) = P (lA ) {10 P (10|lA ) + 10 P (10|lA )} +
+ P (lB ) {10 P (10|lB ) + 10 P (10|lB )}
109

E (X) = P (lA ) E [lA ] + P (lA ) E [lB ]

10
5
1
1
1
9
+
= 5, 3
E (X) =
10 10
10
10
15
2
2
15
10
10
Si calcoli p
p = P (10|lA ) P (lA ) + P (10|lB ) P (lB )
5
1 10
1
=
+
= 0, 23
15 2 15 10
Si calcoli lo scarto quadratico medio della V.A. X
V (X) = [10 (5, 3)]2 0, 23 + [10 (5, 3)]2 (1 0, 23)
p
V (X) = 8, 459
(X) =
Teorema di Bayes
Siano note le probabilità di verificarsi delle seguenti patologie: HIV, Epatite ed Influenza.
Siano note altres` le probabilità che un soggetto, posto che abbia una delle tre patologie,
mostri la presenza di un certo sintomo S . Si proceda al calcolo che un soggetto abbia
una delle patologie, posto che denoti la presenza del sintomo S .
P [HIV ] = 0, 01 P [Ep] = 0, 05 P [Inf l] = 0, 94
P [S|HIV ] = 0, 7 P [S|Ep] = 0, 5 P [S|Inf l] = 0, 1
Per calcolare quanto richiesto, viene in aiuto il teorema di Bayes. Esso entra in gioco tipicamente quando viene chiesto di invertire lordine in cui appare una probabilit`
a
condizionata, nel nostro caso siamo interessati genericamente a P [patologia|sintomo]
P (S|patj ) P (patj )
P [patj |S] = P3
i=1 P (S|pati ) P (pati )
P (HIV ) P (S|HIV ) = 0, 007
P (Ep) P (S|Ep) = 0, 025
P (Inf ) P (S|Inf ) = 0, 094
3
X
P (pati ) P (S|pati ) = 0, 007 + 0, 025 + 0, 094 = 0, 126
i=1
P (HIV |S) =
P (Ep|S) =
P (Inf l|S) =
110
0, 007
= 0, 0556
0, 126
0, 025
= 0, 1984
0, 126
0, 094
= 0, 7460
0, 126
Si supponga che il paziente sia di ritorno da un viaggio in Asia, ricalcolare P [pati |S Asia]
sapendo che P [HIV |Asia] = 0, 05 P [Ep|Asia] = 0, 15 P [Inf l|Asia] = 0, 8
R: In questo caso basta sostituire P [pati ] con la nuova che tiene conto della visita in
Asia P [pati |Asia] , muta insomma la nostra valutazione a priori sulla patologia
P (S|patj ) P (patj |Asia)
P [patj |S Asia] = P3
i=1 P (S|pati ) P (pati |Asia)
Si supponga di non sapere se il paziente sia stato in Asia o meno,
ma di conoscere

genericamente che la probabilità che P [Asia] = 0, 1. Ricavare P patj |S Asia
R: sfruttando la generica relazione secondo cui

P [A|B] = P [A|B, C] P [C] + P A|B, C P C

P [patj |S] = P [patj |S Asia] P [Asia] + P patj |S Asia P Asia

P [patj |S] P [patj |S Asia] P [Asia]

P patj |S Asia =
P Asia
non ci resta che sosituire gli elementi calcolati precedentemente per giungere a quanto
segue

P HIV |S, Asia = 0, 0413

P Ep|Asia = 0, 1766

P Inf l|Asia = 0, 7821
111
Uniforme Discreta
In questo esercizio verificheremo il funzionamento della formula (abbreviata) per il calcolo
della media nel caso in cui la distribuzione di probabilità non assuma valori nellintervallo
{1, 2, ...N }
Si data la seguente distribuzione di probabilità

1 2 ... N
X
1
1
... N1
N
N
Sapendo che E (X) = 2, 5 determinare N
E (X) =
N
X
xi fi =
i=1
N
X
1
N
i=1
|{z}
=
=
sfruttando lidentità E(X) =
N +1
2
N (N +1)
2
N (N +1)
2
N +1
2
possiamo ricavare N conoscendo la media
N = 2 E(X) 1
= 2 2, 5 1 = 4
Si assuma ora che la distribuzione uniforme discreta sia la seguente

10 11 ... 14
X
1
1
... 15
5
5
Verifichiamo che in tale caso non opera pi`
u la formula data precedentemente
E (X) =
5
X
xi fi = 12
i=1
N (N +1)
2
1415
2
=
= 7, 5
N
14
lerroneità della formula è evidente, in quanto il risultato non soddisfa la propriet`
a di
internalità della media aritmetica.
Si trasformi la distribuzione di probabilità in modo da peter utilizzare la formula semplificata E (X) = N (NN+1)/2
= X [min (X) 1]
X
+ min (X) 1
X=X
112
1
1
5
2 ... 5
1
1
5 ... 5
N +1
5+1
=
E X
=
=3
2
h2
i
+ (min(X) 1)
E (X) = E X
{z
}
|
E [X+
]=+E [X ]
h i
= [min (X) 1] + E X
= 10 1 + 3 = 12
Binomiale Bernoulli e Poisson

Da un mazzo di carte se pesco pi`
u di tre figure su 5 tentativi mi viene dato un importo
in euro pari al numero di auto che passeranno nella prossima ora.
Sapendo che il numero medio di auto che transita in un quarto dora sia 5 si proceda al
calcolo di quanto segue:
Formulare la variabile aleatoria numero di figure pescate
(
0 1 2 3 4 5
12 xi
5xi
X
5
1 12
xi
40
40
Determinare P [X 3]
P [X 3] = P (3) + P (4) + P (5) = 0, 1323 + 0, 0284 + 0, 0243 = 0, 16308
Descrivere la variabile aleatoria procedo / non procedo al conteggio delle auto
Y Be ( = 0, 16308)
mediamente quante volte ripetendo lesperimento, si procederà al conteggio delle auto?
R: basta utilizzare la formula per il valore atteso della Bernoulli
E (Y ) = = 0, 16308
Si indichi la variabile aleatoria numero di auto in 1 ora
R: Si tratta di una Poisson con parametro (nota bene) =
4}
|5 {z
nr. auto nr quarti d0 ora
Z P o ( = 20)
113

(
Z
0 1 2 ..... +
e zi
zi !
Si calcoli E [vincite|nr. f igure 3]

R: Esemplicemente il valore atteso della Poisson: E [vincite|nr. f igure 3] = = 20
Si calcoli la probabilità di vincere 20 euro posto che il numero di figure estratte sia
3
20
20
R: P [Z = 20| nr. f igure 3] = e 20!20 = 8, 88%
Probabilità di non vincere posto che il numero di figure estratte dia 3
20 0
R: P [Z = 0| nr. f igure 3] = e 0!20 = 2, 06e 9
Si dica ora quale è la probabilità di non vincere
R: non è pi`
u presente la condizione che il numero di carte estratte sia stato 3. In
questo caso la probabilità di non vincere è data dalla somma della probabilità di estrarre
un numero di carte inferiore a 3 e della probabilità che non passi nessuna auto posto che
si sia proceduto al conteggio delle auto (cioè posto che il numero di carte estratte sia
stato 3).
P [non vincere] = P [X < 3] + P [X 3 e Z = 0]
= P [X < 3] + P [X 3 Z = 0]
{z
}
|
P (AB)=P (A|B)P (B)
= P [X < 3] + P [Z = 0|X 3] P [X 3] =
= (1 0, 16308) + 2, 06e 9 0, 16308 = 0, 83692
|
{z
}
'0
Si calcoli ora P [vincere 20 euro]

R: anche in questo caso non è presente la condizione. La probabilità di vincere 20 euro è
data dal verificarsi di due eventi congiuntamente: pescare un numero di carte 3e che
passino esattamente 20 auto
P [vincere 20 euro] = P [passano 20 auto e nr. f igure 3]
= P [Z = 20 X 3]
= P [Z = 20|X 3] P [X 3]
= 0, 0888... 0, 16308 = 0, 0145
114
Uniforme Continua
I voti ottenuti in due materie desame sono cos` distribuiti:
M atematica (X) U [10, 20]
Statistica (Y ) U [8, 30]
Due studenti stanno per sostenere lesame di matematica luno e lesame di statistica
lalto. Determinare la probabilità che sicuramente lesaminando di statistica prenda
un voto del suo collega.
R: La certezza di ha solo se il voto di statistica sarà 20 , quindi
Z 30
1
P [Y 20] =
dx
20 30 8

x 8 30
=
30 8 20
= 1 0, 54... = 0, 4545
Quante volte è pi`

u probabile il verificarsi di X in [10, 20]rispetto ad Y?
R: si tratta di un semplice rapporto tra integrali
R 20 1
dx
P [X (10, 20)]
1
=
= R1020 2010
R
20
1
1
P [Y (10, 20)]
dy
dy
10 308
10 308
1
=
' 2, 2
0, 45...
Calcolare il voto in corrispondenza del quale P (X x) = P (Y y)
R: E il punto in cui le funzioni di ripartizione F (X) e F (Y ) si incrocianoquindi:
x8
30 8
x8
22
10(x 8) + (10 x)22
220
10x 80 + 220 22x
=
=
x 10
20 10
x 10
10
= 0
= 0
12x + 140 = 0
140
= 11, 6
x =
12
115
Esponenziale
Le batterie per telefonino xyz hanno una durata media di 2 anni
Indicare una distribuzione di probabilità appropriata per modellare il carattere.
R: La distribuzione esponenziale è appropriata in quanto ha supporto positivo e continuo,
1
in virt`
u del fatto che E [X] = 1 = E[X]
= 12 quindi

1
X Exp =
2
f (x) = ex
Z x
ex dx = 1 ex
F (x) =
0
Indicare la probabilità che

le batterie durino pi`
u di un anno
+
Z 1
1 1x
1 1x
2
P [X > 1] =
e
dx = 1
e 2 dx
2
1
0 2
i
h
1
1
= 1 1 e 2 1 = e 2 ' 0, 6065
Z
le batterie durino pi`

u di due anni
Z
P [X > 2] = 1
0
i
h
1
1 1x
e 2 dx = 1 1 e 2 2 = e1 ' 0, 3679
2
batterie con un anno di vita non debbano essere cambiate nel corso dellanno
successivo
P [X > 2|X > 1] =
P [X > 2]
P [X > 2 X > 1]
=
P [X > 1]
P [X > 1]
1
e 2 2
1
e 2 1
' 0, 6065
Si noti che P [X > 2|X > 1] = P [X > 1] , questo significa che la probabilit`
a di
durata residua non è influenzata da quanto la batteria sia vecchia. Questo dipende
dalla particolare conformazione della distribuzione esponenziale che è appunto
definita distribuzione con assenza di memoria.
in una famiglia in cui ci sono 5 telefonini comprati lo scorso anno almeno una
batteria vada sostituita nel corso dellanno
116

R: utilizziamo una distribuzione binomiale il cui parametro rappresenta la probabilità di sostituzione di una batteria di un anno di vita nel corso del anno a venire,
esattamente il complementare di quanto calcolato al punto precedente, quindi
"
#
1
e 2 2
Z Bin n = 5; = 1
1
e 2 1
P [X 1] = 1 P [0] ' 0, 9179
117
Normale
Notazione
Una breve premessa sulla notazione che utilizzeremo nel corso della serie di esercizi sulla
normale.
Data la seguente distribuzione di probabilità
X N (, )
definiamo standardizzazione la seguente operazione

Z=
x
N (0, 1)
inoltre definiamo la funzione di ripartizione di una N (0, 1) con la seguente simbologia

Z
(x) =
N (0, 1) dx
La motivazione per cui si ricorre al processo di standardizzazione sta nel fatto che lintegrale di una generica distribuzione normale non è risolvibile analiticamente, tuttavia
è sempre possibile ricondurre qualsiasi tipo di distribuzione normale alla N(0,1), per la
quale sono disponibili tavole che ne riportano la soluzione numerica dellintegrale, in
alternativa ad esse è possibile ricorrere a software prettamente statistico o con funzioni
statistiche (ad esempio Excel della Microsoft) .
Esercizi con le tavole

Data la distribuzione di probabilità X N (0, 1) si proceda al calcolo di quanto segue
P (X 1, 96) = (1, 96) = 0, 975
P(X 1, 88) = (1, 88) = 1 (1, 88) = 1 0, 03
P(1, 5 X 0, 5) = (0, 5) (1, 5) = 0, 69146 0, 66807 ' 0, 6247
Data la distribuzione di probabilità X N ( = 3; = 2)

Dare lespressione per P (X 4, 5)
+
P (X 4, 5) =
4,5
118
exp
(x 3)2
2 32
232
1

dx
non risolvibile analiticamente

Calcolare P (X 4, 5) . Per la soluzione dobbiamo ricondurre la distribuzione alla
normale standardizzata e cercare la soluzione sulle tavole
P (X 4, 5) = 1 P (X < 4, 5)

X
4, 5 3
4, 5
1P
=1P Z <
<
2

4, 5 3
= 1 (0, 075) = 0, 47011
=1
2
Dato il punto z = 1 relativo alla N (0, 1) si risalga al punto corrispondente di
una N ( = 3; = 2)
R: si tratta di effettuare loperazione inversa rispetto alla standardizzazione
x = +z
z =
x = 3 + (1) 2 = 1
Esercizio
Il rendimento di un titolo azionario è distribuito come una normale R N ( = 0, 02; = 0, 1).
determini:
Si
la probabilità di avere rendimenti negativi

X 0, 02
0 0, 02
P (X < 0) P
<
0, 1
0, 1

0 0, 02
=
= 0, 4207
0, 1
la probabilità di avere rendimenti estremi nel senso di avere rendimenti superiori al 5%
oppure inferiori all1%
P (X> 0, 05) P (X < 0, 01)

0,050,02
X0,02
P X0,02
>
P
0,1
0,1
0,1 <
h

i

0,050,02
0,010,02
= 1
+
0,1
0,1
0,010,02
0,1
= [1 0, 61791] + 0, 38209 = 0, 76418
Esercizio
Si supponga di volere un titolo azionario la cui probabilità di rendimenti negativi sia del
40% e la probabilità di rendimenti inferiori al 10% sia dell1%. Supposto che i rendimenti siano distribuiti normalmente si proceda alla determinazione delle caratteristiche
119

che tale titolo deve possedere
la distribuzione normale è caratterizzata da media e varianza, dobbiamo quindi giunR:
gere alla loro identificazione a partire dai due elementi forniti, si tratta quindi di mettere
a punto un sistema di due equazioni con due incognite

P (X < 0)
= 0, 4
P (X < 0, 1) = 0, 01

P X <

P X <

0,1
= 0, 4
= 0, 01

0
= 0, 4

0,1
= 0, 01
dobbiamo quindi cercare sulle tavole della N(0,1) i due punti z1 e z2 che lasciano alla
propria sinistra unarea pari a 0, 4 e 0, 01 , essi corrispondono ai punti z1 = 0, 25 e
z2 = 2, 33 quindi
0
= 0, 25
0,1
= 2, 33
non ci resta che operare per sostituzione, nella prima equazione isoliamo la prima
incognita
= 0, 25
sostituiamo nella seconda equazione
= 0, 1 + 2, 33
0, 25 = 0, 1 + 2, 33
0, 1
=
' 0, 0481
2, 33 0, 25
sostituiamo ora questo valore nella prima equazione
= 0, 25
= 0, 25
0, 1
' 0, 012
2, 33 0, 25
Il titolo che soddisfa i requisiti imposti ha rendimenti, R, t.c.

R N ( = 0, 012; = 0, 0481)
120
Verifichiamo che approssimativamente tale titolo abbia le caratteristiche richieste

R 0, 012
0 0, 0120
0 0, 012
P [R < 0] P
=
= 0, 40129 ' 0, 40
<
0, 0481
0, 0481
0, 04807

0, 1 0, 0120
R 0, 012
0, 1 0, 012
=
= 0, 009031 ' 0, 01
P [R < 0, 1] P
<
0, 0481
0, 0481
0, 04807
come richiesto.
121
122
Parte III
Statistica Inferenziale
123
9 Introduzione
Riprendendo lo schema iniziale circa lestensività delle osservazioni disponibili, analizziamo meglio il concetto di popolazione alla luce del capitolo inerente la probabilità.
Possiamo idealmente identificare due tipi di popolazioni
Popolazioni Finite per loro natura riguardano fenomeni relativi ad un insieme ben limitato e preciso tale che è possibile averne una totale conoscenza. Se solo parte di
tale fenomeno è nota, questa si definisce allora campione da popolazione finita
Popolazione Infinita è illimitata in quanto frutto di un meccaniscmo generatore di risultati (meccanismo generatore della probabilità) quindi è impossibile averne una totale conoscenza in quanto illimitata. Se sono noti alcuni risultati generati da tale
meccaniscmo, questi si definiscono campione da variabile casuale
Ci limiteremo allanalisi di popolazioni infinite.
9.1 Campionamento da Variabili Casuali: il Modello Statistico

Illustriamo i concetti con un semplice esempio: costruiamo una slot machine e la tariamo
in modo che la probabilità di vittoria sia 0,1. La popolazione è potenzialmente infinita, poichè dalla slot machine possono essere generati infiniti tentativi. Il meccanismo
generatore della probabilit`
a è la slot machine
noi costruttori ne conosciamo il parametro di taratura, quindi siamo in grado di
rispondere a domande quali la probabilità di vittoria, probabilità di ottenere x
successi posto che si effettuano n tentativi,... Questo è il dominio di applicazione
del probabilista il quale noto il meccanisco generatore della probabilità tenta di
rispondere alla probabilità di accadimento di eventi complessi.
coloro che non hanno costruito la slot machine, ignari del parametro di taratura,
dovrebbero tentare di stimarlo per poi rispondere a domande menzionate sopra
quali numero medio di successi,... questo è proprio il compito dello statistico il
quale
tramite esperimento ottiene un campione dalla popolazione (campionamento

da variabile casuale)
utilizza un metodo atto alla stima del parametro incognito
125

Questultimo passaggio è noto come inferenza ed è espletato attraverso la costruzione di
un modello statistico. Si noti che nella realtà colui che costruisce e determina la taratura
di un meccanismo generatore della probabilità è la natura o il formarsi di comportamenti
sociali. Quindi lunica conoscenza di cui disponiamo sono i risultati di tale meccanismo,
allo statistico quindi il compito di svelarla.
9.1.1 Costruzione del Modello Statistico

Un modello statistico è costituito da tre elementi fondamentali, ricavati idealmente
secondo i seguenti passaggi
1. Osservazione di un campione1 estratto o frutto del fenomeno generatore della
probabilità
2. Identificazione della natura di tale meccanismo generatore, ossia scelta della variabile casuale che meglio approssima la natura del fenomeno
3. Stima della parametrizzazione pi`
u opportuna della variabile casuale scelta alla luce
del campione oservato

Q
M.S. x(n) , ni=1 P (xi ) ,
x(n) : campione di n-osservazioni
Q
Q
ni=1 P (xi ) : probabilit`
a congiunta del campione ( ni=1 poichè
sono osservazioni indipendenti, P è la variabile casuale scelta,
mentre è la parametrizzazione pi`
u opportuna)
: è il campo di esistenza del parametro della variabile
casuale, ossia linsieme dei valori entro cui va scelto il parametro
pi`
u opportuno
Il problema fondamentale dellinferenza è dato dalla stima di e

dalla definizione dellincertezza ad essa legata dovuta alla parziale
osservazione della popolazione.
Riprendendo lesempio della slot machine vediamo come si comporta lo statistico

1. Estrazione di un campione di ampiezza n (ad esempio n=50) assegnando 1=successo, 0=insuccesso
x(50) = {0, 1, 0, 0, 0, 1, 0, 0, 0, 0, ...1, 0}
1
Assumeremo che le singole estrazioni siano indipendenti ed identicamente distribuite, in sintesi iid.
126

2. Identificazione del meccanismo (scelta della v.c.), il risultato di ogni prova è dicotomico (successo/insuccesso) quindi la v.c. adatta è la Bernoulli
3. Scelta del parametro che caratterizza la Bernoulli, per tale distribuzione sappiamo
che [0, 1] quindi esso andrà ricercato entro tale intervallo.
in sintesi
(
M.S.
x(50) = {0, 1, 0, 0, ...} ,
50
Y
)
xi (1 )1xi , [0, 1]
i=1
la scelta (stima) della parametrizzazione pi`

u opportuna sarà loggetto del prossimo
capitolo.
Si osservi che la definizione di modello statistico data e la sua stima permette una
volta stimato il parametro ignoto di ricavare di conseguenza tutti i momenti teorici
della distribuzione della popolazione. Ad esempio indicando con la stima data dallo
statistico per e supponendo che sia = 0, 15 è naturale avere di conseguenza
come

\
\
stime per media e varianza della popolazione E (X) = = 0, 15 e V (X) = 1 =

0, 15 (1 0, 15) = 0, 1275. Tuttavia in alcuni casi linteresse del ricercatore potrebbe
essere limitato solo ad alcuni aspetti della popolazinoe, in questi casi è possibile tentare di
stimare dirrettamente questi aspetti specifici della popolazione (generalmente costituiti
da determinate misure di sintesi come ad esempio media, varianza, minimo, massimo,
ecc.).
Prenderemo in considerazione metodi per stimare

Media
Varianza
Parametro
della popolazione.
127
128
10 Metodi di Stima
I metodi di stima per giungere alla determinazione della media, varianza oppure della
popolazione sono vari, in dipendenza fra laltro anche dellapproccio filosofico adottato.
10.1 Approccio Bayesiano

Il parametro incognito è la realizzazione di una variabile casuale, per la quale disponiamo di una distribuzione di probabilità a priori che provvediamo a coniugare alla realtà
osservata (campione) per giungere ad una distribuzione aggiornata di distribuzione di
probabilità detta a posteriori
P (|Y ) = R
P (Y |) P ()
P (Y |) P () d
con P ()
R distribuzione a priori, P (Y |) realtà osservata, P (|Y ) distribuzione a posteriori e P (Y |) P () d costante di normalizzazione.
La formula altro non è se non il teorema di Bayes in ambito continuo, poichè assume
usualmente un continuum di valori in un intervallo.
Quindi per lapproccio bayesiano il teorema di Bayes è il metodo di

stima adatto.
10.2 Approccio Frequentista

E basato sul concetto di ripetizione dellesperimento (qui lesperimento è lestrazione di
un campione). Secondo il paradigma frequentista un metodo di stima deve soddisfare
determinate carattteristiche affinchè sia accettabile e preferibile rispetto ad altri metodi.
Tali caratteristiche sono fondate sul comportamento del metodo di stima al ripetersi
dellesperimento (estrazione di altri campioni).
129

Si noti che non viene fornito alcun metodo di stima, solo le prescrizioni
che questo deve soddisfare. In tale ambito sono stati proposti vari
metodi, fra cui
Metodo dei momenti
Massima verosimiglianza
Metodo generalizzato dei momenti
Stimatori-M
Metodo analogico
baseremo la trattazione sullapproccio frequentista, studiando il metodo analogico, il

metodo dei momenti e la massima verosmiglianza.
10.2.1 Propriet`
a degli Stimatori
Definiamo stimatore un generico metodo che ci consente di determinare ed è basato
sullunica informazione disponibile, il campione. Quindi
Uno stimatore o statistica è una funzione campionaria

= T (x)
è la stima ossia il risultato ottenuto appplicando lo stimatore
al campione osservato
T è lo stimatore, cioè la funzione applicata al campione x
10.2.1.1 Stimatore Corretto

Uno stimatore è corretto quando applicando T (x) a svariati campioni, la media delle
stime coincide con il vero (e incognito) valore del meccanismo generatore della
probabilità
E [T (x)] =
130

10.2.1.2 Consistenza
Si ottiene quando lo stimatore è consistente in probabilità
limn P {|Tn (x) | < } = 1
cioè la probabilità di selezionare un campione per cui la stima è vicina al vero valore
ignoto in misura minore di tende a 1 per ogni piccolo a piacere, basta infatti
aumentare lampiezza campionaria.
E difficile dimostrare la convergenza in probabilità di uno stimatore, pi`
u semplice
è invece la dimostrazione di convergenza in media quadratica che implica quella in
probabilità, quindi si utilizzerà spesso questa
h
i
limn E (Tn (x) )2 = 0 limn P [|Tn (x) | < ] = 1
h
i
è possibile scomporre E (Tn (x) )2 = {E [Tn (x)] }2 + V [Tn (x)] il primo addendo
a destra è noto come bias2 (bias è la distorsione dello stimatore) mentre il secondo
rappresenta la varianza dello stimatore, se entrambe queste quantità 0 allora si ha
convergenza in media quadratica
limn {E [Tn (x)] }2 = 0 , correttezza asintotica
limn V [Tn (x)] = 0 , varianza asintotica nulla

quindi
se Tn è corretto basta calcolare limn V [Tn (x)] per dimostrare la consistenza in
media quadratica
altrimenti bisogna dimostrare che valgono le due propriet`
a di correttezza asintotica
e varianza asintotica nulla
131
Corretto non consistente
Corretto e consistente
f(T1000)
f(T100)
f(T10)
lim f(Tn)
E(Tn) =
E(Tn) =
f(T10)
Non corretto e consistente
Distorto
E(T10)
E(T100)
E(T1000) =
f(T1000)
f(T100)
f(T10)
E(Tn)
10.2.1.3 Scelta fra Stimatori

Il paradigma frequentista non impone metodi di stima, propone di scegliere quelli col
minor errore quadratico medio.
h
i
EQM [Tn (x)] = E (Tn (x) )2 = {E [Tn (x)] }2 + V [Tn (x)]
se
h
i
h
i
EQM Tn(1) (x) < EQM Tn(2) (x)
allora T (1) (x) è pi`

u efficiente di T (2) (x)
132

.
Infine si noti che se due stimatori sono corretti entrambi hanno {E [Tn (x)] }2 = 0
quindi la scelta fra stimatori si riduce al confronto fra le varianze degli stimatori
h
i
h
i
V Tn(1) (x) < V Tn(2) (x)
133
134
11 Stima Puntuale
11.1 Metodo Analogico
Siamo interessati a un aparticolare quantità per la popolazione, adottiamo come stimatore di questa la medesima quantità calcolata sul campione (a meno di lieve correzioni
da valutarsi caso per caso).
Ad esempio
Per la media della popolazione utilizziamo la media del campione
Pn
xi
\
E (X) = i=1
n
Per il minimo della popolazione utilizziamo il minimo del campione
\
min
(X) = min (x)
Per la varianza dela popolazione utilizziamo la varianza corretta del campione
Pn
(xi x
)2
\
V (X) = i=1
n1
si noti che al denominatore abbiamo utilizzato (n 1) poichè rende lo stimatore

corretto.
11.2 Metodo dei Momenti

E volto alla stima di , inteso questo come un vettore di k-parametri ed è basato sulluguaglianza di k momenti teorici della distribuzione della popolazione coi k corrispondenti momenti empirici campionari, isolando e risolvendo per il parametro incognito
sostituendo infine i momenti teorici coi momenti empirici.
= g (1 , 2 , ..., k )
= g (
1 ,
2 , ...,
k )
135

dove
momenti teorici: 1 = E (X) , ..., k = E X k
Pn
momenti campionari:
1 =
i=1
xi
Pn
i=1
, ...,
k =
xki
ad esempio se X Be (), abbiamo k = 1, quindi ci serve una sola equazione di

uguaglianza, scegliamo
Pn ilxmomento primo. Momento primo teorico E (X) = , momento
i
primo campionario i=1
= . Studiamone correttezza e consistenza
n
" n
#
" n
#
Pn

n

X
X
x
1
1
1X
1
i
i=1
E =E
= E
E (xi ) = n = , corretto
xi = E
xi =
n
n
n
n
n
i=1

V = V
Pn
i=1 xi

=
1
V
n2
i=1
i=1
Pn
i=1 xi
n
1 X
(1 )
1
V (xi ) = 2 n (1 ) =
, consistente
2
n
n
n
i=1
consistente poichè limn (1)

= 0. Abbiamo consistenza in media quadratica e di
n
conseguenza consistenza in probabilità.
Come secondo esempio consideriamo X Exp () , un solo parametro, quindi è sufficiente una sola equazione e scegliendo il momento primo sappiamo che
E (X) =
il metodo dei momenti suggerisce di isolare , =

quindi applicare tale funzione momento empirico
=
= Pn1
i=1
, quindi g () =
i=1
E(X)
P
n
x
, basta
n
= Pn
xi
i=1 xi

vediamo infine un esempio con due parametri, se X N , 2 abbiamo che = , 2
quindi k = 2 ci servono quindi due equazioni

= E (X)
2 = 2 + 2 = E (X)2 + V (X)
(
2 =
2
=
2
=
Pn x
i=1 i
Pnn x2
i=1
Pn
2
i=1 xi
=
2 +
2
Pn
i=1 xi
Pn
i=1 xi
come si può notare

2è asintoticamente corretto.
136
2
Pn
=
i=1 (xi
x
)2
11.3 Massima Verosimiglianza

Si tratta di identificare il che rende massima la probabilità congiunta del campione
osservato, ossia il che rende pi`
u verosimile il fatto di aver osservato il campione estratto
M ax
n
Y
P (xi )
|i=1 {z
L()
L () è la funzione di verosimiglianza intesa come funzione del parametro , mentre il

campione di dati osservati x è considerato come fisso.
Lo stimatore di massima verosimiglianza gode delle seguenti proprietà
o
h
i
n 2
as
nota come informazione attesa

N , I ()1 con I () = E
2 log [L ()]
si Fisher
Invarianza per cui se
una funzione invertibile allora consideranto = g () ne
g è
segue che M V = g M V
Osservazioni
si preferisce massimizzare la log-verosimiglianza ` () = log [L ()] (con log inteso
come logaritmo naturale) anzichè L ().

i
h

Informazione osservata: i () = l00 () M V ed indica quanto poco verosimili
sono i valori nellintorno del valore M V cioè quanto velocemente la verosimiglian-
za cade non appena ci spostiamo dal punto di massimo.

Varianza stimata (osservata): per M V è di conseguenza

\
V M V = [i ()]1
Efficienza: fra gli stimatori asintoticamente corretti M V è quello a varianza minima (pi`
u efficiente), questo è noto come disuguaglianza di Cramer-Rao.
Esempio:
il caso della slot machine col metodo dei momenti ha dato come stima M M =
Pn x
i=1 i
. Utilizziamo il criterio della massima verosimiglianza
n
( n
)
n
Y
Y
1xi
1xi
xi
xi
max
(1 )
maxlog
(1 )
n
X
i=1
i=1
i=1
n
n
n
o X
X
1xi
xi
log (1 )
=
xi log () +
(1 xi ) log (1 )
i=1
i=1
137
`0 () = 0
Pn
Pn
i=1 xi
(1 )
verificata quando
Pn
i=1 xi
Pn
n
i=1 xi
=0
1
1
P
+ ni=1 xi n
=0
(1 )
i=1 xi
n = 0 cioè per
M V =
E M V
` () =
00
1
= E
n
Pn
i=1 xi
n
X
!
xi
1
n =
n
i=1
P

n
n (1 ) ( ni=1 xi n) (1 2)
=
(1 )
(1 )2
Pn
i=1 xi
Pn
E ( i=1 xi )
z}|{
n (1 ) +
n
n (1 2)

E `00 () = I () =
(1 )
n
(1 )
perciò

(1 )
M V N ,
n
linformazione osservata è
`00 () = Pn
i=1
n
xi
Pn
i=1
xi
=
n

M V 1 M V
supponiamo di avere osservato un campione di ampiezza n = 150 e tale che

, la funzione di logverosimiglianza graficamente risulta essere
138
P150
i=1 xi
= 93
log(L())
150
^MV = xi 150
i=1
nota
nei casi semplici pu`
o accadere che M M = M V tuttavia non sempre questo accade.
M V è preferibile poichè gode di efficienza asintotica
nella pratica comune i modelli sono complicati perci`
o il massimo della verosimiglianza viene cercato con metodi numerici (Newton-Raphson,...)
il punto di massimo della funzione di (log)verosimiglianza pu`
o non essere interno al
campo di esistenza, in tal caso il metodo esposto non funziona in quanto il massimo
giace su un punto non stazionario, in tal caso il massimo va identificato con un
metodo che varia in funzione della funzione di probabilità.
139
140
12 Esercizi di Stima Puntuale
141
Richiami di Matematica
In quanto segue viene presentato un breve richiamo alle principali regole di semplificazione
utili in ambito di massima verosimiglianza (nel seguito indicata con MV).
Q
P
1. log ni=1 xi = ni=1 log(xi )
2. log = log
3.
Pn
4.
Pn
5.
[log(g()]
i=1 (kxi
i=1 k
+ yi ) = k
Pn
i=1 xi
Pn
i=1 yi
= nk
=
g 0 ()
g()
Ecco una semplice funzione a cui possiamo applicare le precedenti regole al fine di
giungere alla determinazione del punto di massimo
n

Y
f () =
xki h
i=1
g() = log [f ()] = log
n
Y
xki h
i=1
n n
o
X
=
log(xki h )
i=1
n
X
{klog (xi ) + hlog()}
i=1
n
X
=k
=k
i=1
n
X
i=1
142
{log (xi )} +
n
X
{hlog ()}
i=1
{log (xi )} + n h log()
Esercizio
Sia data la seguente distribuzione di probabilità

X
1 0 1 2
p(xi ) = |xi | (1 )2|xi |
Stimare col metodo dei momenti.

R: E necessario eguagliare il momento I della popolazione, (X) , al momento I del
risolvere quindi per il parametro incognito
campione, Xe
=X
=
4
X
xi p(xi )
i=1
sviluppiamo la distribuzione di probabilità:

X
1
0
1
2
(1 ) (1 )2 (1 ) 2
= 1 (1 ) + 0 (1 )2 + 1 (1 ) + 2 2
= (1 ) + (1 ) + 22
= 22
quindi
Per il metodo dei momenti, (X) = X,
22 = r
X
=
X
2
143

Stimare con il metodo della M.V.
n n
o
Y
L() =
|xi | (1 )2|xi |
i=1
`() = log [L ()] = log
n
Y
|xi | (1 )2|xi |
i=1
n
X
n
o
log |xi | (1 )2|xi |
i=1
n n
o
X
=
log|xi | + log(1 )2|xi |
=
=
i=1
n
X
i=1
n
X
{|xi | log + 2 |xi | log(1 )}

{|xi | log} +
i=1
n
X
{2log (1)}
i=1
= log()
n
X
n
X
{|xi |log (1 )}
i=1
|xi | + n 2log(1 ) log(1 )
i=1
n
X
|xi |
i=1
Giunti a questo punto procediamo allidentificazione del punto di massimo della funzione
(ora semplificata) di log-verosimiglianza `(), tramite annullamento della derivata prima:
Pn
Pn
|xi |
2n
`()
0
i=1 |xi |
= ` () =
+ i=1
1
1
`0 () = 0
|xi |
2n
i=1 |xi |
+ i=1
= 0
Pn
Pn
(1 ) i=1 |xi | 2n + i=1 |xi |
= 0
(1 )
Pn
Pn
lequazione è soddisfatta quando il numeratore assume valore zeroquindi risolviamo la

seguente equazione:
(1 )
n
X
|xi | 2n +
n
X
i=1
n
X
|xi | 2n = 0
i=1
ne consegue che lo stimatore di MV è

M V =
144
|xi | = 0
i=1
Pn
i=1 |xi |
2n
Poisson
La variabile aleatoria X è distribuita secondo la distibuzione di probabilità (notevole) di
Poisson: X P o(),determinare lo stimatore di massima verosimiglianza per :
Come primo passo dobbiamo giungere alla forma semplificata della log-verosimiglianza
L() =
n
Y
e xi
i=1
xi !
`() = log [L()] = log
( n
)
Y e xi
xi !
i=1
n
X

log
i=1
e xi
xi !
n n
o
X
=
log(e ) + log(xi ) log(xi !)
i=1
X
=
log(e) +xi log() log(xi !)
| {z }
i=1
=1
n
X
= n + log
xi
i=1
n
X
log(xi !)
i=1
Procediamo ora allannullamento della derivata prima:

`()
Pn
xi
n + i=1
P
n + ni=1 xi
= 0
= 0
= 0
Tale equazione è soddisfatta quando il numeratore assume valore zero

n +
n
X
xi = 0
i=1
Pn
=
i=1 xi
Verifichiamo ora che lo stimatore di MV sia effettivamente un punto di massimo, verificando che il segno della derivata seconda della funzione sia negativo in tale punto
145

2 `()
2
=
=
=
P
n + n ni=1 xi
2 P
n + n ni=1 xi
2
P
ni=1 xi
2
Nel punto di massimo di verosimiglianza sappiamo che =

questa espressione a nella precedente formula

2 `()
2
=
=M V
Pn
i=1
xi
sostituiamo quindi
P
ni=1 xi
P
( ni=1 xi )2
possiamo constatare facilmente che

2 `()
2
< 0
=MV
poichè il denominatore è sempre positivo (si tratta di un quadrato) mentre il numeratore

assume un valore negativo poichè si tratta della negazione della somma di valori esclusivamente positivi (dovuti al fatto che xi {0, 1, 2, ... + }) Correttezza dello stimatore
di MV
" n
#

Pn
n
X
1
n
1X
i=1 xi
= E
=
xi =
E(xi ) =
E [M V ] =
n
n
n
n
i=1
i=1
Consistenza dello stimatore di MV

Pn
V [MV ] = V
i=1 xi
" n
#
n
X
1
n
1 X
= 2V
V (xi ) = 2 =
xi = 2
n
n
n
n
i=1
i=1
= lim V [MV ] = 0
n+
alla medesima conclusione si poteva giungere attraverso limportante teorema per cui
M V N , E
"
#1

2 `()
2 =M V
applicando tale teorema al nostro caso, utilizzando quanto già calcolato in precedenza,
146

otteniamo quanto segue:

P
ni=1 xi
2 `()
= Pn
2
2 =M V
i=1 xi
n
n2
= Pn
i=1 xi
!1
" Pn x #

i=1 i
2 `()
n
=E
2 =M V
n
=
147
Scelta fra Stimatori

La popolazione oggetto di indagine assume una distribuzione
Pn x di Poisson X P o(),
i
2
vengono proposti i due seguenti stimatori per : T1 = i=1
e T2 = x1 +x
. Detern
2
minare la correttezza di entrambi gli stimatori e si scelga quale dei due è il migliore
attraverso un opportuno criterio.
Pn
i=1 xi
E [T1 ] = E
" n
#
X
1
n
= E
=
xi =
n
n
i=1

1
x1 + x2
1
2
= [E (x1 ) + E (x2 )] = [ + ] =
E [T2 ] = E
=
2
2
2
2

Essendo gli stimatori entrambi corretti, li confrontiamo attraverso la loro varianza:

" n
#

Pn
n
X
x
1
1 X
n
i
i=1
= 2V
V [T1 ] = V
xi = 2
V (xi ) = 2 =
n
n
n
n
n
i=1
i=1

1
1
1
2
x1 + x2
= V [x1 + x2 ] = [V (x1 ) + V (x2 )] = [ + ] =
=
V [T2 ] = V
2
4
4
4
4
2
ne consegue che per n > 2 V [T1 ] < V [T2 ] e quindi preferibile.
Si concluda sulla proprietà di consistenza in senso forte dei due stimatori:
lim [T1 ] = 0
n+
lim V [T2 ] =
n+
quindi mentre T1 gode della proprietà di consistenza T2 ne è privo.
148
Binomiale
Da unurna, contenente palline bianche e nere in proporzione incognita, 5 persone effettuando 3 tentativi ciascuna con reimmissione hanno ottenuto il seguente numero di
palline bianche: X {1, 2, 3, 0, 2}. Proporre una distribuzione teorica appropriata per
il numero di palline bianche estrattesi proceda alla stima del parametro incognito col
metodo di MV, col metodo dei momenti e si indichi la stima per il campione ottenuto.
Distribuzione teorica: X Bin(n = 3, =?)
Stima di MV:
L() =
5
Y
3
i=1
xi
xi (1 )3xi
`() = log [L()] =
5
X
i=1

3 xi
3xi
log
(1 )
xi
5
X

3
=
log
+ xi log() + (3 xi ) log (1 )
xi
i=1

5
5
5
X
X
X
3
=
log
+ log ()
xi + log (1 )
(3 xi )
xi
i=1
i=1
i=1
P5
P5
(3 xi )
`()
i=1 xi
=0+
i=1
1
P
P
(1 ) 5i=1 xi 5i=1 (3 xi )
=
(1 )
procedendo al calcolo di
otteniamo quanto segue:
`()
(1 )
= 0 che è soddisfatta quando il numeratore si annulla
5
X
xi
i=1
5
X
(3 xi ) = 0
i=1
5
X
xi 5 3 = 0
i=1
P5
=
i=1 xi
53
per quanto riguarda il nostro campione, otteniamo quindi:

1+2+3+0+2
M V =
= 0, 53
53
149

Stima col metodo dei momenti:
= X5
3 = X5
=
X5
P3
5
i=1
150
xi
P5
=
i=1 xi
53
13 Stima Intervallare
Analizzando le proprietà possedute dagli stimatori è emerso il loro comportamento
in ipotesi di estrazione e loro applicazione a molti campioni. Nella realtà pratica si
può estrarre solitamente un solo campione, è perciò vitale prendere in considerazione
lincertezza campionaria.
Un intervallo di confidenza è dato dalla differenza fra due statistiche T1 = T1 (x) e
T2 = T2 (x) tali che
T1 < T2
h
i
P T1 < () < T2 = 1 , [0, 1]
da un punto di vista informale un intervallo di confidenza è un estensione del concetto di stima puntuale (es. metodo dei momenti, massima verosimiglianza,...) nel senso che tali stime vengono racchiuse
dentro un intervallo tale che prima di estrarre uno dei possibili campioni vi è una probabilità 1 che tale intervallo contenga il vero
parametro incognito della popolazione, dopo aver estratto il campione
si ha una confidenza (non probabilità) 1 che lintervallo identificato per il campione osservato contenga il vero parametro ignoto della
popolazione.
Riprendendo lesempio della slot machine, in cui sappiamo (avendola costruita) che =
0, 1 ipotizziamo di estrarre molti campioni, su ognuno di essi stimiamo con uno dei
metodi proposti (es. massima verosimiglianza),Pnel grafico che segue i pallini sono il
n
xi
). Essi quasi sicuramente non
risultato di tale stima (che ricordiamo essere i=1
n
coincideranno con il vero valore = 0, 1 tuttavia possiamo corredarli di un invervallo
tale che una quota di campioni 1 abbia lintervallo che interseca il vero valore = 0, 1.
151
0.10
0.15
0.20
Intervalli di Confidenza
0.00
0.05
10
...
...
Campioni
Nella realtà potrà essere estratto un solo campione, si confida con grado 1 che
appartenga allinsieme di quelli che hanno lintervallo che interseca il vero valore = 0, 1
.
Nota: per costruire intervalli di ampiezza appropriata è necessario conoscere la distribuzione campionaria dello stimatore. Nel seguito vedremo come per piccoli campioni
ciò sia possibile solo in casi limitati, per grandi campioni questo è possibile su una serie
pi`
u ampia di casi, in virt`
u principalmente del teorema del limite centrale.
152
/ n
~N 0,1
nota
S 2c =
~t n1
n1
i =1 x i x 2
Sc / n
ignota
X ~N , n
Media
/ n

X
N 0,1
X , n30
MetodoAnalogico
X ~N
Varianza
x i 2
~2n
2= i =1
n 2
nota
StimaIntervallare
S c=
~2n1
n1
N 0,1
MV = l ' ' MV
MV / n
MV
MassimaVerosimiglianza
i =1 x i x 2
n1 S 2c
ignota
X , n
153
13.1 Intervalli di Confidenza per la Media

13.1.1 Varianza Nota
x
N (0, 1)
/ n
dove è la vera media, 2 la vera varianza ed n lampiezza campionaria. Significa che se
disponiamo di molti campioni e ad ognuno applichiamo lo stimatore media campionaria
con successiava standardizzazione, tali medie trasformate seguiranno una distribuzione
N (0, 1).
Nota bene: tale risultato
Se X N è valido n
Se X N è valido solo per n > 30, in virt`
u del teorema del limite centrale
In virt`
u di quanto affermato è possibile costruire lintervallo di confidenza in due passaggi,
se

x
P Z/2 Z/2 = 1
/ n
isolando otteniamo lintervallo di confidenza di livello 1

P
x
Z/2 x
+ Z/2
n
n

=1
13.1.2 Varianza ignota

Premesso che indicheremo la varianza campionaria corretta (si veda 13.2.1) come segue
Pn
(xi x
)2
2
Sc = i=1
n1
13.1.2.1 X N e n
x
tn1
Sc / n
di conseguenza

P
n1 Sc
t/2
n

P
154
n1
t/2
Sc / n
n1
t/2
x
+

=1
S
c
tn1
/2
n

=1

13.1.2.2 n > 30 e X
x
N (0, 1)
/ n

P
Z/2
Z/2
/ n

=1

=1
+ Z/2
P x
Z/2 x
n
n
dove
è unopportuna stima per .
13.2 Intervalli di Confidenza per la Varianza

Quanto tratteremo varrà solo per popolazioni normali X N .
13.2.1 Premessa: Varianza Campionaria e Distribuzione 2

13.2.1.1 Varianza Campionaria Corretta
Quando la vera media della popolazione è ignota lo stimatore non distorto per la
varianza è la varianza campionaria corretta
Sc2 (X) =
Pn
x
)2
n1
i=1 (xi
dimostriamo la non correttezza della varianza

S2 =
=
i=1
n
X
i=1
n
X
1X
1X
(xi x
)2 =
[(xi ) + ( x
)]2 =
n
n
1
n
i=1
(xi )2 +
1
n
(
x )2
i=1
X
2
(
x )
(xi )
n
i=1
|
{z
}
n(
x)
1
n
n
X
(xi )2 (
x )2
i=1
155
#
n
1X
2
2
= E
(xi ) (
x ) =
n
"
E S
i=1
n
1X
E (x )2 E (
x )2 =
| i{z
} | {z }
n
i=1
V (xi )= 2
V (
x)= n
1 X 2 2

=
n
n
n1 2
6= 2
n
i=1
n
a S 2 affinchè lo stimatore sia corretto, il nuovo stimatore
è necessaria una correzione n1
è noto appunto come varianza campionaria corretta
Sc2
n
=
S2 =
n1
Pn
x
)2
n1
i=1 (xi
13.2.1.2 Variabile Casuale 2

Se X N (0, 1) la variabile data da
n
X
Y =
x2i 2(n)
i=1
è nota come chi-quadrato con n gradi di libertà, per la quale esistono tavole statistiche
relative ai vari gradi di libertà n = 1, 2, ...
13.2.2 Media nota

Se la vera media è nota la stima puntuale non distorta per la varianza è
2
Pn
i=1 (xi
)2
la quantità
2
n
2
=
2
n
X
xi
2
(n)
| {z }
i=1
N (0,1)
156

identificando i valori che lasciano sulle code di tale distribuzione la massa /2 ciascuno

n
2
2
2
=1
P (n),1 2 (n),
2
2
isolando 2 otteniamo lintervallo di confidenza
(
P
n
2
n
2
2
2(n),
2(n),1
2
)
=1
13.2.3 Media Ignota

In tal caso lo stimatore
distorto per la varianza, come visto, è la varianza campionaria
Pn (x xnon
)2
2
i=1 i
corretta Sc =
, si dimostra che
n1
(n 1) Sc2
2(n1)
2
similarmente a quanto precedentemente osservato per il caso dei media nota abbiamo

P
2(n1),1
2
(n 1)
2
2(n1),
2
2

=1
isolando 2 otteniamo lintervallo di confidenza
(
P
(n 1)
2
(n 1)
2
2
2(n1),
2(n1),1
2
)
=1
13.3 Intervalli di Confidenza per Stimatori di Massima

Verosimiglianza
Gli stimatori di MV ricoprono un ruolo centrale nella stima statistica, ne analizzeremo
quindi la costruzione di intervalli di confidenza.
Abbiamo enunciato che
h
i
as
M V N , I ()1
tuttavia I () è ignota, vi sono alcune soluzioni alternative per ottenerne una stima, noi
scegliamo la seguente

00
d
I () = i () = ` () M V
157

per grandi campioni lutilizzo di i () in lugo di I () non crea grossi scostamenti, vale
quindi lapprossimazione
M V
N (0, 1)
M V () / n
rh

i1

M V () =
`00 () M V
quindi procedendo come per la media otteniamo il seguente intervallo di confidenza per

P
158
M V ()
M V ()
M V Z/2
M V + Z/2
n
n

=1
14 Esercizi di Stima Intervallare
159
Popolazione Normale
Da due indagini campionarie sul reddito (indicato con R) di Francesi ed Italiani con
F R = 30 R
IT = 30. Supponendo
campioni di ampiezza 100, è risultato quanto segue: R
che entrambe le popolazioni abbiano distribuzione normale con F R = 8 , IT = 10 , si
proceda al calcolo di quanto segue:
Formulazione del problema:
RIT N (IT =?; IT = 10)
RF R N (F R ; F R = 8)
Determinare gli intervalli di confidenza al 95% per le medie di entrambi i Paesi specificando di quanto è maggiore lntervallo italiano rispetto a quello francese, dandone una
motivazione:
Indicando con A tali intervalli

IT
IT
AIT = RIT + Z0,05/2 RIT Z0,05/2
n
n

F R
F R
AF R = RF R + Z0,05/2 RF R Z0,05/2
n
n
sostituendo quanto in nostro possesso otteniamo le seguenti ampiezze intervallari per i
due Paesi:

8
8
1, 96 30
1, 96 = 3, 136
AF R = 30 +
10
10

10
10
AIT = 30 +
1, 96 30
1, 96 = 3, 92
10
10
quindi per quanto riguarda il rapporto tra i due intervalli:
3, 92
AIT
=
= 1, 25
AF R
3, 136
concludiamo quindi sul fatto che AIT è del 25% maggiore di AF R .in quanto IT > F R
Volendo ottenere per lItalia un intervallo di confidenza di ampiezza identica a quello
francese si indichi il grado di confidenza necessario
F R F R 1, 96
AF R = R
10
IT
F R
IT =
h = F R =
1, 96
10
10
F R
8
h=
1, 96 =
1, 96 = 1, 568 ' 1, 57
IT
10
160

a questo punto non ci resta che trovare sulle tavole della N(0,1) a quale livello di
confidenza /2 corrisponde h
Z
1,57
N (0, 1)dx = 0, 9418
= 1 0, 9418
/2
=2 (1 0, 9418) = 0, 1164
Determinare lampiezza campionaria n
affinchè, a parità di intervallo di confidenza con
la Francia, lItalia mangenga la medesima confidenza:
8
F R
F R = 1, 96 =
1, 96
10
n
IT
F R = IT = 1, 96
n

2
IT 1, 96 2
IT
n
=
n
=
F R
F R
2

10
10 = 156, 25 ' 157 notare arrotondamento
=
8
Ripetere i calcoli relativi al secondo punto in ipotesi che il campione sia di 20 persone
e che le varianze siano non note e SIT = 7 , SF R = 6
n1 , quindi
genericamente R
t
7
201
AIT = 30 t0,025
= 20
20
6
201
= 20
AF R = 30 t0,025
20
AIT
6, 55
=
= 1, 165
AF R
5, 62
7
2, 093 ' 6, 55
20
6
2, 093 ' 5, 62
20
161
Bernoulli
Si supponga che 5 estrazioni indipendenti da unurna contenente palline bianche e nere
in proporzione incognita, abbia dato luogo alla seguente successione di eventi: X
{B,N,N,N,B}.

N , 2 /n ?
Riterreste opportuna lapprossimazione per la media campionaria X
R: No, la popolazione non è distribuita normalmente e lampiezza campionaria è troppo
esigua perchè si applichi il teorema del limite centrale.
Binomiale
Da unurna contenente palline bianche e nere in proporzione incognita, si procede allestrazione con reimmissione da parte di 50 persone con tre tentativi ciascuna. La media
campionaria ottenua risulta essere 1,8.
Si proceda al calcolo di quanto segue:
Indicare la distribuzione della popolazione:
X Bin (m = 3, =?)
Indicare la formula per la media varianza e scarto quadratico medio della popolazione:
E(X) = m
V (X) = m (1 )
p
(X) = m (1 )
Indicare la formula per la distribuzione della media campionaria:
!
r
3
(1
)
N 3 , =
X
50
Trovare gli estremi x1 e x2 (centrati) di un intervallo che garantisce una confidenza /2 =
1%
attraverso il processo di standardizzazione
3
X
Z=q
N (0, 1)
3(1)
50
troviamo z1 e z2 al livello /2 (utilizzando le tavole) z1 = 2, 326 , z2 = 2, 326

con la trasformazione inversa della standardizzazione ricaviamo ora x1 e x2 :
S
x
1,2 = x
2, 326
50
162
dobbiamo ricavare S, sapendo che S = n(1 ), dobbiamo ricavare avendo come dato
la media campionaria della binomiale
= 3 = 1, 8 = 1, 8 = 0, 6
X
3
p
p
p
S =
3(1 ) = 3 0, 6 0, 4 = 0, 72
quindi
r
x
1,2 = 1, 8 2, 326
0, 72
= {1, 52088 ; 2, 07912}
50
Determinare la stima puntuale di ed il relativo intervallo di confidenza al livello /2 =

1%
E una trasformazione lineare di variabile normale, ne risulta unaltra variabile normale:
= 3 = X
X
3
non ci resta che calcolare media e scarto quadratico medio della nomale cos` trasformata:

1
X
= 3 =
= E X
E () = E
3
3
3

3(1)

1
3 (1 )
(1 )
X
n
=
= 2V X
=
=
V () = V
2
2
3
3
3
3 n
3n
quindi
"
N ; =
(1 )
3n
abbiamo ora tutti gli elementi per ricavare gli intervalli di confidenza
s

1
1,2 = 2, 326
3n
r
0, 6 0, 4
= 0, 6 2, 326
= {0, 50696 ; 0, 69304}
3 50
di fatto risulta verificato che =
X
3
e che 1,2 =
x
1,2
3
163
Poisson
La società autostrade desidera verificare se il numero medio orario di auto che transita
con telepass è identico al numero medio di auto che utilizza Viacard.
Si indichi unappropriata distribuzione per la popolazione:
Xvc P o (vc =?)
Xtp P o (tp =?)
Lindagine campionaria ha dato luogo a quanto segue: ampiezza campionaria nvc =
vc = 320 , X
tp = 400
70 , ntp = 100 ; media campionaria X
determinare unapprossimazione opportuna per la differenza tra le due medie ed un
intervallo di confidenza al 95%
s
"
#
tp
vc
=X
tp X
vc N tp vc ; =
D
+
ntp nvc

tp X
vc (tp vc )
X
q
N (0, 1)
tp
vc
+
ntp
nvc
s
x
tp
x
vc
+
ntp nvc
r
400 320
= (400 320) 1, 96
+
' {74, 26 ; 85, 74}
100
70
d1,2 = (
xtp x
vc ) z/2
164
15 Prova delle Ipotesi

15.1 Teoria
Il problema della prova (o test) delle ipotesi è il secondo grande tema dellinferenza
accanto a quello della stima (puntuale ed intervallare). Siamo sempre interessati al
parametro , ma in questo caso abbiamo unidea (ipotesi) su quale sia il suo vero valore
e vogliamo sottoprla a test ossia verificare se estraendo un campione i risultati su di esso
confermano o smentiscono la nostra ipotesi iniziale. Quindi si tratta di dividere lo spazio
parametrico in due regioni 0 1 = e decidere se appartiene alluna o allaltra
sulla base dei risultati campionari.
f(x)
Ad esempio trattando il problema

della stima della media con varianza nota avevamo

2
ravvisato che x
N , /n ora in ambito di test di ipotesi se fosse vera la nostra ipote
si (che chiamiamo H0 ) e che prevede che = k avremmo che x
N k, 2 /n . Quindi
ripetendo tanti campioni se fosse vera la nostra ipotesi lo stimatore media campionaria
si distribuirebbe come nel grafico (normale centrata su k).
H0 : = k
Estraiamo un solo campione, ne calcoliamo la media campionaria, verifichiamo se il suo

valore è congruo con la nostra ipotesi, ossia se cade in una regione di alta o bassa densità.
Resta da fissare una soglia che discrimini fra alta/bassa densità.
165
15.1.1 Definizioni
Definiamo ipotesi una bipartizione dello spazio parametrico di P (x) in due
regioni 0 1 = tali che 0 1 = , distinguendo fra

H0 : 0
H1 : 1
H0è lipotesi nulla, mentre H1 ipotesi alternativa. Siamo interessati a decidere se il vero
valore appartiene a 0 o a 1 . A questo scopo utilizziamo una procedura di test (o
semplicemente test) la quale è una partizione dello spazio di tutti i possibili campioni in
due regioni, luna che conduce allaccettazione di H0 laltra al suo rifiuto. Tale partizione
usualmente è conseguita tramite lutilizzo di una statistica test T = t (x) per la quale
viene costruita una partizione in due regioni (accettazione/rifiuto); essa a sua volta
induce una bipartizione di accettazione/rifiuto anche nello spazio dei campioni.
Graficamente la partizione con statistica test è rappresentabile come segue
Spazio dei campioni
Accettazione
Rifiuto
A: Accettazione
Soglia
Critica c*
B: Rifiuto
Spazio della
statistica test
in questo caso se applicando t (x) allunico campione che possiamo selezionare avviene
che t (x) > c rifiutiamo lipotesi H0 e viceversa se t (x) c.
Non resta che identificare c ottimale.
15.1.2 Tipi di Ipotesi

Distinguiamo fra i seguenti test di ipotesi
Ipotesi semplici
H0 : = 0
H1 : = 1
Ipotesi composte: in tal caso H1 è un intervallo
166

Unilaterale

H0 : 0
equivalente a
H1 : > 0
H0 : = 0
H 1 : > 0
H0 : 0
equivalente a
H1 : < 0
H0 : = 0
H 1 : < 0
Bilaterale

H0 : = 0
H1 : 6= 0
15.1.3 Errori e Potenza del Test

Il test induce una bipartizione in = 0 1 tuttavia esso è soggetto a errore nel senso
che può accadere che
t(x) B ma 0 errore di prima specie (rifiuto H0 quando essa è vera),
indichiamo con = P (rif H0 |H0 vera) la probabilità di commettere un errore di
prima specie
t(x) A ma 1 errore di seconda specie (rifiuto H1 quando essa è vera),
indichiamo con = P (rif H1 |H1 vera)la probabilità di commettere un errore di
seconda specie
Lerrore di prima specie generalmente è lerrore pi`

u grave, nel senso che le azioni conseguenti alla relativa decisione di rifiuto di H0 quando è vera, darebbero luogo a notevoli
danni, non cos` per quanto riguarda lerrore di seconda specie, considerato meno grave.
Ad esempio nel test di un farmaco un conto è dare il via al commercio di un farmaco
tossico, un altro e minore è rinunciare al commercio di un farmaco buono.
Definiamo potenza del test 1 = P (acc H1 |H1 vera), per ipotesi composte si tratta
di funzione di potenza, intesa come potenza del test al variare di nellintervallo 1 . Il
tutto è rissumibile nella seguente matrice
Azione\Realtà
Accettazione di H0
Accettazione di H1
H0 vera
Errore I specie ()
H1 vera
Errore II specie ()
Potenza del test (1 )
15.1.3.1 Esemplificazioni Grafiche

Adottando criteri che saranno
pi`
u chiari nei paragrafi successivi, ipotizziamo ad esempio

che X N , 2 = 25 . Procediamo a decidere in merito al seguente test di ipotesi

H0 : = 40
H1 : = 43
167

avendo inoltre i seguenti dati: = 0, 01 , n = 36 , x
= 42. Per comprendere il
ragionamento è unicamente necessario conoscere la distribuzione dello stimatore media
campionaria. Il resto del discorso sarà formalizzato oltre.
1. c = 40 + 2.33 5/6 ' 41.94 , quindi la regione di rifiuto di H0 è x
> 41.94
n
o
2. = P {
x < c |H1 } = P Z < 41.9443
' 0, 8983
25/6
3. 1 = 1 0, 8983 = 0, 1017
4. Rifiutiamo con significatività = 0, 01 H0 poichè x
> c
graficamente
H1 : = 43
c*= 41.94
H0 : = 40
sempre coi dati di cui sopra testiamo ora le seguenti ipotesi
H0 : = 40
H1 : > 40
loperazione per il calcolo di (1 ) va ripetuta per (40, +) ; si tratta quindi

di verificare lampiezza dellarea grigia nel grafico precedente spostando la distribuzione
sotto ipotesi H1 da sinistra verso destra partendo da = 40 , è palese che questa varier`
a
da sino a 1
168
= 0.01
40
H1 : > 40
testiamo ora le seguenti ipotesi

H0 : = 40
H1 : = 37
c = 40 2.33 5/6 ' 38.06 , quindi la regione di rifiuto di H0 è x

< 38.06 , graficamente
H0 : = 40
c*= 38.06
H1 : = 37
169

nel caso si tratti di testare lipotesi composta
H0 : = 40
H1 : < 40
= 0.01
loperazione per il calcolo di (1 ) va ripetuta per (40, ) ; si tratta quindi

di verificare lampiezza dellarea grigia nel precedente grafico spostando la distribuzione
sotto ipotesi H1 da destra verso sinistra partendo da = 40 , è palese che questa varier`
a
da sino a 1
40
H1 : < 40
infine nel caso di ipotesi composta bilaterale

H0 : = 40
H1 : 6= 40
loperazione
per
di (1 ) va ripetuta per (40, ) (40, +) in modo
il calcolo

x
c
che P /n > /n H0 = , quindi (1 ) per H1 : = 40 varrà 2 come si evince

dal seguente grafico, per poi aversi limH1 : 1 = 1
170
= 0.005
40
H1 : 40
15.1.4 Soglia critica

La determinazione della soglia critica c è condotta fissando P (B|H0 ) = e minimizzando P (A|H1 ) = . Definiamo potenza del test la quantità (1 ) = P (B|H1 ) cioè
la probabilità di accettare H1 quando questa è vera.
Nel caso di ipotesi semplici la soluzione a questo problema è data dal lemma di
Nayman-Pearson
Data una popolazione X P (x)
= {0 , 1 }
dato il test dipotesi
H0 : = 0
H1 : = 1
x un campione estratto da X con funzione di verosimiglianza
L (0 ) =
n
Y
P0 (xi )
i=1
L (1 ) =
n
Y
P1 (xi )
i=1

B
una partizione dello spazio campionario t.c. P B|H
0 =
A,
171

allora se esiste k t.c.

B=

A=
Qn

i=1 P1 (xi )
x : Qn
k
i=1 P0 (xi )
Qn

i=1 P1 (xi )
x : Qn
<k
i=1 P0 (xi )
e t.c. sia vero che P (B|H0 ) = allora il test basato su (A, B) è il pi`
u potente (cioè con
minor = P (A|H1 ) .

Esempio: X N , 2 = 625

H0 : = 40
H1 : = 45
= 0, 15 , n = 36 , x
= 46, 02
B= x:
25
25
exp
2
1
2
P36

xi 45 2
25
exp
2
1
2
P36

xi 40 2
25
i=1
i=1
o
o >k
dopo alcune esemplificazioni ed applicando il logaritmo

B:
36
X
xi 125log (k) + 1530
i=1
e dividendo per n
B:x
3, 47log (k) + 42, 5
{z
}
|
c
standardizzando x
per la quale conosciamo la distribuzione sotto H0
B:
c 40
x
40

25/ 36
25/ 36
vogliamo determinare c t.c. P (B|H0 ) = = 0, 15 quindi
c40
25/ 36
= Z = 1, 0365 ,
25
c = 40 + 1, 0365 ' 44, 32
36
B:x
44, 32
quindi accettiamo H1 poichè il test impone tale decisione per x
44, 32.
n
Per quanto concerne la potenza del test 1 = P {
x > c |H1 } = P Z
0, 936
172
46,0245
25/ 36
15.1.5 Considerazioni
Nella scelta fra test si utilizza come criterio di paragone la quantità 1 a parità di
Ipotesi semplici: si sceglie il test con 1 maggiore
= 0.01
Ipotesi composte: ora 1 è una funzione di perci`

o se 1 è maggiore nel test
per ogni rispetto ad un altro testi si dice uniformemente pi`
u potente
40
H1 : > 40
tuttavia le curve potrebbero intersecarsi e non sarebbe agevole la scelta. La potenza

uniforme è riscontrabile in casi cosiddeti regolari di stima (che tralasciamo).
Infine la significativit`
a osservata è il minor valore di che avrebbe condotto allaccettazione di H0 . Nel seguente grafico se > 0, 02 accetterei H0 per pi`
u piccoli la
rifiuterei. Quindi = 0, 02è il minor valore di che avrebbe condotto allaccettazione
di H0 , la significatività osservata, appunto.
173
= 0.02
H0
174
/ n
H0
X
~N 0,1
nota
S 2c =
~t
n1
n1
/
n
H
X
0
2
n
2
Varianza
i =1 x i
2=
n
H0
n 2
nota
N 0,1
X , n30
i =1 x i x
Sc / n
H
X
0
ignota
X ~N , n
Media
X ~N
MetodoAnalogico
S c=
2
n1
2
n1
i =1 x i x
H0
n1 S c
ignota
X ,Y ~N
Confronto
framedie
X , n
ny
2p=
H 0 : 0 =x y
nx
n x ny 2
ny
[ i =1 x ix 2 i =1 yi y 2 ]
1 1
2p
nx ny
~t
X = Y =?
x y 0
n x n y 2
, 1 , =0 1
0
2 log 2 r
MassimaVerosimiglianza
~ N 0,1
H 0 : 0 =X Y
nx
x y 0
2 X , 2 Y note
ProvaIpotesi
175
15.2 Test di Ipotesi per la Media

Si rammenta che indicheremo con B la regione di rifiuto per H0 .
15.2.1 Varianza Nota

x
H0
N (0, 1)
/ n
dove è la vera media, 2 la vera varianza ed n lampiezza campionaria. Allora per i
seguenti test

H0 : = 0
,B:x
0 + Z
H1 : > 0
n

H0 : = 0
,B:x
0 Z
H1 : < 0
n

H0 : = 0
,B: x
0 Z/2 x
0 + Z/2
H1 : 6= 0
n
n
Nota bene: tale risultato
Se X N è valido n
Se X N è valido solo per n > 30, in virt`
u del teorema del limite centrale
15.2.2 Varianza ignota

Premesso che indicheremo la varianza campionaria corretta come segue
Pn
(xi x
)2
2
Sc = i=1
n1
15.2.2.1 X N , n
x
H0 n1
t
Sc / n
di conseguenza
176
H0 : = 0
H1 : > 0
Sc
,B:x
0 + tn1
n
H0 : = 0
H1 : > 0
Sc
,B:x
0 tn1
n
H0 : = 0
H1 : 6= 0

n1 Sc
n1 Sc
,B: x
0 t/2 x
0 + t/2
n
n

15.2.2.2 n > 30 , X
x
H0
N (0, 1)
/ n

,B:x
0 + Z
n
H0 : = 0
H1 : > 0
H0 : = 0
,B:x
0 Z
H1 : < 0
n

H0 : = 0
,B: x
0 Z/2 x
0 + Z/2
H1 : 6= 0
n
n
dove
2 è unopportuna stima per la varianza.
15.3 Test di Ipotesi per la Varianza

Quanto tratteremo varrà solo per popolazioni normali X N .
15.3.1 Media nota

Se la vera media è nota la stima puntuale non distorta per la varianza è
Pn
i=1 (xi
)2
la quantità
2
n
0 2
n
2 X
xi H
=
(n)
2
| {z }
i=1
N (0,1)
H0 : 2 = 02
H1 : 2 6= 02
H0 : 2 = 02
H1 : 2 > 02
H0 : 2 = 02
H1 : 2 < 02

,B:
,B:
2 >
,B:
2 <
02
2(n),
n
02
2(n),1
n
2
2
< 0 2(n),1/2
2 > 0 2(n),/2
n
n
2
177
15.3.2 Media Ignota

In tal caso lo stimatore
distorto per la varianza, come visto, è la varianza campionaria
Pn (x xnon
)2
2
i=1 i
corretta Sc =
, si dimostra che
n1
(n 1) Sc2 H0 2
(n1)
2
similarmente a quanto precedentemente osservato per il caso dei media nota abbiamo

H0 : 2 = 02
H1 : 2 6= 02
H0 : 2 = 02
H1 : 2 > 02
H0 : 2 = 02
H1 : 2 < 02

, B : Sc2 <
, B : Sc2 >
, B : Sc2 <
02
2
n 1 (n1),
02
2
n 1 (n1),1
02
02
2(n1),1/2 Sc2 >
2
n1
n 1 (n1),/2
15.4 Confronto Fra Medie

Ora abbiamo due popolazioni X, Y entrambe distribuite normalmente da cui estraiamo
un campione per ognuna. Siamo interessati alla verifica di ipotesi sulla quantità X
Y = 0 avendo estratto due campioni di ampiezza rispettivamente nx , ny .
15.4.1 Varianze Note

(
x y) 0 H0
r
N (0, 1)
2
2
X
Y
nx + ny

H0 : = 0
H1 : 6= 0
H0 : = 0
H 1 : > 0
H0 : = 0
H 1 : < 0
, B : (
x y) 0 Z
s
(
x y) 0 Z
nota: usualmente siamo interessati a 0 = 0.
178
2
2
X
+ Y
nx
ny
2
X
2
+ Y
nx
ny
, B : (
x y) 0 + Z
(
,B:
2
X
2
+ Y (
x y) 0 + Z
nx
ny
2
X
2
+ Y
nx
ny
15.4.2 Varianze Ignote

2 = 2 = 2 , se cos`
In tal caso dobbiamo essere certi che almeno X
è
Y
(
x y) 0 H0 nx +ny 2
r
t
1
1
2
p nx + ny
dove
p2 costituisce una stima di 2
p2
"n
#
n
x
X
X
1
2
2
=
(xi x
) +
(yi y)
nx + ny 2
i=1
i=1
le regioni B si ricavano identicamente come nel caso di varianze note, utilizzanto

r
in luogo di N (0, 1) e

H0 : = 0
H1 : 6= 0
2
X
nx
H0 : = 0
H 1 : > 0
H0 : = 0
H 1 : < 0
r
p2 n1x +
1
ny
2
Y
ny
s
, B : (
x y) 0 +
n +n 2
tx y
, B : (
x y) 0
n +n 2
tx y
(
x y) 0
nx +ny 2
t/2
p2
1
1
+
n x ny
1
1
+
n x ny
p2
s
(
,B:
tnx +ny 2 e
p2
1
1
+
nx ny

(
x y) 0 +
nx +ny 2
t/2
2 6= 2 esistono soluzioni approssimate, in alternativa se n , n opera

Nel caso X
x y
Y
lapprossimazione normale
(
x y) 0 H0
q 2
N (0, 1)
Sc (x)
Sc2 (y)
+
nx
ny
e si procede come per il caso di varianze note.
15.5 Test del Rapporto di Verosimiglianza

Il lemma di Neyman-Pearson è estensibile al caso di ipotesi composte tramite il test del
rapporto fra verosimiglianze

H0 : 0
, con = 0 1
H1 : 1
179
p2
1
1
+
nx ny
)

cerchiamo il massimo di verosimiglianza nellintero spazio parametrico e successivamente nel suo sottoinsieme 0

L = M axL ()

L = M axL ()
0
sicuramente
che il massimo viene cercato in una regione ristretta di comporta
il fatto
che L L varrà quindi che

L
(x) = [0, 1]
L
nel caso vengano sottoposti a vincolo r parametri si dimostra che
n
2log () 2(r)
quindi accetteremo H0 se 2log () > 2(r), .
180
16 Esercizi Prova delle Ipotesi
181
Normale
LUnione Europea ha fissato come parametro di giudizio il livello medio di inquinamento
nei centri abitati. Si ritiene accettabile una media inferiore a 20.
Avendo indicato con X = livello di inquinamento ed estraendo un campione di n citt`
a si
è ottenuto quanto segue:
IT = X
F R = 22
X
si dispone inoltre delle seguenti informazioni:
IT = 3 F R = 5
XIT N (, ) XF R N (, )
n = 15 , ampiezza campionaria
= 0, 05 signif icativitdel test
Si sottoponga ad ipotesi statistica per entrambi i Paesi quanto segue:

H0 : 20
H1 : > 20
Calcolare la regione di rifiuto
c = 0 + z
n
3
cIT = 20 + 1, 645 = 21, 27
15
5
cF R = 20 + 1, 645 = 22, 13
15
IT > cIT , mentre non rifiutiamo H0 per
perciò rifiutiamo H0 per lItalia in quanto X
la Francia in quanto XF R < cF R .

Determinare il livello di significatività osservato (p-value):
(
)
20
X
22 20
IT = P r
>
= P r {Z > 2, 58} = 0, 0049
3
3
F R = P r
15
20
X
5
15
>
15
22 20
5
15
)
= P r {Z > 1, 55} = 0, 0606
la decisione di accettazione/rifiuto di H0è raggiungibile altres` confrontando il livello

di significatività richiesto, , con il livello di significatività osservato,
. Infatti per
lItalia rifiutiamo H0 poichè
IT < , mentre nel caso della Francia accettiamo H0 poichè
F R > .
182
Differenza tra medie (Normale)

Due gestori patrimoniali sottopongono ad ipotesi statistica i rendimenti annuali generati
dallinizio della loro attività. Avendo indicato con R i rendimenti, i dati di cui si dispone
sono i seguenti:
T = 0, 09
Tizio: RT N (; ) nT = 5 ST = 0, 02 R
C = 0, 12
Caio: RC N (; ) nC = 8 SC = 0, 01 R
Verificare luguaglianza della performance dei due gestori con una significatività del test
= 0, 05

H0 : T = C
H1 : T 6= C
la statistica test è

T R
C (T C )
R
r

2
(nT 1)ST2 +(nC 1)SC
1
1
+
nT +nC 2
nT
nC
z=q
(0, 09 0, 12) 0
40,022 +70,01
5+82
1
5
1
8
tnT +nC 2
' 3, 64
+

|z| > z/2 rifiutoH0
quindi non posso concludere circa la parità di performance dei due gestori a livello
= 0, 05
Con lo stesso livello di significatività testare la minore abilità di Tizio:

H0 : T = C
H1 : T < C
in questo caso si tratta di unipotesi unilaterale ed è sufficiente, al fine di concludere in

favore di H0 , verificare se per il valore precedentemente ottenuto z = 3, 64 risulta che
|z| > |z |
2, 075 > 1, 797
poichè la relazione è falsa non possiamo concludere in favore di H0 , cioè circa luguaglianza di performance fra i due gestori.
183
Binomiale
Unurna contenente palline bianche (B) e nere (N), viene sottoposta allipotesi secondo
cui la proporzione di queste sia identica. Da un campione di 40 persone, in cui ciascuna
= 1, 50. Indicando
ha effettuato 4 tentativi, è stata ottenuta la media campionaria X
con Fr la frequenza, sottoporre ad ipotesi statistica quanto segue
(
r(B)
H0 : FF r(N
) =1
H1 :
F r(B)
F r(N )
<1
Determinare la distribuzione di Xsotto

lipotesi H0
!
r
4
0,
5(1
0,
5)
0 N 4 0, 5; =
X|H
40
Ipotizzando come appropriata la distribuzione binomiale per la popolazione numero di
palline bianche estratte X Bin (n = 4, =?), il problema decisionale è esprimibile
nella seguente maniera

H0 : n = n2
H1 : n < n2

H0 : 4 = 2
H1 : 4 < 2
Prendere una decisione in favore di H0 oppoure di H1 ad un livello di significatività =
0, 01 sulla base del risultato campionario
1, 50 4 0, 5
z= q
= 3, 16
40,5(10,5)
40
poichè
z < z/2
3, 16 < 2, 326
accettiamo H1 , quindi con un livello di significatività = 0, 01 possiamo concludere

circa la minore presenza nellurna delle palline bianche rispetto alle palline nere.
184
Tavole Statistiche
185
(z) =
1
t2
exp
2
2

dt
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0
0,5000
0,5040
0,5080
0,5120
0,5160
0,5199
0,5239
0,5279
0,5319
0,5359
0,1
0,5398
0,5438
0,5478
0,5517
0,5557
0,5596
0,5636
0,5675
0,5714
0,5753
0,2
0,5793
0,5832
0,5871
0,5910
0,5948
0,5987
0,6026
0,6064
0,6103
0,6141
0,3
0,6179
0,6217
0,6255
0,6293
0,6331
0,6368
0,6406
0,6443
0,6480
0,6517
0,4
0,6554
0,6591
0,6628
0,6664
0,6700
0,6736
0,6772
0,6808
0,6844
0,6879
0,5
0,6915
0,6950
0,6985
0,7019
0,7054
0,7088
0,7123
0,7157
0,7190
0,7224
0,6
0,7257
0,7291
0,7324
0,7357
0,7389
0,7422
0,7454
0,7486
0,7517
0,7549
0,7
0,7580
0,7611
0,7642
0,7673
0,7704
0,7734
0,7764
0,7794
0,7823
0,7852
0,8
0,7881
0,7910
0,7939
0,7967
0,7995
0,8023
0,8051
0,8078
0,8106
0,8133
0,9
0,8159
0,8186
0,8212
0,8238
0,8264
0,8289
0,8315
0,8340
0,8365
0,8389
1,0
0,8413
0,8438
0,8461
0,8485
0,8508
0,8531
0,8554
0,8577
0,8599
0,8621
1,1
0,8643
0,8665
0,8686
0,8708
0,8729
0,8749
0,8770
0,8790
0,8810
0,8830
1,2
0,8849
0,8869
0,8888
0,8907
0,8925
0,8944
0,8962
0,8980
0,8997
0,9015
1,3
0,9032
0,9049
0,9066
0,9082
0,9099
0,9115
0,9131
0,9147
0,9162
0,9177
1,4
0,9192
0,9207
0,9222
0,9236
0,9251
0,9265
0,9279
0,9292
0,9306
0,9319
1,5
0,9332
0,9345
0,9357
0,9370
0,9382
0,9394
0,9406
0,9418
0,9429
0,9441
1,6
0,9452
0,9463
0,9474
0,9484
0,9495
0,9505
0,9515
0,9525
0,9535
0,9545
1,7
0,9554
0,9564
0,9573
0,9582
0,9591
0,9599
0,9608
0,9616
0,9625
0,9633
1,8
0,9641
0,9649
0,9656
0,9664
0,9671
0,9678
0,9686
0,9693
0,9699
0,9706
1,9
0,9713
0,9719
0,9726
0,9732
0,9738
0,9744
0,9750
0,9756
0,9761
0,9767
2,0
0,9772
0,9778
0,9783
0,9788
0,9793
0,9798
0,9803
0,9808
0,9812
0,9817
2,1
0,9821
0,9826
0,9830
0,9834
0,9838
0,9842
0,9846
0,9850
0,9854
0,9857
2,2
0,9861
0,9864
0,9868
0,9871
0,9875
0,9878
0,9881
0,9884
0,9887
0,9890
2,3
0,9893
0,9896
0,9898
0,9901
0,9904
0,9906
0,9909
0,9911
0,9913
0,9916
2,4
0,9918
0,9920
0,9922
0,9925
0,9927
0,9929
0,9931
0,9932
0,9934
0,9936
2,5
0,9938
0,9940
0,9941
0,9943
0,9945
0,9946
0,9948
0,9949
0,9951
0,9952
2,6
0,9953
0,9955
0,9956
0,9957
0,9959
0,9960
0,9961
0,9962
0,9963
0,9964
2,7
0,9965
0,9966
0,9967
0,9968
0,9969
0,9970
0,9971
0,9972
0,9973
0,9974
2,8
0,9974
0,9975
0,9976
0,9977
0,9977
0,9978
0,9979
0,9979
0,9980
0,9981
2,9
0,9981
0,9982
0,9982
0,9983
0,9984
0,9984
0,9985
0,9985
0,9986
0,9986
3,0
0,9987
0,9987
0,9987
0,9988
0,9988
0,9989
0,9989
0,9989
0,9990
0,9990
3,1
0,9990
0,9991
0,9991
0,9991
0,9992
0,9992
0,9992
0,9992
0,9993
0,9993
3,2
0,9993
0,9993
0,9994
0,9994
0,9994
0,9994
0,9994
0,9995
0,9995
0,9995
3,3
0,9995
0,9995
0,9995
0,9996
0,9996
0,9996
0,9996
0,9996
0,9996
0,9997
3,4
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9998
(z)
0,900
0,950
0,975
0,990
0,995
0,999
1,282
1,645
1,960
2,326
2,576
3,090
187
t1
f (z) dz = 1
z t student(DF )
188
DF
0,75
0,9
0,95
0,975
0,99
0,995
1,0000
3,0777
6,3138
12,7062
31,8205
63,6567
0,8165
1,8856
2,9200
4,3027
6,9646
9,9248
0,7649
1,6377
2,3534
3,1824
4,5407
5,8409
0,7407
1,5332
2,1318
2,7764
3,7469
4,6041
0,7267
1,4759
2,0150
2,5706
3,3649
4,0321
0,7176
1,4398
1,9432
2,4469
3,1427
3,7074
0,7111
1,4149
1,8946
2,3646
2,9980
3,4995
0,7064
1,3968
1,8595
2,3060
2,8965
3,3554
0,7027
1,3830
1,8331
2,2622
2,8214
3,2498
10
0,6998
1,3722
1,8125
2,2281
2,7638
3,1693
11
0,6974
1,3634
1,7959
2,2010
2,7181
3,1058
12
0,6955
1,3562
1,7823
2,1788
2,6810
3,0545
13
0,6938
1,3502
1,7709
2,1604
2,6503
3,0123
14
0,6924
1,3450
1,7613
2,1448
2,6245
2,9768
15
0,6912
1,3406
1,7531
2,1314
2,6025
2,9467
16
0,6901
1,3368
1,7459
2,1199
2,5835
2,9208
17
0,6892
1,3334
1,7396
2,1098
2,5669
2,8982
18
0,6884
1,3304
1,7341
2,1009
2,5524
2,8784
19
0,6876
1,3277
1,7291
2,0930
2,5395
2,8609
20
0,6870
1,3253
1,7247
2,0860
2,5280
2,8453
21
0,6864
1,3232
1,7207
2,0796
2,5176
2,8314
22
0,6858
1,3212
1,7171
2,0739
2,5083
2,8188
23
0,6853
1,3195
1,7139
2,0687
2,4999
2,8073
24
0,6848
1,3178
1,7109
2,0639
2,4922
2,7969
25
0,6844
1,3163
1,7081
2,0595
2,4851
2,7874
26
0,6840
1,3150
1,7056
2,0555
2,4786
2,7787
27
0,6837
1,3137
1,7033
2,0518
2,4727
2,7707
28
0,6834
1,3125
1,7011
2,0484
2,4671
2,7633
29
0,6830
1,3114
1,6991
2,0452
2,4620
2,7564
30
0,6828
1,3104
1,6973
2,0423
2,4573
2,7500
40
0,6807
1,3031
1,6839
2,0211
2,4233
2,7045
50
0,6794
1,2987
1,6759
2,0086
2,4033
2,6778
70
0,6780
1,2938
1,6669
1,9944
2,3808
2,6479
100
0,6770
1,2901
1,6602
1,9840
2,3642
2,6259
0,6745
1,2816
1,6449
1,9600
2,3263
2,5758
4,6
5,14
5,7
6,26
6,84
7,43
8,03
8,64
9,26
14
15
16
17
18
19
20
21
22
23
13,79
4,07
13
30
3,57
12
13,12
3,07
11
12,46
2,6
10
29
2,16
28
1,73
11,81
1,34
11,16
0,989
27
0,676
26
0,412
189
14,95
14,26
13,56
12,88
12,2
11,52
10,86
10,2
9,54
8,9
8,26
7,63
7,01
6,41
5,81
5,23
4,66
4,11
3,57
3,05
2,56
2,09
1,65
1,239
0,872
0,554
0,297
0,115
0,020
16,79
16,05
15,31
14,57
13,84
13,12
12,4
11,69
10,98
10,28
9,59
8,91
8,23
7,56
6,91
6,26
5,63
5,01
4,4
3,82
3,25
2,7
2,18
1,690
1,237
0,831
0,484
0,216
0,051
0,050
18,49
17,71
16,93
16,15
15,38
14,61
13,85
13,09
12,34
11,59
10,85
10,12
9,39
8,67
7,96
7,26
6,57
5,89
5,23
4,57
3,94
3,33
2,73
2,167
1,635
1,145
0,711
0,352
0,103
3,93E-003
20,6
19,77
18,94
18,11
17,29
16,47
15,66
14,85
14,04
13,24
12,44
11,65
10,86
10,09
9,31
8,55
7,79
7,04
6,3
5,58
4,87
4,17
3,49
2,833
2,204
1,610
1,064
0,584
0,211
0,016
0,100
24,48
23,57
22,66
21,75
20,84
19,94
19,04
18,14
17,24
16,34
15,45
14,56
13,68
12,79
11,91
11,04
10,17
9,3
8,44
7,58
6,74
5,9
5,07
4,255
3,455
2,675
1,923
1,213
0,575
0,102
0,250
29,34
28,34
27,34
26,34
25,34
24,34
23,34
22,34
21,34
20,34
19,34
18,34
17,34
16,34
15,34
14,34
13,34
12,34
11,34
10,34
9,34
8,34
7,34
6,35
5,35
4,35
3,36
2,37
1,39
0,455
0,500
34,8
33,71
32,62
31,53
30,43
29,34
28,24
27,14
26,04
24,93
23,83
22,72
21,6
20,49
19,37
18,25
17,12
15,98
14,85
13,7
12,55
11,39
10,22
9,04
7,84
6,63
5,39
4,11
2,77
1,32
0,750
40,26
39,09
37,92
36,74
35,56
34,38
33,2
32,01
30,81
29,62
28,41
27,2
25,99
24,77
23,54
22,31
21,06
19,81
18,55
17,28
15,99
14,68
13,36
12,02
10,64
9,24
7,78
6,25
4,61
2,71
0,900
43,77
42,56
41,34
40,11
38,89
37,65
36,42
35,17
33,92
32,67
31,41
30,14
28,87
27,59
26,3
25
23,68
22,36
21,03
19,68
18,31
16,92
15,51
14,07
12,59
11,07
9,49
7,81
5,99
3,84
0,950
46,98
45,72
44,46
43,19
41,92
40,65
39,36
38,08
36,78
35,48
34,17
32,85
31,53
30,19
28,85
27,49
26,12
24,74
23,34
21,92
20,48
19,02
17,53
16,01
14,45
12,83
11,14
9,35
7,38
5,02
0,975
50,89
49,59
48,28
46,96
45,64
44,31
42,98
41,64
40,29
38,93
37,57
36,19
34,81
33,41
32
30,58
29,14
27,69
26,22
24,72
23,21
21,67
20,09
18,48
16,81
15,09
13,28
11,34
9,21
6,63
0,990
53,67
52,34
50,99
49,64
48,29
46,93
45,56
44,18
42,8
41,4
40
38,58
37,16
35,72
34,27
32,8
31,32
29,82
28,3
26,76
25,19
23,59
21,95
20,28
18,55
16,75
14,86
12,84
10,6
7,88
0,995
f (z) dz = 1
9,89
0,207
0,025
9,82E-004
10,52
0,072
0,010
1,57E-004
25
0,010
24
0,005
3,93E-005
DF
z 2DF

AppuntiStatistica Univers Varese

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

AppuntiStatistica Univers Varese

Caricato da

Copyright:

Formati disponibili

` degli Studi dellInsubria

Appunti ed Esempi di Statistica

Paolo Tenconi: Appunti di Statistica

Paolo Tenconi: Appunti di Statistica

Paolo Tenconi: Appunti di Statistica

Teorema del Limite Centrale . . . . . . . . . . . . . . . . . . . . . . . . . 101

III Statistica Inferenziale

14 Esercizi di Stima Intervallare

Paolo Tenconi: Appunti di Statistica

Paolo Tenconi: Appunti di Statistica

1.1.1 Classificazione dei Dati

Nominale: fenomeno non quantitativo non soggetto ad ordinamento (definito

discreto: espresso numericamente e assumente un insieme numerabile (finito

Paolo Tenconi: Appunti di Statistica

Paolo Tenconi: Appunti di Statistica

1.2 Aree della Statistica

Paolo Tenconi: Appunti di Statistica

Paolo Tenconi: Appunti di Statistica

Paolo Tenconi: Appunti di Statistica

N = 20 numero di casi osservati

2.1.1 Dati Nominali, Ordinali e Quantitativi Discreti

Paolo Tenconi: Appunti di Statistica

nelle pagine a seguire indicheremo con

La rappresentazione grafica della distribuzione di frequenza (assoluta e relativa) avviene

2.1.2 Dati Quantitativi Continui

Paolo Tenconi: Appunti di Statistica

avremo k classi e per ognuna di esse calcoleremo le densit`a come segue

0 ` 1000 1000 ` 1500 1500 ` 5000

`e conveniente sintetizzare in una tabella la moteplicit`a di misure sin qui menzionate

la rappresentazione grafica avviene mediante istogramma

Paolo Tenconi: Appunti di Statistica

17, 5 ` 20, 5 20, 5 ` 25, 5 25, 5 ` 30, 5

Paolo Tenconi: Appunti di Statistica

2.2 Funzione di Ripartizione

essa gode delle seguenti propriet`a: F (x) [0, 1] , F () = 0 , F (+) = 1 .

2.2.1 Dati Ordinali e Quantitativi Discreti

nella successiva rappresentazione grafica si noti la continuit`a da destra della funzione

Paolo Tenconi: Appunti di Statistica

2.2.2 Dati Quantitativi Continui

0 ` 1000 1000 ` 1500 1500 ` 5000

Paolo Tenconi: Appunti di Statistica

Paolo Tenconi: Appunti di Statistica

2.3 Indici di Posizione

2.3.1 Moda e Classe Modale

2.3.2 Medie alla Chisini

f (x1 , x2 , ..., xN ) = f M, M, ..., M

Paolo Tenconi: Appunti di Statistica

calcolata su dati grezzi avremo che

disponendo in modo crescente gli addendi al numeratore

e spezzando gli addendi

Paolo Tenconi: Appunti di Statistica

Questa triplice scrittura opera anche su alcuni degli indici di variabilit`a

essa gode delle seguenti propriet`a

Paolo Tenconi: Appunti di Statistica

essa gode delle seguenti propriet`a

Un altro tipo di media che si riscontra sovente `e la media armonica

Unimportante sottoclasse delle medie di Chisini `e dato dalle medie potenziate,Pricoprono

Paolo Tenconi: Appunti di Statistica

in particolare per s = 1 si ottiene la media aritmetica, s = 2 la media quadratica, s = 1

Indicheremo il quantile con

2.3.3.1 Dati in Distribuzione Unitaria

Paolo Tenconi: Appunti di Statistica

Ad esempio dato il seguente insieme di 24 osservazioni X {1, 4, 1, 5, 7, 5, 1, 1, 5, 7, 1, 1, 7, 1, 5, 7, 5, 5, 1, 4, 1, 1, 7, 5}

Paolo Tenconi: Appunti di Statistica