Sei sulla pagina 1di 131

Universit`

a di Modena e Reggio Emilia


Facolt`
a di Ingegneria - sede di Modena

Lezioni
di
STATISTICA MATEMATICA

Docente: Prof. Valter Franceschini

per i Corsi di Laurea in Ingegneria Meccanica e dei Materiali


- a.a. 2008/09 -

INDICE
1

`
CALCOLO DELLE PROBABILITA

1.1

Calcolo combinatorio

1.2

La probabilit`
a matematica
Spazi di probabilit`a niti
Spazi niti equiprobabili

5
8
9

1.3

Probabilit`
a condizionata
Eventi indipendenti
Formula di Bayes

14
16
19

1.4

Variabili aleatorie
Variabili aleatorie discrete
Variabili aleatorie continue

23
25
26

1.5

Media e varianza

31

1.6

Variabili aleatorie bidimensionali

37

1.7

Distribuzioni binomiale, di Poisson e di Gauss


Distribuzione binomiale
Distribuzione di Poisson
Distribuzione di Gauss

46
46
49
51

1.8

Approssimazione normale

55

1.9

Altre distribuzioni
Distribuzione esponenziale
Distribuzione ipergeometrica
Distribuzione geometrica

61
61
63
65

STATISTICA DESCRITTIVA

66

2.1
2.2
2.3

Introduzione
Organizzazione e rappresentazione dei dati
Grandezze che sintetizzano i dati

66
66
71

STATISTICA MATEMATICA

81

3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14

Popolazioni e campioni
Stimatori
Distribuzioni chi-quadro e di Student
Intervalli di fiducia (o di confidenza)
Stima della media di una popolazione normale
Stima della varianza di una popolazione normale
Stima della differenza delle medie di due popolazioni normali
Stima di una proporzione
Basi logiche dei test
Formulazione di un test di ipotesi
Test di significativit`
a
Test riguardanti la media di una popolazione normale
Test riguardanti la differenza delle medie di due popolazioni normali
Curve caratteristiche operative dei test

81
82
85
87
87
91
94
99
102
104
107
109
117
120

Tavole delle leggi N (0, 1), 2n e Tn

125

Bibliografia

128

CAPITOLO

`
1: CALCOLO DELLE PROBABILITA

1.1 CALCOLO COMBINATORIO


DISPOSIZIONI
Definizione Una disposizione semplice di n oggetti dati presi k alla volta `
e una
kupla ordinata di k oggetti distinti scelti tra gli n (ovviamente k n) .
Esempio 1.1.1
Le disposizioni semplici dei 3 oggetti dati a, b, c presi a coppie (per cui
k = 2, n = 3), sono
(a, b), (b, c), (c, a), (b, a), (c, b), (a, c) .
Proposizione Il numero di disposizioni semplici di n oggetti presi k alla volta, che
indichiamo con D(k; n), `e il prodotto dei k numeri naturali decrescenti a partire
da n:
D(k; n) = n(n 1) (n k + 1) =

n!
.
(n k)!

Infatti, se riempio k caselle in ordine, nella prima ho n possibilit`a di scelta, nella


seconda (n 1) possibilit`a, ..., nella kesima (n k + 1).
Definizione Una disposizione con ripetizione di n oggetti dati presi k alla volta
`e una kupla ordinata i cui elementi, non necessariamente distinti, sono scelti fra
gli n.
Osservazione: dierentemente dal caso delle disposizioni semplici, k pu`o anche essere
maggiore di n.
Esempio 1.1.2 Le diposizioni con ripetizione dei tre oggetti a, b, c a due a due (per cui
n = 3, k = 2) sono
(a, a), (a, b), (b, a), (b, b), (b, c), (c, b), (a, c), (c, a), (c, c) .
Proposizione

Il numero di disposizioni con ripetizione di n oggetti presi k alla

volta `e
D R (k; n) = nk .
Infatti, se riempio k caselle in ordine, nella prima casella ho n possibilit`a di scelta,
nella seconda ho ancora n possibilit`a, e cos` per tutte le altre caselle. Ottengo quindi
il numero di oggetti elevato al numero di caselle.
Il numero delle possibile schedine del totocalcio `e 313 ; questo `e infatti il
numero di disposizioni con ripetizione dei 3 simboli 1, 2, x, in 13 caselle ordinate.

Esempio 1.1.3

Osservazione: Come si deduce da quanto appena visto, in questo contesto laggettivo


1

semplice signica senza ripetizioni.

PERMUTAZIONI
Definizione Una permutazione di n oggetti dati `
e una nupla ordinata i cui
elementi sono tutti gli n oggetti.
Detto altrimenti, una permutazione `e una disposizione semplice degli n oggetti dati
quando sono presi tutti n (si tratta del caso k = n). Di conseguenza il numero P (n)
delle possibili permutazioni di n oggetti vale
P (n) = n(n 1) 3 2 1 n!
Il simbolo n! si legge n fattoriale e designa il prodotto dei primi n numeri naturali.
Per convenzione si pone 0! = 1. Si `e dunque trovato che vale la seguente
Proposizione

Il numero P (n) delle permutazioni di n oggetti `e uguale a n! .

Esempio 1.1.4

Le permutazioni di 5 clienti di banca (che rappresentano i possibili modi di


metterli in ordine di attesa a uno sportello) sono 5!, ossia = 5 4 3 2 1 = 120.

COMBINAZIONI
Definizione Una combinazione semplice di n oggetti dati presi k alla volta,
k n, `
e un sottoinsieme non ordinato di k oggetti distinti scelti tra gli n.
Esempio 1.1.5

Le combinazioni dei 3 oggetti a, b, c, presi 2 alla volta sono

fa, bg, fb, cg, fa, cg .


Si noti che fa, bg fb, ag. Per gli insiemi astratti (per i quali si usa la parentesi graffa)
non vige alcuna struttura dordine.

Proposizione Il numero di combinazioni semplici di n oggetti presi k alla volta,


che indichiamo con C(k; n), vale
 
C(k; n) =

Ricordato che

n
.
k

 
n
n(n 1)...(n k + 1)
n!
:=
=
,
k
k!
k!(n k)!

dimostriamo la proposizione enunciata. Per ciascuna combinazione in cui sono presi


k oggetti alla volta, esistono P (k) modi di metterli in ordine. Di conseguenza, fra
il numero D(k; n) delle disposizioni e il numero C(k; n) delle combinazioni vale la
seguente relazione
D(k; n) = C(k; n) P (k) ,
da cui
C(k; n) =

D(k; n)
.
P (k)

Da questa segue immediatamente la tesi della proposizione.


3

Esempio 1.1.6 Il numero di comitati di 4 persone che si possono formare da un gruppo di 9


`e

 
9876
9
C(4; 9) =
= 9!/[4!(9 4)!] =
= 126 .
4
4321

Definizione Una combinazione con ripetizione di n oggetti dati presi k alla


volta `e un insieme non ordinato di k oggetti, non necessariamente distinti, scelti
tra gli n.
Osservazione: come per le disposizioni con ripetizione, e dierentemente dal caso
delle combinazioni semplici, k pu`
o anche essere maggiore di n.
Esempio 1.1.7
Le combinazioni con ripetizione dei 3 oggetti a, b, c, presi a coppie sono

fa, ag, fa, bg, fa, cg, fb, bg, fb, cg, fc, cg .
Analogamente, le combinazioni con ripetizione dei 2 oggetti a e b presi a terne sono

fa, a, ag, fa, a, bg, fa, b, bg, fb, b, bg .


Proposizione

Il numero di combinazioni con ripetizione di n oggetti presi k alla

volta `e
C R (k; n) =


n+k1
.
k

Dimostrazione
Si tratta di contare il numero di soluzioni (a1 , a2 , . . . , ak ), con gli ai numeri interi,
soddisfacenti la relazione
1 a1 a2 ak n .
Questa relazione equivale alla seguente
0 < a1 < a2 + 1 < a3 + 2 < < ak + k 1 < n + k ,
che a sua volta equivale a
0 < b1 < b2 < < bk < n + k ,
con i bi interi. Ne consegue che il numero cercato `e uguale al numero di possibili
scelte di k oggetti distinti presi dallinsieme f1, 2, . . . , n + k 1g, e quindi `e uguale a
C(k; n + k 1).
Applichiamo la formula che ci d`
a C R (k; n) per verificare che il numero di
combinazioni con ripetizione nei due casi visti nellesempio 1.1.7 `e rispettivamente 6 e 4.
Dobbiamo ovviamente calcolare C R (2, 3) e C R (3, 2). Si ha

Esempio 1.1.8


  
3+21
4
C (2, 3) =
=
= 6;
2
2

  
2+31
4
C R (3, 2) =
=
= 4.
3
3
R

Esercizio 1.1.1 Si consideri un gruppo costituito da 20 persone. Ci si pone il seguente


problema: qual `e la probabilit`
a che queste persone compiano gli anni in giorni tutti diversi?
Com`e facilmente intuibile, la probabilit`
a che ci interessa `e data dal rapporto fra il numero
Ndist dei casi possibili di 20 compleanni tutti distinti e il numero totale Ntot dei casi possibili di 20 compleanni anche con coincidenze. Volendo formalizzare il problema in termini
matematici, indichiamo con (c1 , c2 , ..., c20 ) la 20upla definita dai 20 compleanni, con ci
giorno di compleanno della i-esima persona. Allora Ndist corrisponde al numero delle possibili 20uple di ci tutti distinti, con 1 ci 365, il che implica Ndist = D(20; 365).
Daltra parte Ntot corrisponde al numero di tutte le possibili 20uple con 1 ci 365,
ossia Ntot = D R (20; 365). Indicando con P la probabilit`
a cercata si ha

P=

 346 
D(20; 365)
365 364 346  365  364 
Ndist
=

59% .
= R
=
Ntot
D (20, 365)
(365)20
365 365
365

Proposizione

Vale la seguente formula, detta formula binomiale di Newton:

 
 


 
n
n
n
n n
n
n1
n1
(a + b) =
a +
a
b + ... +
ab
+
b
0
1
n1
n
n

ovvero, in notazione compatta,

(a + b)n =

n  

n
k=0

Dimostrazione

ank bk .

(a + b)n = (a + b)(a + b)...(a + b) [n volte]


`e una lunga somma che contiene pi`
u volte laddendo generico ank bk . Fissiamo k,
con k n. Quante volte appare tale addendo? Tante quante le possibili scelte di
k parentesi tra le n date, prendendo da ciascuna il fattore b (ottenendo cos` bk ), e
conseguentemente prendendo da ciascuna delle rimanenti n k parentesi il fattore a
(ottenendo cos` ank ). In altre parole: il fattore ank bk compare
  tante volte quante
n
sono le combinazioni semplici di k oggetti tra gli n dati. Cio`e
volte. Quindi tale
k
 
n
addendo va moltiplicato per
e la somma va fatta rispetto a k come enunciato.
k
Esercizio 1.1.2 Provare la propriet`a dei coefficienti binomiali

 
  
n1
n1
n
+
=
.
k1
k
k
Procediamo con calcolo diretto:


 

n1
n1
(n 1)!
(n 1)!
+
=
+
=
k1
k
(k 1)! (n k)! k! (n 1 k)!
 
(n 1)! k + (n 1)! (n k)
(n 1)! (k + n k)
n
=
=
=
.
k! (n k)!
k! (n k)!
k

Osserviamo che `e grazie a questa relazione che si costruisce il famoso triangolo di Tartaglia.

` MATEMATICA
1.2 LA PROBABILITA
Definizione Si chiama spazio campionario linsieme S di tutti i possibili esiti
di un dato esperimento. Un evento `e un insieme di esiti, cio`e un sottinsieme
dello spazio campionario S. Si dice poi classe di eventi, e la denoteremo con ,

ogni insieme non vuoto di eventi che risulti essere chiuso rispetto alle operazioni
insiemistiche elementari, vale a dire:
i) dati due eventi A, B 2 , allora anche A [ B 2 (A [ B `e levento che si
verica se si verica almeno uno fra gli eventi A e B);
ii) data una successione
 numerabile di eventi Ai 2 , allora anche la loro unione
`e un evento, cio`e
i=1 Ai 2 ;

iii) dato un evento A 2 , allora anche il suo complementare AC S A 2


(AC `e levento che si verica quando A non si verica).
Dai tre assiomi che caratterizzano una classe di eventi seguono queste altre propriet`a:
Dati due eventi A e B , anche A \ B `
e un evento;
A \ B = (AC [ B C )C

A \ AC = ;

=)

A\ B 2 ;

=)

Linsieme vuoto ; e lo spazio S sono eventi;


; 2 ,

infatti:

infatti, preso A 2 , si ha

A [ AC = S

=)

S 2 .

Levento ; `e detto evento impossibile e S `e detto evento certo.


Definizione Due eventi A e B sono detti incompatibili se sono disgiunti, cio`
e se
A \ B = ;. A parole: due eventi sono incompatibili se non si possono mai vericare
simultaneamente.
Esempio 1.2.1

Si consideri il seguente esperimento: si getta un dado e si guarda il risultato


della prova, vale a dire il numero che si presenta. Lo spazio campionario consiste nei sei
numeri possibili:

S = f1, 2, 3, 4, 5, 6g .

Consideriamo i seguenti eventi: A:il risultato `e un numero pari; B :il risultato `e un


numero dispari; C :il risultato `e un numero primo. In termini si sottinsiemi di S :

A = f2, 4, 6g ,

Si ha quindi, ad esempio:

B = f1, 3, 5g ,

C = f2, 3, 5g .

AC = f1, 3, 5g = B ;
C C = f1, 4, 6g: `e levento il risultato non `e un numero primo;
B \ C = f3, 5g: `e levento il risultato `e un numero dispari e primo;
A [ C = f2, 3, 4, 5, 6g: `e levento il risultato `e un numero pari o primo.
Si noti che gli eventi A e B , essendo A \ B = ;, sono incompatibili.

Osservazione: Come si evince dallesempio, gli eventi sono definiti mediante proposizioni
fatte nel linguaggio comune, e poi identificati con sottinsiemi di S . Sulla base di questa
considerazione risulta molto pi`
u appropriato parlare di eventi incompatibili piuttosto che di
eventi disgiunti, e di sottinsiemi disgiunti piuttosto che di sottinsiemi incompatibili. Accade
per`
o spesso che i due aggettivi siano usati indifferentemente.

Definizione Sia S uno spazio campionario ed una classe di eventi in S. Sia poi
P una funzione definita su a valori in [0, 1]:
P : ! [0, 1] .

Allora (S, , P ) `e detto spazio di probabilit`


a e P (A) `
e detta probabilit`
a dellevento A 2 se valgono i seguenti tre assiomi:
1) P (S) = 1 ;
2) se A e B sono due eventi incompatibili, allora
3)

P (A [ B) = P (A) + P (B) ;

se fAn , n 2 N g `e una successione numerabile di eventi incompatibili, si ha


 
P [
A
=
P (An ) .
n
n=1
n=1

Gli assiomi 2) e 3) esprimono il fatto che le probabilit`a di eventi incompatibili si


sommano. In particolare lassioma 3), che ovviamente ha signicato solo nel caso in
cui `e un insieme innito, si esprime sinteticamente dicendo che P `e numerabilmente
additiva.
Teorema

P (;) = 0 . (La probabilit`


a dellevento impossibile `e nulla)

Dimostrazione
Sia A un qualunque evento di . Poiche anche ; 2 , segue che A [ ; 2 . Inoltre,
A ed ; sono eventi incompatibili essendo A \ ; = ;. In virt`
u dellassioma 2) si ha
quindi
P (A) = P (A [ ;) = P (A) + P (;)

=)

P (;) = 0 .

Teorema (regola di complementazione) Sia A 2 un evento ed AC il suo comple-

mentare. Allora si ha

P (AC ) = 1 P (A) .
Dimostrazione
Essendo A \ AC = ;, A ed AC sono eventi incompatibili. Di conseguenza, applicando
lassioma 2) ad S, si ottiene
P (S) = P (A [ AC ) = P (A) + P (AC ) = 1 ,
da cui consegue banalmente la tesi.
7

Teorema Se A e B sono due eventi tali che


A B , allora
P (A) P (B) .
Dimostrazione
Essendo A B si pu`o decomporre B negli
eventi incompatibili A e B A = B \ AC . Si
pu`o quindi scrivere
P (B) = P (A [ (B A)) = P (A) + P (B A) P (A) ,
esssendo P (B A) 0.
Teorema

Se A e B sono due eventi qualun-

que, allora
P (A B) = P (A) P (A \ B) .
Dimostrazione
Levento A pu`o essere decomposto negli eventi
incompatibili A B e A \ B, per cui, in virt`
u
dellassioma 2), si ha


P (A) = P (A B) [ (A \ B) = P (A B) + P (A \ B) .

La tesi segue immediatamente.

Teorema (regola di addizione per eventi arbitrari) Se A, B sono eventi arbitrari di uno

spazio di probabilit`a, allora


P (A [ B) = P (A) + P (B) P (A \ B) .
Dimostrazione
Scriviamo A [ B come unione dei due eventi
incompatibili A B e B. Applicando quindi
lassioma 2) e il teorema precedente si ottiene
la tesi.


P (A [ B) = P (A B) [ B = P (A B) + P (B) = P (A) + P (B) P (A \ B) .

Spazi di probabilit`a finiti


Sia S uno spazio campionario nito:
S = fa1 , a2 , . . . , aN g
ed linsieme di tutti i sottinsiemi di S (inclusi S e ;). Si ottiene uno spazio di
probabilit`a nito assegnando a ciascun elemento ai di S un numero reale pi , detto
probabilit`
a di ai e indicato come P (fai g), tale che
i)
ii)

pi 0 per ogni i = 1, 2, . . . , N ;
la somma delle singole probabilit`a `e uguale a 1, ossia

i=1

pi = 1 .

La probabilit`a P (A) di un qualsiasi evento A S viene quindi denita come la somma


delle probabilit`a degli eventi elementari fai g contenuti in A:
P (A) = P


 


fai g =
P fai g =
pi .

i:ai A

i:ai A

i:ai A

Dimostriamo che la funzione P : ! [0, 1] `e una funzione di probabilit`a facendo


vedere che valgono gli assiomi 1) e 2). Per quanto riguarda la validit`a dellassioma
1), si ha
P (S) = P

N
N
N



 

 
fai g = P
fai g =
P fai g =
pi = 1 .
i=1

i:ai S

i=1

i=1

Daltra parte, se A e B sono eventi incompatibili, abbiamo


P (A [ B) = P
=

i:ai AB

i:ai A

pi +


fai g =


i:ai AB



P fai g =

pi = P (A) + P (B) ,

i:ai B

per cui vale anche lassioma 2). Valgono dunque tutti gli assiomi richiesti perche P
sia una probabilit`a (essendo lo spazio nito, lassioma 3) non ha signicato).
Dal punto di vista pratico ci sono diversi modi di assegnare le probabilit`a pi agli
eventi elementari fai g. Uno dei possibili modi `e il seguente: se ripetiamo lo stesso
esperimento n volte e chiamiamo si il numero di volte che si verica fai g, si osserva
che il rapporto
si
,
n
detto frequenza relativa, a lungo andare tende a stabilizzarsi, cio`e tende ad un limite pi (compreso, ovviamente, tra 0 ed 1). Questo valore limite pi , cos` calcolato
empiricamente, viene assunto come la probabilit`
a dellevento elementare fai g.

Spazi finiti equiprobabili


Definizione Si dice spazio equiprobabile (o uniforme) uno spazio di probabilit`
a
finito dove ciascun elemento dello spazio campionario S (o, equivalentemente,
ciascun evento elementare) ha la stessa probabilit`a.
Dalla denizione e dagli assiomi della probabilit`a segue immediatamente che, se lo
spazio campionario S consta di N elementi, la probabilit`a di ciascun elemento di S
1
vale p = . Avremo inoltre che, dato un qualunque evento A, la sua probabilit`a sar`a
N
da
numero degli elementi di A
jAj
=
.
P (A) =
N
N
A parole: in uno spazio finito equiprobabile, la probabilit`
a di un evento vale il
numero dei casi favorevoli diviso il numero dei casi possibili.
Nota bene: jAj denota la cardinalit`a di A, cio`e il numero degli eventi elementari che
costituiscono A. Questa notazione sar`a utizzata anche in seguito.
Esempio 1.2.2

Consideriamo un dado non truccato: avremo

S = f1, 2, 3, 4, 5, 6g,

P (1) = P (2) = = P (6) =

N = 6,

1
6

Vogliamo calcolare, ad esempio, la probabilit`


a degli eventi

A : esce un numero pari,

B : esce un numero minore di 3.

Si avr`
a

P (A) =

1
jf2, 4, 6gj
= ,
6
2

P (B) =

jf1, 2gj
1
= .
6
3

Esercizio 1.2.1 Si scelga a caso una carta da un mazzo ben mescolato di 52 carte da ramino.
Ci si chiede la probabilit`
a di ottenere: 1) un asso; 2) una carta di fiori; 3) una figura; 4) una
figura non di cuori.
Lo spazio campionario S `e ovviamente linsieme delle 52 carte, per cui N =52. Siano poi
A1 , A2 , A3 e A4 gli eventi di cui si chiede, nellordine, la probabilit`a. Essendo lo spazio
equiprobabile (la carta `e scelta a caso!), avremo:

jA1 j
N
jA2 j
P (A2 ) =
N
jA3 j
P (A3 ) =
N
jA4 j
P (A4 ) =
N
P (A1 ) =

4
1
=
;
52
13
numero delle carte di fiori
13
1
=
=
= ;
N
52
4
numero delle figure
12
3
=
=
=
;
N
52
13
numero delle figure non di cuori
9
=
=
.
N
52
=

numero degli assi

10

Esercizio 1.2.2 Si effettuano cinque lanci successivi di una moneta non truccata. Ci si
chiede: qual `e la probabilit`
a che in cinque lanci esca testa almeno una volta?
Introduciamo lappropriato spazio di probabilit`
a:


S = (a1 , a2 , a3 , a4 , a5 ),

con ai = T o ai = C, i = 1, ..., 5 ,

dove ai indica il risultato del lancio i-esimo, e T e C stanno ovviamente per testa e croce.
Siccome il numero delle possibili cinquine che costituiscono S `e 25 , abbiamo N = 32, e quindi
1
p = 32
.
Levento che ci interessa `e

A = esce almeno una testa ,


che `e il complementare dellevento elementare f(C, C, C, C, C)g, la cui probabilit`
a `e ovviamente p. Si ha quindi

P (A) = 1 P (AC ) = 1

1
31
=
.
32
32

Esercizio 1.2.3 Problema: qual `e la probabilit`a che fra M persone ce ne siano almeno due
con lo stesso compleanno?
Il problema, nella sostanza, `e gi`
a stato affrontato nellesercizio 1.1.1. Assunto che tutti gli
anni siano di 365 giorni (considerare anche gli anni bisestili complicherebbe considerevolmente il problema), e che tutti i giorni siano equiprobabili, lo spazio di probabilit`
a `e

S =



(a1 , a2 , . . . , aM ), ai 2 [1, 2, . . . , 365] .

Siccome il numero degli eventi elementari `e N = DR (M ; 365) = 365M , ogni evento ele-

1
.
365M
Indicato con AM levento gli M compleanni avvengono tutti in giorni diversi, levento di
cui interessa la probabilit`
a `e il complementare di AM , cio`e AC
M . Ricordando quanto visto
mentare ha probabilit`
ap=

nellesercizio 1.1.1, generalizzandone il risultato si ottiene

P (AM ) =

jAM j
D(M ; 365)
365 364 (365 M + 1)
= R
=
,
jSj
D (M ; 365)
365M

e quindi, in virt`
u della regola di complementazione,

P (AC
M)

=1

i=1 (366
365M

i)

C
C
Facendo il calcolo, si ottiene, ad esempio, P (AC
10 ) 12%, P (A20 ) 41%, P (A30 ) 71%,
C
P (A50 ) 97%.

11

Esercizio 1.2.4 Carlo e Giorgio sono due amici che ogni giorno scommettono sul risultato
del lancio di un dado. Carlo punta sempre su un risultato dispari, Giorgio su un risultato
pari. Giorgio crede che i numeri riportati sulle facce del dado (ovviamente gli interi da 1 a 6)
siano equiprobabili. In realt`
a non `e cos` in quanto Carlo, di nascosto, ha truccato il dado
o che gli altri numeri
facendo in modo che il numero 1 abbia probabilit`
a 15 , lasciando per`
siano equiprobabili. Quali sono le probabilit`
a di vincere di Carlo e Giorgio rispettivamente?
Lo spazio campionario `e ovviamente

S = f1, 2, 3, 4, 5, 6g .
 
Sia pi = P fig . Siccome sappiamo che p1 = 15 e che p2 =p3 =p4 =p5 =p6 , dovendo essere
6
4
e
i=1 pi = 1, si ricava pi = 25 , per i = 2, . . . , 6. Levento per cui vince Carlo `
A = il risultato `e dispari = f1, 3, 5g .
Ovviamente levento per cui vince Giorgio `e AC . Si ha dunque



 
 
 
P (A) = P f1, 3, 5g = P f1g + P f3g + P f5g =

1
5

4
25

4
25

13
25

e quindi

P (AC ) = 1 P (A) =

12
25

In fin dei conti, Carlo `e stato sleale, ma poteva esserlo molto di pi`
u.

Esercizio 1.2.5 Le probabilit`a che tre giocatori G1 , G2 e G3 colpiscano il bersaglio sono


rispettivamente p1 = 16 , p2 = 14 , p3 = 13 . Ciascuno spara una volta al bersaglio. Trovare la
probabilit`
a degli eventi:

a) A: un solo giocatore colpisce il bersaglio;


b) B : uno o due giocatori colpiscono il bersaglio.

Sia S (s1 , s2 , s3 ) , con si = Y oppure si = N a seconda che il giocatore Gi colpisca


oppure no il bersaglio. E quindi



S (Y,Y,Y), (Y,Y,N), (Y,N,Y), (Y,N,N), (N,Y,Y), (N,Y,N), (N,N,Y), (N,N,N) .

Sappiamo che P (fsi = Yg) = pi e di conseguenza P (fsi = Ng) = 1 pi . Essendo il


risultato di ciascun sparo indipendente dagli altri (il concetto di eventi indipendenti sar`
a
definito in maniera rigorosa pi`
u avanti), si ha



P (s1 , s2 , s3 ) = P (fs1 g) P (fs2 g) P (fs3 g) .

Avremo perci`
o

P (A) = P
1
=
6

(Y,N,N) + P (N,Y,N) + P (N,N,Y) =

3 2 5 1 2 5 3 1
31
+ + =
4 3 6 4 3 6 4 3
72
 





C
P (B) = P f(Y, Y, Y ), (N, N, N )g = 1 P (Y, Y, Y ) + P (N, N, N ) =
 1 1 1 5 3 2  41
+
=
.
=1
6 4 3 6 4 3
72
12

Esercizio 1.2.6 Un dado equo a 4 facce riportanti i numeri 1, 2, 3 e 4 `e lanciato tre volte.
Si chiede la probabilit`
a di ottenere: i) almeno un tre; ii) nessun uno e nessun due.
Lo spazio campionario `e

S = f(a1 , a2 , a3 ) , ai 2 [1, 2, 3, 4] , i = 1, 2, 3 .g
Sia A levento si `e ottenuto almeno un 3. Indicando con Qk levento il risultato del
C
C
k-esimo lancio `e 3, si ha AC = QC
1 \ Q2 \ Q3 . Essendo poi gli eventi Q1 , Q2 e Q3

indipendenti uno dallaltro (in quanto il risultato di ciascuno non dipende da quello degli
o e del
altri due), anche gli eventi complementari QC
k sono indipendenti. Tenendo conto di ci`
3
C
C
fatto che P (Q1 ) = P (Q2 ) = P (Q3 ) = 14 , per cui P (QC
)
=
P
(Q
)
=
P
(Q
)
=
,
1
2
3
4 si ha



C
C
C
C
C
P (A) = 1 P (AC ) = 1 P QC
1 \ Q2 \ Q3 = 1 P (Q1 ) P (Q2 ) P (Q3 ) =
 3 3
37
=1
=
57.8% .
4
64
Sia ora B levento non si `e ottenuto nessun uno e nessun due. Indicando con Rk levento
il risultato del k -esimo lancio `e 3 o 4, si ha B = R1 \ R2 \ R3 . Anche in questo caso i
tre eventi Rk sono indipendenti; inoltre P (R1 ) = P (R2 ) = P (R3 ) = 12 . Ne consegue
 1 3
1
P (B) = P (R1 \ R2 \ R3 ) = P (R1 ) P (R2 ) P (R3 ) =
= = 12.5% .
2
8

Esercizio 1.2.7 Unurna contiene 20 palline numerate progressivamente. a) Vengono estratte


in blocco 4 palline: qual `e la probabilit`
a che venga estratta la pallina numero 1? b) Vengono estratte una dopo laltra 4 palline ogni volta con reimmissione: qual `e la probabilit`
a
che venga estratta la pallina numero 1?
Sia A levento fra le 4 palline estratte c`e anche la numero 1. Levento complementare AC
`e dunque fra le 4 palline estratte non c`e la numero 1. Calcoleremo P (A) come 1P (AC ),
essendo P (AC ) molto semplice.
a) Assumiamo come spazio S linsieme di tutte le possibili disposizioni (p1 , p2 , p3 , p4 )
dei numeri da 1 a 20 presi quattro alla volta (senza ripetizioni). Essendo tali quaterne
equiprobabili, avremo

P (A) = 1

jAC j
D(4; 19)
19 18 17 16
16
1
=1
=1
=1
= .
jSj
D(4; 20)
20 19 18 17
20
5

Allo stesso risultato si poteva pervenire anche per altra via. Come spazio S, infatti, si pu`
o
assumere linsieme di tutte le possibili combinazioni di 4 numeri interi (distinti) presi tra 1
e 20. Anche le combinazioni sono equiprobabili, per cui si ha

19
jAC j
C(4; 19)
19! 16! 4!
4
1
4
 =1
P (A) = 1
=1
= 1 20
=1 = .
jSj
C(4; 20)
15! 4! 20!
5
5
4

b) In questo caso, affinch`


e lo spazio campionario sia equiprobabile, bisogna assumere S
costituito da tutte le possibili disposizioni con ripetizione di 4 interi presi tra 1 e 20. Si ha
dunque

P (A) = 1

 19 4
D R (4; 19)
194
=
1

=
1

1 0.815 = 18.5% .
D R (4; 20)
204
20
13

Esercizio 1.2.8 Da un mazzo ben mescolato di 52 carte da ramino se ne estraggono 5 a caso.


Si chiede la probabilit`
a di: 1) un poker (PO); 2) un full (FU); 3) una doppia coppia (CC);
4) una coppia (C).
Lo spazio campionario S `e costituito da tutte le possibili cinquine (non ordinate) di carte
ottenute combinando senza ripetizioni le 52 carte di un mazzo, ossia

S = f(c1 , c2 , c3 , c4 , c5 ) , ci 6
= cj g ,

N=

52
5

= 2 598 960 .

La probabilit`
a di ciascun evento si ottiene calcolando il numero degli eventi favorevoli e
dividendolo per N . Volendo calcolare la probabilit`
a di un poker, contiamo quante sono le
possibili cinquine con quattro carte uguali. Scelte 4 carte uguali, e ci sono 13 possibili
scelte, la quinta carta pu`
o essere una qualunque fra le rimanenti 48. Avremo dunque

P (P O) =

1348
0.024% .
N

Volendo poi un full, cio`e una cinquina del tipo aaabb, osserviamo che ogni tris aaa pu`
o
essere
4 ottenuto con 13 diverse carte a e che per ciascun a se ne possono poi ottenere
una volta scelto il tris, la si pu`
o ottenere con
3 = 4; per quanto riguarda poi la coppia bb, 

4
12 diverse carte b, e per ciascun b ci sono 2 = 6 possibilit`
a. Si ha quindi

P (F U ) =

13

4
3

12
N

4
2

134126
0.14% .
N

La domanda 3) concerne le doppie coppie, cio`e le cinquine del tipo aabbc. Ragionando in
modo analogo a quanto fatto per le precedenti domande, si ha

P (CC) =

13

4
2



12 42 11 41
136126114
=
4.75% ,
2N
2N

dove il 2 a denominatore tiene conto del fatto che sono state conteggiate sia le quaterne
del tipo aabb che quelle del tipo bbaa.
La domanda 4) richiede di calcolare la probabilit`
a di una semplice coppia, vale a dire una
cinquina del tipo aabcd. In questo casi si ha

P (C) =

13

4
2

12

4

11
6N

4
1

10

4
1

136124114104
42.3% ,
6N

dove il 6 a denominatore tiene conto del fatto che per la formazione di una coppia del tipo
aabcd sono state conteggiate tutte le possibili terne bcd, bdc, cbd, cdb, dbc e dcb (cio`e le
possibili permutazioni dei tre ogetti a, b, c).

14

` CONDIZIONATA
1.3 PROBABILITA
Definizione Dato uno spazio di probabilit`
a (S, , P ) e due eventi A e B di
con P (B) > 0, si chiama probabilit`
a condizionata di A dato B il numero
P (A \ B)/P (B). Tale numero, che esprime la probabilit`
a che avvenga A una volta
che sia avvenuto B , sar`a indicato con P (AjB). Si ha dunque, per definizione,
P (AjB) =

P (A \ B)
.
P (B)

Nel caso di uno spazio S nito ed equiprobabile, indicato con jEj il numero degli
elementi di un evento E 2 S, si ha
P (A \ B) =
e quindi

jA \ Bj
,
jSj

P (AjB) =

P (B) =

jBj
,
jSj

jA \ Bj
.
jBj

Esercizio 1.3.1 Si lanci una coppia di dadi. Se la loro somma `e 6, si determini la probabilit`a
che almeno uno dei dadi abbia dato come risultato 2.
Lo spazio campionario `e

S = f(h, k), h, k = 1, 2, 3, 4, 5, 6g ,

per cui, indicati con A e B i due eventi


B = la somma `e 6 = f(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)g ,

A = almeno un 2 = f(2, 2), (2, k), (h, 2), h, k = 1, 3, 4, 5, 6g ,

si ha A \ B = f(2, 4), (4, 2)g. Essendo lo spazio equiprobabile, ne consegue

P (AjB) =

jA \ Bj
2
= .
jBj
5

Esercizio 1.3.2 In una popolazione i genotipi AA, Aa e aa (che rappresentano in questo


problema gli eventi elementari) abbiano probabilit`
a rispettivamente

P (AA) =

49
42
9
, P (Aa) =
, P (aa) =
.
100
100
100

Supponiamo che dopo un certo tempo muoiano sistematicamente gli individui di tipo aa,
sicch`e gli adulti sono o AA o Aa. Ci si chiede: qual `e la probabilit`
a di AA fra gli adulti?
Bisogna calcolare la probabilit`
a condizionata di AA dato levento B = AA [ Aa :

P (AAj AA[Aa) =

P (AA \ [AA [ Aa])


P (AA)
0.49
0.49
=
=
=
54% .
P (AA [ Aa)
P (AA [ Aa)
0.49 + 0.42
0.91
15

Teorema (o legge) delle probabilit`a composte


Dati gli eventi A e B , con P (B) > 0, vale la relazione
P (A \ B) = P (B)P (AjB) .
La dimostrazione segue banalmente dalla denizione di probabilit`a condizionata.
La legge appena formulata, che permette di calcolare la probabilit`a dellintersezione
di due eventi note la probabilit`a di uno e la probabilit`a condizionata dellaltro dato
il primo, si pu`o facilmente estendere a pi`
u eventi. Riscritta la legge nel caso di due
eventi A1 e A2 ,
P (A1 \ A2 ) = P (A1 )P (A2 jA1 ) ,
quella per tre eventi A1 , A2 e A3 si ricava immediatamente
P (A1 \ A2 \ A3 ) = P ([A1 \ A2 ] \ A3 ) = P (A1 \ A2 )P (A3 jA1 \ A2 ) =
= P (A1 )P (A2 jA1 )P (A3 jA1 \ A2 ) .

Generalizzando al caso di n eventi A1 , A2 , . . . , An si ottiene




P \ni=1 Ai = P (A1 )P (A2 jA1 )P (A3 jA1 \ A2 ) P (An jA1 \ A2 \ \ An1 ) .
Esercizio 1.3.3 Unurna contiene 9 palline rosse e 6 gialle. Una dopo laltra vengono estratte
a caso, senza reimmissione, tre palline. Calcolare la probabilit`
a che siano tutte rosse.
Denotiamo con Ak , con k = 1, 2, 3, levento la k -esima pallina `e rossa. Levento di cui ci
interessa la probabilit`
a `e A1 \ A2 \ A3 . Dal teorema delle probabilit`
a composte segue che

P (A1 \ A2 \ A3 ) = P (A1 )P (A2 jA1 )P (A3 jA1 \ A2 ) =


Proposizione

9 8 7
12

=
.
15 14 13
65

Dati due eventi A e B , con P (A) > 0 e P (B) > 0, vale la relazione
P (AjB) =

P (A)
P (BjA) .
P (B)

Questa relazione consegue immediatamente dalla legge della probabilit`a composta


scrivendo
P (A \ B) = P (B)P (AjB) = P (A)P (BjA) .
`
E una formula di grande utilit`a in quanto permette di ricavare la probabilit`a condizionata di un evento A dato B, sapendo la probabilit`a condizionata di B dato A. Ci`o
aiuta, ad esempio, nelle diagnosi delle malattie, come si vede nellesercizio che segue.
Esempio 1.3.1

Se la probabilit`
a teorica del sintomo B , data la malattia A, `e il 30%, posso
calcolare la probabilit`
a che un paziente affetto dal sintomo B abbia la malattia A. Se, ad
esempio, in Emilia la percentuale delle persone affette dalla malattia A `e il 15% e quella
delle persone che manifestano il sintomo B `e il 5%, per cui P (A) = 0.15 e P (B) = 0.05,
la probabilit`
a della malattia A dato il sintomo B `e

P (AjB) =

P (A)
0.15
P (BjA) =
0.30 = 90% .
P (B)
0.05
16

EVENTI INDIPENDENTI
Definizione Due eventi A e B si dicono indipendenti se
P (A \ B) = P (A)P (B) .
Il signicato di questa denizione, che vale qualunque siano gli eventi A e B, appare
chiaro se si considerano eventi di probabilit`a non nulla. Infatti, se P (B) > 0, dalla
denizione di probabilit`a condizionata, segue
P (A) = P (AjB) ,
e analogamente, supposto P (A) > 0, si ha
P (B) = P (BjA) .
A parole: la probabilit`a di A non dipende dal vericarsi oppure no di B, e viceversa.
Ci`o giustica la terminologia.
Teorema

Se A e B sono indipendenti, lo sono anche A e B C , AC e B , AC e B C .

Dimostrazione
Dimostriamo dapprima lindipendenza di A e B C . Essendo
P (B C ) = 1 P (B) ,
si ha

P (A) = P (A \ B) + P (A \ B C ) ,

P (A \ B C ) = P (A) P (A \ B) = P (A) P (A)P (B) =


= P (A)[(1 P (B)] = P (A)P (B C ) .

Quindi, se A e B sono indipendenti, lo sono anche A e B C .


Scambiando lordine, si pu`o dedurre che lo sono anche AC
e B, e quindi anche AC e B C .

Esercizio 1.3.4 Un test diagnostico di una malattia `e corretto nel 98% dei casi. Ci si chiede:
ripetendo due volte il test sullo stesso soggetto, qual `e la probabilit`
a di un doppio errore?
Sia A = errore nel primo test, B = errore nel secondo test. Essendo i due eventi
indipendenti, si ha

P (A \ B) = P (A)P (B) =

2
2
4

=
= 0.04% .
100 100
10000

Esercizio 1.3.5 Aldo e Bruno sparano ad un bersaglio. Siano A e B rispettivamente levento


Aldo fa centro e Bruno fa centro. Modello la situazione con una funzione di probabilit`
a
P tale che P (A) = 14 e P (B) = 25 , e supponendo che A e B siano indipendenti. Supposto
che Aldo e Bruno sparino contemporaneamente contro il bersaglio, qual `e la probabilit`
a che
1) almeno uno dei due centri il bersaglio? 2) uno solo dei due centri il bersaglio?

17

Levento almeno uno fa centro `e A [ B . Siccome A e B sono indipendenti, avremo

P (A [ B) = P (A) + P (B) P (A \ B) = P (A) + P (B) P (A)P (B) =


1 2 1 2
11
= + =
.
4 5 4 5
20
Per quanto riguarda invece levento uno solo fa centro, esso `e dato da (A\B C )[(AC \B).
Tenendo conto che A ed B C sono indipendenti, cos` come AC e B , e che gli eventi A \ B C
e (AC \ B) sono incompatibili, si ha



P (A \ B C ) [ (AC \ B) = P (A \ B C ) + P (AC \ B) =

= P (A)P (B C ) + P (AC )P (B) =


1 3 3 2
9
= + =
.
4 5 4 5
20

Definizione Dato uno spazio di probabilit`


a (S, , P ) si chiama partizione di S
un insieme di eventi incompatibili A1 , A2 , . . . , Ai , 2 tali che

Ai = S .
i

Nel seguito considereremo partizioni finite, cio`e partizioni formate da un numero nito
n di eventi. In tal caso lindice i assumer`a ovviamente i valori da 1 a n.
Teorema (o formula) della probabilit`a totale (o di fattorizzazione)
Dato un evento B e una partizione finita A1 , A2 , ...An di S, con P (Ai ) > 0 per
ogni i, si ha
n

P (B) =
P (Ai )P (BjAi ) .
i=1

Dimostrazione
In virt`
u della denizione della legge delle probabilit`a composte, per ogni i possiamo
scrivere
P (Ai \ B) = P (Ai )P (BjAi ) .
Sommando per i che va da 1 ad n, si ha
n
n
i=1 P (Ai \ B) =
i=1 P (Ai )P (BjAi ) ,
da cui, essendo
n

 n

n
i=1 P (Ai \ B) = P
i=1 (Ai \ B) = P ( i=1 Ai ) \ B = P (S \ B) = P (B) ,
consegue la tesi.

Esercizio 1.3.6 Una fabbrica di autovetture riceve da tre fornitori i cambi da installare sulle
auto nelle seguenti percentuali: 65%, 25% e 10%. Sapendo che i tre fornitori producono i
cambi con una difettosit`
a rispettivamente del 5%, 10% e 25%, si vuole conoscere la probabilit`
a
che la fabbrica di auto ha di ricevere un cambio difettoso.
18

In questo caso lesperimento consiste nellarrivo di un cambio. I possibili eventi elementari


(e quindi incompatibili) sono i Bk , k = 1, 2, 3, essendo Bk levento il cambio arriva dal
fornitore k -esimo. Chiaramente i Bk costituiscono una partizione di S. Indicato poi con A
levento il cambio ricevuto `e difettoso, si richiede P (A).
I dati dellesercizio sono i seguenti:

P (B1 ) = 65% , P (B2 ) = 25% , P (B3 ) = 10% ;


P (AjB1 ) = 5% , P (AjB2 ) = 10% , P (AjB3 ) = 25% .
Utilizzando la formula di fattorizzazione si ha immediatamente

P (A) =

3


P (Bi )P (AjBi ) = 0.650.05 + 0.250.10 + 0.100.25 = 0.0825 = 8.25% .

i=1

Esercizio 1.3.7 Com`e noto, le trasfusioni di sangue possono avvenire con le modalit`a seguenti: dal gruppo 0 a tutti i gruppi; da A ai gruppi A e AB ; da B ai gruppi B e AB ; da
AB al solo gruppo AB . Supposto che le frequenze dei gruppi sanguigni siano
P (0) = 52%, P (A) = 32%, P (B) = 10%, P (AB) = 6% ,
ci si chiede: qual `e la probabilit`
a che un individuo x, scelto a caso, possa donare sangue a
un individuo y pure scelto a caso?
Sia S linsieme delle coppie (x, y) in cui sia x che y possono essere uguali a 0, A, B o AB .
Levento di cui vogliamo calcolare la probabilit`
a `e x `
e donatore per y e lo indichiamo con
[x ) y]. Introduciamo poi gli eventi

[x=0] = f(0, 0), (0, A), (0, B), (0, AB)g ,


[x=A] = f(A, 0), (A, A), (A, B), (A, AB)g ,
[x=B] = f(B, 0), (B, A), (B, B), (B, AB)g ,
[x=AB] = f(AB, 0), (AB, A), (AB, B), (AB, AB)g ,

e analogamente gli eventi [y =0], [y =A], [y =B],[y =AB]. Per calcolare P ([x ) y]) si pu`
o
usare il teorema della probabilit`
a totale in due modi diversi: in un caso considereremo come
partizione di S gli eventi [x = 0], [x = A], [x = B] e [x = AB], nellaltro gli eventi [y = 0],
[y =A], [y =B] e [y =AB].
Modo 1



P ([x ) y]) = P ([x=0])P ([x ) y][x=0]) + P ([x=A])P ([x ) y][x=A])+


+ P ([x=B])P ([x ) y][x=B]) + P ([x=AB])P ([x ) y][x=AB]) =
52
32  32
6 
10  10
6 
6
6
=
1 +

+
+

+
+

' 66% .
100
100 100 100
100 100 100
100 100
Modo 2



P ([x ) y]) = P ([y =0])P ([x ) y][y =0]) + P ([y =A])P ([x ) y][y =A])+


+ P ([y =B])P ([x ) y][y =B]) + P ([y =A]B)P ([x ) y][y =AB]) =
52 52
32  52
32 
10  52
10 
6
=

+
+

+
+
1 ' 66% .
100 100 100 100 100
100 100 100
100
19

Modo 3
Lesercizio pu`
o essere risolto anche senza ricorrere al teorema della probabilit`
a totale, e ci`
o
in virt`
u del fatto che levento [x ) y] pu`
o essere visto come unione di eventi elementari
(x, y); pi`u precisamente

[x ) y] f(0, 0), (0, A), (0, B), (0, AB), (A, A), (A, AB), (B, B), (B, AB), (AB, AB)g .
Poich
per cui
 e gli
 individui sono scelti a caso, x e y sono
 indipendenti uno dallaltro,
32
6
P (x, y) = P (x)P (y). Ad esempio, P (A, AB) = P (A)P (AB) = 100 100 .
Si ha quindi













P [x ) y] = P (0, 0) + P (0, A) + P (0, B) + P (0, AB) + P (A, A) +








+ P (A, AB) + P (B, B) + P (B, AB) + P (AB, AB) =

= P (0)P (0) + P (0)P (A) + P (0)P (B) + P (0)P (AB) + P (A)P (A)+

+ P (A)P (AB) + P (B)P (B) + P (B)P (AB) + P (AB)P (AB) =


52  52
32
10
6 
32  32
6 
=

+
+
+
+

+
+
100 100 100 100 100
100 100 100
10  10
6 
6
6
+

+
+

' 66% .
100 100 100
100 100
Teorema (o formula) di Bayes

Dato un evento B con P (B) > 0, e data una partizione finita A1 , A2 , ...An di S
con P (Ai ) > 0 per ogni i, vale la relazione
P (BjAi )P (Ai )
P (Ai jB) =
.
k P (BjAk )P (Ak )

Dimostrazione
In virt`
u del teorema della probabilit`a composta si pu`
o scrivere
P (Ai jB) =

P (B|Ai )P (Ai )
P (B)

Sostituendo a denominatore P (B) con la sua espressione fornita dalla formula della
probabilit`a totale, si ottiene immediatamente la tesi.
Gli eventi Ai possono essere considerati come possibili cause dellevento B, o ipotesi
che lo spiegano. Il fatto che costituiscano una partizione di S, per cui certamente
B [i Ai , comporta che se si verica B, necessariamente si verica anche uno (ed
uno solo in virt`
u della incompatibilit`a) degli eventi Ai . In altre parole, linsieme
delle cause Ai `e esaustivo: se si verica B, una di esse deve aver agito. Una volta
osservato levento B, ci si pu`o chiedere quale sia la causa che ha eettivamente agito, e
il teorema di Bayes risponde, naturalmente in senso probabilistico, a questa domanda.
La probabilit`a P (Ai ) `e la probabilit`a che si verichi Ai indipendentemente dal vericarsi o meno dellevento B; viene detta probabilit`
a a priori. La probabilit`a condizionata P (Ai jB) `e la probabilit`a di Ai valutata sapendo che si `e vericato B, e viene
chiamata probabilit`
a a posteriori.
20

Gli esercizi che seguono, in particolare il primo, sono utili ad illustrare il signicato
di probabilit`a a priori e posteriori, e come si applica il teorema di Bayes.

Esercizio 1.3.8 Si abbiano tre scatole, indistinguibili una dallaltra, contenenti ciascuna due
palline: una contiene due palline bianche (scatola 1), unaltra una pallina bianca ed una
rossa (scatola 2), la terza due palline rosse (scatola 3). Scelta una scatola a caso, si estrae
una pallina. La pallina `e bianca. Ci si chiede: qual `e la probabilit`
a che la pallina sia stata
estratta dalla scatola i?
Indicato con B levento la pallina estratta `e bianca e con Ai levento la pallina `e stata
estratta dalla scatola i, ci interessa calcolare le probabilit`
a P (Ai jB). Osserviamo che si ha

P (A1 ) = P (A2 ) = P (A3 ) =

1
;
3

P (BjA1 ) = 1 ,

P (BjA2 ) =

1
,
2

P (BjA3 ) = 0 .

Il fatto che le probabilit`


a non condizionate P (Ai ) (probabilit`
a a priori) siano tutte uguali a
1
3 consegue ovviamente dal fatto che le tre scatole sono indistinguibili. Applicando il teorema
di Bayes si ha quindi

P (BjA1 )P (A1 )
=
P (BjA1 )P (A1 ) + P (BjA2 )P (A2 ) + P (BjA3 )P (A3 )
1
1 1
2
3
= 1 1 31
=
1
1 = 3;
1 3 + 2 3 + 0 3
2

P (A1 jB) =

P (A2 jB) =
P (A3 jB) =

P (BjA2 )P (A2 )
1
2

P (BjA3 )P (A3 )
1
2

=
=

1 1
23
1
2
0 13
1
2

1
.
3

= 0.

Osserviamo che si trova confermato il fatto ovvio che P (A3 jB) = 0. Osserviamo anche
come il verificarsi dellevento B influisca sulle probabilit`
a degli eventi Ai modificandone le
probabilit`
a.

Nota bene: dato un evento A, con 0 < P (A) < 1, gli eventi A e AC costituiscono
la pi`
u semplice partizione di S utilizzabile nellapplicazione del teorema di Bayes. Gli
esempi che seguono utilizzano tutti una partizione di questo tipo.

Esercizio 1.3.9 In una scuola il 4% dei maschi e l1% delle femmine sono pi`u alti di 1.80
metri. Inoltre, il 60% sono femmine. Fra la totalit`
a degli studenti ne viene scelto a caso uno
che risulta essere pi`
u alto di 1.80 metri. Si chiede: qual `e la probabilit`
a che sia femmina?
Sia S linsieme di tutti gli studenti. Siano poi F levento lo studente scelto `e femmina
ed A levento laltezza dello studente `e maggiore di 1.80. Si deve determinare P (F jA).
Osservato che F C coincide con levento lo studente `e maschio, i dati del problema sono

P (F ) = 0.60 ,

P (F C ) = 0.40 ,

P (AjF ) = 0.01 ,
21

P (AjF C ) = 0.04 .

Utilizzando il teorema di Bayes con la partizione di S data da F e F C , si ottiene

P (AjF )P (F )
=
P (AjF )P (F ) + P (AjF C )P (F C )
0.010.60
0.006
3
=
=
=
27.3% .
0.010.60 + 0.040.40
0.022
11

P (F jA) =

Esercizio 1.3.10 Si sa che lo 0,5% dei soggetti di una citt`a `e ammalato di AIDS. Si sa che
i test diagnostici danno una diagnosi corretta nell80% dei sani e nel 98% dei malati. Qual
`e la probabilit`
a di un individuo, scelto a caso fra quelli sottoposti a test, di esser sano posto
che sia stato diagnosticato malato?
Sia S linsieme degli individui sottoposti ai test per lAIDS. Consideriamo gli eventi: A =
lindividuo scelto `e sano, AC = lindividuo `e malato, B = la diagnosi dellindividuo `e:
sano, B C = la diagnosi `e: malato. Le statistiche sopra riportate implicano che

P (AC ) = 0.005 ,

P (BjA) = 0.80 ,

Determiniamo con la formula di Bayes P (AjB C ). Si ha

P (B C jAC ) = 0.98 .

P (B C jA)P (A)
=
P (B C jA)P (A) + P (B C jAC )P (AC )
(0.995)(0.20)
=
' 0.976
(0.20)(0.995) + (0.98)(0.005)

P (AjB C ) =

(probabilit`
a molto alta; se fossimo per`
o dentro una categoria a rischio, avremmo una incidenza di malattia P (AC ) pi`
u elevata, per cui questa probabilit`
a sarebbe pi`
u contenuta).

Esercizio 1.3.11 Una fabbrica che produce lampadine ha due linee di produzione A e B:
dalla A esce il 60% delle lampadine prodotte e dalla B il rimanente 40%. Sappiamo inoltre
che un 2% delle lampadine prodotte dalla linea A `e difettoso, mentre la percentuale di difetti
per laltra linea `e il 3.8%. Ci si chiede: qual `e la probabilit`
a che una lampadina difettosa,
scelta a caso fra tutte le lampadine prodotte in un dato periodo, sia uscita dalla linea A?
Sia S linsieme di tutte le lampadine prodotte dalla fabbrica in un dato periodo. Se A `e
levento la lampadina scelta `e uscita dalla linea A, AC `e levento la lampadina `e uscita
dalla linea B. Indicato poi con D levento la lampadina `e difettosa, i dati del problema
sono

P (DjA) = 0.02 ,

P (DjAC ) = 0.038,

P (A) = 0.6 .

Il numero che cerchiamo `e la probabilit`


a condizionata di A dato per avvenuto D , cio`e
P (AjD). Utilizzando la formula di Bayes, si ottiene

P (DjA) P (A)
(0.02)(0.6)
=
=
C
C
P (DjA) P (A) + P (DjA ) P (A )
(0.02)(0.6) + (0.038)(0.4)
0.012
=
0.441 = 44.1%
0.012 + 0.0152

P (AjD) =

22

Esercizio 1.3.12 In un cappello ci sono 10 monete, 9 normali ed una truccata con due teste.
Se ne estrae una a caso, che lanciata k volte consecutive d`
a k teste. Qual `e la probabilit`
a
che la moneta estratta sia quella truccata?
Sia A levento la moneta estratta dal cappello `e quella truccata. Chiaramente ne consegue
che AC rappresenta levento la moneta estratta `e normale. Indicato poi con Tk levento
k consecutivi lanci della moneta danno k teste, i dati del problema sono

P (A) =

1
10

P (AC ) =

9
10

Applicando la formula di Bayes si ha quindi

P (AjTk ) =

P (Tk jAC ) =

P (Tk jA) = 1 ;

1

2)

1
1 10
P (Tk jA)P (A)
2k
=
=
 k 9
1
P (Tk jA)P (A) + P (Tk jAC )P (AC )
9 + 2k
1 10
+ 12 10

Ad esempio, per k =2, 4, 6, 8 si ha

P (AjT2 ) =

4
13

P (AjT4 ) =

16
25

P (AjT6 ) =

64
73

P (AjT8 ) =

256
265

Osserviamo che 8 teste consecutive danno gi`


a una probabilit`
a del 96.6% che la moneta
estratta sia quella truccata.

Come ultima osservazione, notiamo che ci sono due modi di fare un campionamento,
cio`e di scegliere a caso un certo numero di elementi da una popolazione:
1) con reimmissione;
2) senza reimmissione.
Rimarchiamo il fatto seguente, peraltro molto intuitivo: se il numero N di individui

della popolazione e infinito o molto grande, non c`e differenza apprezzabile tra
estrarre con reimmissione ed estrarre senza reimmisione. In questo caso, pertanto,
conviene per semplicit`a calcolare ogni cosa come se si estraesse con reimmissione.
Lesercizio che segue illustra le due diverse modalit`a di campionamento e mostra, per
quanto sia solo N =10, il fatto precedentemente rimarcato.
Esercizio 1.3.13 Una scatola contiene 10 viti, di cui tre difettose. Si estraggono due viti a
caso. Con quale probabilit`
a nessuna delle due `e difettosa?
Considerati gli eventi A = prima vite estratta non difettosa, B = seconda vite estratta
non difettosa, levento di cui ci interessa la probabilit`
a `e A \ B .
Estraendo con reimmissione, prima di estrarre la seconda volta abbiamo nella scatola li7
dentica situazione di 10 viti di cui tre difettose; si ha pertanto P (A) = P (B) = 10
e
quindi

P (A \ B) = P (A)P (B) =

7 7

= 49% .
10 10

Estraendo invece senza reimmissione, levento B non `e pi`


u indipendente da A, per cui si ha
7
6
P (A) = 10 , P (BjA) = 9 . Di conseguenza

P (A \ B) = P (A)P (BjA) =
23

7 6
10 9

' 47% .

1.4 VARIABILI ALEATORIE


Definizione Dato uno spazio di probabilit`
a (S, , P ), si dice variabile aleatoria
(o casuale) una funzione X che ad ogni s 2 S associa un numero X(s) 2 R, in
modo che ogni insieme fs : X(s) ag sia un evento contenuto in .
Levento fs : X(s) ag si chiama immagine

inversa o contro-immagine dellintervallo
1
(1, a] e viene indicato con X
(1, a] o, adottando una forma pi`
u concisa ed
esplicita, con X a. Pi`
u in generale, se B `e un sottinsieme di numeri reali, si indica
con X 1 (B) levento fs : X(s) 2 Bg.




` facile far vedere che, 8a 2 R, gli insiemi di numeri reali X 1 (a, +1) , X 1 (a, b] ,
E








X 1 fag , X 1 (a, b) , X 1 (1, a) e X 1 [a, +1) sono eventi. Ad esempio,
il fatto che X 1 (a, +1) sia un evento consegue banalmente dal fatto che linsieme
fs : X(s) > ag `e il complementare dellevento fs : X(s) ag. Anche gli eventi
appena elencati sono denotati in forma concisa con X > a , a< X b , X =a , etc...
Dunque, limmagine inversa di un qualunque intervallo `e un evento di . Ci sono
per`o altri sottinsiemi B di numeri reali tali che X 1 (B) `e un evento.
Definizione Si chiama classe dei Boreliani la pi`
u piccola classe di sottinsiemi di

numeri reali che comprende tutti gli intervalli ed `e chiusa rispetto alle operazioni
di unione (finita e numerabile) e complementazione.
Proposizione

Ogni Boreliano B `e tale che X 1 (B) `e un evento.

I Boreliani rappresentano dunque i sottinsiemi di numeri reali che possono essere


associati attraverso X 1 agli eventi di . Ci`o porta alla seguente denizione:
Definizione Data una variabile aleatoria X , si chiama distribuzione o legge di
X lapplicazione che ad ogni Boreliano B associa la probabilit`
a della sua immagine

 1
inversa:
B ! P X (B) .
Sia S = f1, 2, ..., 6g lo spazio campionario relativo allesperimento del
lancio di un dado (non truccato). Definiamo X := numero uscente da un lancio, cio`e

Esempio 1.4.1

X(1) := 1,

X(2) := 2

...

X(6) := 6 .
Potremo allora calcolare la probabilit`
a di eventi del tipo X 2.5, 1 < X 4 oppure X 3.
Ricordando che P (X =k) = P (fkg) = 16 , per k = 1, 2, . . . , 6, si ha
P (X 2.5) = P (X =1) + P (X =2) = 13 ,
P (1< X 4) = P (X =2) + P (X =3) + P (X =4) = 12 ,
P (X 3) = P (X =3) + P (X =4) + P (X =5) + P (X =6) =

2
3

Su uno stesso spazio di probabilit`


a possono essere definite pi`
u variabili casuali. Ad esempio,
una seconda variabile casuale pu`
o essere definita nel modo seguente:

Y := 0

Y := 1

se lesito del lancio `e pari;

24

se lesito del lancio `e dispari.

Si ha cos` :

P (Y =0) = P (f2g) + P (f4g) + P (f6g) = 12 ,


P (Y =1) = P (f1g) + P (f3g) + P (f5g) = 12 ,
P (1< Y 4) = P (;) = 0 , P (Y < 0) = P (;) = 0 ecc.

Definizione Data una variabile aleatoria X definita sullo spazio di probabilit`


a
(S, , P ), si chiama funzione di distribuzione o di ripartizione di X la funzione
F : R ! [0, 1] cos` definita:
F (x) = P (X x) , x 2 R .
Esempio 1.4.2 Consideriamo la variabile casuale Y definita nellesempio precedente. Indicata con FY (x) la funzione di distribuzione ad essa associata, avremo

per x < 0

P (;) = 0
1
FY (x) = P (Y x) = P (Y =0) = 2
per 0 x < 1

1
1
per x 1 .
P (Y =0) + P (Y =1) = 2 + 2 = 1
La funzione di distribuzione gode di alcune propriet`a che sono formalizzate nelle
cinque proposizioni che seguono. Di queste dimostriamo solo la prima.
Proposizione

Vale la relazione
P (a< X b) = F (b) F (a) .

Dimostrazione
Levento X b `e lunione dei due eventi X a e a< X b, cio`e degli eventi
fs 2 S : X(s) ag
e
fs 2 S : a< X(s) bg,
che chiaramente sono incompatibili. Di conseguenza si ha
P (X b) = P (X a) + P (a< X b) ,
da cui segue banalmente la relazione che si voleva dimostrare.
Proposizione

La funzione di distribuzione `e monotona non decrescente, cio`e


F (a) F (b)

Proposizione

a b.

Valgono i due limiti seguenti:


lim F (x) = 0 ,

lim F (x) = 1 .

Proposizione

se

x+

La funzione di distribuzione `e continua da destra, si ha cio`e


lim F (x + h) = F (x) .

h0+

Essendo F (x) denita in ogni punto, ogni eventuale discontinuit`a `e del tipo del salto,
e per eetto della proposizione appena enunciata, vale anche la seguente
Proposizione Lampiezza F (x) del salto della funzione di distribuzione in un
punto x di discontinuit`a vale
F (x) = P (X =x) .
25

VARIABILI ALEATORIE DISCRETE


Definizione Una variabile aleatoria X `
e discreta se

1) c`e un insieme finito o numerabile di valori xj , tali che P (X =xj ) > 0 ;


2)

P (X =xj ) = 1 .

Ovviamente, j = 1, ..., n nel caso nito e j 2 N nel caso numerabile.


Una variabile aleatoria discreta, essendo individuata dai valori xj e dalle corrispondenti probabilit`a pj P (X =xj ), pu`
 o essere cos` rappresentata:

x1 , x2 , ...
X:
p1 , p2 , ...
In maniera equivalente essa `e poi rappresentabile mediante la relativa funzione di
probabilit`
a f (x) denita come

se x = xj (j = 1, 2, ...)
pj
,
f (x) =
0
altrove
oppure mediante la relativa funzione di distribuzione F (x) gi`a denita per una qualunque variabile aleatoria , che nel caso discreto diventa

F (x) =
f (xj ) .
j: xj x
Pi`
u esplicitamente, come peraltro gi`a visto nellesempio 1.4.2, F (x) `e la seguente
funzione a gradini

0
se x < x1

p1
se x1 x < x2

p +p
se x2 x < x3
1
2
F (x) =

se xn1 x < xn
p1 + + pn1

Esempio 1.4.3

Nel caso di un dado non truccato, la variabile casuale X definita nellesempio


1.4.1 e la relativa funzione di probabilit`
a sono date da

X:

1
6

1
6

1
6

1
6

1
6

1
6

f (x) =

1
6

per x = 1, 2, 3, 4, 5, 6

0 altrimenti

La funzione distribuzione di X e il relativo grafico sono riportati qui sotto.

F (x) =

1
2
2
3
5
6

per x < 1
per 1 x < 2
per 2 x < 3
per 3 x < 4

per 4 x < 5
per 5 x < 6
per x 6

26

Esempio 1.4.4

Si consideri lesperimento del lancio simultaneo di due dadi non truccati. In


questo caso lo spazio compionario S `e costituito dai 36 eventi elementari (i, j), con i, j =
1, 2, 3, 4, 5, 6. Consideriamo la variabile aleatoria discreta Z , con Z := somma dei due
numeri estratti. Si ha quindi

Z:

10 11 12

1
36

2
36

3
36

4
36

5
36

6
36

5
36

4
36

3
36

2
36

1
36

Il grafico sottoriportato mostra la funzione di distribuzione relativa a Z .

VARIABILI ALEATORIE CONTINUE


Definizione Una variabile aleatoria X si dice assolutamente continua se esiste
una funzione f : R !R+
0 che permette di rappresentare la funzione distribuzione
F (x) di X come funzione integrale, cio`
e tale che
F (x) =

8x 2 R .

f (t)dt ,

La funzione f (), che `e assunta continua eccetto al pi`


u che in un numero finito
di punti,`e detta densit`
a di probabilit`
a (o, pi`
u semplicemente, densit`
a) della
variabile aleatoria X .
Nel seguito (come peraltro gi`a fatto nel titolare il paragrafo), per semplicit`a, ci riferiremo alle variabili casuali assolutamente continue con il solo aggettivo continue.
Osservazione: Qui e altrove si usano integrali impropri, cio`e integrali definiti su un intervallo con un estremo di integrazione infinito (qualche volta entrambi). Senza approfondire
largomento, ricordiamo che

f (t)dt := lim

f (t)dt ,

f (t)dt := lim

a+

f (t)dt .

Per quanto riguarda poi lintegrale su tutto lasse reale, una possibile definizione `e la seguente:

f (t)dt :=

f (t)dt +

27

f (t)dt .

La funzione densit`a gode di alcune propriet`a che adesso elenchiamo.


1) Vale la relazione
P (a < X b) =

b
a

f (t)dt .

Essa consegue immediatamente dal fatto che P (a< X b) = F (b) F (a) e costituisce
lo strumento standard per il calcolo delle probabilit`a nel caso di variabili casuali
continue. Si noti che la formula in questione esprime luguaglianza fra la probabilit`
a
P (a< X b) e larea sottesa dalla curva f (x) tra gli estremi x=a ed x=b.
2)

Per ogni funzione densit`a si ha che


 +

f (t)dt = 1 .

Consegue direttamente dalla relazione di cui al punto precedente, tenendo conto che
P (1< X < +1) = P (S) = 1.
3) La funzione densit`
a f (x), per ogni x dove `e continua, soddisfa la relazione
F (x) = f (x) .
Ci`o risulta direttamente dalla derivazione di F (x) scritta in forma integrale.
Osservazione:
Nel caso di una variabile aleatoria continua si ha sempre P (X =a) =
a
f
(x)dx
=
0,
mentre
nel caso di variabile X discreta pu`o benissimo essere P (X =
a
a) > 0. Analogamente, se X `e continua si ha
P (a< X < b) = P (a X < b) = P (a< X b) = P (a X b) .
Queste stesse probabilit`a possono dierire tra loro nel caso di X discreta.
Definizione Una variabile casuale X continua si dice uniformemente distribuita
o equidistribuita se la sua funzione densit`
a f (x) o, equivalentemente, la sua funzione di distribuzione F (x) sono cos` definite:

0
per x a
0
per x a

1
xa
f (x) =
F (x) =
per a< x< b .
per a< x< b ;

ba
ba

1
per x b
0
per x b

28

Esempio 1.4.5

Si consideri la variabile casuale continua di densit`


a

f (x) =

1
2x

se 0 x 2

altrove

Si chiede di verificare che f (x) `e effettivamente una densit`


a, calcolarne la funzione di distribuzione F (x) e quindi disegnarla assieme alla f (x). Si chiede anche di calcolare P ( 12 < X < 1).
Essendo

 +

f (t)dt =

2

1
tdt
0 2

 t 2 2
4 0

= 1,

siamo certi di aver a che fare con una densit`


a. Per quanto concerne la sua funzione di
distribuzione si ha

0
x
x 1
F (x) =
f (t)dt =
2 tdt =
0

1
I grafici di f (x) e F (x) sono dunque i seguenti:


per x 0
x2
4

per 0 x 2
per x 2 .

La probabilit`
a richiesta `e P ( 12 < X < 1), che `e uguale allarea sottesa da f (x) per 12 x 1.
Trattandosi di un trapezio di altezza 12 e basi 14 e 12 , la sua area, e quindi la probabilit`
a
3
richiesta, `e 16
. Larea suddetta `e tratteggiata nel grafico di f (x).

Esercizio 1.4.1 Si consideri la variabile casuale continua di densit`a



1 jxj se jxj 1
f (x) =
0
altrove .
Si chiede di verificare che f (x) `e una densit`
a, di calcolare la funzione di distribuzione F (x)
e di disegnare sia f (x) che F (x). Si chiede anche di calcolare P (X 0.5).
Calcoliamo subito la funzione distribuzione.

F (x) =

f (t)dt =

x

0

(1 + t)dt
(1 + t)dt

2
= x2 + x + 12
x
+ 0 (1 t)dt

29

per x 1

1
2

x
2

per 1 x 0

+ x per 0 x 1
per x 1 .

I grafici di f (x) e F (x) sono dunque i seguenti:

 +

Essendo limx+ F (x) = 1, ne consegue f (x)dx = 1, e quindi risulta verificato che


f (x) `e una densit`a. Per quanto concerne infine il calcolo di P (X 0.5), si ha

P (X 0.5) = F (0.5) =

1
8

Questa probabilit`
a corrisponde allarea sottesa da f (x) fra 1 e 12 , ossia, come si vede dal
grafico, allarea di un triangolo di base 12 e altezza 12 .

Esercizio 1.4.2 Si consideri una variabile casuale X

zione:
0

1 x2
50
F (x) =
1 2

x + 25 x 1

50

1
a) quali sono i possibili valori della X ?

avente la seguente funzione di distribuper x 0


per 0 x 5
per 5 x 10
per x 10 .

b) qual `e la funzione densit`


a della X ?

a) La variabile aleatoria X assume, con probabilit`


a 1, i valori compresi tra 0 e 10. Infatti:

P (0 X 10) = F (10) F (0) = 1 .


b) Poich`e nei punti di continuit`
a di f (x) vale la relazione F (x)=f (x), si ha

f (x) =

25 x
1
25
x

per x 0
per 0 x 5

2
5

per 5 x 10
per x 10 .

Riportiamo qui sotto i grafici della funzione di distribuzione e della funzione densit`
a della
variabile casuale X . Osserviamo che dal grafico di f (x) risulta evidente la simmetria della
distruibuzione rispetto ad x=5.

30

FUNZIONI DI VARIABILE ALEATORIA


Spesso, data una variabile casuale X, interessa una sua funzione g(X), che a sua volta
`e una variabile casuale. Negli esempi che seguono si considerano appunto variabili
casuali di questo tipo. Lultimo esempio, per quanto semplice, `e forse quello pi`
u
signicativo in quanto mostra come si ricava la funzione di probabilit`a (nel caso di
un variabile casuale discreta).
Esercizio 1.4.3 In un processo automatico si riempiono bottigliette di sciroppo. Il contenuto
di ciascuna bottiglietta risulta Y = 100+X ml (millilitri), dove X `e la variabile casuale
definita nellesercizio 1.4.1. Si chiede: in una partita di 1000 confezioni, quante approssimativamente conterranno meno di 99.5 ml?
Il numero di bottigliette cercato `e uguale a 1000 moltiplicato per P (Y 99.5), cio`e per

P (X + 100 99.5) = P (X 0.5) .

Questa probabilit`
a `e gi`
a stata calcolata nellesercizio 1.4.1 e vale 18 . Il numero approssimativo
delle bottiglie aventi contenuto inferiore a quanto richiesto `e dunque
1
8 1000

= 125 .

p
Esercizio 1.4.4 Si considerino le variabili casuali Y = 3X , Q = X 2 e R = X , dove X `e la
variabile casuale dellesercizio 1.4.2. Calcolare:

Si ha:

a) P (3 Y 21) ;

b) P (Q 64) ;

c) P (2 R 3) .
4
;
5

a)

P (3 Y 21) = P (3 3X 21) = P (1 X 7) = F (7) F (1) =

b)

P (Q 64) = P (X 2 64) = P [(X 8) [ (X 8)] = P (X 8) = 1 F (8) =

c)

p
33
.
P (2 R 3) = P (2 X 3) = P (4 X 9) = F (9) F (4) =
50

2
;
25

Esercizio 1.4.5 Si consideri la variabile casuale X sotto definita e si ricavi la funzione di


probabilit`
a della variabile Y := X 2 .


2 1
0
1
2
X:
1
1
1
1
1
5

Osservato che mentre X assume il valore xi la variabile Y assume il valore x2i , ne consegue
che Y pu`
o assumere solo i valori 0, 1 e 4. Pi`
u precisamente Y assume il valore 0 quando X
assume il valore 0, il valore 1 quando X assume il valore -1 oppure 1, il valore 4 quando X
assume il valore -2 oppure 2. Per quanto riguarda, ad esempio, la probabilit`
a che Y assuma
il valore 1, essa sar`
a data dalla somma delle probabilit`
a che X assuma i valori -1 e 1, ossia:
P (Y =1) = P (X =1) + P (X =1). La variabile casuale X 2 sar`a dunque la seguente:
2

Y =X :

1
5

2
5

2
5

31

1.5 MEDIA E VARIANZA


Definizione

Si chiama media (o valor medio o valore atteso o aspettazione matematica


o speranza matematica) della variabile aleatoria X il numero, che indicheremo
indifferentemente con X o E(X), cos` definito:

X E(X) :=
xi f (xi ) ,
se X `e discreta ,
X E(X) :=

se X `e continua .

xf (x)dx ,

Nel caso discreto numerabile, per garantire la convergenza


della serie, si assume che

essa sia assolutamente convergente, cio`e che sia i jxi jf (xi ) < +1.

Osservazione: Nel caso discreto la media `e la somma dei valori xi moltiplicati per le
rispettive probabilit`a f (xi ) P (X =xi ). Essa rappresenta dunque la media ponderata
dei possibili valori di X, ciascuno pesato con la sua probabilit`a.
Esempio 1.5.1

Si consideri lesperimento del lancio simultaneo di una coppia di dadi non


truccati. Abbiamo gi`
a visto che lo spazio campionario S `e

S = f(i, j), i, j = 1, 2, 3, 4, 5, 6g .
Sia X la variabile aleatoria che assegna a ciascun evento elementare (i, j) il massimo fra i
e j . Allora linsieme immagine di X , cio`e linsieme di tutti i possibili valori che la X pu`
o
assumere, `e il seguente

X(S) = f1, 2, 3, 4, 5, 6g .
Tenendo conto che


 1
P (X =1)=P f(1, 1)g = 36
,





 3
P (X =2)=P f(1, 2)g + P f(2, 1)g + P f(2, 2)g = 36
,

e, generalizzando, essendo 2k 1 il numero degli eventi elementari f(i, j)g che hanno come
valore massimo k ,

2k 1
, k = 3, 4, 5, 6 ,
36
la variabile aleatoria X risulta cos` definita:

1 2 3
X:
1
3
5
P (X =k)=

36

36

36

7
36

9
36

11
36

La media di X si calcola dunque nel modo seguente:

X =

6


k=1

xk f (xk ) = 1

1
3
5
7
9
11
161
+ 2
+ 3
+ 4
+ 5
+ 6
=
4.47 .
36
36
36
36
36
36
36

32

Proposizione

Data la variabile casuale X , la media della variabile casuale g(X)

`e la seguente:
E[g(X)] =
E[g(X)] =




g(xi )f (xi ) ,

se X `e discreta ,

g(x)f (x)dx ,

se X `e continua.

La proposizione consegue direttamente dalle denizione di media. Ad esempio, se


g(X)=X 2 , si ha

E[X 2 ] =
x2i f (xi ) ,
se X `e discreta ,
E[X 2 ] =

x2 f (x)dx ,

se X `e continua.

Nel seguito vedremo che il calcolo di E[X 2 ] `e estremamente utile.


Definizione

Si chiama varianza (o variazione standard) della variabile aleatoria X il numero,


2
che indicheremo con X
o V ar(X), cos` definito:


2
V ar(X) := E (X X )2 .
X

Quindi, tenendo conto della denizione di X ,


2
V ar(X) :=
X
2
X

V ar(X) :=




(xi X )2 f (xi ) ,

(x X )2 f (x)dx ,

se X `e discreta ,
se X `e continua .

2
La varianza X
`e sempre non negativa. Esiste un unico caso in cui `e nulla. Questo

caso, che `e privo di interesse probabilistico, si ha se e solo se la variabile X `e degenere,


cio`e se la sua funzione di probabilit`a vale 1 in un punto x1 e 0 in ogni altro punto x.

Definizione La radice quadrata della varianza si chiama deviazione standard (o


scarto quadratico medio) e si indica con X .
La varianza (e quindi anche la deviazione standard) misura la dispersione dei valori
2
assunti da X rispetto al suo valor medio X : tanto pi`
u grande `e X
, tanto pi`
u i valori
2
di X saranno lontani dal valor medio; per contro, tanto pi`
u X `e piccola, tanto pi`
u
i valori di X saranno raccolti attorno a X . Si pu`o anche dire che la media di una
variabile casuale `e tanto pi`u attendibile quanto pi`
u piccola `e la sua varianza.
Teorema

2
X
= E(X 2 ) 2X .

Facciamo la dimostrazione nel caso discreto. Nel caso continuo si proceder`a in maniera
del tutto analoga con integrali al posto di sommatorie. Ricordando la denizione di
33

X e che

i f (xi )=1,
2
X
=


i


i


i

si ottiene
(xi X )2 f (xi ) =
x2i f (xi )

2X


(x2i 2xi X + 2X )f (xi ) =
i

xi f (xi ) + 2X

f (xi ) =

x2i f (xi ) 22X + 2X = E(X 2 ) 2X .

Teorema (trasformazione lineare di una variabile aleatoria)


Data una variabile aleatoria X , si consideri la variabile aleatoria aX + b, con a e b
reali qualunque, a 6
= 0. Valgono allora le seguenti relazioni:
2
2
aX+b
= a2 X
.

aX+b = aX + b ,

Dimostrazione
Come nel caso del precedente teorema, proviamo anche questo nel caso discreto. La
variabile aleatoria aX + b `e la seguente:


ax1 + b ax2 + b ... axn + b ...
f (x1 )
f (x2 ) ... f (xn ) ...

Ricordando che i f (xi ) = 1, si ha immediatamente



aX+b =
(axi + b)f (xi ) = a
xi f (xi ) + b
f (xi ) = aX + b .
i

Ora, sfruttando questo risultato, calcoliamo la varianza:




2
aX+b
=
(axi + b aX+b )2 f (xi ) =
(axi + b aX b)2 f (xi ) =
i

=a


i

(xi X ) f (xi ) =

2
a2 X

Corollario
E(X X ) = 0 .
Si ottiene immediatamente dallultimo teorema ponendo a=1 e b=X .
2
2
Corollario
aX
= a2 X
.
Si ottiene immediatamente dallultimo teorema ponendo b=0.
2
2
Corollario
X+b
= X
.
Si ottiene immediatamente dallultimo teorema ponendo a=1.

2
Definizione Sia X una variabile casuale con varianza X
> 0. Si chiama variabile
casuale standardizzata associata ad X la variabile casuale X cos` definita:
X X
X =
.
X

34

Proposizione Ogni variabile casuale standardizzata ha media nulla e varianza


uguale ad 1, ossia
2
X = 0 ,
X
= 1.
Queste propriet`a di X seguono immediatamente dai teoremi e dai corollari precedenti. Infatti:
X 
X 

1 
X
X
X = E
=E

=
E(X) X = 0 ,
X
X
X
X
X 
X
X 
1 2
X
2
X
= V ar

= 2 X
= 1.
= V ar
X
X
X
X
Definizione Data una variabile aleatoria X , si chiama mediana di X un valore
x0 tale che
1
P (X < x0 ) P (X x0 ) .
2
Dalla denizione consegue immediatamente che, se F (x) `e la funzione distribuzione
di X, la mediana `e un punto x0 tale che F (x0 ) = 12 se un tale x0 esiste. In caso
contrario x0 `e un punto di discontinuit`a di F (x) tale che F (x) < 12 per x < x0 e
` anche facile constatare che vi possono essere pi`
F (x) > 12 per x x0 . E
u mediane;
pi`
u precisamente le mediane costituiscono un intervallo chiuso (che eventualmente si
riduce ad un punto).
I tre graci proposti qui sotto illustrano le tre situazioni pi`
u comuni: a) F (x) `e
continua in ogni x (e quindi associata ad una variabile casuale X continua con f (x)
continua 8x): esiste un unico x0 tale che F (x0 ) = 12 ; b) F (x) `e costante a tratti (e
quindi associata ad una variabile casuale X discreta), con F (x) 6
= 12 , 8x. In questo
caso, se F (x) assume i valori e con < 12 < , saltando da a nel punto x ,
allora x0 = x . c) F (x) `e costante a tratti , con F (x) = 12 , per x1 x < x2 : ogni
x 2 [x1 , x2 ] pu`o essere assunto come x0 .

Esempio 1.5.2 Consideriamo di nuovo lesperimento dellesempio 1.5.1. Calcoliamo la va2


rianza di X mediante la relazione X
=E(X 2 )2X . A tal fine andiamo a calcolare E(X 2 ).
6

1
3
5
7
9
11
791
+ 22 + 32 + 42 + 52 + 62
=
21.97 .
36
36
36
36
36
36
36
Ora, applicando il risultato precedentemente ricordato e utilizzando il valore di X trovato
E(X 2 ) =

i=1

x2i f (xi ) = 12

nellesempio 1.5.1, si ottiene


2
X
= E(X 2 ) 2X 21.97 (4.47)2 21.97 19.98 = 1.99 ,

e quindi la deviazione standard

1.99 1.41 .
35

Esempio 1.5.3

Sia X la variabile aleatoria continua (gi`


a considerata nellesempio 1.4.5) la
cui funzione densit`
a `e
 1
se 0 x 2
2x

f (x) =

altrove

Calcoliamo media e varianza (questultima in due modi: sia applicando la definizione che
attraverso il calcolo di E(X 2 )).

 3 2
x
=
= 43 ,
6

0
2
 4
2
 +
 2
= (x X )2 f (x)dx = 0 x 43 12 xdx = x8 49 (x3 x2 ) = 29 ,
0
 4 2


+
2
x
2
= E(X 2 ) 2X = x2 f (x)dx 2X = 0 12 x3 dx 16
16
9 =
8
9 = 9 .

X =
2
X
2
X

 +

xf (x)dx =

2

1
xxdx
0 2

Esercizio 1.5.1 Si eseguano tre lanci consecutivi di una moneta truccata in modo tale che
P (T ) = 34 . Sia X la variabile casuale che rappresenta il numero di teste ottenute nei tre
lanci. Si chiede di calcolarne la media, la varianza e la deviazione standard.
La variabile X pu`
o assumere i valori 0,1,2,3. Le probabilit`
a che X assuma ciascuno di questi
valori sono le seguenti:

P (X =0) = P (CCC) =

 1 3
4

1
64

 2
9
P (X =1) = P (T CC) + P (CT C) + P (CCT ) = 3 34 14 = 64
,
 2
P (X =2) = P (T T C) + P (T CT ) + P (CT T ) = 3 34 14 = 27
64 ,
 3 3
P (X =3) = P (T T T ) = 4 = 27

64 ,
0 1 2
La funzione di probabilit`
a di X `e dunque la seguente: X :
9
27
1
64

Avremo quindi:

64

64

3
27
64

1
9
27
27
9
X = 0
+ 1
+ 2
+ 3
= ;
64
64
64
64
4

2 1

2 9

9
9
9 2 27 
9 2 27
9
2
X
= 0

+ 1

+ 2

+ 3

=
;
64
4
64
4
64
4
64
16
 4
9
3
X =
= .
16
4

2
Per il calcolo della varianza si sarebbe potuto procedere anche utilizzando la relazione X
=
2
2
2
E(X ) x . In tal caso si sarebbe dovuto calcolare E(X ) ottenendo

E(X 2 ) = 02

1
9
27
27
45
+ 12
+ 22
+ 32
=
,
64
64
64
64
8

e quindi, come prima,


2
X
= E(X 2 ) 2x =

36

45 81
9

=
.
8
16
16

Esercizio 1.5.2 Si consideri la variabile aleatoria X definita nellesercizio 1.4.2. Si chiede di


calcolarne la media, la varianza e la mediana.
La funzione densit`
a e di distribuzione di X sono le seguenti:

f (x) =

per x 0

25 x
1
x
25

per 0 x 5

2
5

F (x) =

per 5 x 10
per x 10 .

La media e la varianza sono date da

X =

xf (x)dx =

2
X
= E(X 2 ) 2X =

5
0

per x 0
2

50 x
1 2
x
50

per 0 x 5

2
x
5

1 per 5 x 10
per x 10 .

 x3 5  x3
x2
2x 
x2 10
+ +
= 5;
+
dx =
25
5
75 0
75
5 5
5
 10  3
x
2x2 
25
x3
dx +
+
dx 25 =
.
25
25
5
6
5

x2
dx +
25

10 

Per calcolare la mediana occorre determinare un x0 tale che F (x0 ) = 12 . Chiaramente si


ricava x0 = 5. Il fatto che X ed x0 coincidano e valgano 5 `e unovvia conseguenza della
simmetria della distribuzione rispetto ad x=5 (si riveda il grafico di f (x) precedentemente
riportato).

Esercizio 1.5.3 Calcolare media, varianza e mediana di una generica variabile aleatoria
uniformemente distribuita.
Sia [a, b] lintervallo in cui la variabile aleatoria ha densit`
a non nulla. Ricordiamo che

xa
F (x) =

ba

per x a

1
f (x) =

ba

per a< x< b ;


per x b

per x a
per a< x< b .
per x b

Andiamo a calcolarne media e varianza. Procedendo come nellesercizio precedente, abbiamo:

X =

xf (x)dx =

2
X
= E(X 2 ) 2X =

x
a+b
dx =
;
ba
2

a
+

x2 f (x)dx

(a + b)2
=
4

b
a

x2
(a + b)2
(b a)2
dx
=
.
ba
4
12

Per calcolare la mediana x0 dobbiamo risolvere lequazione F (x) =

xa
1
= ,
ba
2

1
2,

cio`e lequazione

a+b
. Dunque, come peraltro facilmente intuibile, per ogni
2
variabile casuale uniformemente distribuita, media e mediana coincidono col punto medio
di (a, b).
che fornisce la soluzione x0 =

37

1.6 VARIABILI ALEATORIE BIDIMENSIONALI


In un esperimento, invece che ad un unico risultato numerico, possiamo essere interessati a pi`
u valori (ad esempio, per una persona, a peso, altezza, et`a, ecc.). Ciascuno
di tali valori `e una variabile aleatoria, ma anche la n-upla di valori ottenuti pu`o essere considerata come una variabile aleatoria multipla o ndimensionale. Qui, per
semplicit`a, tratteremo solo, seppure brevemente, le variabili aleatorie bidimensionali.
Definizione

Dato uno spazio di probabilit`a (S, , P ), si dice variabile aleatoria bidimensionale una coppia di funzioni (X, Y ) che ad ogni s 2 S associa un coppia di numeri
reali X(s), Y (s) , tali che ogni insieme fs : X(s) a , Y (s) bg sia un evento
contenuto in .
Anche nel caso di variabili casuali bidimensionali lo strumento essenziale per il loro
utilizzo `e la funzione distribuzione, la cui denizione si ottiene immediatamente generalizzando quella per variabili unidimensionali. Infatti, si ha
Definizione

Data una variabile aleatoria bidimensionale (X, Y ) definita sullo spazio di probabilit`a (S, , P ), si chiama funzione di distribuzione o di ripartizione ad essa
associata la funzione F : R2 ! [0, 1] cos` definita:
F (x, y) = P (X x, Y y) ,

(x, y) 2 R2 .

La virgola nella probabilit`a appena scritta equivale ad una intersezione. Per favorire la
comprensione del signicato della F (x, y), ne ricordiamo tutte le possibili espressioni:
F (x, y) = P (X x, Y y) =


= P s 2 S : X(s) x, Y (s) y =


= P (X x) \ (Y y) =



= P s 2 S : X(s) x \ s 2 S : Y (s) y .

Ragionando sulla base del disegno riportato qui


accanto e utilizzando la propriet`
a additiva della
probabilit`a nel caso di eventi incompatibili, si dimostra che

P (x1 < X x2 , y1 < Y y2 ) = F (x2 , y2 ) F (x2 , y1 ) F (x1 , y2 ) + F (x1 , y1 ) .


Si dimostra inoltre che valgono le seguenti propriet`a:
lim F (x, y) = 1 ,

x+
y+

lim F (x, y) = lim F (x, y) = 0 ,

lim F (x, y) = FY (y) = P (Y y) ,

x+

lim F (x, y) = FX (x) = P (X x) .

y+

38

Le funzioni di distribuzione FX (x) della X e FY (y) della Y sono dette funzioni di


distribuzione marginali della variabile congiunta (X, Y ).
Le variabili casuali bidimensionali, cos` come quelle unidimensionali, possono essere
di tipo discreto o di tipo continuo.
Una variabile bidimensionale (X, Y ) `e discreta se esiste un insieme nito o numerabile
di coppie di numeri reali (xr , ys ), r = 1, 2, . . . , s = 1, 2, . . . , tali che

P (X =xr , Y =ys ) = prs 0 ,
con
prs = 1 .
r,s

Eventuali coppie (xr , ys ) con prs =0 possono rappresentare coppie di valori mai assunti
dalla variabile casuale, che per`o per comodit`a sono presi ugualmente in considerazione
assegnando loro probabilit`a nulla.
Si chiama funzione di probabilit`
a congiunta la funzione

prs
se (x, y) = (xr , ys ) r = 1, 2, . . . , s = 1, 2, . . .
,
f (x, y) =
0
altrove
mentre si chiamano funzioni di probabilit`
a marginali le funzioni


pr = s prs
se x = xr
fX (x) =
,
0
altrove


ps = r prs
se y = ys
fY (y) =
.
0
altrove
Nel caso di una variabile aleatoria (X, Y ) discreta nita, supposto r = 1, 2, . . . , N e
s = 1, 2, . . . , M , le funzioni di probabilit`a congiunta e marginali vengono rappresentate
attraverso la seguente tabella:
y2

Y
.........

yM

p11
p21
...
...
pN 1

p12
p22
...
...
pN 2

.........
.........
.........
.........
.........

p1M
p2M
...
...
pNM

p1

p2

.........

pM

y1

x1
x2
...
...
xN

p1
p2
...
...
pN

Una variabile bidimensionale (X, Y ) `e continua se esiste una funzione f (x, y), non
negativa, tale che
 x  y
F (x, y) =
f (u, v)dudv .

La funzione f (x, y) `e detta funzione densit`


a congiunta. Naturalmente si ha
 +  +
f (u, v)dudv = 1 ,

39

che costituisce la condizione perche una funzione f (x, y) 0 sia una funzione densit`a.
Si pu`o poi dimostrare che le funzioni di distribuzione marginali sono date da

 x  +
FX (x) =
f (u, v)dv du ,
FY (y) =

y  +


f (u, v)du dv ,

e quindi, per denizione di funzione densit`a, le densit`


a marginali delle variabili X
e Y sono date da
 +
 +
fX (x) =
f (x, v)dv ,
fY (y) =
f (u, y)du .




Sia A un sottinsieme di R2 tale che linsieme s : X(s), Y (s) 2 A sia un evento di
. Un importante teorema riguardante la funzione densit`a congiunta `e il seguente:
Teorema

(senza dimostrazione)

P (X, Y ) 2 A =



f (x, y) dx dy .

Un corollario, molto utile ai ni della risoluzione degli esercizi (come si vedr`a nellesercizio 1.6.4), segue in maniera immediata dal teorema appena enunciato:
Corollario Siano (X, Y ) una variabile casuale bidimensionale, f (x, y) la sua funzione densit`a congiunta, (X, Y ) una variabile casuale funzione di X e Y , e B un
boreliano di R. Vale la relazione





P (X, Y ) 2 B =
f (x, y) dx dy ,
con
A = (x, y) : (x, y) 2 B .
A

La dimostrazione `e immediata:






P (X, Y ) 2 B = P s : X(s), Y (s) 2 B =
 


= P s : X(s), Y (s) 2 (x, y) : (x, y) 2 B
=
 


= P s : X(s), Y (s) 2 A .

Teorema ( senza dimostrazione) Se (X, Y ) `


e una variabile casuale bidimensionale e
(X, Y ) una variabile casuale funzione di X e Y , si ha
E[(X, Y )] =
E[(X, Y )] =

N 
M


(xr , ys ) prs
r=1 s=1
 +  +

se X e Y sono discrete (e finite);

(x, y) f (x, y) dxdy ,

Corollario

E[aX + bY ] = aE[X] + bE[Y ] .

Corollario

 N

k=1

 N
k Xk = k=1 k E[Xk ] .
40

se X e Y sono continue.

Definizione Si chiama covarianza delle variabili casuali X e Y , e la indicheremo


con X,Y o Cov(X, Y ), il numero


X,Y Cov(X, Y ) := E (X X )(Y Y ) .
In virt`
u del teorema precedente la covarianza risulta quindi cos` denita:

X,Y =
X,Y =

N 
M

(xr X )(ys Y )prs ,
r=1 s=1
 +  +

Teorema
Dimostrazione

se X e Y sono discrete (e nite);

(x X )(y Y )f (x, y)dxdy ,

se X e Y sono continue.

X,Y = XY X Y .





X,Y = E (X X )(Y Y ) = E XY X Y Y X + X Y =
= E(XY ) X E(Y ) Y E(X) + X Y = XY X Y .

Teorema

2
2
XY
= X
+ Y2 2X,Y .

Dimostrazione


2 
2 
2
= E (X X ) (Y Y )
=
XY
= E (X Y ) (X Y )


2
2
2
2
= E (X X ) + (Y Y ) 2(X X )(Y Y ) = X + Y 2X,Y .

Il teorema appena dimostrato per due variabili casuali, si pu`o facilmente generalizzare
alla somma di n variabili Xi :
n
n

 

 


Teorema
V ar
Xi =
V ar Xi +2
Cov Xi , Xk .
(senza dimostrazione)

Teorema

i=1

i=1

i=1,...,n1
k=i+1,...,n

2
2 2
X,Y
X
Y .

(senza dimostrazione)

Introduciamo ora limportante concetto di indipendenza fra variabili casuali.


Definizione Due variabili aleatorie X e Y sono indipendenti quando la funzione di
distribuzione congiunta F (x, y) `e uguale al prodotto delle funzioni di distribuzioni
marginali FX (x) e FY (y), cio`e quando
F (x, y) = FX (x) FY (y) ,
Teorema

8x, y 2 R .

(senza dimostrazione)

CNS perch`e due variabili aleatorie X e Y siano indipendenti `e che si abbia


P (X 2 A, Y 2 B) = P (X 2 A) P (Y 2 B) ,
Teorema

8 A , B Boreliani .

(senza dimostrazione)

CNS perch`e due variabili aleatorie X e Y discrete siano indipendenti `e che sia
P (X =xr , Y =ys ) = P (X =xr ) P (Y =ys ) .
41

Teorema

(senza dimostrazione)

CNS perch`e due variabili aleatorie X e Y continue siano indipendenti `e che sia
f (x, y) = fX (x) fY (y) .
Teorema

Date due variabili casuali X e Y indipendenti, vale la relazione


XY = X Y .

Dimostrazione
Facciamo la dimostrazione nel caso discreto. Sfruttando il teorema precedentemente
enunciato per variabili casuali discrete si pu`o scrivere:
XY =


r


r

xr ys P (X =xr , Y =ys ) =

xr P (X =xr )


s


r

xr ys P (X =xr ) P (Y =ys ) =

ys P (Y =ys ) = X Y .

Dalla relazione appena dimostrata, applicando i due teoremi dimostrati alla pagina
precedente, seguono immediatamente le due relazioni del corollario che segue.
Corollario Date due variabili casuali X e Y indipendenti, valgono le relazioni
i) X,Y = 0 ;

2
2
ii) XY
= X
+ Y2 .

Definizione Si chiama coeciente di correlazione fra le variabili casuali X e Y ,


e lo denotiamo con X,Y , il numero
X,Y
X,Y =
.
X Y
Il coeciente di correlazione fra due variabili casuali `e nullo se e solo se la loro covarianza `e nulla. In questo caso diciamo che X e Y sono incorrelate. Ora, come
aermato nel precedente corollario, X,Y `e certamente nulla se X e Y sono indipendenti. Tuttavia, la covarianza pu`o essere nulla anche se X e Y non sono indipendenti.
2
2 2
Se X,Y 6
= 0, X e Y si dicono correlate. Essendo X,Y
X
Y (teorema enunciato in
precedenza), si ha sempre jX,Y j 1. Ne consegue che X e Y sono tanto pi`
u correlate,
quanto pi`
u X,Y `e in modulo prossimo ad uno. Nel caso di correlazione massima, cio`e
jX,Y j = 1, X e Y sono linearmente dipendenti, per cui Y = X + , con < 0 se
X,Y =1 e > 0 se X,Y =1.

In virt`
u della denizione di variabili incorrelate, dal teorema relativo alla varianza
della somma di n variabili casuali, segue immediatamente il seguente
Corollario Se X1 , X2 , . . . , Xn sono n variabili casuali incorrelate, allora la varianza
della loro somma `e uguale alla somma delle loro varianze, vale a dire


V ar X1 + X2 + + Xn = V ar(X1 ) + V ar(X2 ) + + V ar(Xn ) .
42

In particolare, se le Xi hanno tutte la stessa varianza 2 , si ha




V ar X1 + X2 + + Xn = n 2 .

Inoltre, tenendo conto del fatto che V ar(aX) = a2 V ar(X), si ha anche




V ar a1 X1 + a2 X2 + + an Xn = a21 V ar(X1 ) + a22 V ar(X2 ) + + a2n V ar(Xn ) .

Esercizio 1.6.1 Da unurna contenente due palline bianche, una nera e due rosse, si estraggono una dopo laltra con reimmissione due palline. Sia X1 la variabile casuale che descrive
lesito della prima estrazione e X2 quella che descrive lesito della seconda estrazione. Ciascuna delle due variabili assume valore 1 se la pallina estratta `e bianca, valore 0 se `e nera
o rossa. Si chiede di descrivere le leggi di probabilit`
a congiunta e marginali, calcolare la
covarianza e il coefficiente di correlazione.
Essendo lestrazione con reimmissione, gli esiti delle due estrazioni sono eventi indipendenti
e quindi si ha

P (X1 = x1r , X2 = x2s ) = P (X1 = x1r )P (X2 = x2s ) ,


per r, s = 1, 2 e x11 = x21 = 0 , x12 = x22 = 1 . Questa relazione tra le probabilit`
a assicura
lindipendenza delle due variabili casuali X1 e X2 e permette immediatamente di rappresentarne la funzione di probabilit`
a congiunta mediante la seguente tabella:

0
X1

X2

3 3

5 5

3 2

5 5

3
5

2 3

5 5

2 2

5 5

2
5

3
5

2
5

2
2
Andiamo ora a calcolare le medie X1 , X2 e X1 X2 , le varianze X
e X
. Una volta
1
1
ottenuti questi valori, attraverso i teoremi visti calcoleremo immediatamente la covarianza
X1 ,X2 e il coefficiente di correlazione X1 ,X2 .

3
2
2
X1 = X2 = 0 + 1 = ;
5
5
5

2 3 
2
2 2 2
6
2
2
=

=
0

+
1

=
;
X
X2
1
5
5
5
5
25

9
6
6
4
4
X1 X2 =
x1r x2s prs = 00
+ 01
+ 10
+ 11
=
;
25
25
25
25
25
r,s
X1 ,X2 = X1 X2 X1 X2 =

4
2 2
= 0;
25 5 5

X1 ,X2 =

X1 ,X2
= 0.
X1 X2

Osserviamo che in virt`


u dellindipendenza di X e Y sapevamo gi`
a, grazie ad un teorema che
abbiamo visto, che X1 ,X2 era nulla. Il calcolo `e stato fatto ugualmente per fare pratica.

43

Esercizio 1.6.2 Si risolva il problema dellesercizio precedente senza reimmissione.


Non reimmettendo la pallina estratta per prima, lesito della seconda estrazione viene a
dipendere dallesito della prima. Di conseguenza le probabilit`
a congiunte cambiano e si ha

P (X1 = x1r , X2 = x2s ) = P (X1 = x1r )P (X2 = x2s jX1 = x1r ) .


Le variabili casuali X e Y non sono indipendenti e la tabella che rappresenta la funzione di
probabilit`
a congiunta risulta cos` modificata:

X2

0
X1

3 2
54

3 2
54

3
5

2 3
54

2 1
54

2
5

3
5

2
5

Ripetendo i calcoli fatti per lesercizio precedente otteniamo

3
2
2
X1 = X2 = 0 + 1 = ;
5
5
5

2 2 3 
2 2 2
6
2
2
X 1 = X 2 = 0
+ 1
=
;
5
5
5
5
25

6
6
2
1
6
X1 X2 =
+ 01
+ 10
+ 11
=
;
x1r x2s prs = 00
20
20
20
20
10
r,s
X1 ,X2 = X1 X2 X1 X2 =
X1 ,X2 =

1
2 2
3
= ;
10 5 5
50

X1 ,X2
1
= .
X1 X2
4

Il fatto che la media e la varianza delle variabili singole siano le stesse dellesercizio precedente non deve sorprendere: le distribuzioni marginali non sono cambiate. Giova piuttosto
osservare che ora le variabili X e Y non sono indipendenti e, essendo X1 ,X2 6
= 0, neppure
incorrelate.

Esercizio 1.6.3 Unurna contiene 112 dadi di cui 56 (cio`e la met`a) sono equi, mentre gli altri
sono stati manipolati in modo che, per ciascuno di essi, la probabilit`
a di ottenere 1 sia 12 ,
1
mentre ogni altro risultato si verifica con probabilit`
a 10 . Si chiede:
a) Un dado viene estratto a caso e lanciato; indichiamo con X la variabile aleatoria che
rappresenta il risultato del lancio. Qual `e la probabilit`
a di ottenere 3? Quanto vale E(X)?
b) Un dado viene estratto a caso e lanciato due volte. Indicato con X il risultato del primo
lancio e con Y quello del secondo, qual `e la probabilit`
a di ottenere X =2 e Y =3?
c) Sapendo che i due lanci hanno dato come risultato X =2 e Y =3, qual `e la probabilit`
a
che si tratti di uno dei dadi truccati?
d) Le variabili casuali X e Y sono indipendenti?
44

a) Le probabilit`
a con cui la variabile aleatoria X assume i valori 1, 2, ..., 6 dipendono dal
fatto che il dado estratto sia oppure no equo. Indicato con A levento il dado estratto `e
equo e quindi con AC levento il dado estratto `e alterato, si ha

XjA :

1
6

1
6

1
6

1
6

1
6

1
6

XjA :

1
2

1
10

1
10

1
10

1
10

1
10

Applicando la formula della probabilit`


a totale, per cui

P (X =k) = P (X =kjA) P (A) + P (X =kjAC ) P (AC ) ,


la variabile non condizionata X risulta cos` definita:

X:
Si ha dunque P (X =3) =

2
15

1
3

2
15

2
15

2
15

2
15

2
15

e, facendo i calcoli, E(X) =

k=1

k P (X =k) = 3.

b) Consideriamo la variabile bidimensionale (X, Y ), con Y variabile identica alla X . La sua


funzione di probabilit`
a congiunta sar`
a definita dalle relazioni







P (X =j, Y =k) = P (X =j, Y =k)jA P (A) + P (X =j, Y =k)jAC P (AC ) =
1
1
= P (X =jjA) P (Y =kjA) + P (X =jjAC ) P (Y =kjAC ) .
2
2
In particolare



1
1
P (X =2, Y =3) = P (X =2jA) P (Y =3jA) + P (X =2jAC ) P (Y =3jAC ) =
2
2
1 1 1
1 1 1
17

=
.
= +
6 6 2 10 10 2
900
Volendo, anche se non richiesto dallesercizio, calcolare e mostrare la tabella completa che
rappresenta la funzione di probabilit`
a congiunta della variabile aleatoria (X, Y ), abbiamo:

5
36

7
180

7
180

7
180

7
180

7
180

1
3

7
180

17
900

17
900

17
900

17
900

17
900

2
15

7
180

17
900

17
900

17
900

17
900

17
900

2
15

7
180

17
900

17
900

17
900

17
900

17
900

2
15

7
180

17
900

17
900

17
900

17
900

17
900

2
15

7
180

17
900

17
900

17
900

17
900

17
900

2
15

1
3

2
15

2
15

2
15

2
15

2
15

c) Indicato con B levento fX =2, Y =3g, ci si chiede ora P (AC jB). Utilizzando la formula
di Bayes, otteniamo

P (AC jB) =

P (BjAC ) P (AC )
=
P (B)
45

1
10

1
10
17
900

1
2

9
.
34

d) Perch`e due variabili aleatorie X e Y siano indipendenti (vedi pag. 36) deve essere

P (X =xr , Y =ys ) = P (X =xr ) P (Y =ys ) ,


per ogni coppia (xr , ys ). Nel nostro caso, con xr =2 e ys =3, si ha
17
2
2
= P (X =2) P (Y =3) = 15
15
=
900 = P (X =2, Y =3) 6
Di conseguenza X e Y non sono indipendenti.
Esercizio 1.6.4
colare:

4
225

Due variabili casuali X e Y sono indipendenti ed uniformi su [0, 1]. Cal-


1 
1
b) P XY < X >
.
4
2
Essendo X e Y uniformi ed indipendenti sullintervallo [0, 1], la variabile congiunta (X, Y )
ha una funzione densit`
a f (x, y) data dal prodotto delle funzioni densit`
a di X e Y . Di
conseguenza, indicato con Q il quadrato (0, 1) (0, 1), si ha:

0 se (x, y) 2
/Q
f (x, y) =
.
1 se (x, y) 2 Q

1
a) P XY >
;
2

Ricordando poi un corollario sulle funzioni densit`


a congiunte, sappiamo che



P (X, Y ) 2 B =



f (x, y) dx dy ,

con

Di conseguenza, essendo (X, Y ) = XY , abbiamo che

P (XY 2 B) =



f (x, y) dx dy =



dx dy ,

AQ



A = (x, y) : (x, y) 2 B .
con



A = (x, y) : xy 2 B .

a) Dovendo essere XY > 12 , si ha B = z > 12 , e quindi A `e la regione, tutta contenuta


in Q, costituita dai punti (x, y) tali che xy > 12 (vedi figura). Di conseguenza la probabilit`
a
richiesta `e


 1  1

1
P XY >
=
dx dy =
dx
dy =
1
1
2
AQ
2
2x
 1
1 
1
=
1
dx = (1 loge 2) .
1
2x
2
2
b) Per calcolare la probabilit`
a richiesta in questo punto, si procede analogamente a quanto
fatto per il punto a) tenendo per`
o conto che si tratta di una probabilit`
a condizionata:


1 
1  P [XY < 14 , X > 12 ]
P XY < X >
=
.
4
2
P [X > 12 ]


Posto A = (x, y) : xy < 14 , x> 12 , si ha quindi

1
 1  4x

1 
1
A Q dx dy
=
P XY < X >
=2
dx
dy =
1
1
4
2
0
2
2
 1
1
1
=2
dx = loge 2 .
1 4x
2
2
46

1.7 DISTRIBUZIONI BINOMIALE, DI POISSON E DI GAUSS


DISTRIBUZIONE BINOMIALE
Consideriamo esperimenti con due soli risultati: ad esempio, il lancio di una moneta
produce come risultato o testa o croce; un individuo, scelto a caso da un gruppo,
possiede oppure no una data caratteristica; un dato prodotto, uscito da una linea di
produzione, `e difettoso oppure no. Generalizzando, siano A (il successo) e B AC
(il fallimento) i due possibili risultati del nostro esperimento, e siano p = P (A) e
q = P (B) = 1p le loro probabilit`a. Considerando ora una variabile casuale Y che
assume il valore 1 nel caso di successo e 0 nel caso di fallimento, essa risulta cos`i
denita:


0
1
Y :
.
1p p
` immeUna variabile casuale di questo tipo `e detta di Bernoulli o bernoulliana. E
diato vericare che
E(Y ) = p ,
V ar(Y ) = pq .
Supponiamo poi che dellesperimento in questione siano fatte n prove e sia X la variabile aleatoria che ne descrive il risultato: sar`a X =k se si vericano esattamente k
successi. Ebbene, il teorema che segue, e che non dimostriamo, ci fornisce la probabilit`a P (X =k). (Si consiglia di rivedere gli esercizi 1.5.1 e 1.5.2 per una giusticazione
del teorema basata su due problemi specici).

a che in n prove indipendenti levento A


Teorema (di Bernoulli) La probabilit`
avvenga esattamente k volte vale
 
n k nk
p q
, k = 0, 1, ..., n ,
k
dove p `e la probabilit`a di A in una singola prova e q =1p.
Si d`a quindi la seguente
Definizione Dati 0 < p < 1 e n 2 N , si chiama variabile aleatoria binomiale la

variabile aleatoria discreta (e finita) avente la seguente funzione di probabilit`


a:
 
P (X =k) f (k) = nk pk q nk , q =1p , k = 0, 1, . . . , n .
 
n
n!
Ricordando che
=
, si pu`o anche scrivere
k
k!(n k)!
X:

qn

npq n1

n!
p2 qn2
2!(n 2)!

...
...

n2
n!
pn2 q 2
(n 2)!2!

n1

npn1 q

n
pn

Spesso, piuttosto di dire che abbiamo una variabile aleatoria X binomiale, parleremo
di distribuzione binomiale. Qualche volta, poi, per indicare una variabile aleatoria
X binomiale di parametri n e p scriveremo X ' B(n, p).

47

Si noti che eettivamente la somma di tutte le probabilit`a P (X =k) `e 1. Infatti, per


la formula binomiale di Newton, si ha
n  

n
pk q nk = (p + q)n = 1n = 1 .
k
k=0

Teorema

(senza dimostrazione)

Una variabile casuale X binomiale ha media e varianza date da


2
X
= npq .

X = np ,

Per poter calcolare operativamente la funzione distribuzione F (k) = P (X k) o la


funzione di probabilit`a f (k) `e molto utile la seguente relazione:
P (X = k+1) =

p nk
P (X = k) .
1p k+1

Esercizio 1.7.1 Se la probabilit`a di avere un figlio maschio `e

1
2

, per una famiglia con 5 figli,


qual `e la probabilit`
a di avere: (i) due maschi; (ii) almeno un maschio; (iii) almeno 3 femmine.
Sia X la variabile aleatoria binomiale che rappresenta il numero di maschi fra n = 5 figli:

    
 1 5
5 1 2 1 3
5
P (X =2) =
= 10
=
;
2 2
2
2
16
    
31
5 1 0 1 5
=
P (X 1) = 1 P (X =0) = 1
;
0 2
2
32
2   k  5k

1
1
1
1
1
5 1
=
+5
+ 10
= .
P (X 2) =
2
32
32
32
2
k 2
k=0

Esercizio 1.7.2 Sia p = 98% la probabilit`a che un test diagnostico su una persona dia una
risposta corretta. Si chiede qual `e la probabilit`
a che eseguendo il test su un gruppo di 7
individui esso dia una risposta corretta per (i) tutti 7; (ii) almeno 6; (iii) meno della met`
a.
Indichiamo con X la variabile aleatoria binomiale che rappresenta il numero delle diagnosi
veritiere sulle 7 eseguite. Si ha

 
 987 
7
98 7  2 0
P (X =7) =
= 1
0.868 ;
100
1014
7 100
 
 
7
98 6  2 1
7
98 7  2 0
P (X 6) =
+
0.124 + 0.868 = 0.992 ;
6 100
100
7 100
100
3  

7
98 k  2 7k
P (X 3) =
0.53105 .
k 100
100
k=0

48

Esempio 1.7.1

Si consideri ancora il test dellesercizio precedente, questa volta con p=90%,


che supponiamo eseguito su una popolazione di n = 250 persone. Calcoliamo la media e la
deviazione standard della variabile aleatoria Y che rappresenta il numero dei test corretti.
In virt`
u del teorema precedente si ha
90
Y = np = 250 100
= 225 ;

Y =

p
npq =

90
1
250 100
10
=

p
22.5 4.74 .

Questo esempio mostra come il concetto di media coincida col concetto intuitivo di valore
pi`
u probabile, e quindi di valore atteso. La deviazione standard (o scarto quadratico
medio) fornisce invece un indice (ce ne sono diversi) della dispersione dei risultati attorno al
valore atteso quando lesperimento `e compiuto tante volte.

Esercizio 1.7.3 (a) Due ristoranti sono in concorrenza avendo gli stessi 10 clienti. Si supponga che i clienti scelgano a caso ed indipendentemente uno dallaltro il ristorante, e che
arrivino al ristorante tutti alla stessa ora. Si chiede di determinare il numero di posti a sedere che ciascun ristorante dovrebbe avere perche ci sia almeno il 95% di probabilit`
a di poter
servire tutti i clienti che arrivano. (b) Risolvere lo stesso problema per tre ristoranti.
(a) Se X `e la variabile casuale che rappresenta il numero di clienti che arrivano ad uno stesso
ristorante, X ha chiaramente una distribuzione
binomiale, vale a dire si ha
 

P (X =i) =

10
i

pi (1 p)10i .

Inoltre, nel caso in questione, poich`e la scelta del ristorante da parte di ogni cliente `e casuale,
si ha p = q = 12 . Il numero di posti che garantisce con una probabilit`
a di almeno il 95% di
poter servire tutti i clienti che arrivano `e dato dal minimo k tale che

  1 i  1 10i  1 10 k 10



= 2
P (X k) = ki=0 10
i=0 i 0.95 .
i
2
2
Indicata con Sk la somma in questione dei coefficienti binomiali, si pu`
o quindi scrivere
k 10
10
Sk i=0 i 2 0.95 = 972.8 .
Di conseguenza, essendo

S6 =758
S7 =968
il minimo k che soddisfa la relazione `e 8.

S8 =1013

S9 =1023

S10 =1024 ,

(b) Se i ristoranti sono tre, si ha p= 13 e q = 23 . In questo caso si ha quindi

P (X k) =
o, equivalentemente,

i=0

10 1 i  2 10i

k

i=0

10i

 1 10 k
3

i=0

210i

10
i

0.95 ,

 
10
310 0.95 = 56096.55 .
i

Calcolati i termini k con un p`


o di lavoro, si ha:

4 =46464
5 =54528
6 =57888
7 =58848
.
Il minimo k per cui risulta soddisfatta la relazione `e dunque 6. Nel caso di tre ristoranti
bastano quindi 6 posti a sedere per avere la probabilit`
a di almeno il 95% di poter servire i
clienti che arrivano.

49

DISTRIBUZIONE DI POISSON
Definizione Una variabile aleatoria X `
e detta variabile aleatoria di Poisson con
parametro (> 0) se pu`o assumere gli infiniti valori k = 0, 1, 2, ... con probabilit`a
P (X =k) = f (k) =

k
e ,
k!

Rappresentata in forma esplicita, una variabile aleatoria di Poisson `e dunque del tipo
X:

0
e

1
e

2

e
2!

3

e
3!

...
...

k

k! e
k

...
...

Si osservi che eettivamente la somma di tutte le probabilit`a vale 1. Infatti, si ha


+ k


k=0

essendo

Teorema

x
k=0 k!

k!

=e

+ k


k=0

k!

= e e+ = 1 ,

= ex (si tratta della ben nota serie esponenziale).

(senza dimostrazione)

La variabile aleatoria di Poisson di parametro ha media uguale a e varianza


pure uguale a .
2
= implica che, aumentando , aumenta di pari passo anche la
Il fatto che X = X
dispersione dei valori rispetto alla media.

La distribuzione di Poisson `e tra le pi`


u importanti del calcolo delle probabilit`
a. Essa `e stata
ottenuta come limite della distribuzione binomiale, della quale `e una buona approssimazione
quando n `e molto grande e p molto piccolo; per questo `e anche detta distribuzione degli
eventi rari. Per farne capire limportanza nelle applicazioni e il gran numero di situazioni
in cui essa si applica, elenchiamo alcuni casi in cui la distribuzione di Poisson descrive assai
bene i dati osservati:
il numero casuale delle particelle emesse da un corpo radioattivo e rilevate in un intervallo
di tempo fissato; lo stesso vale per molte altre variabili aleatorie osservate in connessione con
la radioattivit`
a;
il numero di refusi in una o pi`
u pagine di un libro;
il numero di clienti che entrano in un ufficio postale in una giornata;
il numero di persone, di una data categoria, con pi`
u di 100 anni;
il numero delle chiamate in arrivo ad un centralino telefonico, cos` come il numero di
collegamenti ad un numero sbagliato;
il numero di transistor che si guastano nel primo giorno di utilizzo.

Come si pu`o desumere dallelenco di applicazioni appena proposto, la variabile aleatoria


di Poisson `e adatta a descrivere il numero di fenomeni casuali distribuiti con una data
densit`a media nellunit`a di tempo o nellunit`a di volume o nellunit`a di superficie... Gli
esempi che seguono illustrano operativamente quanto aermato.
50

Osservazione: Si pu`o facilmente dimostrare che vale la seguente relazione:

P (X =k + 1) =
P (X =k) .
k+1
Esempio 1.7.2

Nel 1910 Rutherford e Geiger provarono che il numero di particelle emesse


al secondo da una sostanza radioattiva era una variabile aleatoria di Poisson con = 0.5.
Determiniamo la probabilit`
a di osservare due o pi`
u particelle in un secondo?

P (X 2) =

+

(0.5)k

k=2

k!

e0.5 = 1 P (X =0) P (X =1) =

= 1 e0.5 0.5e0.5 1 0.91 = 9%


Una certa sospensione batterica contiene 5 batteri per cm3 (valor medio).
Qual `e la probabilit`
a che un campione causale di 1 cm3 contenga (i) nessun batterio; (ii)
al pi
u due batteri; (iii) almeno 5 batteri?

Esempio 1.7.3

P (X =0) = e5 0.007 ;

52  5
P (X 2) = 1 + 5 +
e .125 ;
2!

52
53
54  5
P (X 5) = 1 P (X 4) = 1 1 + 5 +
+
+
e 0.560 .
2!
3!
4!
Esempio 1.7.4
Si desidera determinare la carica batterica di un campione di latte. Per valutare il numero
di batteri in una sospensione se ne cerca la diluizione limite alla quale si trova ancora almeno
un batterio capace di riprodursi. Supponiamo, ad esempio, di diluire 1 cm3 di latte prima
di un fattore 101 , poi 102 , quindi 103 e infine 104 , trovando in ogni caso, dopo
incubazione, sviluppo dei batteri. Supponiamo invece che diluendo di un fattore 105 , si
trovi che il campione di 1 cm3 risulti sterile. Ci`
o permette di concludere che nel campione
di 1 cm3 diluito 104 volte vi era almeno un germe capace di riprodursi, e quindi che quel
latte conteneva circa 104 germi per cm3 .
Volendo raffinare lapprossimazione della carica batterica presente nel latte in esame, inoculiamo la sospensione diluita di un fattore 104 in 20 provette, mettendone 1 cm3 in ciascuna.
Supponiamo di trovare che 8 di esse mostrano crescita, mentre le altre 12 risultano sterili.
La distribuzione di Poisson permette di prevedere che, se vi sono in media germi per
cm3 di diluito, il numero di provette che non riceveranno alcun germe (cio`e sterili) risulter`a
proporzionale a P (X =0) = e . Avremo dunque

e =

12
20

= 0.6 ,

da cui

= loge (0.6) = loge 10log10 (0.6) = 2.3026(0.222) = 0.51 .


Allora la concentrazione di germi nel latte `e 0.51104 =5.1 103 germi per cm3 .
51

Esercizio 1.7.4 Una compagnia di assicurazioni riceve in media 5 richieste di rimborso al


giorno. Assumendo che il numero delle richieste che arrivano in giorni successivi sia indipendente, si chiede: (a) che frazione delle giornate vedr`
a arrivare meno di 3 richieste?
(b) con quale probabilit`
a in una settimana (di 5 giorni lavorativi) arrivano 4 richieste in
esattamente 3 giorni?
(a) Poich`e il numero di assicurati `e grande, ma la probabilit`
a che essi mandino una richiesta
in un dato giorno `e piuttosto piccola, il numero totale di richieste al giorno, che indichiamo
con X , `e una variabile casuale approssimativamente Poissoniana con media E(X) = 5. Si
ha quindi


52  5
P (X < 3) = P (X =0) + P (X =1) + P (X =2) = 1 + 5 +
e 0.1247 .
2

Siccome in una giornata arrivano meno di 3 richieste di risarcimento con probabilit`


a 0.125
circa, in un arco lungo di tempo ci`
o avverr`
a grossomodo nel 12.5% delle giornate, cio`e una
giornata ogni 8.
b) In virt`
u dellindipendenza tra le richieste che arrivano giorno per giorno, il numero di
giorni, in una serie di 5, nei quali arriveranno 4 richieste `e una variabile casuale binomiale
Y , di parametri n=5 e p = P (X =4). Essendo

p = P (X =4) =
la probabilit`
a cercata `e data da

P (Y =3) =

5
3

54 5
e 0.1755 ,
4!

(0.176)3 (0.825)2 0.037 = 3.7% .

DISTRIBUZIONE DI GAUSS o NORMALE


Definizione Una variabile aleatoria continua X `
e detta variabile aleatoria di
Gauss o normale con parametri e ( 2 R , > 0), e si scrive X ' N (, 2 ),

se la funzione densit`a `e

f (x) =

1
2
2
p
e(x) /2 .
2

La funzione f (x) `e detta funzione di Gauss. Si tratta di una funzione a campana


simmetrica rispetto ad x = , che ha un massimo per x , dove assume il valore
1
massimo f () = p . Questultimo ha il signicato di fattore di normalizzazione,
2
cio`e `e quel numero tale che
 +
f (x)dx = 1 .

Come gi`a sappiamo, questa uguaglianza, la cui dimostrazione viene omessa, dice che
f (x) `e eettivamente una densit`a di probabilit`a.
Teorema

E(X) = ,

V ar(X) = 2 .

Il fatto che la media di X sia `e una ovvia conseguenza della simmetria del graco
della densit`a rispetto ad x = . Omettiamo, per semplicit`a, di dimostrare che la
52

varianza `e 2 . A proposito di si pu`o notare che pi`


u `e piccolo, pi`
u `e alto il picco
f (), e dunque la campana `e pi`
u concentrata intorno alla media , il che concorda
perfettamente con il signicato di varianza.

Dalla espressione della densit`a otteniamo la funzione distribuzione:


 x
2
2
1
p
F (x) =
e(t) /2 dt ,
2
da cui
P (a X b) = F (b) F (a) =

2
2
1
p
e(t) /2 dt.
2

Naturalmente, trattandosi di una variabile casuale continua, si ha P (a X b) =


P (a X < b)=P (a< X b)=P (a< X < b).
La funzione integrale F (x) non si pu`o calcolare coi metodi di integrazione elementari.
Tuttavia, indicata con
 x
2
1
p
(x) =
eu /2 du ,
2

la funzione distribuzione della variabile aleatoria normale standardizzata, cio`e


la variabile aleatoria normale con media 0 e varianza 1, vale il seguente

La funzione distribuzione normale F (x) di media e varianza 2 si pu`o


rappresentare in termini della funzione distribuzione normale (x) di media 0 e
varianza 1 nel modo seguente:
Teorema

x 
F (x) =
.

Dimostrazione. Essendo
 x
 x
2
2
1
1
(t)2 /22
p
p
F (x) =
e
dt lim
e(t) /2 dt ,
R R 2
2
t
ponendo
= u, si ha dt = du , e quindi

 x
 x
x 

2
1
1
u2 /2
p
p eu /2 du
F (x) = lim
e
du =
.
R R 2

53

Questo teorema risulta di grande utilit`a pratica. Infatti, una volta tabulata la (x),
il cui graco ha landamento mostrato nella gura sottoriportata, attraverso le tavole ottenute `e possibile ottenere anche i corrispondenti valori per una qualunque
variabile normale. Le tavole di (x) sono fornite alla ne di queste dispense.

Essendo
P (a X b) = F (b) F (a) =
si ha

b 

a 

P ( < X < + ) = (1) (1) ' 68.3% ;

P ( 2 < X < + 2) = (2) (2) ' 95.5% ;


P ( 3 < X < + 3) = (3) (3) ' 99.7% .
Queste probabilit`a sono molto indicative del comportamento di una variabile casuale
normale. La prima, ad esempio, ci dice che `e ragionevole aspettarsi che pi`
u dei due
2
terzi dei valori osservati di X ' N (, ) cadano nellintervallo ( , + ). La
terza ci dice invece che fra mille osservazioni di X, mediamente solo tre cadono fuori
dallintervallo ( 3, + 3).
Data la variabile casuale X ' N (, 2 ), luso pi`
u diretto delle tavole relative

 alla funzione consiste nel determinare P (X x) sapendo che `e uguale a x
. Qualche

volta, per`o, nelle applicazioni `e data una probabilit`a (spesso assegnata come percentuale) e si cerca il numero x tale che (x)=. Questo numero x `e spesso denotato
n
con e chiamato quantile relativo ad , ovvero percentile nesimo se =
.
100
Nellambito di applicazioni in cui sono assegnate come dati le probabilit`a, pu`o poi
essere utile ricordare le seguenti approssimazioni
P ( 1.96 < X < + 1.96) 95% ;
P ( 2.58 < X < + 2.58) 99% .
Nella determinazione di probabilit`a attraverso le tavole di N (0, 1), talvolta anche
considerazioni geometriche sulle aree sottese dal graco della densit`a possono essere
di grande aiuto. Una relazione estremamente utile, che permette di limitare la tabulazione dei valori della funzione distribuzione (x) ad x > 0, deducibile in modo
immediato dalla simmetria della funzione densit`a rispetto allasse y, `e la seguente:
(x) = 1 (x) .
54

Grazie a questa relazione, si pu`o osservare che posto (x) = , si ha (x) = 1 .


Da qui, passando alla notazione precedentemente introdotta relativa ai quantili, segue
1 = . Ad esempio, 0.95 = 0.05 . Il graco qui sotto riportato rende evidente
sia la relazione che ci d`a (x) dato (x), sia la relazione sui quantili.

Teorema (senza dimostrazione)


Se X ' N (, 2 ), allora la variabile aleatoria X = aX + b (a > 0) `e normale con
media = a + b e varianza ( )2 = a2 2 .

Esercizio
p 1.7.5 Consideriamo la variabile aleatoria X ' N (0.8; 4). Essendo = 0.8 e
= 4=2, andiamo a calcolare a modo di esempio alcune probabilit`a.
P (X 1.16) = [(1.16 0.8)/2] = (0.98) = 1 (0.98) 16.35% ;
P (X 1) = 1 [(1 0.8)/2] = 1 (0.1) 46.02% ;
P (2 X 3) = [(3 0.8)/2] [(2 0.8)/2] = (1.1) (0.6) 13.86% .

Esercizio 1.7.6 Si consideri la variabile casuale X ' N (2; 0.25). Si chiede di determinare
c 2 R tale che
(a) P (X c) = 20% ;
(b)

Essendo =2 e =
(a)

(b)

P (2 c X 2 + c) = 90%.

0.25=0.5, si ha:
c + 2


= 0.2,
da cui
2(c + 2) = 0.8.
P (X c) = 1 F (c) = 1
0.5
Dalle tavole della legge N(0, 1) si ricava: 2(c + 2) 0.84
=) c 1.58.
 2 + c + 2 
 2 c + 2 
P (2 c X 2 + c) =

=
0.5
0.5
= (2c) (2c) = 0.9.
Essendo (2c) (2c) = (2c) (1 (2c)) = 2(2c) 1,

(2c)=0.95,

da cui, tramite le tavole,

55

2c 1.64,

e quindi:

deve essere

c 0.82.

Esercizio 1.7.7 Il voto ad una prova dingresso `e distribuito normalmente. Solo il 10% dei
candidati, quelli con punteggio migliore, verr`
a assunto. Ad esame finito, il voto medio risulta
72 e la deviazione standard 9. Qual `e il voto minimo c che un candidato deve ottenere per
essere assunto?
Essendo = 72 e = 9, deve essere

P (X c) = 1

c 

1
10

da cui

 c 72 
9

9
.
10

Dalle tavole di N (0, 1) si ricava che questa relazione `e soddisfatta se

c 72
1.29 ,
9

cio`e

c 83.61 ,

che arrotondato fornisce come voto minimo c=84.

1.8 APPROSSIMAZIONE NORMALE


La nozione di indipendenza fra variabili casuali, e quella di convergenza in legge che
ora richiamiamo, permettono di enunciare limportante teorema di limite centrale (di
cui ometteremo la dimostrazione).
Definizione Una successione di variabili aleatorie fXn gn converge in legge (o
in distribuzione) alla variabile aleatoria X se e solo se, dette Fn (x) ed F (x) le

rispettive funzioni distribuzione, si ha


limn Fn (x) = F (x) ,

per ogni punto x 2 R di continuit`a per F (x).


Osserviamo ora che data una successione di variabili aleatorie fXn gn indipendenti,
ciascuna di media e varianza 2 , in virt`
u di teoremi visti in precedenza, se consideriamo la variabile aleatoria Sn = X1 + X2 + + Xn , si ha
E(Sn ) = n ,

V ar(Sn ) = n 2 .

Teorema di limite centrale


Sia fXn gn una successione di variabili aleatorie indipendenti e identicamente distribuite, di media e varianza 2 > 0. Allora la loro somma nesima standardizzata
Sn =

X1 + ... + Xn n
p
n

converge in legge ad una variabile aleatoria N (0, 1).


Questo teorema costituisce uno risultato notevole: la legge di Sn , che in generale `e
complicata da esprimere, si approssima, per n grande, con una legge N (0, 1), e questo
qualunque sia la legge delle variabili Xn . Sostanzialmente il teorema di limite centrale
56

aerma questo: un eetto casuale che sia la risultante di molti eetti aleatori, ciascuno
dei quali dia solo un piccolo contributo alleetto nale, segue approssimativamente
una legge normale. Ad esempio, si assume spesso che un errore di misurazione segua
una legge normale. Infatti, in assenza di errore sistematico, `e ragionevole pensare che
la discrepanza tra il valore vero e quello misurato sia la risultante di numerosi piccoli
errori che si sono sovrapposti. Spesso lesperienza conferma la validit`a di questa
approssimazione.
Dunque, il teorema di limite centrale giustica lapprossimazione nella pratica della
legge Sn con una N (0, 1). Generalmente si considera che la soglia di applicabilit`a
(cio`e il minimo n a partire dal quale lapprossimazione si pu`o ritenere valida) sia
per n compreso tra 30 e 50. Occorre per`o osservare che questa soglia `e da ritenersi
appropriata per la maggior parte delle distribuzioni che si incontrano nella pratica,
ma non per tutte indistintamente. Nel caso in cui si ha Xi ' B(1, p), lesperienza
mostra che lapprossimazione `e soddisfacente quando sono soddisfatte entrambe le
condizioni np 5 e n(1 p) 5. Quindi, nel caso di valori di p estremi, cio`e molto
prossimi a 0 o 1, il valore necessario di n pu`o essere molto grande.
Lapprossimazione con la legge normale si basa sulla relazione seguente:

 x n 


x n 
p
P X1 + X2 + + Xn x = P Sn p
'
,
n
n

dove indica, come gi`a visto, la funzione di distribuzione di N (0, 1). Facendo riferimento a questa relazione parleremo sempre di approssimazione normale.
Nel caso di variabili casuali Xi a valori interi, `e naturale che il numero x che compare nella relazione appena scritta sia esso pure un intero. Denotandolo con k per
evidenziare questo fatto, in generale `e conveniente riscrivere la relazione nel modo
seguente:



1
kn+ 12

P X1 + X2 + + Xn k +
'
,
n
2

Il considerare x=k+ 12 rende, nella maggior parte dei casi, pi`


u corretta lapprossima
zione. A giusticazione
di
questo
fatto
si
supponga
di
voler
approssimare P X1 +

X2 + + Xn =k mediante N (0, 1). Ovviamente, essendo questa una distribuzione
continua, la probabilit`a cercata sarebbe nulla. In realt`a ha senso valutarla tenendo
conto che si approssima una distribuzione discreta con una continua:
ci`o porta

 ad
associare allintero k lintervallo di ampiezza 1 centrato in k, cio`e k 12 , k + 12 . Di
qui si pu`o ragionevolmente porre



1
1
P X1 + X2 + + Xn =k = P k < X1 + X2 + + Xn k +

2
2
 k + 1 n 
 k 1 n 
2p
2p

.
n
n
Fra i casi in cui conviene applicare lapprossimazione normale in questo modo rientra
certamente il caso delle prove di Bernoulli. Infatti se Y `e il numero di successi in n
prove indipendenti, si ha Y = X1 + ... + Xn , dove ciascun Xi ' B(1, p) `e la variabile
aleatoria relativa alla singola iesima prova. In tal caso, essendo
57

E(Xi )=p ,
V ar(Xi ) = pq ,
lapprossimazione migliore in generale sar`a
 k + 1 np 
P (Y k)
.
p2
npq

Esercizio 1.8.1

Qual `e la probabilit`
a di ottenere almeno 29 teste in 50 lanci di una moneta

equilibrata?
Si tratta
 di calcolare P (X1 + X2 + + X50 ) 29, con le Xi indipendenti e del tipo
B 1, 12 . Essendo Xi = 12 e Xi = 12 , si ha

P (X1 + X2 + + X50 29) = 1 P (X1 + X2 + + X50 28)


 28.5 500.5 
 3.5 
p
1
=1 p

0.5 50
12.5
1 (0.99) 1 0.84 = 0.16 .

Occorre osservare che questo risultato `e assia preciso. Se avessimo fatto il calcolo utilizzando
la formula con k anzich`e quella con k + 12 , avremmo ottenuto una approssimazione assai
peggiore. Infatti:

P (X1 + X2 + + X50 29) = 1 P (X1 + X2 + + X50 28)


 28 500.5 
 3 
p
1
=1 p

0.5 50
12.5
1 (0.85) 1 0.80 = 0.20 .

Esercizio 1.8.2 Determinare la probabilit`a di ottenere pi`u di 25 sette in 100 lanci di una
coppia di dadi equi.
La variabile aleatoria Y = numero di sette nellambito di 100 lanci pu`
o essere definita
6
come X1 + X2 + + X100 , con ciascuna Xi ' B(1, 16 ), essendo p= 36
, in quanto sono 6
i risultati che danno sette sui 36 possibili esiti del lancio di due dadi. Si ha dunque

Xi =p= 16 ,

5
2
X
=pq = 36
.
i

Di conseguenza, approssimando con la normale, abbiamo:

P (Y 26) = 1 P (Y 25) 1

25.5 100 16

5
6 10

 5.3 
= 1 p 1 (2.37) 0.01 .
5

58

Esercizio 1.8.3 Un segnale consiste in una parola di 1000 bit, ciascuno dei quali pu`o assumere i valori 0 oppure 1. Nel corso della trasmissione del segnale ogni bit pu`
o essere distorto
con probabilit`
a p=0.01. Si chiede: qual `e la probabilit`
a che un segnale contenga almeno 10
bit distorti?
Sia Xi ' B(1, p) la variabile aleatoria che dice se liesimo bit del segnale `e distorto
oppure no. Dobbiamo determinare P (X1 + X2 + + X1000 10). Osservato che np=10,
per cui n `e sufficientemente grande da rendere affidabile una approssimazione alla normale,
procediamo in tal senso.

P (X1 + X2 + + X1000 10) = 1 P (X1 + X2 + + X1000 9)


 9.5 10000.01 
 0.5 
1 p
=1 p

10000.010.99
9.9
1 (0.159) = (0.159) 0.564 = 56.4% .
Esercizio 1.8.4 Nella trasmissione di unimmagine ogni bit viene distorto con probabilit`a
0.0002. Ne consegue che il colore di un pixel, che `e rappresentato da un byte, cio`e da una
8-pla di bit, resta integro con probabilit`
a q =0.9984 (in realt`
a, essendo q = (0.0002)8 , se si
fanno i calcoli, ci si accorge che questo `e un valore approssimato). Sapendo che unimmagine
`e composta da 512256 = 131072 pixel, quali sono le probabilit`
a che vi siano (a) almeno
190 pixel distorti; (b) almeno 210; (c) almeno 230?
Indicata con Xi ' B(1, p), p = 0.0016, la variabile che dice se liesimo pixel `e oppure
no distorto, si deve approssimare P (X1 + X2 + + X131072 k), con k = 190, k = 210
e k =230. Poich`e np 210, n `e certamente tale da consentire una buona approssimazione
mediante la normale. Si ha quindi

P (X1 + X2 + + X131072 190) = 1 P (X1 + X2 + + X131072 189)


 189.5 1310720.0016 
1 p

1310720.00160.9984
 20.215 
1
1 (1.398)
14.464
(1.40) 0.919 = 91.9% ;
P (X1 + X2 + + X131072 210) = 1 P (X1 + X2 + + X131072 209)
 209.5 209.715 
1
1 (0.015)
14.464
= (0.015) 0.506 = 50.6% ;
P (X1 + X2 + + X131072 230) = 1 P (X1 + X2 + + X131072 229)
 229.5 209.715 
p
1
1 (1.37)
14.464
1 0.915 = 0.085 = 8.5% .
59

Esercizio 1.8.5

Un calcolatore esegue la somma di un milione di numeri (il che implica


lesecuzione di 106 somme). In ogni addizione il risultato prodotto `e soggetto ad un errore di
arrotondamento. Supponiamo che i singoli errori
indipendenti
 1 siano
 uno dallaltro e che ab1
10
10
biano distribuzione uniforme nellintervallo 2 10
, + 2 10
(il che significa supporre
che la decima cifra decimale sia significativa). Si chiede: (a) qual `e la probabilit`
a che la
settima cifra decimale della somma risultante sia significativa? qual `e la probabilit`
a che
lottava cifra sia significativa?
Introduciamo le variabili casuali Xi := errore compiuto nella iesima addizione. Si tratta

di 106 variabili casuali uniformemente distribuite nellintervallo 12 1010 , + 12 1010 , per
le quali, come abbiamo visto nellesempio 1.5.4, si ha

E(Xi ) =

a+b
= 0,
2

V ar(Xi ) =

(b a)2
1020
=
.
12
12

Perche la kesima cifra decimale sia significativa occorre che

1
1
10k X1 + X2 + + X106 10k .
2
2
106
Posto per comodit`
a Y = i=1 Xi , la probabilit`
a richiesta nella domanda (a), approssimata
con la normale, risulta quindi





7
107
 1
102
1 7
7
2
P 10 Y 10 ) 

=
20
2
2
1020
6
10 12
106 1012
p 
 p 
= 3 3 (1.73) (1.73)

2(1.73) 1 20.958 1 = 0.916 = 91.6% .

Per quanto riguarda poi la domanda (b), procedendo esattamente allo stesso modo, si ha





108
108
 1

1 8
8
2
P 10 Y 10 )  2

=
20
2
2
1020
6
6
10 12
10 1012
p 
 p 
3
3
=

(0.173) (0.173)
10
10
2(0.173) 1 20.568 1 = 0.114 = 11.4% .

60

Esercizio 1.8.6 Si sa che esistono in circolazione dei dadi truccati in modo tale da produrre
il 6 con probabilit`
a 29 . Ci si pone il problema di stabilire se un dato dado `e truccato oppure
no. La procedura adottata `e la seguente: il dado viene lanciato 900 volte, e se il 6 esce
almeno 180 volte, si decide che il dado `e truccato. Ci si chiede: qual `e la probabilit`
a che un
dado che viene assunto come truccato lo sia effettivamente?
Sia Xi ' B(1, p = 29 ) la variabile aleatoria che dice se alliesimo lancio esce il 6 oppure no.
La probabilit`
a da calcolare, posto per comodit`
a X = X1 + X2 + + X900 , `e P (X 180).
Valutiamo tale probabilit`
a approssimandola con la normale. Si ha:


179.5 900 29

P (X 180) = 1 P (X 179) 1
=
900 29 79


20.5
= 1 10 p
1 (1.64) = (1.64)
14
3
0.95 = 95% .
Dunque, `e lecito aspettarsi che nel 95% dei casi il test adottato dia la risposta giusta.
Ci si potrebbe anche chiedere: qual `e la probabilit`
a che il 6 esca almeno 180 volte se il dado
non `e truccato? In tal caso, indicata con Yi ' B(1, 16 ) la variabile aleatoria che descrive
lesito delliesimo lancio di un dado equo, e posto Y = Y1 + Y2 + + Y900 , si ha


179.5 900 16

P (Y 180) = 1 P (Y 179) 1
=
900 16 56


29.5
=1 p
1 (2.64) 0.004 = 0.4% .
5 5

61

1.9 ALTRE DISTRIBUZIONI


DISTRIBUZIONE ESPONENZIALE
Definizione Una variabile aleatoria continua X ha una distribuzione esponenziale con parametro ( > 0), se la sua funzione densit`
a `e
f (x) =

0
ex

per x< 0
.
per x 0

` facile vericare (si consiglia di farlo come esercizio) che f (x) `e eettivamente una
E
densit`a e che la funzione distribuzione di X vale

0
per x< 0
F (x) =
.
x
1e
per x 0
Teorema Una variabile aleatoria X a distribuzione esponenziale con parametro
ha media e varianza date da
1
1
= ,
2 = 2 .

Dimostrazione
Si ha infatti:
 +
 +
+  +

1
x
x
=
xf (x)dx =
xe
dx = xe
+
ex dx = ;

0
0
 +
 +
1
1
x2 f (x)dx 2 =
x2 ex dx 2 =
2 = E(x2 ) 2 =

0

+  +
1
1
1
1
= x2 ex
+
2xex dx 2 = 2 2 2 = 2 .

0
0
Le variabili aleatorie con distribuzione esponenziale hanno notevole interesse applicativo in quanto utilizzabili per rappresentare diversi fenomeni che si incontrano nelle
osservazioni scientiche o nelle applicazioni tecnologiche. Di solito esse rappresentano
62

i tempi dattesa anche un dato evento si verichi. Ad esempio, se X indica il tempo


misurato a partire dallinizio del funzionamento di un dato pezzo di una macchina,
ci si pu`o chiedere qual `
e la probabilit`a che il pezzo non si rompa prima che sia
decorso un dato tempo x. Ebbene, la risposta `e data da P (X x), ossia
P (X x) = 1 F (x) = ex .

Una propriet`a caratteristica delle variabili casuali esponenziali `e che non hanno
memoria. Questo fatto, che non dimostreremo, matematicamente `e espresso dalla
seguente relazione fra probabilit`a:
P (X > s + t j X > s) = P (X > t) .
Ci`o signica che se X `e il tempo dattesa no al primo guasto di una data apparecchiatura, questo tempo non dipende dal fatto che lapparecchiatura abbia gi`a funzionato
per un dato tempo s. In altre parole, la distribuzione di probabilit`a di X non dipende
dallistante iniziale.
Esercizio 1.9.1 Il numero di chilometri (misurato in migliaia) che un dato pneumatico pu`o
percorrere prima di deteriorarsi `e rappresentabile con una variabile aleatoria X avente distribuzione esponenziale con parametro =0.05. Determinare la probabilit`
a che un pneumatico
di questo tipo duri (i) almeno 30 Km; (ii) tra i 35 e i 40 km.
Si ha

P (X 30) = 1 F (30) = e30 = e0.0530 = e1.5 0.223 ;

P (35 X 40) = F (40) F (35) = e1.75 e2 0.174 0.135 = 0.039.

Esercizio 1.9.2 Un apparecchio elettronico `e composto da due elementi in parallelo, luno


indipendente dallaltro e ciascuno con un tempo di vita esponenziale di media 8 giorni. Con
quale probabilit`
a lapparecchio durer`
a un tempo non superiore a 12 giorni, supposto che esso
funzioni se una almeno delle due componenti funziona?
Poiche una variabile aleatoria esponenziale ha media uguale allinverso del parametro ,
nel nostro caso si ha = 18 . Di conseguenza ciascuna componente ha un tempo di vita
Xi , i = 1, 2, avente densit`a

fXi =

per x< 0

1 18 x
8e

per x 0

Indicato quindi con Y il tempo di vita dellapparecchio, si ha Y = maxfX1 , X2 g. Sapendo


poi che X1 e X2 sono indipendenti, si ha
t

P (Y t) = P (X1 t, X2 t) = P (X1 t)P (X2 t) = (1 e 8 )2 ,


e quindi
12

P (Y 12) = (1 e 8 )2 = (1 e 2 )2 (1 0.223)2 0.6035 .


63

Esercizio 1.9.3 Una lampada ha un tempo di vita che segue una legge esponenziale di media
uguale a 10 giorni. Non appena smette di funzionare essa viene sostituita con una nuova.
Qual `e la probabilit`
a che 40 lampade siano sufficienti per un anno?
Indicata con Xi la durata della lampada iesima, possiamo supporre le Xi indipendenti e
1
con legge esponenziale di parametro = 10
. Poiche nel caso di una variabile aleatoria di
a richiesta,
tipo esponenziale si ha 2 = 12 = 2 , abbiamo dunque = =10. La probabilit`
approssimata mediante la normale, diventa quindi

P (X1 + X2 + + X40 365) = 1 P (X1 + X2 + + X40 < 365)


 365 4010 
 35 
p
p
1
=1

10 40
20 10


1 (0.55) = 1 1 (0.55) =
= (0.55) 0.71 .

DISTRIBUZIONE IPERGEOMETRICA
Definizione Una variabile aleatoria discreta X ha una distribuzione ipergeometrica di parametri (interi) N , M ed n, con n M N , se ha la seguente funzione

di probabilit`a:

P (X =k) = f (k) =

M NM 
k

Nnk


k = 0, 1, . . . , n .

Questa distribuzione `e utile quando si eettua unestrazione senza reimmissione da


unurna che contiene N oggetti di cui M di un certo tipo, e si chiede la probabilit`a che
un campione di dimensione n ne contenga esattamente k di quel tipo. Tipicamente,
M rappresenta il numero degli oggetti difettosi fra gli N presi in considerazione.
Ricordiamo che nel caso di estrazione con reimmissione la distribuzione utile `e quella
binomiale.
Sulla base del significato dei parametri `e abbastanza immediato verificare che f (k) rappresenta la probabilit`
a che un campione di n oggetti contenga esattamente k oggetti difettosi.
Infatti, mentre a denominatore c`e il numero di tutti i possibili campioni che `e possibile
estrarre dallurna (cio`e le combinazioni di N oggetti presi n alla volta), a numeratore c`e
il numero dei possibili campioni che contengono esattamente k oggetti difettosi (cio`e il numero delle combinazioni di M oggetti presi k alla volta, moltiplicato per il numero delle
combinazioni di N M oggetti presi nk alla volta).

Teorema

(senza dimostrazione)

Una variabile aleatoria X a distribuzione ipergeometrica con parametri N , M ed


n, ha media e varianza date da
M
M N M N n
=n
,
2 = n
.
N
N
N
N 1
64

Esempio 1.9.1 Si consideri lesperimento di estrarre un campione di 2 lampadine da una


scatola che ne contiene 10, 3 delle quali difettose. Si chiede di scrivere la funzione di probabilit`
a della variabile casuale
X = numero di lampadine difettose estratte ,
nel caso di estrazione: (a) senza reimmissione; (b) con reimmissione.
(a) Abbiamo:

N =10 ;

M =3 ;

n=2 ;

k = 0, 1, 2 . E di conseguenza:
37
7
P (k =0) = f (0) = 0102 =
,
15
2
37
7
P (k =1) = f (1) = 1101 =
,
15
2
3

7
1
2 0
P (k =0) = f (2) = 10 =
.
15
2

3
(b) Ricordando la distribuzione binomiale, essendo p= M
N = 10 , q =
 
49
2 0 2  7 2
=
P (k =0) = f (0) =
p q =
,
0
10
100
 
42
2 1 1
3 7
=
,
P (k =1) = f (1) =
p q =2
10 10
100
1
 
2 2 0  3 2
9
P (k =0) = f (2) =
p q =
.
=
2
10
100

7
10 ,

si ha

Esempio 1.9.2

Da un lotto costituito di 800 pezzi si estrae un campione di 150 unit`


a. Se il
campione contiene al pi`
u 2 pezzi difettosi, il lotto viene accettato; altrimenti viene rifiutato.
Qual `e la probabilit`
a che un lotto contenente il 5% di pezzi difettosi venga accettato?
Consideriamo una distribuzione ipergeometrica con parametri N = 800 , M = 800
40 , n=150 . La probabilit`a che il lotto sia accettato `e data da

f (0) + f (1) + f (2) =

2


k=0

4080040
k

150k
800

150

5
100

0.0112 .

Questo esempio `e interessante in quanto illustra come viene effettuato un controllo di


accettazione o collaudo statistico. Vengono determinati dei piani di campionamento
caratterizzati dalle cosiddette specifiche che, nel caso in questione, sono la numerosit`
a n del
campione da estrarre e il numero massimo ammissibile di unit`
a difettose. Lesempio mostra
come si calcola la probabilit`
a che il lotto sia accettato pur avendo una data difettosit`
a.

Esercizio 1.9.4 Una partita di 150 libri ne contiene 30 che presentano un difetto nella rilegatura. Se 10 libri vengono scelti a caso per un controllo, qual `e la probabilit`
a che 3 libri tra i 10
estratti siano difettosi? Effettuare il calcolo sia nellipotesi di estrazione senza reimmissione
che in quella di estrazione con reimmissione.
Applicando la formula della distribuzione ipergeometrica con parametri N = 150 , M =

30 , n=10 , abbiamo
f (3) =

30120
3

1507
10

65

0.2065 .

30
Se invece applichiamo la distribuzione binomiale B(10, p) con p= 150
=0.2, otteniamo

f (3) =


10
(0.2)3 (0.8)7 0.2013 .
3

Lesercizio appena risolto mostra che in certi casi la distribuzione ipergeometrica e


quella binomiale producono risultati pressoch`e uguali (nel caso specico dieriscono
per meno dell1%). La spiegazione sta nellaermazione seguente (che non dimostriamo). Se N , M ed N M sono grandi in confronto ad n, allora non `e molto
rilevante se il campionamento viene effettuato con o senza reimmissione, in quanto
la distribuzione ipergeometrica pu`o essere ben approssimata con la distribuzione bie pi`
u semplice. In una popolazione
nomiale (con p = M
N ), che in un certo senso `
infinita si usa sempre la distribuzione binomiale indierentemente dal tipo di campionamento.

DISTRIBUZIONE GEOMETRICA
Definizione Una variabile aleatoria discreta X ha una distribuzione geometrica
di parametro p , 0< p 1 , se ha la seguente funzione di probabilit`a:
P (X =k) = f (k) = p(1 p)k ,

k = 0, 1, . . . , n, . . . .

La distribuzione geometrica ha origine nella seguente


 applicazione delle prove di Bernoulli: Sia A un evento di un esperimento con P A = p. Ripetiamo infinite volte
lesperimento e denotiamo con X la variabile casuale che rappresenta il numero di
prove eseguite prima che si verifichi per la prima volta A. Chiaramente f (k) `e la
probabilit`a che levento A si verichi dopo k insuccessi consecutivi.
` facile dimostrare che la funzione f (k) `e eettivamente una funzione di probabilit`a.
E
1
Infatti, ricordando che la somma di una serie geometrica di ragione p vale 1p
, si ha

k=0

f (k) =

k=0

p (1 p)k = p

(1 p)k = p

k=0

1
= 1.
1 (1 p)

Esercizio 1.9.5 Un dado viene lanciato finche non si presenta la faccia 1. Qual `e la
probabilit`
a che debba esser lanciato pi`
u di 6 volte?
Sia U7 levento la faccia 1 non si presenta prima del settimo lancio. Si ha

P (U7 ) = f (6) + f (7) + ... =


1  5 k

5

1  5 k

6 6

1
5  5 2  5 3  5 4  5 5 
=1
1+ +
+
+
+
=
6
6
6
6
6
6
 6
 5 6
1 1 56
=1
=
0.3349 .
6 1 56
6
k=6

66

6 6

=1

k=0

CAPITOLO

2: STATISTICA DESCRITTIVA

2.1 INTRODUZIONE
Per statistica descrittiva o metodologica si intende il complesso di quelle norme utilizzate dallo sperimentatore per raccogliere, rappresentare ed elaborare insiemi di dati
osservati.
I dati raccolti riguardano solo un campione e non lintera popolazione. Lelaborazione
statistica ha lobiettivo di ricavare informazioni sulla popolazione estraendole dai (pochi) dati che sono stati osservati sul campione. Naturalmente le informazioni a cui
siamo interessati riguardano una o pi`
u caratteristiche della popolazione in questione.
Volendo dare una veste matematica a quanto appena detto, sia X una variabile aleatoria, di tipo discreto o continuo, denita su un insieme S (la popolazione). Sono noti
i valori che X assume in corrispondenza degli elementi di un sottinsieme C di S (il
campione). Sia N = jSj e n = jCj. Il campione `e dunque una npla (x1 , x2 , . . . , xn ),
dove ciascun xi rappresenta il valore noto che X(s) assume per s= si 2 C. Essendo,
in generale, n N , la variabile aleatoria X `e incognita in molti (moltissimi) elementi
su cui `e denita. Il compito della statistica `e quello di desumere dai dati del campione
il maggior numero di informazioni circa la distribuzione di X, avendo anche unidea,
il pi`
u possibile precisa, del grado di adabilit`a di queste informazioni. A questa variabile aleatoria ci riferiremo dora in poi come alla variabile aleatoria sottostante al
nostro esperimento.
Unindagine statistica di tipo descrittivo pu`o essere articolata nei seguenti quattro
passi:
1) rilevazione dei dati;
2 ) organizzazione dei dati;
3) presentazione dei dati organizzati;
4) interpretazione e conclusioni.

2.2 ORGANIZZAZIONE E RAPPRESENTAZIONE DEI DATI


Rilevazione dei dati
La rilevazione, che `e linizio del procedimento statistico, `e linsieme dei meccanismi
che permettono di ottenere le informazioni necessarie da elaborare. Strumenti basilari
di questo momento sono i questionari, i modelli di rilevazione, le inchieste telefoniche,
laccesso e la consultazione di banche dati, etc.
Le modalit`a di rilevazione dei dati xi sono particolarmente importanti. Occorre infatti
aver chiaramente ssati gli obiettivi, valutata la fattibilit`a, denita lestensione in
termini geograci, temporali, economici. Inne, `e fondamentale aver scelto in modo
appropriato la tecnica di campionamento (che qui per`o non discutiamo).

67

Organizzazione dei dati


In genere i dati grezzi ottenuti dalla rilevazione sono dicilmente interpretabili: occorre organizzarli opportunamente. Quando i dati sono di tipo numerico, e lo sono
nella grande maggioranza dei casi, il modo pi`
u semplice di farlo consiste nellordinarli
in modo crescente o decrescente. Ci`o permette immediatamente di stabilire il campo
di variazione degli xi (o rango), cio`e il minimo intervallo che li contiene tutti. Questo indice ci dice gi`a qualcosa (ad esempio i valori minimo e massimo della variabile
campionata); tuttavia esso pu`o essere poco indicativo, soprattutto se n `e grande. Pu`o
dunque essere conveniente organizzare i dati in classi.
Come si formano le classi? Si tratta di un punto importante in quanto una cattiva
scelta delle classi pu`o portare ad una cattiva interpretazione della distribuzione dei
dati. Proponiamo dunque alcuni criteri di formazione delle classi ritenuti ottimali.
Il numero delle classi `e importante. Se le classi sono troppe, in ogni classe ci sarebbero
pochissimi elementi (o addirittura nessuno); se sono poche, essendovi concentrati
molti elementi, potrebbe sfuggirci la globalit`a della distribuzione. In genere il numero
delle classi `e compreso fra 6 e 20. Secondo Sturges il numero ottimale di classi `e
nc = [1 + 1.443 lg n] ,
con lg n che indica il logaritmo naturale di n e [a] lintero pi`
u vicino ad a.
` conveniente che le classi abbiano la stessa ampiezza. In questo caso, se r `e lampiezza
E
del campo di variazione dei dati ed nc il numero delle classi in cui si `e deciso di
organizzare i dati, se ne deduce per ciascuna classe unampiezza data da
r
=
.
nc
Tale ampiezza, tuttavia, in genere non `e quella pi`
u conveniente; torna utile aggiustarla in modo che i punti di mezzo di ciascun intervallo siano della stessa grandezza,
come ordine di approssimazione, dei dati xi e che nessun xi cada su un estremo dellintervallo. Ad esempio, se gli xi sono interi qualunque (cio`e non sono dei multipli di
un intero k), allora conviene prendere intero e dispari, e ciascun intervallo del tipo
(h 12 , h + 12 ), dove h `e un intero. Scelte analoghe possono essere fatte se gli xi
sono numeri decimali (tutti con lo stesso numero di decimali). I due esempi proposti
nel seguito saranno utili a chiarire il senso di quanto appena detto.

Funzioni di frequenza
Per avere altri tipi di informazione sempre pi`
u precisi ed esaurienti, si possono denire
altri indici statistici. Indicato con x il punto medio della generica classe, tali indici
sono i seguenti:
la funzione di frequenza, che associa ad ogni classe il numero degli elementi che
la compongono; la indicheremo con (x);
la funzione di frequenza relativa, che esprime il rapporto fra il numero degli
elementi della classe ed il numero totale n di elementi del campione; indicatala con
r (x), si ha dunque r (x) (x)
n ;
la funzione di frequenza cumulativa, cio`e il numero degli elementi della classe e
68

delle classi precedenti; sar`a rappresentata da c (x);


la funzione di frequenza cumulativa relativa, ovvero il rapporto tra il numero
degli elementi dato dalla frequenza cumulativa e il numero totale n di elementi del
campione; denotata con cr (x), si ha perci`o cr (x) cn(x) .

Rappresentazioni grafiche
Nella statistica descrittiva la rappresentazione graca dei dati riveste un ruolo molto
importante, in quanto serve a fornire in modo immediato una descrizione del fenomeno
oggetto di studio. Gli strumenti disponibili sono diversi, pi`
u o meno signicativi, pi`
u
o meno adatti a seconda degli obiettivi che si intende conseguire mostrando in quel
modo i dati. Quelli pi`
u matematici e signicativi sono listogramma, il grafico a
bastoni e i poligoni di frequenza.
Listogramma costituisce probabilmente lo strumento pi`
u comune di rappresentazione
di dati statistici. Si ottiene nel modo seguente: prima si riportano sullasse delle
ascisse le classi indicando per ciascuna il relativo punto di mezzo x; poi, in corrispondenza di ciascuna classe, si disegna un rettangolo avente area proporzionale a (x) o,
equivalentemente, a r (x). Sullasse delle ordinate si possono riportare i valori della
funzione (x) oppure quelli di r (x). Se poi si riportano nel graco sia (x) che
r (x) (in opportuna scala), rispettivamente a sinistra e a destra del graco, si ottiene
il duplice obiettivo di poter leggere entrambi i valori.
Osservazione: Nellistogramma della pagina che segue le classi hanno la stessa ampiezza, e
quindi i rettangoli hanno tutti la stessa base. Ovviamente ci`
o non `e pi`
u vero se si considerano,
come peraltro `e lecito, classi di diversa ampiezza.

Un grafico a bastoni `e del tutto equivalente ad un istogramma, e si costruisce in maniera del tutto analoga. Per quanto riguarda poi i poligoni di frequenza, lesempio che
segue permetter`a facilmente di capire come si costruiscono e qual `e il loro signicato.
Esempio 2.2.1

La tabella che segue riporta i pesi (in chilogrammi) di 50 studentesse, che per
brevit`
a sono gi`
a stati ordinati (in ordine crescente). Naturalmente, ogni numero `e ripetuto
tante volte quante sono le studentesse aventi quel peso.

53

55

56

57

57

58

58

59

59

60

60

60

61

61

61

61

62

62

62

62

63

63

63

63

63

64

64

64

64

64

64

65

65

65

65

65

66

66

66

66

67

67

67

68

68

69

70

71

71

73

Dalla tabella si deduce immediatamente che il campo di variazione `e [53,73]. Applicando poi
la formula di Sturges per determinare il numero ottimale di classi, si ha

nc = [1 + 1.443 lg 50] = [1 + 5.64] = 7 ,

e quindi

20
7

2.86 .

In base a quanto detto in precedenza, essendo lunit`


a di misura adottata un numero intero (i
chili), `e conveniente che sia un intero dispari e che gli intervalli abbiano come punto medio

69

un intero. Scegliamo dunque =3 e prendiamo gli intervalli di ampiezza 3 a partire da 52.5.


La tabella che segue riporta gli intervalli relativi a ciascuna classe, il loro punto di mezzo
x, il numero di elementi di ogni classe e le quattro funzioni di frequenza precedentemente
definite (x), r (x), c (x) e cr (x).

Classi

Punto x

(x)

r (x)

c (x)

cr (x)

di pesi

di mezzo

52.5 55.5

54

0.04

0.04

55.5 58.5

57

0.10

0.14

58.5 61.5

60

0.18

16

0.32

61.5 64.5

63

15

0.30

31

0.62

64.5 67.5

66

12

0.24

43

0.86

67.5 70.5

69

0.08

47

0.94

70.5 73.5

72

0.06

50

1.00

Seguono nellordine listogramma, il grafico a bastoni, il poligono di frequenza ed il poligono


di frequenza relativa cumulativa.

70

Osserviamo che, in un certo senso, il poligono di frequenza (primo grafico di questa pagina)
rappresenta la funzione densit`
a della variabile aleatoria X sottostante al fenomeno studiato; analogamente il poligono di frequenza cumulativa (secondo grafico) rappresenta la
funzione di distribuzione di X.

Esempio 2.2.2

La tabella che segue riporta le altezze (in centimetri) di 80 atleti, anche in


questo caso gi`
a ordinati (in modo crescente). Si chiede di organizzare questi dati in classi
e di calcolarne le quattro funzioni di frequenza, rappresentando poi il tutto con una tabella
del tipo di quella dellesercizio precedente.

160

162

164

165

167

168

168

169

169

170

170

171

171

172

172

172

172

173

173

174

174

174

175

175

175

176

176

176

177

177

177

177

178

178

178

178

178

178

179

179

179

179

179

179

179

180

180

180

180

181

181

181

181

182

182

182

182

182

183

183

184

184

185

185

186

186

187

187

188

189

190

190

191

192

192

193

194

197

199

201

71

Dalla tabella si legge subito che il campo di variazione `e [160,201]. Applicando poi la formula
di Sturges per determinare il numero ottimale di classi, si ha

nc = [1 + 1.443 lg 80] = [1 + 6.32] = 7 ,

e quindi

41
7

5.86

Volendo scegliere come un intero dispari, o si sceglie 5, che comporta poi di prendere nc =9,
oppure si sceglie 7, che comporta nc =6. Per non avere un numero di classi troppo piccolo,
scegliamo =5 e quindi nc = 9. I dati organizzati in classi portano dunque a questa tabella:

Classi di

Punto x

(x)

r (x)

c (x)

cr (x)

altezze

di mezzo

158.5 163.5

161

0.025

0.025

163.5 168.5

166

0.063

0.088

168.5 173.5

171

12

0.150

19

0.238

173.5 178.5

176

19

0.237

38

0.475

178.5 183.5

181

22

0.275

60

0.750

183.5 188.5

186

0.113

69

0.863

188.5 193.5

191

0.087

76

0.950

193.5 198.5

196

0.025

78

0.975

198.5 205.5

201

0.025

80

1.000

2.3 GRANDEZZE CHE SINTETIZZANO I DATI


Ci proponiamo ora di caratterizzare una distribuzione statistica, cio`e un insieme di
dati xi , i = 1, 2, . . . , n, del tipo di quelli visti nora, attraverso misure che ne riassumano le principali propriet`a. In tal modo si parla anche di misure di tendenza
centrale: si chiamano cos` alcune caratterizzazioni sintetiche della distribuzione che
servono a dare unidea di dove la distribuzione sia collocata e quanto sia concentrata.

Media
Definizione Date n osservazioni numeriche xi , i = 1, 2, . . . , n , si chiama media
aritmetica, o pi`
u semplicemente media, delle osservazioni il numero
1 n
x=
xi .
n i=1

Ai ni di collegare questa denizione a quella di media di una variabile casuale,


u
osserviamo che in generale tra i dati xi ce ne sono di quelli che sono ripetuti pi`
volte. Ebbene, supposto che gli xi distinti siano m (ovviamente m n), indichiamo
questi numeri con z1 , z2 , . . . , zm . Denotata poi con k la molteplicit`a (cio`e il numero
di presenze) di zk , ovviamente con 1 + 2 + + m =n, potremo scrivere
72

m k
m
1 n
1 m
zk = k=1 pk zk .
i=1 xi =
k=1 k zk =
k=1
n
n
n
k
Il numero pk = n rappresenta la frequenza relativa del dato zk . Confrontando questultima espressione di x con la denizione di media di una variabile aleatoria nita,
ne deduciamo che la media aritmetica appena denita altro non `e che la media di
una variabile aleatoria che assume gli m valori zk con probabilit`a pk . La media x dei
dati xi pu`o dunque essere vista come la media di una variabile aleatoria X nita, che
assume i valori xi con probabilit`
a uguali alla loro frequenza relativa nel campione,
ossia
x=

P (X =xi ) = pi ,

pi =

i
n

essendo i il numero di volte in cui ciascun xi `e presente nel campione.


La variabile aleatoria X costituisce una rozza approssimazione della vera variabile
aleatoria sottostante al problema. La media, che abbiamo appena denito, cos` come
la mediana e la varianza che deniremo in seguito, sono indici coerenti con questa
approssimazione.
Ricordando le propriet`a della media di una variabile aleatoria, si pu`o aermare che
se ogni osservazione di un campione `e letta in una scala diversa, ovvero se ogni dato
`e moltiplicato per una costante a, allora
ax = ax ;
se (x1 , x2 , . . . , xn ) e (y1 , y2 , . . . , yn ) sono due serie di osservazioni di uno stesso
fenomeno, allora la media della somma `e uguale alla somma delle medie, cio`e
x+y = x+y;
se due osservazioni sono legate da una relazione funzionale del tipo y = a + bx, con
a e b costanti, allora
y = a + bx .
Quando i dati sono forniti gi`a organizzati in classi, la media pu`o essere ugualmente
calcolata con la formula seguente:
nc
1
x=
xk (xk ) ,
n
k=1

dove xk `e il punto medio dellintervallo kesimo e (xk ) fornisce, come abbiamo gi`a
visto, il numero degli xi appartenenti alla classe kesima.
Osserviamo che questa formula pu`o essere utilizzata anche quando ci sono assegnate
tutte le n osservazioni xi e la loro organizzazione in classi viene fatta da noi solo
successivamente al ne di una rappresentazione pi`
u sintetica dei dati. In tal caso la
media cos` calcolata `e una approssimazione, in generale molto buona, di quella vera
(cio`e di quella che si ottiene dalla denizione). Il vantaggio di questultima formula
sta nel fatto che, utilizzando le classi, `e richiesto un numero molto minore di calcoli.

73

Mediana
Definizione Date n osservazioni numeriche xi , i = 1, 2, . . . , n , si chiama mediana
delle osservazioni il valore centrale dellinsieme ordinato.
Quindi, a seconda che n sia pari o dispari, si ha

se n `e dispari
x n+1
2
xmed =
1 x n + x n +1  se n `e pari
2
2 2

Anche per la mediana, cos` come abbiamo fatto per la media, ci si pu`o porre il problema di come determinarla quando i dati xi non sono noti individualmente in quanto
forniti gi`a organizzati in classi. In questo caso, per poter denire operativamente la
mediana, occorre introdurre alcune ulteriori notazioni.
Supposto che le classi si susseguano in ordine crescente, indichiamo con (i1 , i )
lintervallo associato alla classe iesima e con xi il suo punto medio. Allora c (xi )
denota il valore della funzione di frequenza cumulativa della classe iesima, cio`e
il numero complessivo di elementi contenuti nelle prime i classi. Chiamiamo classe
mediana, indicando con m il suo numero dordine, quella classe per cui
con
c (xm1 )< n2 .
c (xm ) n2 ,
Ci`o posto, la mediana xmed pu`o essere cos` denita:
xmed = m1 +

n
2

c (xm1 )
= m1 +
c (xm ) c (xm1 )

n
2

c (xm1 )
.
(xm )

Osserviamo che xmed appartiene certamente alla classe mediana (cio`e allintervallo
(m1 , m )) se c (xm ) > n2 , mentre si ha xmed = m se c (xm ) = n2 (il che pu`o
accadere solo se n `e pari).

Moda
Molto spesso i dati sono divisi in classi che non sono di tipo numerico (ad esempio
sesso, gruppo sanguigno, professione, provincia di apppartenenza, etc...). In questo
caso non ha alcun senso parlare di media o mediana, per cui pu`o tornare utile unaltra
misura di tendenza centrale, valida per qualunque tipologia di dati. Questa misura,
per`o, non esiste per tutte le distribuzioni, ma solo per quelle unimodali. La gura che
segue mostra una distribuzione unimodale assieme a due multimodali.

74

Definizione Si definisce moda di una distribuzione unimodale di dati il valore fra


questi pi`
u ripetuto. La moda, che pu`o anche non essere unica, sar`a indicata con
xmod .
Per denire la moda quando i dati sono forniti gi`a divisi in classe, occorre determinare
preliminarmente la classe modale, cio`e la classe nella quale si trova la moda. Di solito
la classe modale `e quella in cui (x) `e massima. Supposto che tale classe sia unica,
se (j1 , j ) `e lintervallo associato e xj il suo punto medio, la moda `e cos` denita:
xmod = j1 +

j(xj ) (xj1 )j
.
j(xj ) (xj1 )j + j(xj+1 ) (xj )j

Se la classe modale non `e unica, si hanno pi`


u mode.
Ci si pu`o chiedere come sono disposte luna rispetto allaltra le tre misure di tendenza
centrale che abbiamo denito (quando esistono tutte tre). Ebbene, disegnata la distribuzione dei dati, la loro reciproca disposizione dipende dalla simmetria o asimmetria
di questo graco. Supposto che la distribuzione sia unimodale (vedi gura), se il graco `e perfettamente simmetrico, allora media, mediana e moda coincidono. Se invece
il graco `e asimmetrico, allora la moda corriponde ovviamente al massimo del graco,
mentre media e mediana sono sempre disposte con la mediana pi`
u vicina della media
alla moda come nelle gure che seguono.

75

Esempio 2.3.1

Calcoliamo media, mediana e moda dei dati dellesempio 2.2.1.

Per quanto riguarda la media, facendo uso della definizione, si ottiene

1 50
1
3163
(53 + 55 + + 73) =
= 63.26 .
i=1 xi =
50
50
50
Se invece si calcola la media utilizzando le classi, indicato con xk il punto medio dellintervallo
corrispondente alla kclasse, si ha
x=

c
1 
1
(542 + 575 + 609 + 6315 + 6612 + 694 + 723) =
xk (xk ) =
50
50

k=1

3162
=
= 63.24 .
50

Come si vede, per quanto approssimato, il valore della media cos` ottenuto `e molto prossimo
a quello corretto ottenuto in precedenza. Venendo alla mediana, il suo calcolo `e immediato.
Infatti, essendo n=50, cio`e pari, dalla tabella contenente i dati ordinati si legge che x25 =63
e x26 =64. Si ha quindi

xmed =

x25 + x26
63 + 64
=
= 63.5 .
2
2

Anche xmed pu`


o essere calcolato utilizzando la formula per i dati organizzati in classi; in tal
caso si ottiene

xmed = m1 +

n
2

c (xm1 )
25 16
= 61.5 +
3 = 63.3 .
(xm )
15

Per quanto riguarda invece la moda, si ha

xmod =64 ,
in quanto valore ripetuto pi`
u di ogni altro. Daltra parte, se xmod `e calcolata sulla base
dellorganizzazione in classi, essendo la classe modale quella di centro xj =63, si ha

xmod = 61.5 +

Esempio 2.3.2

j15 9j
3 = 63.5 .
j15 9j + j12 15j

Calcoliamo media, mediana e moda dei dati dellesempio 2.2.2.

Facendo uso della definizione per calcolare la media, si ottiene


80

1 
1
14332
x=
xi =
(160 + 162 + + 201) =
= 179.15 .
80 i=1
80
80
Se invece calcoliamo la media utilizzando la formula per i dati organizzati in classi, abbiamo
n

c
1 
1
x
xk (xk ) =
(1612 + 1665 + 17112 + 17619 + 18122+
80
80

k=1

+ 1869 + 1917 + 1962 + 2012) =


76

14335
179.19 .
80

Anche in questo caso il valore della media ottenuto utilizzando la formula per le classi `e
molto prossimo a quello corretto ottenuto in precedenza.
Per quanto concerne la mediana, dalla tabella dei dati ordinati, essendo x40 = x41 = 179,
segue ovviamente xmed =179. Se poi si effettua il calcolo con la formula specifica per i dati
organizzati in classi, si ha

xmed = m1 +

n
2

c (xm1 )
40 38
= 178.5 +
5 178.5 + 0.45 = 178.95 ,
(xm )
22

che costituisce certamente unottima approssimazione di 179, che `e il valore esatto di xmed .
Infine, dalla tabella dei dati, si ha xmod = 179. Facendo invece il calcolo sulla base dellorganizzazione dei dati in classi, otteniamo:

xmod = 178.5 +

j22 19j
5 179.44 .
j22 19j + j9 22j

Abbiamo nora visto misure di tendenza centrale che servono ad individuare ilcentro
della distribuzione. Ci`o per`o non vuol dire sapere come i dati siano distribuiti intorno
al centro. In certi casi i dati possono essere estremamente concentrati attorno a questo
valore centrale, in altri possono essere estremamente sparsi. Torna quindi utile avere
delle misure di dispersione. Ovviamente il caso limite di dispersione nulla si ha quando
tutti i dati coincidono.
Il primo indice di dispersione `e il campo di variazione o rango, che abbiamo gi`a denito.
Questo intervallo ci d`a una prima, anche se spesso grossolana, idea di come stanno le
cose. Ad esempio, se i dati riguardano le temperature di un giorno in una data citt`a,
` per`o evidente che
conoscere le temperature minima e massima pu`o essere gi`a utile. E
questo indice risente in maniera signicativa di valori particolarmente alti o bassi.

Deviazione standard e varianza


La deviazione standard , o scarto quadratico medio, gi`a introdotta per una variabile
casuale come radice quadrata della varianza, `e lindice di dispersione probabilmente
pi`
u usato. Nel caso di un campione di dati x1 , x2 , . . . , xn , la deviazione standard `e
!
denita nel modo seguente:
" n
"1 
=#
(xi x)2 .
n i=1
Anche la varianza 2 , denita come

1
=
(xi x)2 ,
n i=1
2

costituisce una misura di dispersione molto comune. Ad essa sono espressamente


rivolti alcuni capitoli della statistica matematica.
Come la media x e la mediana xmed , anche pu`o essere associato alla variabile casuale
X denita in precedenza come quella variabile casuale nita per la quale P (X =xi ) `e
uguale alla frequenza relativa di xi nel campione. Si ha infatti 2 =V ar(X).
77

Le quantit`a (xi x) rappresentano gli scarti dalla media dei dati. Di qui il nome di
scarto quadratico medio per e laermazione che la varianza `
e uguale alla media
dei quadrati degli scarti dalla media. Osserviamo che quando si fa la radice quadrata
per ottenere la deviazione standard, si ritorna alla dimensione dei nostri dati.
Due formule molto importanti viste per la varianza sono le seguenti:
2
2
aX+b
= a2 X
,

2
X
= E(X 2 ) E 2 (X).

La prima formula torna utile quando ci sono dei cambiamenti di scala e/o delle traslazioni dei dati: se si moltiplicano tutti i dati per uno stesso fattore, allora anche la
deviazione standard risulter`a moltiplicata per lo stesso fattore; se invece si traslano
tutti i dati, la deviazione standard non ne viene inuenzata. Questultimo fatto risulta perfettamente comprensibile se si pensa al signicato di questo indicatore come
misura di dispersione: importa solo la posizione dei dati xi rispetto alla media, e non
la dislocazione dellinsieme di questi dati sullasse x.
La seconda formula ci permette invece la possibilit`a di calcolare la varianza (e quindi
la deviazione standard) anche in questo modo:
n

2 =

1 2
x x2 .
n i=1 i

Anche per il calcolo della varianza 2 (e quindi della deviazione standard), se i dati
sono raggruppati in classi, si possono utilizzare i punti di mezzo xk degli intervalli
associati alle classi e le loro frequenze (xk ). La formula che d`a 2 (in modo approssimato) `e la seguente:
nc
1
2
=
(xk x)2 (xk ) .
n
k=1

Deviazioni medie
Altri due indici di dispersione sono la deviazione media dalla media e la deviazione media
dalla mediana, che indichiamo rispettivamente con Dmed (x) e Dmed (xmed ). Tali indici
sono dati dalla media aritmetica delle dierenze in valore assoluto rispettivamente
dalla media x e dalla mediana xmed , ossia da
n

Dmed (x) =

1
jxi xj ,
n i=1

Dmed (xmed ) =

1
jxi xmed j .
n i=1

Esempio 2.3.3 Calcoliamo la varianza, la deviazione standard e le deviazioni medie


dalla media e dalla mediana dei dati dellesempio 2.2.1.
2
= E(X 2 ) E 2 (X), sapendo che x =
Calcoliamo la varianza utilizzando la relazione X
63.22 (vedi esempio 2.3.1):
n

2 =

50

1 2
1  2
xi x2 =
x (63.26)2 17.13 .
n i=1
50 i=1 i
78

A questo punto per avere la deviazione standard basta calcolare la radice quadrata di 2 :

p
17.02 4.14 .

Il calcolo della varianza poteva essere semplificato mediante la formula che utilizza i punti
di mezzo delle classi e le loro frequenze. In questo modo si ottiene:

k=1

k=1

c
1
1 
(xk x)2 (xk ) =
(xk 63.22)2 (xk ) = (54 63.22)2 2+
n
50

+ (57 63.22)2 5 + (60 63.22)2 9 + (63 63.22)2 15 + (66 63.22)2 12+

+ (69 63.22)2 4 + (72 63.22)2 3 18.30 ,

da cui 4.28. Di qui si vede come la formula basata sulla suddivisione in classi, essendo
ovviamente la distribuzione che ne deriva pi`
u grossolana rispetto a quella dei dati di partenza,
fornisca (in questo caso) un valore della deviazione standard con un errore di circa il 3.6%.
Calcoliamo infine le deviazioni medie dalla media e dalla mediana (sapendo dallesempio
2.3.1 che xmed =63.5):
n

Dmed (x) =

50

1
1 
jxi xj =
jxi 63.22j = 3.26 ;
n i=1
50 i=1
n

50

1
1 
Dmed (xmed ) =
jxi xmed j =
jxi 63.5j = 3.26 .
n i=1
50 i=1

I calcoli sono ovviamente stati fatti con un programma di calcolo.

Esempio 2.3.4 Calcoliamo la varianza, la deviazione standard e le deviazioni medie


dalla media e dalla mediana dei dati dellesempio 2.2.2.
Procedendo come nellesempio precedente, essendo ora x = 179.15 e xmed = 179 (vedi
esempio 2.3.2), si ha
80

1  2
=
x (179.15)2 67.05 ,
80 i=1 i
2

da cui

67.05 8.19 .

Se poi si effettua il calcolo (approssimato) mediante la formula che usa i punti di mezzo degli
intervalli delle classi, si ha

nc
1
(xk x)2 (xk ) 68.90 ,
n

da cui

k=1

8.30 ,

con un errore su di poco superiore all1%. Calcoliamo infine le deviazioni medie dalla
media e dalla mediana (sapendo dallesempio 2.3.1 che xmed =63.5):
n

Dmed (x) =

80

1
1 
jxi xj =
jxi 179.15j 6.24 ;
n i=1
80 i=1
n

80

1
1 
Dmed (xmed ) =
jxi xmed j =
jxi 179j 6.22 .
n i=1
80 i=1

Come per lesempio precedente, i calcoli sono stati fatti con un programma di calcolo.

79

Esercizio 2.3.5 Calcolare la media, la mediana, lo scarto quadratico medio e le deviazioni


medie dalla media e dalla mediana dei seguenti dati:

46 31 1 33 2 44 66 8 54 99 92 98 69 50
Innanzitutto ordiniamo i 14 dati in senso crescente:

1 2 8 31 33 44 46 50 54 66 69 92 98 99
Calcoliamo la media:

x=

1
693
(1 + 2 + 8 + + 98 + 99) =
= 49.5 .
14
14

Per quanto riguarda la mediana abbiamo

xmed =

x7 + x8
46 + 50
=
= 48 .
2
2

Dovendo poi calcolare lo scarto quadratico medio, ci serve la varianza:

2 =
da cui

1 2
1 + 22 + 82 + + 982 + 992 ) (49.5)2 = 1019.25 ,
14
=

Infine

1018.25 31.93 .
14

1 
363
Dmed (x) =
25.93 ;
jxi 49.5j =
14 i=1
14
14

Dmed (xmed ) =

1 
363
jxi 47j =
25.93 .
14 i=1
14

Il fatto che queste due ultime medie siano uguali ha una facile spiegazione geometrica:

quando i dati sono in numero pari e anche la media `e compresa fra i due dati di mezzo
(cio`e x n2 e x n2 +1 ), si ha sempre Dmed (x) = Dmed (xmed ).

Esercizio 2.3.6 Calcolare la media, la mediana e le deviazioni medie dalla media e dalla
mediana dei dati dellesercizio precedente sostituendo 91 a 1.
Sostituito il numero 1 con 91 il nuovo campione ordinato `e il seguente:

2 8 31 33 44 46 50 54 66 69 91 92 98 99 .
Calcoliamo la nuova media e la nuova mediana

783
1
(2 + 8 + 31 + + 98 + 99) =
55.93 ;
14
14
x7 + x8
50 + 54
xmed =
=
= 52 .
2
2
x=

Calcoliamo ora le due deviazioni medie:

Dmed (x) =

1 14
jxi 55.93j 25.63 ;
14 i=1
80

1 14
355
25.36 .
i=1 jxi 52j =
14
14
Si pu`
o verificare che ora, essendo x esterno allintervallo [x7 , x8 ] (di cui la mediana `e il punto
medio), Dmed (x) e Dmed (xmed ) sono diversi.
Dmed (xmed ) =

Esercizio 2.3.7

Uno studente di ingegneria ha sostenuto 16 esami, ciascuno dei quali con


un dato numero di crediti formativi. I voti riportati dallo studente, ciascuno con a fianco il
numero dei crediti relativi a quellesame, sono i seguenti:

28 (6)
27 (5)

21 (8)
27 (4)

22 (5)
27 (6)

24 (6)
19 (10)

24 (8)
28 (5)

25 (4)
29 (7)

25 (6)
30 (8)

26 (8)
30 (4)

Si chiede di calcolare: a) la media, la mediana e la deviazione standard dei voti; b) la


media, la mediana e la deviazione standard dei crediti; c) la media ponderata dei voti
assumendo come pesi i crediti.
a) Ordiniamo innanzitutto i 16 voti. Si ha

19 21 22 24 24 25 25 26 27 27 27 28 28 29 30 30
Indicati con v1 , v2 , . . . , v16 i voti cos` ordinati e con v , vmed e v rispettivamente la media,
la mediana e la deviazione standard, abbiamo
16

1 
412
v8 + v9
vi =
= 25.75 ;
vmed =
= 26.5 ;
16 i=1
16
2

 12
16
1 
2
(vi 25.75)
v =
3.07 .
16 i=1
v =

b) Ordiniamo anche i crediti:

10

Indicati con c1 , c2 , . . . , c16 i crediti cos` ordinati e rispettivamente con c, cmed e c le relative
media, mediana e deviazione standard, abbiamo
16

1 
100
c8 + c9
c =
ci =
= 6.25 ;
cmed =
= 6;
16 i=1
16
2

 12
16
1 
(ci 6.25)2
1.71 .
c =
16 i=1
c) Calcoliamo infine la media ponderata dei voti, vpond , assumendo come pesi i relativi
crediti. Riordinati i ci in modo che ci sia corrispondenza fra voti e crediti:

10

abbiamo

vpond =

16

i=1

16

vi ci

i=1 ci

81

= 25.38 .

CAPITOLO

3: STATISTICA MATEMATICA

3.1 POPOLAZIONI E CAMPIONI


Definizione Si definisce popolazione un insieme i cui elementi hanno in comune
almeno una caratteristica (od attributo).
Esempi di popolazioni: gli ingegneri che si sono laureati in Italia dal 1950 al 1980; i
giorni con vento superiore ai 100 Km/h a Trieste nel mese di aprile dal 1900 al 1999;
gli italiani aventi diritto al voto per il senato alle elezioni politiche del 2001; i corpi
celesti delluniverso; gli alberi passati e presenti di tutte le foreste del mondo.
Esempi di caratteristiche nel caso degli ingegneri: let`a al momento della laurea; let`a
al momento del primo impiego come ingegnere; laltezza; il peso; il sesso; il primo
stipendio; ecc.
Le popolazioni possono essere nite o innite. In genere popolazioni molto numerose
sono considerate innite anche se non lo sono (ad esempio i corpi celesti delluniverso).
Ogni caratteristica della popolazione, nella maggior parte dei casi, viene misurata da
un valore numerico per ciascuno degli N elementi che la compongono. Di conseguenza
uno studio completo della popolazione implicherebbe un insieme di N numeri. In
genere, per`o, N `e cos` grande da rendere impraticabile, per ovvi motivi, la misurazione
della caratteristica per lintera popolazione. Ci si limita dunque a farlo solo per un suo
sottinsieme, spesso assai limitato, detto campione. Uno scopo delle ricerche statistiche
`e quello di inferire (da cui il nome di inferenza statistica), cio`e fare delle deduzioni o
delle previsioni sulla popolazione mediante lesame di un campione.
Matematicamente la caratteristica oggetto di studio `e una variabile aleatoria X la
cui distribuzione ci `e pi`
u o meno sconosciuta. In ogni caso la variabile casuale X
sottostante alla popolazione in questione avr`a una media ed una varianza, che nel
seguito indicheremo semplicemente con e 2 , ossia
2
= X = E(X) ,
2 = X
= V ar(X) .
2
Nel seguito ci riferiremo spesso a e come alla media e alla varianza della popo2
.
lazione oggetto di indagine, sottintendendo ovviamente con ci`o X e X
Definizione Si chiama campione casuale di dimensione n, estratto da una popolazione avente X come variabile aleatoria sottostante, una variabile n-dimensionale (X1 , X2 , . . . , Xn ), con le Xi indipendenti e aventi la stessa distribuzione di X .
Quando si misura la caratteristica della popolazione limitandosi ad un campione di
dimensione n, si ottengono n misure x1 , x2 , . . . , xn : ci`o equivale ad una singola esecuzione dellesperimento rappresentato dalla variabile n-dimensionale (X1 , X2 , . . . , Xn )
con risultato (x1 , x2 , . . . , xn ).
Sul problema della scelta del campione, che nella pratica consiste nellestrarre n elementi da un insieme di N , con n N , ci limitiamo ad osservare limportanza che ci`o
venga realmente fatto a caso e che esistono diverse tecniche utili allo scopo.
82

3.2 STIMATORI
Sia (X1 , X2 , . . . , Xn ) un campione di una data popolazione la cui distribuzione `e nota
in funzione di un parametro incognito . Uno degli obiettivi della statistica inferenziale
`e quello di stimare mediante una appropriata funzione dei risultati campionari xi .
Definizione Si definisce statistica una funzione g(X1 , X2 , . . . , Xn ) delle variabili
casuali Xi (e quindi, a sua volta, una variabile casuale) che non contiene parametri.
Definizione Si definisce stimatore una statistica che viene utilizzata per stimare
un parametro incognito .
Sia f (X1 , X2 , . . . , Xn ) = uno stimatore e (x1 , x2 , . . . , xn ) un valore misurato del
campione. Ebbene, il valore = f (x1 , x2 , . . . , xn ) `e detto stima puntuale del
` convenzione molto seguita quella di indicare le stime puntuali con
parametro . E

laccento circonesso, ad esempio ,
2 , . . . . Nel caso della media stimata, tuttavia,
anzich`e con
, si continuer`a ad indicarla con x, sia per conservare la notazione gi`a
usata nella Statistica descrittiva, sia per coerenza col fatto che la media verr`a stimata
con lo stimatore X che deniremo tra poco.
Definizione Uno stimatore T del parametro si dice corretto se la sua media
coincide con medesimo, ossia: E(T ) = .

MEDIA CAMPIONARIA
Il problema statistico che si presenta pi`
u frequentemente nelle applicazioni `e il seguente: supposte la media vera e la varianza vera 2 ignote, si cerca di stimarle in
modo attendibile eseguendo un gran numero di esperimenti (ma non esageratamente
grande). La pratica corrente `e quella di stimare calcolando la media aritmetica dei
valori misurati (osservati) xi , cio`e
1 n
x=
xi .
n i=1
Volendo giusticare ci`o, osserviamo che x coincide col valore misurato della variabile
aleatoria denita come media aritmetica delle n variabili aleatorie Xi .
Definizione Si chiama media campionaria di un campione (X1 , X2 , . . . , Xn ) la
variabile casuale X cos` definita:
n
1
X=
Xi .
n i=1
Teorema

La media campionaria `e uno stimatore corretto della media vera , ossia


E(X) = E(X) = .

Dimostrazione: Ricordando che E(Xi )=E(X)=, si ha


n
1
n
E(X) =
E(Xi ) =
= .
n i=1
n
83

Teorema

La varianza della media campionaria vale quella di X diviso n, ossia


V ar(X) =

Dimostrazione

1
2
V ar(X) =
.
n
n

 
1
V ar(X) = 2 V ar
Xi =
n
i=1
n

i=1

V ar(Xi )
n 2
2
.
=
=
n2
n2
n

I due teoremi appena visti ci dicono che la media campionaria X ha media coincidente
con la media della popolazione da cui proviene il campione e la sua dispersione
attorno a , misurata in termini di deviazione standard, `e inversamente proporzionale
alla radice quadrata della dimensione n del campione. Questo signica che al crescere
di n i valori delle corrispondenti medie campionarie tendono a concentrarsi sempre
pi`
u attorno al loro valore medio, che altri non `e che la media della popolazione, molto
spesso oggetto della nostra indagine statistica.

VARIANZA CAMPIONARIA
Definizione Si chiama varianza campionaria di un campione (X1 , X2 , . . . , Xn ),
n > 1, la variabile casuale S 2 cos` definita
n

S2 =

1 
Xi X)2 .
n 1 i=1

Lo stimatore S 2 viene utilizzato per stimare la varianza 2 di X (e lesponente 2 che


compare in S 2 serve appunto a ricordarci questo). Il fatto che si usi questo stimatore
anzich`e
1 n 
S2 =
Xi X)2 ,
n i=1
come potrebbe apparire pi`
u naturale, `e dovuto al fatto che questultimo non `e un
estimatore corretto, mentre S 2 lo `e. Si pu`o infatti dimostrare (cosa che non facciamo)
che
n1 2
E(S 2 ) = 2 ,
E(S2 ) =
.
n
Dunque, volendo stimare la varianza vera 2 , lo faremo calcolando il numero
n

1 

=
xi x)2 .
n 1 i=1
2

Di qui si ottiene anche la stima


della deviazione standard:
p

=
2 .

p
Osserviamo che in questo modo per stimare si `e usato lo stimatore S = S 2 , che
per`o non `e uno stimatore corretto in quanto si pu`o dimostrare che E(S) < .$Per
questa ragione qualche volta pu`o essere conveniente utilizzare lo stimatore S = S2 ,
per quanto anchesso non corretto. Noi per`o negli esempi che seguiranno faremo
sempre uso dello stimatore S (cio`e calcoleremo sempre lapprossimazione
).
84

COVARIANZA CAMPIONARIA
Talvolta, per la stessa popolazione, sono oggetto di indagine due
 diverse caratteristi
che, per cui il campione casuale considerato `e bidimensionale: (Xi , Yi ), i = 1, . . . , n .
Ci`o comporta ovviamente che ci siano due variabili casuali X e Y sottostanti al nostro
esperimento e che ciascuno degli n risultati (o osservazioni) consista in una coppia di
numeri (xi , yi ). Oltre allinteresse per ognuna delle due caratteristiche, e quindi dei
due campioni (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Yn ) presi singolarmente, ci pu`o essere da
parte dello sperimentatore anche linteresse a capire se fra X e Y c`e qualche forma
di dipendenza lineare o, detto altrimenti, qualche forma di correlazione. A tal ne
occorre stimare la covarianza X,Y della variabile congiunta (X, Y ), il che pu`o essere
fatto utilizzando lo stimatore denito come segue:


Definizione Si chiama covarianza campionaria del campione (Xi , Yi ), i = 1, . . . , n ,

la variabile aleatoria

SX,Y

1 
=
(Xi X)(Yi Y ) .
n 1 i=1

La covarianza vera X,Y viene dunque cos` stimata:


 n

n
n
n

1 
1
1   
X,Y
X,Y =
(xi x)(yi y) =
xi y i
xi
yi
.
n 1 i=1
n 1 i=1
n i=1
i=1

Nella formula x e y sono ovviamente le medie aritmetiche degli xi e degli yi (e quindi i


valori osservati delle due medie campionarie marginali X e Y ). Lespressione alternativa data per ultima di
X,Y , che si ottiene con semplici manipolazioni algebriche,
pu`o essere comoda se il calcolo `e fatto con una calcolatrice tascabile delle pi`
u semplici.
Come gi`a visto nel x 1.6, per vedere se fra X e Y c`e una qualche correlazione, piuttosto
che utilizzare la covarianza, conviene far ricorso al coefficiente di correlazione X,Y .
Ricordandone la denizione gi`a data, e denotate con
X e
Y le stime delle deviazioni
standard di X e Y , tale coeciente pu`o essere stimato nel modo seguente:
X,Y X,Y =

X,Y
.

X
Y

Esempio 3.2.1

20 lanci di due dadi (di colore diverso per distinguere lordine dei risultati)
hanno dato per risultato le seguenti coppie numeriche (xi , yi ):

xi :
yi :

4
2

5
2

3
2

2
3

2 5 3 4 6 6 4 5 3 3 4 1 5 4 2 1
6 4 4 1 6 1 4 1 5 5 3 1 4 1 2 1
Si considerino poi le coppie (ai , di ), con ai = xi + yi e di = xi yi , e (xi , zi ), con zi = 2xi .

Si chiede di calcolare:
a) le medie x, y , a, d e z ;
2
2
2
2
b) le varianze
X
,
Y2 ,
A
,
D
e
Z
;
c) le deviazioni standard
X ,
Y ,
A ,
D e
Z ;
d) le covarianze
X,Y ,
A,D e
X,Z ;
e) i coefficienti di correlazione X,Y , A,D e X,Z .

85

Facendo i calcoli (nel nostro caso con un programma specifico fatto alluopo) si ottengono i
seguenti risultati:
a)

x = 3.6 ,

y = 2.9 ,

a = 6.5 ,

d = 0.7 ,

z = 7.2 ;

b)

X
' 2.25 ,

Y2 ' 3.04 ,

A
' 5.74 ,

D
' 4.85 ,

Z
' 9.01 ;

c)

X ' 1.50 ,

Y ' 1.74 ,

A ' 2.40 ,

D ' 2.20 ,

Z ' 3.00 ;

d)

X,Y ' 0.221 ,

A,D ' 0.789 ,

X,Z ' 4.505 ;

e)

X,Y ' 0.084 ,

A,D ' 0.149 ,

X,Z = 1 .

Nota Le covarianze vere valgono: X,Y = A,D = 0 e X,Z = X Z . Infatti le variabili


casuali X e Y sono chiaramente indipendenti, A e D sono fortemente dipendenti ma non
correlate, mentre X e Z sono linearmente dipendenti (i dati stanno sulla retta z = 2x) e
quindi con covarianza massima.

3.3 DISTRIBUZIONI CHI-QUADRO E DI STUDENT


Vediamo ora due distribuzioni campionarie di notevole importanza in Statistica, entrambe collegate alla distribuzione normale.
Definizione Date n variabili aleatorie Xi normali standardizzate indipendenti, la
variabile aleatoria somma dei loro quadrati `e detta chi-quadro (o chi-quadrato)
con n gradi di libert`
a ed `
e indicata con 2n . Si ha dunque
2n

n


Xi2 ,

Xi ' N (0, 1) .

i=1

Una distribuzione 2n ha una funzione densit`a f (x) che `e nulla per x < 0 e con landamento mostrato in gura per x 0 (per n = 2, 4, 6, 8, 10). Per n piccolo f (x) ha
il picco vicino allorigine, ed `e sempre pi`
u dispersa e sempre pi`
u simmetrica per n
grande.

86

Dalla denizione di 2n segue immediatamente che, se (X1 , X2 , . . . , Xn ) `e un campione


casuale estratto da una popolazione distribuita normalmente con media e varianza 2 ,
n 
allora la variabile aleatoria

Xi 2
Z2 =

i=1

segue una distribuzione 2n . Si pu`o poi dimostrare che la varianza campionaria S 2 `e


proporzionale ad una distribuzione chi-quadro con n-1 gradi di libert`a. Pi`
u precisamente
si ha
n1 2
S ' 2n1 .
2
Definizione Se Z `
e una variabile aleatoria normale standardizzata e 2n `e una
variabile aleatoria chi-quadro con n gradi di libert`a, se Z e 2n sono indipendenti,

allora la variabile aleatoria

Tn = $

2n /n

segue una distribuzione t di Student con n gradi di libert`a.


Come per la funzione densit`a della 2n , anche nel caso di Tn non riportiamo esplici`
tamente la funzione densit`a, limitandoci a mostrarne i graci per n = 1, 6, 20, 120. E
importante osservare come per n grande la distribuzione di Student tenda alla normale standardizzata. Gi`a a partire da n = 30 i valori di Tn sono ben approssimati da
quelli di N (0, 1).

Alla ne sono riportate due tavole delle distribuzioni 2n e Tn con i valori pi`
u signicativi ai ni delle applicazioni. In analogia con una terminologia gi`a introdotta per
la distribuzione N (0, 1), le soluzioni x e t delle equazioni




P 2n x =
e
P Tn t =

saranno chiamate quantili relativi ad (rispettivamente della distribuzione 2n e della


distribuzione di Student Tn ). Nel seguito, per brevit`a, scriveremo le due equazioni
precedenti utilizzando i simboli 2n e Tn per indicare le funzioni distribuzione anzich`e
le variabili casuali. Si scriver`a quindi
2n (x )=

e
87

Tn (t )= .

3.4 INTERVALLI DI FIDUCIA (o CONFIDENZA)


Come abbiamo gi`a detto, uno stimatore `e una variabile aleatoria che serve per stimare
un parametro incognito della nostra popolazione. Ovviamente i parametri che ci
interessa maggiormente stimare sono la media e la varianza 2 . In questo ambito di
problemi, un esempio di domanda molto comune `e la seguente: dato un campione,
quale intervallo del tipo (x , x + ) conterr`a la media incognita con probabilit`a
del 95% ? oppure del 99% ? Di qui nasce la denizione che segue.
Definizione Si definisce intervallo di ducia (o condenza) di livello 100(1)%
per il parametro un intervallo (1 , 2 ) tale che
P (1 2 ) = 1 ,
con 1 = f1 (X1 , X2 , . . . , Xn ) e 2 = f2 (X1 , X2 , . . . , Xn ) variabili aleatorie funzione
del campione casuale.
In genere interessano piccoli valori di ; tipicamente = 0.05 oppure = 0.01. Il
livello di ducia nei due casi `e quindi il 95% per =0.05, il 99% per =0.01.
Se P ( < 1 ) = P ( > 2 ) = 2 , lintervallo di ducia `e detto bilaterale simmetrico
(omettendo per`o spesso lattributo simmetrico). Se poi si ha P ( > 2 ) = oppure
P ( < 1 ) = , allora lintervallo `e detto unilaterale, sinistro o inferiore nel primo
caso, destro o superiore nel secondo. Nel seguito quasi tutte le stime proposte
saranno per intervalli bilaterali.
Eseguito lesperimento, mediante il valore misurato (x1 , x2 , . . . , xn ) del campione si
ricava lintervallo numerico (1 , 2 ), 1 = f1 (x1 , x2 , . . . , xn ), 2 = f2 (x1 , x2 , . . . , xn ),
che costituisce una stima per intervalli del parametro al livello di ducia 100(1)%.
Nota: Spesso, nel seguito, per semplicit`a si dir`a al livello di ducia 1.

3.5 STIMA DELLA MEDIA DI UNA POPOLAZIONE NORMALE


In questo paragrafo descriviamo i metodi per stimare la media di una popolazione che
supporremo avere una distribuzione normale. Tali metodi, ovviamente solo per una popolazione normale, nella pratica corrente sono usati con maggior generalit`a, supportati
in ci`o, quando la dimensione del campione `e sucientemente grande, dal Teorema di
Limite Centrale.
La stima per intervalli di ducia della media di una popolazione normale viene ora
arontata considerando separatamente il caso in cui la varianza 2 `e nota (anche se
poco frequente) e quello in cui `e incognita.

a) caso di varianza nota


Come abbiamo gi`a detto, lo stimatore che si usa per la media di una popolazione `e
la media campionaria X. Sappiamo anche che
2
E(X) = ,
V ar(X) =
.
n
88

Inoltre, si pu`o dimostrare che, essendo la popolazione distribuita normalmente, anche


X `e normale. Di conseguenza la variabile casuale
Z=

X
p
/ n

segue la distribuzione normale standardizzata, le cui probabilit`a possono essere desunte dalle tabelle statistiche della densit`a normale (x). Diamo innanzitutto la stima
per intervalli bilaterali (simmetrici). A tal ne andiamo a determinare il quantile superiore u 2 , cio`e la soluzione dellequazione

(u) = 1 ,
2 


ed essendo (u 2 ) = 1 (u 2 ) = 2 , lintervallo u 2 , u 2 `e tale che







P u 2 Z u 2 = P X p u 2 X + p u 2 = 1 .
n
n

Di conseguenza lintervallo bilaterale





X p u 2 , X + p u 2 ,
n
n

che `e aleatorio in quanto `e tale il suo punto centrale X, contiene con probabilit`a 1
il valore vero . Eseguito lesperimento, lintervallo osservato si ottiene dallintervallo
aleatorio sostituendo alla media campionaria X la media aritmetica x dei valori osservati negli n esperimenti. Useremo quindi lintervallo osservato per dare una stima di
di livello di fiducia 1:



x p u 2 , x + p u 2 .
2
n
n

Osserviamo che, se cresce il numero n degli esperimenti, lampiezza dellintervallo


diminuisce, e dunque la stima si fa pi`
u informativa: fare esperimenti `e costoso, ma poi
ripaga. Tuttavia, osserviamo anche che,
p poiche lampiezza dellintervallo diminuisce
in modo inversamente proporzionale a n, il vantaggio che si ottiene aggiungendo via
via nuovi dati diventa gradualmente sempre meno signicativo. Daltra parte, se
aumenta il grado di ducia, diminuisce e il quantile u cresce; di conseguenza cresce
lampiezza dellintervallo e quindi la stima diventa meno informativa.

89

Diamo ora anche le due stime per intervalli unilaterali. Per ottenerla si deve risolvere
lequazione (u) = 1 , determinando cos` il quantile u tale che




P Z u = P Z u = 1 ,
o, equivalentente,






P X p u = P X+ p u = 1 .
n
n

Gli intervallo aleatori, rispettivamente destro e sinistro,







X p u , +1
e
1 , X+ p u
n
n

contengono la media con probabilit`a 1, e quindi rappresentano la stima cercata


di mediante intervalli unilaterali al livello di ducia 1. Naturalmente, una volta
eseguito lesperimento, tali intervalli saranno approssimati con





x p u , +1
e
1 , x+ p u
n
n
Esempio 3.5.1 Per determinare la durata del cambio di unauto vengono scelti casualmente
200 cambi dalla produzione, che supponiamo distribuita normalmente con scarto tipo uguale
a 4000 km. Essi vengono testati finche presentano un difetto serio. Se la durata media
dei 200 cambi sottoposti a test `e 50000 km, quali sono gli intervalli di fiducia bilaterali e
unilaterali sinistri della durata media dellintera produzione al 95%, al 97.5% e al 99% ?
I dati sono: n = 200 , x = 50000 , = 4000 . Osservato che i livelli di fiducia richiesti
corrispondono nellordine ad =0.05, 0.025 e 0.01, indicando con u 2 il valore per cui

(u 2 ) = 1

abbiamo

(u0.0250 ) = 0.9750
(u0.0125 ) = 0.9875

=)
=)

,
u0.0250 ' 1.96 ,
u0.0125 ' 2.24 ,

u0.0050 ' 2.57 .





x p u 2 , x+ p u 2 .
Gli intervalli di fiducia bilaterali di livello 1, sono dati da
n
n
p
Essendo / n 282.84, si ha
(u0.0050 ) = 0.9950

= 0.050
= 0.025

=)
=)

= 0.010

=)

=)

2 [50000 555, 50000 + 555] = [49445, 50555]


2 [50000 634, 50000 + 634] = [49366, 50634]

2 [50000 727, 50000 + 727] = [49273, 50727] .

Per quanto riguarda invece i corrispondenti intervalli unilaterali sinistri, procedendo analogamente, e mettendo 0 anziche 1 come estremo sinistro degli intervalli (si tratta della
durata di un cambio, che ovviamente non pu`
o essere negativa), si ottiene

= 0.050

=)

= 0.025
= 0.010

=)
=)

2 (0 , 50000 + 464] = (0 , 50464]

2 (0 , 50000 + 555] = (0 , 50555]


2 (0 , 50000 + 659] = (0 , 50659] .

I tre casi considerati evidenziano come allaumentare del livello di fiducia, cio`e alla richiesta
di maggior attendibilit`
a della stima, aumenti lampiezza dellintervallo.

90

b) caso di varianza incognita


Supponiamo ora, come di norma accade nella pratica, che la varianza 2 non sia nota.
In tal caso si procede come nel caso precedente sostituendo a 2 lo stimatore corretto
della varianza campionaria
n

S2 =

1 
Xi X)2 ,
n 1 i=1

X
p , che si dimostra essere
S/ n
una variabile di Student con n1 gradi di libert`a. Posto quindi
e sostituendo poi alla variabile casuale Z la variabile

Tn1 =

X
p ,
S/ n

indicato con t 2 il quantile superiore fornito dalla soluzione dellequazione

P (Tn1 t) = 1 ,
2
o, equivalentemente, considerata la simmetria della distribuzione di Student, il quan
tile t 2 per cui P (Tn1 t) = , si ha
2


S
S
P X p t 2 X + p t 2 = 1 .
n
n
Di conseguenza lintervallo aleatorio



S
S
X p t 2 , X + p t 2 ,
n
n

conterr`a con probabilit`a 1 la media vera . Utilizzandone il valore osservato daremo una stima di di livello di ducia 1:
2

x p t 2 , x + p t 2 ,
n
n

dove
`e il valore di S ottenuto dagli n esperimenti.

Osservazione 1: la non conoscenza della varianza della popolazione fa si che lampiezza dellintervallo di ducia per piccole dimensioni del campione (diciamo n 30)
risulti assai pi`
u ampia di quella che si avrebbe se 2 fosse nota.
Osservazione 2: ai ni del calcolo di un intervallo di ducia per la media quando
la varianza non `e nota, `e suciente che del campione siano note la dimensione n, la
media campionaria x e la varianza campionaria
2 (in altre parole non `e necessario
conoscere uno per uno gli n dati xi ).
Esempio 3.5.2

Durante 8 prove su strada un prototipo di furgone ha consumato rispettivamente 14,12,11,13,15,12,16,13 litri di gasolio per 100 km di percorrenza. Supponendo che
la distribuzione dei consumi segua approssimativamente la distribuzione normale, costruire
gli intervalli di fiducia al 95% e al 99% della media vera del consumo di quel prototipo.

91

Calcoliamo la media e la varianza campionaria:


n

1
106
x=
xi =
= 13.25 ;
n i=1
8
n

1 
19.5
2.79

=
(xi x)2 =
n 1 i=1
7
2

=)

2.79 1.67 .

Come abbiamo appena visto, indicato con t 2 il quantile per cui si ha P (Tn1 t 2 ) =

, lintervallo di fiducia di livello 1 `e il seguente:


2



x p t 2 , x + p t 2 .
n
n

Dalle tavole della distribuzione di Student (con 7 gradi di libert`


a) si ottiene:

T7 (t0.025 ) = 0.975
T7 (t0.005 ) = 0.995

=)
=)

t0.025 ' 2.365


t0.005 ' 3.499

=)
=)

2 [11.85, 14.65] ,
2 [11.18, 15.32] .

Esempio 3.5.3

Ripetere i calcoli dellesercizio precedente con il campione che si ottiene aggiungendo ai dati precedenti i seguenti consumi ottenuti con 12 prove aggiuntive: 15,14,12,13,
11,16,14,15,12,14,12,13.

Calcoliamo la media e la varianza con il campione (ora di dimensione n=20) ottenuto con
laggiunta dei nuovi dati.

x=

20
 106 + 161

1
106 +
xi =
= 13.35 ;
20
20
i=9
20

1 
44.55
(xi x)2 =
2.35

=
19 i=1
19
2

=)

2.35 1.53 .

Si ha quindi

T19 (t0.025 ) = 0.975

=)

T19 (t0.005 ) = 0.995

=)

t0.025 ' 2.093


t0.005 ' 2.861

=)
=)

2 [12.63, 14.07] ,
2 [12.37, 14.33] .

Confrontando queste stime con quelle dellesempio precedente si pu`


o osservare come, quando
la dimensione del campione `e piccola, aumentandola le stime diventino molto migliori.

3.6 STIMA DELLA VARIANZA DI UNA POPOLAZIONE NORMALE


Arontiamo ora il problema di fornire una stima della varianza di una popolazione
avente in prima approssimazione una distribuzione normale. Lo faremo utilizzando
gli intervalli di ducia e, come nel caso della media, le stime che otterremo saranno
rigorose nel caso di una popolazione esattamente normale.
92

Consideriamo dunque un campione (X1 , X2 , . . . , Xn ) estratto da una popolazione normale avente media e varianza 2 . Abbiamo gi`a detto che la variabile aleatoria
n 

n1 2
Xi X 2
V =
S
=
2

i=1

segue una distribuzione 2n1 . Indicato con x1 il valore per cui larea alla sua sinistra
sottesa dalla curva di densit`a di probabilit`a 2n1 vale 2 e con x2 il valore per cui
pure larea alla destra vale 2 (vedi gura), si ha


P x1 V x2 = 1 .

Sostituendo V con la sua espressione si ottiene




n1 2
P x1
S

x
2 = 1,
2
da cui, con alcuni passaggi algebrici,
 (n 1)S 2
(n 1)S 2 
2
= 1.
P
x2
x1

Possiano dunque aermare che, a livello di ducia 1, lintervallo


 (n 1)
2
x2

(n 1)
2 
x1

contiene la varianza vera 2 della popolazione. Ricordiamo che


2 denota la varianza
campionaria osservata e, per quanto precedentemante detto, x1 e x2 sono le soluzioni
delle equazioni

2n1 (x1 )= ,
2n1 (x2 )=1 .
2
2
Osservazione 1: essendo x1 e x2 rispettivamente a denominatore del secondo estremo
e del primo estremo dellintervallo di ducia cercato, x1 va calcolato per difetto e
x2 per eccesso.
Osservazione 2:
ai ni del calcolo di un intervallo di ducia per la varianza, del
campione `e suciente conoscere la dimensione n e la varianza campionaria
2 (e
quindi non `e essenziale conoscere la media campionaria e tantomeno gli n dati xi ).
Osservazione 3: se la media della popolazione fosse nota, allora si pu`o sostituire
X con , avendo cos` a che fare con la variabile casuale
93

V =

n 

Xi 2

i=1

che segue la distribuzione 2 con n (anzich`e n1) gradi di libert`a. In questo caso,
indicati con x1 e x2 le soluzioni delle equazioni

2n (x1 )= ,
2n (x2 )=1 ,
2
2

2
2
e con s il valore osservato della somma i (Xi ) , lintervallo di ducia per 2 al
livello considerato sarebbe
 s2 s2 
,
.
x2 x1
Esempio 3.6.1
Un campione di dimensione 7 di una popolazione normale ha varianza
campionaria
2 =0.098. Si chiede di calcolarne gli intervalli di fiducia ai livelli 90% e 95%.
Supposto poi che gli stessi dati si riferiscano ad un campione di dimensione 36, si chiede di
calcolarne anche in questo caso gli intervalli di fiducia suddetti.
Per n=7, per =0.10 ed =0.05 abbiamo:


26 (x1 ) = P 26

26 (x2 ) = P 26

26 (x1 ) = P 26

26 (x2 ) = P 26


x1 = 0.050

x2 = 0.950

x1 = 0.025

x2 = 0.975

=)
=)
=)
=)

x1 1.63 ,

x2 12.60 ;
x1 1.23 ,

x2 14.45 .

Di conseguenza, gli intervalli di fiducia richiesti sono:

= 0.10

=)

= 0.05

=)

 6 0.098 6 0.098 
,
[0.046, 0.361] ;
12.6
1.63
 6 0.098 6 0.098 
,
[0.040, 0.479] .
14.45
1.23

Per n=36 si ha:


235 (x1 ) = P 235

235 (x2 ) = P 235

235 (x1 ) = P 235

235 (x2 ) = P 235


x1 = 0.050

x2 = 0.950

x1 = 0.025

x2 = 0.975

=)
=)
=)
=)

x1 22.46 ,

x2 49.81 ;
x1 20.56 ,
x2 53.21 .

In questo secondo caso gli intervalli di fiducia richiesti sono dunque i seguenti:

= 0.10

=)

= 0.05

=)

 35 0.098 35 0.098 
,
[0.068, 0.153] ;
49.81
22.46
 35 0.098 35 0.098 
,
[0.064, 0.167] .
53.21
20.56

94

3.7 STIMA DELLA DIFFERENZA DELLE MEDIE


DI DUE POPOLAZIONI NORMALI
Un problema che si pone spesso nella realt`a industriale, ma non solo, `e quello di
confrontare le medie di due popolazioni, di solito per poter fare delle aermazioni con
un certo grado di ducia sulla loro dierenza. Lobiettivo `e una modica del processo
produttivo al ne di migliorare il valore medio di una catteristica del prodotto.
Consideriamo dunque due campioni casuali (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Ym ), che
supporremo indipendenti, di dimensioni n ed m rispettivamente, estratti da due popolazioni con media 1 e varianza 12 la prima, media 2 e varianza 22 la seconda. Il
miglior estimatore per la dierenza delle medie 1 2 `e il seguente:
n

X Y =

1
1 
Xi
Yi .
n i=1
m i=1

Supposto che le due popolazioni abbiano una distribuzione normale, daremo una stima di
1 2 nei seguenti casi:
a) 12 e 22 sono note;
b) 12 e 22 non sono note, ma sono uguali;
c) 12 e 22 non sono note e non sono uguali.

a) Le varianze 12 e 22 sono note


Essendo i due campioni indipendenti, la varianza di XY `e data da
2
2
2

= XY
= X
+ Y2 =

2
12
+ 2,
n
m

e la variabile casuale Z cos` denita


Z=

(X Y ) (1 2 )

`e distribuita normalmente con media 0 e varianza 1. Riprendendo ora il quantile


superiore u 2 , si pu`o scrivere




(X Y ) (1 2 )
P u 2 < Z < u 2 = P u 2 <
< u 2 = 1 ,

o, equivalentemente,


P (X Y ) u 2 < 1 2 < (X Y ) + u 2 = 1 .

Esplicitato il valore di , lintervallo bilaterale che contiene 1 2 con probabilit`a


1 quando le varianze 12 e 22 sono note, `e dunque il seguente:



&
12
22
12
22
(X Y ) u 2
+
, (X Y ) + u 2
+
.
n
m
n
m
Eseguito lesperimento, sostituendo i valori misurati x e y al posto delle corrispondenti
variabili casuali X e Y , si ottiene una stima per 12 al livello di ducia 100(1)%.
95

Esercizio 3.7.1 Due diversi tipi di guaine isolanti per cavi elettrici vengono testati per determinare a che voltaggio cominciano a rovinarsi. Sottoponendo gli esemplari a livelli crescenti
di tensione si registrano i guasti alle tensioni seguenti:



Tipo Y  52 64 38 68 66 52 60 44 48 46 70 62

Tipo X  36 44 41 53 38 36 34 54 52 37 51 44 35 44

Supponiamo di sapere che il voltaggio tollerato dai cavi abbia distribuzione normale: con
media incognita 1 e varianza 12 =40 per il tipo X, media 2 e varianza 22 =100 per il tipo
Y. Si chiede di determinare: i) un intervallo bilaterale con il 95% di confidenza per 1 2 ;
ii) un valore che permetta di affermare che 1 2 gli `e superiore con il 95% di confidenza.

i)

Calcoliamo innanzitutto le medie x e y dei due campioni, che hanno dimensione rispettivamente n=14 e m=12. Si ha
12

x=

14

1 
xk 42.78
12

y=

k=1

1 
yk 55.83
14
k=1

Come abbiamo appena visto dalla teoria, la stima di un intervallo di fiducia bilaterale al
livello 1 `e la seguente:

(x y) u 2

12
2
+ 2 , (x y) + u 2
n
m

12
2
+ 2
n
m

&

Essendo = 0.005, si ha u 2 = u0.025 1.96 (come gi`


a visto nellesercizio 3.5.1). Lintervallo di fiducia richiesto risulta dunque cos` stimato:

13.05 1.96

11.191 , 13.05 + 1.96


11.191 [19.61, 6.49] .

ii) La domanda `e equivalente alla richiesta di determinare lintervallo destro al livello di


fiducia 95%. Per quanto detto nel x 3.5, la stima di tale intervallo sar`
a data da


(x y) u

Essendo u0.05 1.645 si ottiene

13.05 1.65


2
12
+ 2 , +1 .
n
m

p

11.191 , +1 [18.53 , +1) .

b) Le varianze 12 e 22 non sono note, ma possono ritenersi uguali

Posto 2 =12 = 22 , il problema `e innanzitutto quello di ottenere una stima per 2 . I


due stimatori corretti per 12 e 22 sono rispettivamente
n

S12

1 
=
(Xi X)2 ,
n 1 i=1

S22

1 
=
(Yi Y )2 .
m 1 i=1

Per un teorema enunciato in precedenza sappiamo che


n1 2
S1 2n1
2

e
96

m1 2
S2 2m1 .
2

Inoltre, essendo le due distribuzioni indipendenti, anche le due chi-quadro ora scritte
lo sono. Di conseguenza pure la loro somma ha una distribuzione di tipo chi-quadro,
con un numero di gradi di libert`a uguale alla somma di quelli delle due distribuzioni
di partenza. Si ha cio`e
n1 2 m1 2
S1 +
S2 2n+m2 .
2
2
Ci`o premesso, una migliore stima per 2 `e data dalla seguente pooled variance
(varianza ponderata):
Sp2 =
Essendo poi

n1
(n 1)S12 + (m 1)S22
m1
=
S12 +
S2 .
n+m2
n+m2
n+m2 2

1
12
2
1 2
+ 2 =
+
,
n
m
n m
2
la miglior stima per
`e rappresentata da
1
1 2
2
S
=
+
S .
n m p
Ne consegue che la variabile casuale
2
2
= XY
=

T =

(X Y ) (1 2 )

1
1
+
Sp
n m

segue una distribuzione di Student con n + m 2 gradi di libert`a. Indicando ora con
t 2 il quantile superiore fornito dalla soluzione dellequazione

P (Tn+m2 t) = 1 ,
2
si ha
'
(
(X Y ) (1 2 )

P t 2
t 2 ,
1
1
+
Sp
n m
e quindi, operando con semplici passaggi algebrici, si ottiene


P (X Y ) t 2 S 1 2 (X Y ) + t 2 S = 1 .
Pertanto lintervallo di ducia all(1 )% per la dierenza delle medie delle due
popolazioni `e


(X Y ) t 2 S , (X Y ) + t 2 S .
Eettuato lesperimento, la stima ottenuta per questo intervallo sar`a quindi


(x y) t 2
, (x y) + t 2
,
con
dato, in virt`
u delle precedenti posizioni, da
)
1
1  (n 1)
12 + (m 1)
22

=
+
=
n m
n+m2
)
n
m
1
1  i=1 (xi x)2 + i=1 (yi y)2
=
+
.
n m
n+m2
97

Osservazione. Spesso ci si trova nella situazione in cui la numerosit`a di un campione


`e molto maggiore dellaltro. In tal caso, supposto n m, conviene stimare la varianza
incognita con lestimatore
(X Y ) (1 2 )
T =
.
S
p1
m
Essendo poi n molto grande, `e lecito supporre n + m 2 > 30 , il che permette di
approssimare la distribuzione di Student con la distribuzione normale standardizzata.
` quindi lecito utilizzare u anzich`e t . Lintervallo di ducia precedentemente
E
2
2
trovato diventa quindi

S1
S1 
(X Y ) u 2 p , (X Y ) + u 2 p
,
m
m
che sar`a poi stimato con


1 
(x y) u 2 p , (x y) + u 2 p
.
m
m
Esercizio 3.7.2 Un produttore di batterie dispone di due tecniche di fabbricazione differenti.
Due gruppi di batterie scelti a caso, 12 prodotte con la tecnica I e 14 con la tecnica II, sono
risultate avere le seguenti capacit`
a (in ampere-ora):

Tecnica I  140 136 138 150 152 144 132 142 150 154 136 142

Tecnica II  144 132 136 140 128 150 130 134 130 146 128 131

137 135

Ipotizzando che le varianze delle due popolazioni siano uguali, si chiede di determinare: i)
un intervallo di confidenza al 90%, bilaterale, per la differenza delle medie; ii) un intervallo
unilaterale sinistro per 1 2 al livello di confidenza 95%.

i)

Indicato con (X1 , X2 , . . . , X12 ) il campione relativo alla tecnica I, e con (Y1 , Y2 , . . . , Y14 )
quello relativo alla tecnica II, per cui n = 12 e m = 14, calcoliamo le loro medie misurate x
e y . Si ha
14

x=

12

1 
xk = 143
14

y=

k=1

1 
yk 135.786
12
k=1

Come abbiamo appena visto dalla teoria, la stima dellintervallo bilaterale al livello di fiducia
1 `e la seguente:


(x y) t 2
, (x y) + t 2
,

Dovendo calcolare
occorre prima calcolare la somma degli scarti quadratici. Si ha:
12

(xi x)2 = 556 ;

14

(yi y)2 = 622.357 .

i=1

i=1

Si ha quindi

)

12
14
1
1  i=1 (xi x)2 + i=1 (yi y)2
556 + 622.36

=
+
0.1548
2.757 .
12 14
24
24
98

Essendo = 0.10 ed avendo a che fare con la distribuzione di Student a 24 gradi di libert`
a
(n + m 2=24), si ha t 2 = t0.05 1.711. Lintervallo di fiducia richiesto risulta dunque
cos` stimato:

 

(143 135.79) 1.71 2.76 , (143 135.79) + 1.71 2.76 2.49, 11.93 .

ii) Determiniamo ora un intervallo unilaterale sinistro per 1 2 al livello di confidenza


95%. La stima di tale intervallo sar`
a data da
Essendo t0.05 1.711 si ottiene


1 , (x y) + t
.


1 , (143 135.79) + 1.71 2.76 (1 , 11.93] .

c) Le varianze 12 e 22 non sono note, ne possono ritenersi uguali


In questo caso la variabile casuale da utilizzare per costruire lintervallo di ducia `e
la seguente:
(X Y ) (1 2 )

,
T =
S12
S22
+
n
m
dove T segue approssimativamente la distribuzione t di Student con gradi di libert`a,
con che si pu`o calcolare, ad esempio, con la formula di Smith-Satterthwaite:

22 2
m
=  2n

1 2
22 2
n
+ m
n1
m1

2
1

Si pu`o anche aggiungere il suggerimento di approssimare per difetto , il che corrisponde ad una logica di tipo conservativo nellesecuzione di un test dipotesi. Cerchiamo di spiegare cosa signica questa aermazione, anche se richiede argomentazioni
che risulteranno chiare solo pi`
u avanti (x3.10). Supposto che lapprossimazione per
difetto dia =10 e che questa porti a rigettare lipotesi nulla H0 , anche =11, comportando una regione di accettazione contenuta in quella relativa ad =10, implicherebbe
il rigetto di H0 . Il contrario non necessariamente vale.
Esercizio 3.7.3 Determinare lintervallo di cui alla domanda i) dellesercizio precedente nellipotesi che le due varianze 12 e 12 non siano uguali.
Lintervallo richiesto `e formalmente lo stesso dellesercizio precedente con la differenza che
ora t 2 `e determinato dalla distribuzione di Student ad gradi di libert`
a, con dato dalla
formula precedente, e


12

2
+ 2.
n
m

Calcoliamo innanzitutto
12 e
22 utilizzando i conti gi`a fatti nellesercizio precedente.

99


12 =

22
Si ha quindi

12

14

1 
1 
556
50.545
(xi x)2 =
(xi 143)2 =
n1 i=1
11 i=1
11

1 
1 
622.78
=
(yi y)2
(yi 135.786)2
47.874 .
m1 i=1
13 i=1
13


50.545 47.874 p
+
4.212 + 3.420 2.763 .
12
14
Calcoliamo ora la dimensione della distribuzione di Student. Abbiamo:

 50.545

47.874 2

4.212 + 3.420)2
12
14


23.83



50.545 2
47.874 2
(4.1212)2
(3.420)2
+
12
14
11
13
+
11
13
+

Siccome deve essere un intero, sembra naturale arrotondarlo assumendo cos` = 23.
Di conseguenza, avendo la distribuzione di Student lo stesso numero di gradi di libert`
a
dellesercizio precedente ed essendo
praticamente lo stesso, anche lintervallo risulter`a
praticamente lo stesso. Ci`
o `e probabilmente dovuto a due fatti concomitanti: sia le varianze
che le dimensioni dei due campioni differiscono di poco.

3.8 STIMA DI UNA PROPORZIONE


Consideriamo una popolazione di elementi, ognuno dei quali pu`o soddisfare oppure no,
indipendentemente uno dallaltro, un dato requisito. Si vuole stimare la proporzione
p dei membri della popolazione che posseggono il requisito in questione.
Considerato un campione casuale (X1 , X2 , . . . , Xn ) di dimensione n, avremo

1
se liesimo elemento del campione ha il requisito
Xi =
0
se liesimo elemento del campione non ha il requisito .
n
Indicata quindi con Y = i=1 Xi la variabile casuale che denota quanti elementi
del campione posseggono il requisito, la statistica Y = Y /n d`a la proporzione del
campione con il requisito. Questa statistica, chiamata proporzione del campione, `e il
naturale stimatore per p. Essendo poi ciascuna Xi una variabile di Bernoulli, si ha
Xi ' B(1, p) e quindi E(Y ) = np , V ar(Y ) = n p q = n p (1 p).
In virt`
u del teorema di limite centrale, Y `e approssimativamente normale con media
p e varianza p(1p)/n, ossia
 p (1p) 
Y N p,
.
n
Ci`o, a sua volta, implica
Y p
$
N (0, 1) .
p(1p)/n
Volendo determinare un intervallo di ducia per p di livello 1, indicato
come al


solito con u 2 il quantile della normale standardizzata tale che u 2 = 1 2 , si ha


100



Y p
P u 2 $
u 2 1 ,
p(1 p)/n

da cui, isolando p nel mezzo della disuguaglianza, si ottiene




$
$
P Y u 2 p(1 p)/n p Y + u 2 p(1 p)/n 1 .

Si `e cos` ottenuta una regione che contiene p con livello di ducia 1 . C`e per`o
un problema che incontriamo per la prima volta: gli estremi di un intervallo di ducia debbono essere delle statistiche, cio`e non debbono contenere alcun parametro
incognito. In questo caso gli estremi contengono infatti il parametro p, per cui ci
troviamo nellanomala situazione di tentare di usare p per stimare p. Il problema
pu`o per`o facilmente essere superato stimando p con con lestimatore Y . Indicato
quindi con p y la stima puntuale di p ottenuta utilizzando Y , lintervallo di ducia
(approssimato) per p al livello 1 `e il seguente:


$
$
p u 2 p(1 p)/n , p + u 2 p(1 p)/n .
Esercizio 3.8.1 Un campione di 100 transistor viene estratto da una grossa fornitura e testato. In tutto 80 pezzi hanno i requisiti adeguati. Si chiede di determinare gli intervalli di
fiducia di livelli 95% e 99% per la percentuale p di transistor accettabili.
I quantili della normale standardizzata che interessano sono i seguenti:

u0.025 ' 1.96 ,

u0.005 ' 2.57 .

Essendo n=100 e p=0.80, si ha


livello 95%

=)

livello 99%

=)

$
0.8 0.2/100 , 0.80 + 1.96 0.8 0.2/100]
$
$
p 2 [0.80 2.57 0.8 0.2/100 , 0.80 + 2.57 0.8 0.2/100] .

p 2 [0.80 1.96

Gli intervalli di fiducia richiesti sono dunque approssimativamente i seguenti:


livello 95%
livello 99%

=)
=)

p 2 [0.80 0.0784 , 0.80 + 0.0784] = [0.7216 , 0.8784]


p 2 [0.80 0.1028 , 0.80 + 0.1028] = [0.6972 , 0.9028] .

Esercizio 3.8.2 Un sondaggio su un giornale riporta che il 52% della popolazione, con un
margine derrore di 4%, `e soddisfatto delloperato dellamministrazione. Cosa significa

` possibile stabilire quante persone sono state intervistate?


ci`
o? E

` pratica comune per i mezzi dinformazione fornire intervalli di fiducia al 95%. Ci`o premesso,
E
lintervallo di fiducia in questione, essendo p=0.52 e u0.975 ' 1.96, ed essendo non nota la
dimensione del campione, `e approssimativamente il seguente:

$
$
p 1.96 p(1 p)/n = 0.52 1.96 0.52 0.48/n .

Siccome il margine derrore `e del 4%, ci`


o significa che

1.96

0.52 0.48/n 0.04 ,

da cui, tenendo conto che n `e intero, si ricava n 599 .

101

Un problema di un certo interesse concerne una stima della dimensione del campione
che permetta di ottenere un intervallo di fiducia per p al livello 1 non pi`
u ampio di
una lunghezza d assegnata. Il problema pu`o presentarsi con queste due varianti: a)
`e disponibile a priori una stima puntuale p; b) una tale stima non `e disponibile.
Caso a).

Lampiezza dellintervallo di ducia per p ha ampiezza


$
2 u 2 p(1 p)/n .
Si dovr`a quindi avere
$
2 u 2 p(1 p)/n d ,
da cui
4u2
2
p(1 p) .
n
d2

Caso b). Siccome la funzione p(1p) ha come valore massimo 14 (assunto per p= 12 ),
qualunque sia il valore di p, scegliendo
u2
n = 22 ,
d
sar`a sempre garantita unampiezza dellintervallo non superiore a d.
Esercizio 3.8.3 Unazienda produce circuiti integrati, ciascuno dei quali risulta accettabile
indipendentemente da tutti gli altri con probabilit`
a incognita p. Si vuole ottenere un intervallo di fiducia per p ad un livello 99%, la cui ampiezza sia approssimativamente 0.05. Si
raccoglie allora un primo campione di 30 chip, 26 dei quali risultano accettabili, fornendo
una prima, grossolana, stima puntuale di p, data da p= 26
30 . Si chiede di determinare:
a) la dimensione n1 del campione che si ottiene utilizzando la stima p;
b) lintervallo di fiducia utilizzando un campione di dimensione n1 ottenuto aggiungendo
n1 30 chip a quelli gi`a verificati (fissando a piacere il numero dei chip accettabili);
c) determinare la dimensione n2 del campione necessaria a garantire unampiezza non
superiore a 0.05 se non fosse stata determinata preventivamente p.
a) Essendo u0.005 2.58, si ha

n1 =

4u2
2

d2

p(1 p) 4

2.582 26 4
1231 .
0.052 30 30

b) Dobbiamo dunque testare altri 1201 chip. Fra questi supponiamo che 1040 siano accettabili. Lintervallo di fiducia che si ottiene `e pertanto dato da

ovvero


1066
1066 165 1
2.58
,
1231
1231 1231 1231
(0.8409, 0.8910) .

c) Se non avessimo predeterminato (seppur grossolanamente) p, la dimensione n2 del campione atta a garantire lampiezza richiesta per lintervallo di fiducia sarebbe stata

n2 =

u2
2

d2

2.582
2663 .
0.052

Dunque, se non avessimo predeterminato una stima puntuale per p, per avere la certezza di
un intervallo di fiducia con lampiezza richiesta, avremmo dovuto adottare un campione di
dimensione pi`
u che doppia!

102

3.9 BASI LOGICHE DEI TEST


Ci poniamo questo problema: i tecnici di una ditta produttrice di nastri dichiarano di
aver messo a punto un nuovo trattamento per il materiale utilizzato tale da rendere pi`u
resistente il nastro, portandone il carico di rottura a trazione a 80 N. Come valutare la
loro affermazione?
` chiaro che un qualunque controllo (test) va fatto su un campione e sulla base del
E
risultato si decide se la produzione deve continuare con le vecchie o con le nuove
tecniche di trattamento del materiale. Il processo decisionale scelto `e il seguente: si
considera un campione casuale costituito di 49 nastri estratto dalla popolazione dei nastri
prodotti col nuovo trattamento e si sottopone ciascuno di questi 49 nastri alla prova di
rottura fatta con lapposita attrezzatura. Se il carico di rottura medio osservato `e inferiore
a 78.5 N, la nuova tecnica viene rifiutata, mentre se risulta maggiore si ritiene dimostrata
la maggior resistenza e quindi accettata la nuova tecnica.
Indicata con x la media campionaria misurata del campione, sono possibili i seguenti
4 casi:
u
1) x > 78.5N e il nuovo trattamento `e effettivamente tale da rendere il nastro pi`
resistente. In questo caso laccettazione della nuova tecnica `e una scelta corretta.
2) x< 78.5N bench`e il nuovo trattamento sia effettivamente tale da rendere il nastro
pi`
u resistente. In questo caso il riuto della nuova tecnica `e una scelta sbagliata.
Questo tipo di errore `e detto errore o rischio di I a specie.
3) x > 78.5N bench`e il nuovo trattamento non sia effettivamente tale da rendere il
nastro pi`
u resistente. In questo caso laccettazione della nuova tecnica `e una scelta
sbagliata. Questo tipo di errore `e detto errore o rischio di II a specie.
4) x < 78.5N e il nuovo trattamento non `e effettivamente tale da rendere il nastro
pi`
u resistente. In questo caso il riuto della nuova tecnica `e una scelta corretta.
Facendo delle ipotesi sulla distribuzione della popolazione e assumendo che la varianza
di questa distribuzione non cambi per eetto del nuovo trattamento, si possono valutare le probabilit`a degli errori di I a e II a specie.
Ipotizziamo dunque che nel problema considerato la distribuzione sia normale e che
si abbia 2 = 21.4N 2 . Ci`o implica che la media campionaria X, relativa al nostro
campione di dimensione n=49,
abbia media =0 =80N (se i tecnici dicono il vero)

e deviazione standard =

21.4
49

' 0.661N .

103

Il rischio di errore di I a specie `e rappresentato dallarea sottesa dalla curva normale a


sinistra del valore 78.5 N (vedi gura), il che equivale alla probabilit`a che X per n=49
sia minore di 78.5 N . Indicata di nuovo con Z la media campionaria standardizzata,
'
(
si ha


X

78.5 80 
78.5

p <
p
P [X < 78.50 = 80] = P
=P Z<
'
/ n
/ n
0.661
' (2.27) = 1 (2.27) ' 0.012 .

Dunque, c`e una probabilit`a di poco superiore all1% di commettere lerrore di I a


specie, cio`e di riutare laermazione fatta quando questa `e vera.
Volendo valutare il rischio di II a specie, occorre
supporre che il carico di rottura medio vero per
quel tipo di nastro non sia quello indicato dai
tecnici, ma un altro. Ipotizziamo dunque, ad
esempio, che sia 78 N anzich`e 80 N . In questo
caso la media campionaria X avrebbe distribuzione normale con media = 1 = 78. Supponendo che la deviazione standard rimanga la
stessa, la probabilit`a dellerrore di II a specie `e
quella di avere delle medie di campioni di dimensione 49 maggiori di 78.5 N .
Calcoliamo tale probabilit`a, che `e rappresentata dallarea evidenziata nella gura.
'
(


78.5 78 
X

78.5

p >
p
P [X > 78.51 = 78] = P
=P Z>
'
0.661
/ n
/ n
' 1 (0.756) ' 0.225 = 22.5% .

In denitiva, avendo stabilito quel criterio decisionale, siamo riusciti a quanticare i


rischi di errore, cio`e le probabilit`a di scelte errate a seconda della situazione vera che
`e e rimane ovviamente incognita. Laver scelto una simile strategia per accettare o
riutare laermazione dei tecnici signica fare un test di ipotesi.
Rimane il dubbio che laver ssato il limite di 78.5 N per quelle medie campionarie
possa risultare troppo favorevole allaccettazione dellaermazione fatta. Nella pratica,
dovendo decidere se accettare oppure no lipotesi che la media (incognita) di una data
popolazione abbia un dato valore, si procede nel modo seguente: si stabilisce il rischio di
errore di I a specie ed in base ad esso si determina un intervallo; se la media campionaria
osservata cade esternamente a tale intervallo, lipotesi viene rifiutata. Nel caso specico
visto in precedenza lintervallo in questione `e [78.5, +1) che corrisponderebbe, come
il calcolo fatto in precedenza mostra, ad un rischio di I a specie circa uguale a 0.012.
Il criterio descritto, cos` come formulato, `e risolutivo solo nel caso di riuto. Se accettare o no lipotesi nel caso in cui la media osservata cada internamente allintervallo,
dipende da chi deve prendere la decisione e dai suoi obiettivi. Ovviamente, come
nel caso del problema appena considerato, si pu`o anche decidere di accettarlo immediatamente. Oppure si pu`o decidere di fare ulteriori veriche (ovviamente di
tipo statistico). Ad esempio, si pu`o valutare anche il rischio di II a specie assumendo
come valore vero per la media campionaria un valore 1 < 0 e decidere in base alla
probabilit`a di tale rischio se accettare oppure no H0 . La scelta di un 1 minore di 0
104

`e ovviamente legata al fatto che il rischio di una scelta sbagliata si ha solo nel caso in
cui il valore vero di `e minore di 0 .

3.10 FORMULAZIONE DI UN TEST DI IPOTESI


Molto spesso vengono formulate delle ipotesi di lavoro che riguardano un parametro
di una popolazione. Per decidere se accettare oppure respingere una tale ipotesi ci
si pu`o servire dei risultati di un test statistico, che pu`o essere formulato seguendo i
passi che seguono.
1) Definire lipotesi di lavoro, che chiameremo ipotesi nulla e indicheremo con H0 .
Nel caso pi`
u semplice, e pi`
u comune, ci`o sar`a fatto attribuendo al parametro un
valore 0 : H0 : =0 .
Ad esempio, se il parametro sotto indagine `e la media, si pone =0 , essendo 0 un valore
prefissato; se invece il parametro `e la varianza, si pone 2 = 02 , con 02 valore prefissato.
Lindagine potrebbe riguardare anche la differenza fra due medie 1 e 2 : in tal caso si
ipotizza che 1 2 =0, ossia che 1 =2 . Si sono cos` individuati tre possibili ipotesi nulle:
H0 : =0 ; H0 : 2 =02 ; H0 : 1 =2 ). Nellesempio del paragrafo precedente lipotesi
nulla `e: H0 : =80 N .

In contrapposizione allipotesi nulla si pu`o formulare unipotesi alternativa HA . Ad


esempio, ipotesi alternative per lipotesi nulla H0 : = 0 sono le seguenti: HA : 6
=
0 ; HA : < 0 ; HA : > 0 . Se lipotesi nulla H0 `e vera, automaticamente lipotesi
alternativa HA `e falsa. Se accettiamo H0 , dobbiamo automaticamente riutare HA .
Nellesempio del paragrafo precedente si ha HA : < 80 N .

2) Scegliere una statistica appropriata ed identificarne la distribuzione campionaria. Nellesempio del paragrafo precedente si `e assunto che la distribuzione delle medie
campionarie fosse normale.
3) Precisare il rischio di errore di prima specie che si `e disposti a correre (o
equivalentemente specicare il livello di ducia 1). Spesso la probabilit`a di
commettere un errore di prima specie viene detta livello di signicativit`
a del test
(tanto pi`
u piccolo `e , tanto pi`
u `e signicativo il test). In molti casi la scelta di tale
livello non riveste solo aspetti statistici, ma sopratutto tecnici ed economici.
Livelli di significativit`
a non troppo fini (cio`e con valori di abbastanza grandi) possono
portare a scelte che poi risultano errate, con conseguenze a volte disastrose. Si pensi, ad
esempio, ad una scelta di un nuovo medicinale a scapito di uno preesistente che si dimostra
sbagliata in quanto il nuovo, alla prova dei fatti, risulta meno efficace di quello che ha
sostituito, con conseguenze negative per la casa farmaceutica e, soprattutto, per i pazienti.

4) Precisare, se lo si ritiene opportuno, anche il massimo rischio di seconda specie

. Osserviamo che in questo caso, come abbiamo


max per unipotesi alternativa HA

visto nellesempio del paragrafo precedente, HA


consiste nellipotizzare che il para
metro assuma un valore specico allinterno dellipotesi HA di cui al punto 1).
5) Decidere la dimensione n del campione.
105

6) Determinare, in base a quanto precedentemente stabilito, la regione di accettazione dellipotesi nulla H0 . Tale regione, che indichiamo con A , deve essere tale


che
P 2 A = 1.
In molti casi (fra cui limportante caso = ), essa viene determinata in modo che
risulti cosiatta:

se HA : 6
= 0 ;

[0 , 0 + ]
A=

[0 , +1)
(1 , 0 + ]

se HA : < 0 ;
se HA : > 0 .

Indicato poi con linsieme dei numeri reali sul quale il parametro assume i propri
valori, si chiama regione critica o di riuto la regione complementare di A rispetto
a . Posto pertanto
R = A,
ne consegue che, se un valore misurato non sta in A, allora necessariamente sta in
R, e viceversa. Nel caso di ipotesi alternativa HA : 6
= 0 si parla di test bilaterale e
la regione critica `e detta a due code, mentre nel caso di HA : < 0 oppure HA : > 0
abbiamo un test unilaterale e una regione critica ad una coda.
7) Si estrae un campione della dimensione stabilita e con i valori osservati del
campione si determina la stima puntuale del parametro. Si hanno quindi le seguenti
implicazioni:
2 R =) lipotesi nulla H0 viene rigettata
2 A =) lipotesi nulla H0 non pu`
o essere rigettata.

Osserviamo che, nel caso in cui cade in R, il test `e risolutivo in quanto lipotesi nulla
viene respinta in favore dellipotesi alternativa HA . Al contrario, se cade in A, il
test non `e risolutivo. In tal caso infatti esso ci dice che lipotesi nulla non pu`o essere
riutata, la qual cosa non signica automatica accettazione: sta allo sperimentatore
decidere se accettare oppure no lipotesi nulla solo sulla base del fatto che non `e stata
smentita al livello di ducia 1 pressato.

Volendo supportare laccettazione di H0 con altri riscontri, lo sperimentatore pu`o


procedere andando a valutare anche il rischio di II a specie per unipotesi alternativa

HA
. Viene dunque calcolata la probabilit`a di accettare come vera lipotesi H0

quando, essendo vera HA


, essa `e falsa:



= P 2 A j HA
.

Ebbene, supposto che lo sperimentatore abbia in precedenza ssato un max , se


max , ci`o pu`o costituire lelemento risolutivo ai ni della decisione nale circa
laccettazione o no dellipotesi nulla H0 .
La probabilit`a di riutare H0 quando H0 `e falsa, che vale 1, viene detta potenza

del test. Sottoponendo il nostro test a diverse ipotesi alternative HA


, HA
, HA
,...,
1
2
3
si ottengono diversi valori di : 1 , 2 , 3 ,..., che individuano una curva = () ,
detta curva operativa caratteristica del test. Di questa riparleremo pi`
u avanti.

Lideale sarebbe un test che minimizza contemporaneamente entrambi i rischi di I a


e II a specie, ma ci`o `e impossibile. Al decrescere delluno, laltro cresce. Il solo modo
106

di abbassarli entrambi `e aumentare la dimensione n del campione, e quindi, in parole


povere, spendere di pi`
u in prove ed analisi dei risultati.
Va comunque notato che, indipendentemente da come si opera, un errore `e sempre
possibile. Ogni volta che H0 viene riutata, pu`o aver luogo un errore di I specie; ogni
volta che H0 non viene riutata, pu`o vericarsi un errore di II specie. Non c`e alcun
modo di evitare questo dilemma. Il mestiere dello statistico `e quello di adottare metodi
per decidere se rifiutare oppure no lipotesi H0 che mantengono ragionevolmente piccole
le probabilit`a di fare luno o laltro errore.

Considerazioni sulla scelta di H0 e HA


Diversamente da quanto assunto nella definizione dei passi utili alla formulazione di un
test, molto spesso linteresse reale suggerirebbe unipotesi nulla basata su una disuguaglianza: H0 : 0 (oppure H0 : 0 ), con conseguente ipotesi alternativa
HA : > 0 ) (oppure HA : < 0 ). Nel linguaggio proprio della statistica si parla di
ipotesi nulla semplice o composta a seconda che H0 esprima unuguaglianza o una
disuguaglianza.
Poiche con H0 composta la trattazione matematica del problema risulta assai pi`
u
complicata, nel seguito considereremo sempre ipotesi nulle semplici. A questo proposito occorre osservare che se, ad esempio, lipotesi nulla fosse H0 : 0 (ovviamente
in contrapposizione a HA : > 0 ), essa pu`o essere ragionevolmente sostituita da
H0 : = 0 sulla base delle considerazioni che seguono. Lesecuzione del test porta a
rigettatare H0 se la stima puntuale del parametro risulta maggiore di un certo
1 a sua volta maggiore di 0 . Pi`
u semplicemente: H0 viene rigettata se `e abbastanza pi`
u grande di 0 . Di norma, se ci`o porta a rigettare lipotesi nulla = 0 , a
maggior ragione si deve riutare ogni ipotesi = con < 0 , e quindi lipotesi nulla
composta H0 : 0 . Diverso `e il discorso nel caso in cui il test porti allaccettazione
di H0 : = 0 : ci`o non comporta aatto laccettazione di H0 : 0 . (Nellesempio
3.11.2 si mostra come si pu`
o procedere con unipotesi nulla composta).
Un fatto signicativo che probabilmente non `e emerso da quanto detto nora `e il
seguente. Uno sperimentatore quando compie un test tende ad avvalorare unipotesi
di lavoro che in generale si traduce in una relazione di disuguaglianza. Ebbene,
questa relazione pu`o essere assunta sia come ipotesi nulla H0 (composta) sia come
ipotesi alternativa HA . In altre parole, unipotesi nulla H0 composta e la sua ipotesi
alternativa sono intercambiabili. Anzi, spesso lipotesi da avvalorare viene assunta come
ipotesi alternativa HA con lobiettivo di avvalorarla rigettando H0 . Di qui si pu`o quindi
capire come, per uno stesso problema, la scelta delle due ipotesi, quella nulla e quella
alternativa, possono essere diverse a seconda degli interessi di chi esegue il test.
Quando lipotesi nulla `e semplice, ovviamente essa non pu`
o essere scambiata con
lipotesi alternativa. Anche in questo caso per`o gli interessi di chi eettua il test
possono portare a scegliere unipotesi alternativa piuttosto che unaltra. Lesempio
che segue chiarir`a, se ce ne fosse bisogno, quanto appena aermato.
Esempio 3.10.1 Un dato vino `e in vendita in bottiglie contenenti, sulla base di quanto dichiarato dalletichetta, 720 millilitri. Si vuole verificare che leffettivo contenuto corrisponda
a quanto dichiarato mediante un test dipotesi di livello di fiducia 1.
107

In questo problema il parametro che interessa `e la media della variabile casuale X che
rappresenta la quantit`
a di vino contenuto in una bottiglia. Si ha dunque = e lipotesi
nulla `e H0 : = 720 . Le possibili ipotesi alternative sono pertanto HA : 6
= 720 oppure
HA : < 720 oppure HA : > 720 .
Supponiamo che sia unassociazione di consumatori ad effettuare il test. In questo caso c`e
tutto linteresse a evidenziare un eventuale riempimento delle bottiglie per difetto. Viene
dunque scelta lipotesi alternativa HA : < 720. Lipotesi nulla sar`
a da rigettare in favore
di HA nel caso in cui la stima puntuale
della media calcolata mediante i valori osservati
del campione non cada internamente alla regione di accettazione A, cio`e se

2
/ [720 , +1) .
Supponiamo ora che sia il produttore ad effettuare il test di verifica. Quale ipotesi alternativa sceglier`
a? Certamente non sceglier`
a HA : < 720, perch`e se cos` facesse potrebbe
avvalorare lipotesi che egli mette nelle bottiglie meno vino di quanto dichiara. Daltra parte,
se lipotesi alternativa scelta fosse HA : > 720, potrebbe apparire un p`
o troppo sfacciato.
Non rimane dunque che la scelta neutra HA : 6
= 720. Tenendo conto della struttura di
A, H0 verrebbe rigettata in favore di HA se

Dovendo essere

2
/ [720 , 720 + ] .



P 2 [720 , 720 + ] =P 2 [720 , +1) =1 ,


`e evidente che
< . Di conseguenza, dando per scontato che il produttore sia stato molto
attento a non riempire troppo le bottiglie, `e certamente pi`
u probabile che sia il test effettuato
dallassociazione dei consumatori a smentire lipotesi nulla piuttosto che il test fatto dal
produttore stesso. Osserviamo che il rifiuto di H0 nel test dellassociazione confermerebbe
leventuale sospetto di una quantit`
a di vino minore di quanto dichiarato.

`
3.11 TEST DI SIGNIFICATIVITA
Esiste un altro metodo, un p`o pi`
u sbrigativo, per decidere se accettare o no lipotesi
nulla H0 . Tale metodo, che `e detto test di signicativit`
a, sta diventando di uso
sempre pi`
u ampio, anche in virt`
u delluso crescente di pacchetti software nellanalisi
di dati statistici.
Indicata con T la statistica del test, il metodo in questione consiste nellosservare dal
campione casuale il valore numerico t di T e nel determinare quindi la probabilit`a che
T assuma un valore che eccede t, supposta vera lipotesi nulla. Il signicato preciso
di eccede dipende dal tipo di test. Nel caso di test unilaterale la probabilit`a p da
determinare `e la seguente:




se HA : > 0 ,
p = P T t H0




se HA : < 0 .
p = P T t H0

Se invece il test `e bilaterale simmetrico, cio`e basato su una statistica T con una
distribuzione simmetrica (come Z e Tn ), allora la probabilit`a p `e data da




p = 2 P T jtj  H0
se HA : 6
= 0 .
108

Al numero p ci si riferisce con diversi nomi; i pi`


u comuni sono valore p o p-dei-dati.
Come risulter`a evidente dagli esempi proposti nel seguito, se si eseguisse un test
di ipotesi con livello di signicativit`a , se < p, il valore osservato cadrebbe
internamente alla regione di accettazione e H0 non potrebbe essere rigettata; daltra
parte, se > p, cadrebbe esternamente e lipotesi nulla sarebbe da rigettare. Questa
considerazione suggerisce la seguente denizione di carattere generale:
Definizione Si chiama valore p (o p-dei-dati) il minimo per cui lipotesi nulla
deve essere rigettata con un test dipotesi di livello di fiducia 1.
Esempio 3.11.1

Ingegneri addetti alla costruzione di automobili stanno usando sempre


pi`
u lalluminio nella speranza di ridurre il costo delle auto e aumentare il numero di miglia
percorse con un gallone di benzina. Per un particolare modello di auto, il numero medio
di miglia su autostrada ottenuto per gallone `e 26 con una deviazione standard = 5mpg.
Si spera che un nuovo design, che utilizza pi`
u alluminio, incrementi la media, dando per
scontato che non cambi. Gli ingegneri, volendo testare la loro ipotesi, eseguono un test di
significativit`
a nel modo seguente.

H0 : 26 ,

HA : > 26 .
Assunta naturalmente come statistica del test la media campionaria X , si concorda di rifiua alquanto maggiore
tare lipotesi H0 in favore di HA se il valore osservato x di X risulter`
Si assumono le seguenti ipotesi:

di 26. Con alquanto maggiore intendiamo troppo grande perch`e ci`


o possa essere avvenuto
solo per caso se il valore medio vero `e ancora 26.
Da un test con un campione di 36 dati risulta una media x = 28.04 mpg. Per vedere se x
`e abbastanza pi`
u grande di 26 da poter rigettare H0 , calcoliamo il valore p del test, cio`e
calcoliamo la probabilit`
a di osservare un valore di X maggiore od uguale a 28.04 se =26 e
=5. In virt`u del teorema di limite centrale lo stimatore
p X `e (almeno) approssimativamente
normale con media =26 e deviazione standard / n=5/6. Si ha quindi

p = P (X 28.04 j =26 , =5) = P

 X 26
28.04 26 

=
5/6
5/6

P [Z 2.45] = 1 P [Z 2.45] 1 0.9929 = 0.0071 .

La probabilit`
a che X assuma un valore maggiore di 28.04 `e dunque molto piccola. Ci sono
due possibili spiegazioni per questo fatto. O lipotesi nulla `e vera e noi abbiamo osservato
un campione veramente raro che per caso ha una media grande, oppure lipotesi nulla `e
falsa e il nuovo processo di costruzione delle auto ha effettivamente portato ad un aumento
delle miglia percorse per gallone di benzina. La seconda spiegazione `e di gran lunga quella
pi`
u ragionevole! Infatti il valore p trovato rappresenta la probabilit`
a dellerrore di I specie
che si commette rifiutando H0 a favore di HA quando si assume come regione di rifiuto
R = [28.04 , +1). E nel caso specifico p `e minore dell1%.

Lesempio proposto permette di capire meglio il signicato del valore p. Pi`u piccolo `e
p, pi`u fortemente il test suggerisce il rigetto dellipotesi nulla a favore di quella alternativa.

109

3.12 TEST RIGUARDANTI LA MEDIA DI UNA POPOLAZIONE


NORMALE
Tratteremo ora i test riguardanti la media arontando dapprima il caso in cui la
varianza `e nota e poi il caso in cui `e incognita.

a) Test nel caso di varianza nota


Consideriamo un campione casuale (X1 , X2 , . . . , Xn ) di dimensione n proveniente da
una distribuzione normale. Per sottoporre a test lipotesi di provenienza da una
popolazione di media = 0 , usiamo la statistica Z ' N (0, 1) che si ottiene, come
abbiamo gi`a visto, normalizzando la media campionaria X, ossia
X 0 p
Z=
n,

dove 2 `e la varianza della popolazione che assumiamo nota.


Il problema `e quello di testare lipotesi nulla H0 : = 0 contro lipotesi alternativa
HA : 6
= 0 : lipotesi nulla `e da riutare se il valore osservato di Z `e troppo grande
o troppo piccolo, dove troppo grande e troppo piccolo sono quanticati dal
valore del rischio di prima specie che si intende correre. Pi`
u precisamente, ssata
uguale ad la probabilit`a di tale rischio, e indicato con u 2 il quantile soluzione
dellequazione

(u) = 1 ,
2
per il rischio di errore di prima specie si ha





X p
 X p

 

0
0
=P
= .
Z < u 2 [ Z > u 2
n < u 2 [
n > u 2

Questa formula esprime la probabilit`a di riutare lipotesi nulla H0 : = 0 quando


essa `e vera. Pertanto la regione di riuto per questo test bilaterale `e costituita da
tutti i valori di Z (o equivalentemente di X) per cui


X p 
 


0
 Z < u
ossia
n < u 2 .

2


Risolvendo rispetto a X si ottiene

X < 0 p u 2
n

Posto

oppure

x1 = 0 p u 2 ,
n

X > 0 + p u 2 .
n

x2 = 0 + p u 2 ,
n

abbiamo dunque determinato lintervallo [x1 , x2 ], detto intervallo di accettazione. Se


il valore osservato x di X cade esternamente ad esso, lipotesi nulla H0 : =0 sar`a
da rifiutare in favore dellipotesi alternativa HA : 6
= 0 . Se invece x 2 [x1 , x2 ],
allora lipotesi nulla non sar`a da rifiutare, il che non equivale a dire che sia da
accettare (come nellesempio introduttivo del x 3.9).
110

Oltre al test bilaterale, esiste la possibilit`a di eseguire anche dei test unilaterali a
seconda di esigenze tecniche speciche. In questo caso si possono avere due ipotesi
alternative: HA : < 0 oppure HA : > 0 . Indicato con u il quantile soluzione
dellequazione
(u) = 1 ,
valgono le seguenti relazioni:
'
(


X 0 p
P Z < u = P
n < u = ;

'
(


X 0 p
P Z > +u = P
n > +u = .

Posto quindi

1 = 0 p u ,
2 = 0 + p u ,
n
n
le due precedenti probabilit`a diventano
P (X < 1 ) = ;

P (X > 2 ) = .

La prima delle due probabilit`a ci assicura che, nel caso HA : < 0 , se rigettiamo
lipotesi nulla a favore di quella alternativa quando il valore di x `e minore di 1 ,
lerrore di I a specie commesso `e uguale ad . La seconda probabilit`a ci garantisce
invece un errore dello stessa entit`a nel caso si riuti lipotesi nulla a favore dellipotesi
alternativa HA : > 0 se la media calcolata x risulta maggiore di 2 .
Pertanto, nel caso di test unilaterale per la media (nota la varianza) si procede nel
modo seguente: nel caso HA : < 0 , lipotesi H0 si rigetta se x < 1 ; nel caso
HA : > 0 , H0 si rigetta se x > 2 .
La tabella che segue riassume i casi considerati.

111

Osservazione. Gli intervalli di accettazione [x1 , x2 ] (nel caso di test bilaterale),


[1 , +1) e (1 , 2 ] (nel caso di test unilaterale) sono espressi nellunit`a di misura
dei dati del campione. Se la media osservata vi cade dentro, allora lipotesi nulla non
pu`o essere rigettata. Le conclusioni del test possono per`o essere tratte, in maniera
pi`
u immediata, anche utilizzando la media osservata standardizzata, vale a dire
x 0 p
z=
n.

Se questa cade allinterno dellintervallo di accettazione per Z, allora lipotesi nulla


non pu`
o essere rigettata. Per quanto detto precedentemente gli intervalli di accettazione di Z, che per comodit`a chiameremo intervalli standardizzati, sono i seguenti:
[u 2 , u 2 ]

se

H A : = 0 ;

[u , +1)

se

HA : < 0 ;

(1 , +u ]

se

HA : > 0 .

b) Test nel caso di varianza incognita (test t)


Consideriamo un campione casuale (X1 , X2 , . . . , Xn ) di dimensione n proveniente da
una distribuzione normale. Per sottoporre a test lipotesi di provenienza da una
popolazione di media = 0 , si usa la statistica Tn1 , cio`e
X 0 p
Tn1 =
n,
S
con S varianza campionaria. Come gi`a sappiamo, questa variabile casuale segue la
distribuzione di Student con n1 gradi di libert`a. In questo caso il test viene spesso
indicato come test t.
Volendo testare lipotesi nulla H0 : =0 in contrapposizione con lipotesi alternativa
HA : 6
= 0 , in analogia con quanto appena fatto nel caso di varianza nota, ssata
uguale ad la probabilit`a del rischio di prima specie, si ha

 


P Tn1 < t 2 [ Tn1 > t 2 =


'
( '
(
X 0 p
X 0 p
=P
n < t 2 [
n > t 2
= ,
S
S
con t 2 soluzione dellequazione

.
2
Di conseguenza la regione aleatoria di riuto della ipotesi nulla diventa
Tn1 (t) = 1

S
X < 0 p t 2
n

oppure

S
X > 0 + p t 2 .
n

Eseguito lesperimento e indicato come in precedenza con


il valore osservato di S,
risulta dunque determinato il seguente intervallo di accettazione:



[x1 , x2 ] = 0 p t 2 , 0 + p t 2 .
n
n
112

Se il valore osservato x di X cade esternamente a questo intervallo, lipotesi nulla


H0 : = 0 `e da riutare in favore dellipotesi alternativa HA : 6
= 0 . Se invece
x 2 [x1 , x2 ], allora lipotesi nulla non potr`a essere riutata.
Quando lipotesi alternativa `e HA : < 0 oppure HA : > 0 , si deve eseguire un test
unilaterale. In tal caso, indicata con t la soluzione dellequazione: Tn1 (t) = 1 ,
posto

1 = 0 p t ,
2 = 0 + p t ,
n
n
si ha
P (X > 2 ) = .
P (X < 1 ) = ;
La prima delle due probabilit`a ci suggerisce di riutare lipotesi nulla H0 a favore
dellipotesi alternativa HA : < 0 se la media x, calcolata approssimando con
,
risulta minore di 1 ; a sua volta la seconda probabilit`a suggerisce, nel caso HA : >
0 , di riutare H0 se si ha x > 2 . Quanto aermato pu`o essere sintetizzato dicendo
che, nel caso di test unilaterale, gli intervalli di accettazione sono:
[1 , +1)

se

HA : < 0 ;

(1 , 2 ]
se HA : > 0 .
La tabella data in precedenza per il caso varianza nota rimane quindi valida anche
nel caso varianza incognita fatto salvo il fatto che ora lintervallo [x1 , x2 ] e i valori
1 e 2 sono calcolati utilizzando i quantili della distribuzione di Student (ad N1
gradi di libert`a) anzich`e quelli della normale standardizzata.
Osservazione. Analogamente a quanto osservato in precedenza nel caso di varianza
nota, le conclusioni del test ora proposto possono essere tratte in maniera pi`
u immediata ragionando direttamente sugli intervalli di accettazione per Tn1 , che anche in
questo caso chiameremo intervalli standardizzati:
[t 2 , t 2 ]

se

HA : = 0 ;

[t , +1)
(1 , +t ]

se
se

HA : < 0 ;
HA : > 0 .

Se il valore osservato della statistica Tn1 , cio`e


x 0 p
t=
n,

cade esternamente allintervallo di accettazione standardizzato, lipotesi nulla `e da


rigettare.
Esempio 3.12.1 Si supponga di avere un campione di 200 cambi per autovetture, supposti
provenire da una popolazione distribuita normalmente avente = 3250 Km. a) Possiamo
assumere con un rischio di prima specie pari al 5% che la durata media della popolazione
costituita da tutti i cambi di quel tipo sia di 44800 Km, se la durata media del campione
analizzato `e stata di 44500 Km ? b) Calcolare il valore p.
a) Omettendo lunit`
a di misura (il Km), i dati che abbiamo sono i seguenti:

n = 200 ,

x = 44500

0 = 44800 ,
113

= 3250 .

Seguiamo ora la procedura indicata precedentemente passo per passo:


1.
I dati del campione sono assunti come provenienti da una popolazione normale (o
approssimativamente tale) con varianza nota 2 .
2.

Lipotesi nulla `e H0 : =0 =44800 contro lipotesi alternativa HA : 6


= 0 .

3.

La statistica da testare `e:

4.

Il rischio di prima specie per questo test bilaterale `e uguale al 5%.

5.

Dalle tavole della normale standard ricaviamo: u 2 = u0.025 1.96.

Z=

X 0
X 44800
p '
.
/ n
230

X 2
/ [x1 , x2 ], con x1 = 0 e x2 = 0 + . Essendo

= p u 2 =2301.96 450 , tale regione corrisponde a


n

6.

La regione di rifiuto `e:

X2
/ [44350 , 45250] .
Poich`e il valore calcolato di X , cio`e x, vale 44500, e quindi `e interno a questo intervallo,
lipotesi nulla non pu`
o essere rigettata.
6. La regione di rifiuto pu`
o essere espressa in modo pi`
u immediato in forma standardizzata, nel qual caso `e data da:
jZj > u 2 = u0.025 1.96. Standardizzando quindi il
valore osservato di X , si ottiene

z=

44500 44800
x 0
p =
1.305 .
/ n
230

Essendo jzj < 1.96, come in precedenza arriviamo alla conclusione che lipotesi nulla non
pu`o essere rifiutata.
Osservazione. Se avessimo avuto x = 44300, lipotesi nulla, per la quale la durata media
della popolazione costituita dai cambi `e 44800 Km, sarebbe stata da respingere a favore
= 44800 km.
dellipotesi alternativa HA : 6



p = 2 P (Z jzj) = 2P (Z 1.305) = 2 1 P (Z 1.305) 2(1 0.904) = 0.192 .
Essendo p assai grande, risulta significativamente confermata la non rigettabilit`
a di H0 .

b)

Esempio 3.12.2

Riprendiamo lesempio 3.5.2. I consumi di un motore sperimentale registrati durante 8 prove, per 100 Km di percorrenza, sono stati: 14, 12, 11, 13, 15, 12, 16, 13.
Possiamo affermare che il consumo medio di benzina per quel tipo di motore non supera 12
litri per ogni 100 Km di percorrenza con un livello di significativit`
a =0.01 ?
Come abbiamo gi`
a visto nellesempio 3.5.2, dai dati rilevati nelle prove si ottiene

1.67 .

x = 13.25 ;
La procedura da seguire `e la seguente:

1.
I dati del campione sono assunti come provenienti da una popolazione normale (o
approssimativamente tale) con varianza incognita.
2. Lipotesi nulla corretta sarebbe H0 : 12 contro lipotesi alternativa HA : > 12.
Questo caso tuttavia, avendo a che fare con unipotesi nulla composta sarebbe di difficile
trattazione. Conviene pertanto assumere lipotesi nulla semplice H0 : = 0 = 12 e
ragionare poi sui risultati ottenuti per trarre conclusioni sullipotesi nulla composta.

114

X 0 p
X 12 p
n=
8.
S
S
4. Il rischio di prima specie che siamo disposti a correre `e: = 1%.

3.

La statistica da testare `e:

5.

La regione di rifiuto `e:

T7 =

T7 > t = t0.01 2.998, da cui

1.67
X > 2 = 0 + p t = 12 + p 2.998 12 + 1.77 = 13.77 .
n
8

6. Essendo x (valore calcolato di X ) uguale a 13.25, lipotesi nulla H0 : = 12 non pu`


o
essere rigettata con un errore di prima specie dell1%.
6.

Il valore della statistica Tn1 osservato dal campione vale:

x 0 p
13.25 12 p
n=
8 ' 2.117 .

1.67
Essendo t minore di t0.01 =2.998, lipotesi nulla H0 : =12 non pu`
o essere rigettata.
t=

7. Consideriamo ora il caso in cui lipotesi nulla `e composta, cio`e H0 : 12. Osserviamo
o scriversi in funzione di 0 :
innanzitutto che il valore 2 della relazione di cui al punto 5) pu`

2 (0 ) 0 + 1.77 .

Ci`
o premesso, si pu`
o ragionare in questo modo: ogni ipotesi nulla semplice H0 : = con
< 12 non potr`a essere rifiutata per ogni tale che

X < 2 ( ) + 1.77 ,

ossia

> X 1.77 .

Tenendo conto del fatto che il valore osservato di X `e x = 13.25, ne consegue che lipotesi
o essere
nulla semplice H0 : = , contrapposta allipotesi alternativa HA : > 12, non pu`
rifiutata con un errore di prima specie dell1% per

2 [13.25 1.77 , 12] = [11.48 , 12].


Al contrario, se avessimo avuto H0 : =11.4, doveva essere rifiutata in favore di HA .

Esempio 3.12.3

In una clinica si vuole sperimentare un nuovo farmaco che dovrebbe servire


per ridurre il tasso di colesterolo nel sangue. A tal fine vengono cercati 50 volontari tra quei
pazienti che hanno un livello di colesterolo medio-alto (cio`e maggiore di 220), e a ciascuno
viene somministrato il farmaco per un mese. Alla fine si riscontra una riduzione media di
14.8, con una deviazione standard campionaria di 6.4. Verificare, se `e possibile, che tale
riduzione `e dovuta esclusivamente ad un fatto fortuito.
Se la riduzione `e totalmente fortuita, le variazioni riscontrate sono distribuite normalmente
con media nulla. Testiamo dunque lipotesi nulla H0 : =0 =0 contro lipotesi alternativa
= 0. Procediamo rapidamente senza seguire passo per passo la procedura.
HA : 6
I dati sono i seguenti:

n=50 ,

x=14.8 ,

=6.4 ,

0 =0 .

Sappiamo che lintervallo


 di fiducia bilaterale al livello 1, espresso in forma standardizzata,
`e dato da t 2 , +t 2 . Il problema `e che nessun `e assegnato. Tuttavia, se si calcola la
media standardizzata utilizzando la deviazione standard campionaria puntuale, si ottiene

t=

x 0 p
14.8 p
n=
50 16.35 .

6.4

Dalla tabella dei quantili della legge di Student (non essendo riportato n=49 basta guardare
T50 ), si vede subito che t `e esterno allintervallo di fiducia per qualunque ragionevole livello

115

di significativit`
a . Dunque, in ogni caso, lipotesi nulla deve essere rigettata, il che esclude
che la riduzione di colesterolo sia un fatto puramente fortuito.

Lesempio che segue `e storico; esso riprende esperimenti eseguiti da Student per confrontare le tecniche di trattamento dellorzo utilizzate nella preparazione della birra,
pi`
u precisamente per valutare gli eetti dellessicazione in forno prima della semina. A
parte linteresse storico, esso risulta utile ad illustrare come il problema di avvalorare
oppure no una tesi di lavoro possa essere arontato in due modi diversi, il primo neutrale rispetto alla scelta che il test potr`a suggerire, il secondo invece sbilanciato in
favore dellaccettazione dellipotesi di lavoro.
Esempio 3.12.4

Sono oggetto di indagine 11 variet`


a dorzo; per ciascuna si riporta la
differenza di redditivit`
a fra la variante essicata e quella non essicata, misurata in libbre per
acro:

di : +106

20

+101

33

36

+72

+62

+38

70

+127

+24

Supposto che la differenza di redditivit`


a abbia una distribuzione normale (di varianza incognita), si chiede di verificare lipotesi nulla H0 : = 0 = 0, secondo la quale lessicazione
preliminare non avrebbe nessun effetto.
Affronteremo il problema in due modi diversi: a) assumendo come ipotesi alternativa HA :
6
= 0; b) assumendo come ipotesi alternativa HA : > 0. In ciascun caso lo faremo per
=10% , =5% e =1% . Essendo la varianza incognita, dovremo utilizzare la statistica
` facile verificare che i dati del campione
di Student a 10 gradi di libert`
a (essendo n=11). E
66.2.
hanno media x 33.7 e scarto quadratico medio
Derogando per semplicit`
a dalla regola di svolgere lesercizio seguendo passo per passo seguendo la procedura data per un test, si ha:
a) Essendo HA : 6
= 0, il test `e bilaterale. La regione di accettazione `e data da

  66.2


66.2  
0 p t 2 , 0 + p t 2 = p t 2 , p t 2 = 19.95 t 2 , 19.95 t 2 .
n
n
11
11

Ora, essendo

t0.05 = 1.812 ,

t0.025 = 2.228 ,

t0.005 = 3.169 ,

le regioni di accettazione, nellunit`


a di misura dei dati del campione, sono
per = 0.10
per = 0.05
per = 0.01

)
)

[36.15 , 36.15] ;
[44.54 , 44.54] ;
[63.35 , 63.35] .

Essendo x = 33.7, lipotesi nulla non pu`


o essere rigettata per nessuno dei tre livelli di
significativit`
a presi in considerazione.
Invece di determinare le regioni di accettazione nellunit`
a di misura dei dati del campione e
verificare quindi se la media osservata x cadeva oppure no internamente a queste, avremmo
potuto, in maniera pi`
u rapida, ottenere t standardizzando x e verificare se jtj < t 2 oppure
jtj t 2 . In questo modo si sarebbe ottenuto

t=

x 0 p
33.7 p
n=
11 1.688 ,

66.2
116

che risulta allinterno dellintervallo di accettazione t 2 , t 2 per tutti tre i valori di


considerati. Abbiamo cos` trovato conferma del fatto che per nessuno dei tre livelli di fiducia
lipotesi nulla `e rigettabile.
Il test fatto non smentisce lipotesi di lavoro = 0: ci`
o indirizza verso la conclusione che
lessicazione pre-semina sia inutile.
Ora affrontiamo il problema in maniera pi`
u filologica: lipotesi alternativa sia HA :
> 0, il che esclude a priori che possa essere < 0 (Student era sicuro che lessicazione era
b)

vantaggiosa). Il test `e unilaterale. La regione di accettazione `e data da

Essendo


 


66.2  
1 , 0 + p t = 1 , p t = 1 , 19.95 t .
n
11
t0.10 = 1.372 ,

t0.05 = 1.812 ,

t0.01 = 2.764 ,

le regioni di accettazione sono


per = 0.10
per = 0.05
per = 0.01

)
)
)

(1 , 27.37] ;
(1 , 36.15] ;
(1 , 55.14] .

La media calcolata, che vale 33.7, cade internamente alla zona di rifiuto relativa ad =
0.10 ed esternamente a quelle relative agli altri due livelli di significativit`a. Ora pertanto,
diversamente dal caso a), per = 10% lipotesi nulla `e da rigettare in favore dellipotesi
alternativa (che rappresenta quanto desiderato da Student).
Ovviamente si giunge alle stesse conclusioni anche ragionando con gli intervalli di fiducia
espressi attraverso la media standardizzata e quindi, essendo la varianza incognita, attraverso
i quantili della distribuzione di Student. Nel caso di test unilaterale, con ipotesi alternativa
HA : > 0 , la regione di accettazione `e data da (1, t ]. Essendo t=1.688, esso risulta
maggiore di t0.10 e minore di t0.05 e t0.01 , col che ritorniamo (ovviamente) alle conclusioni
precedenti.
Dunque, passando da un test bilaterale ad uno unilaterale, e con un alto livello di significativit`
a (in realt`
a basso), il test pu`
o portare a conclusioni pi`
u favorevoli ai propri desideri.
Questo esempio mostra che impostando il test in un modo o in un altro si possono anche
assumere posizioni non del tutto imparziali rispetto alle ipotesi da rifiutare o avvalorare.
A titolo desercizio si pu`
o andare a calcolare il valore p del test. Chiaramente, essendo
p il minimo per cui lipotesi nulla deve essere rigettata, e sapendo gi`a che al livello di
significativit`
a = 0.1 H0 deve essere rigettata, mentre non pu`
o esserlo per = 0.05,
dovremo trovare un valore di p compreso fra 0.05 e 0.1. Nel caso in questione per definizione
si ha: p = 1 P (T10 t). Utilizzando un opportuno software contenente le funzioni
distribuzione pi`
u significative, indicata con t10 (x) la funzione distribuzione di T10 , si ricava

t10 (1.688) 0.939 ,

e quindi

p 0.061 .

Se avessimo calcolato il valore p anche nel caso del test bilaterale, avremmo avuto





p = 2 1P (T10 t = 2 1 t10 (1.688) 0.122 ,

a considerati.
con conferma della non rigettabilit`
a di H0 per tutti tre i livelli di significativit`

117

3.13 TEST RIGUARDANTI LA DIFFERENZA DELLE MEDIE


DI DUE POPOLAZIONI NORMALI
Una situazione che si presenta frequentemente nella statistica applicata allingegneria
`e quella per cui occorre decidere se due diversi approcci allo stesso problema hanno
portato allo stesso risultato oppure no. Una tale problematica viene spesso arontata
mediante un test dellipotesi che due popolazioni normali abbiano la stessa media.
Ci`o considerando, largomento sar`a trattato in analogia con il x 3.7 e sfruttando le
nozioni ivi introdotte.
Siano dunque (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Ym ) due campioni casuali indipendenti,
di dimensioni n ed m rispettivamente, estratti da due popolazioni normali con media
1 e varianza 12 la prima, media 2 e varianza 22 la seconda. Come abbiamo visto
nel paragrafo appena citato, il miglior estimatore per la dierenza delle medie 12
`e il seguente:
n
m
1
1 
X Y =
Xi
Yi .
n i=1
m i=1

Caso a)

Le varianze 12 e 22 sono note

Si vuole eseguire un test dipotesi con


H0 : 1 =2 ,

HA : 1 6
= 2 .

Riscritta lipotesi nulla come H0 : 1 2 , essa verr`a rigettata quando la dierenza


X Y `e lontana da zero. In altre parole, la forma del test `e la seguente:
se jXY j > c
se jXY j c

si riuta H0
non si riuta H0

per un opportuno valore di c. Dal x 3.7 sappiamo che



2 2 
X Y N 1 2 , 1 + 2
n m

=)

X Y (1 2 )

N (0, 1) .
12 22
+
n m

Dunque, dato H0 vero, per cui 1 2 = 0 , la statistica del test

X Y

12 /n

+ 22 /m

ha distribuzione normale standard, e quindi, assegnato un livello di signicativit`a ,


si ha


X Y
P u 2 $ 2
u 2 = 1 ,
1 /n + 22 /m

con u 2 quantile della normale standardizzata soluzione dellequazione (u) = 1 2 .


La regione di accettazione per la statistica del test `e dunque [u 2 , u 2 ], mentre per
lo stimatore XY `e la seguente




u 2 12 /n + 22 /m , u 2 12 /n + 22 /m .
118

Volendo invece fare un test unilaterale, con ipotesi nulla H0 : 1 = 2 (oppure H0 :


1 2 ) ed ipotesi alternativa HA : 1 > 2 , lintervallo di accettazione per X Y `e


$
1, u 12 /n + 22 /m ,
con u tale che (u ) = 1. Naturalmente per la statistica del test lintervallo di
accettazione `e (1, u ].

Caso b)

Le varianze 12 e 22 non sono note, ma sono supposte uguali

Il test che si vuole eseguire `e lo stesso del punto a). Ora, per`o, abbiamo 12 =22 = 2 ,
con incognita. La statistica usata in precedenza diventa
XY
 
.
2 1/n + 1/m

Come abbiamo visto nel x 3.7, la varianza 2 pu`o essere stimata dai dati utilizzando
la varianza ponderata Sp2 cos` denita:
Sp2 =
ove

(n 1)S12 + (m 1)S22
,
n+m2

S12 =

1 
(Xi X)2 ,
n 1 i=1

S22 =

1 
(Yi Y )2 .
m 1 i=1

La statistica del test risulta quindi la seguente:


Sp

X Y

1/n + 1/m

Tn+m2 ,

che, come gi`a visto, segue una distribuzione di Student con n + m 2 gradi di libert`a.
Assunto ancora come livello di signicativit`a del test ed indicato con t 2 il quantile
soluzione dellequazione Tn+m2 (t) = 1 2 , lintervallo di accettazione bilaterale per
lo stimatore XY risulta


$
$
t 2 Sp 1/n + 1/m , t 2 Sp 1/n + 1/m ,
mentre quello unilaterale sinistro `e


$
1, t Sp 1/n + 1/m .

Ricordando poi la notazione gi`a introdotta nel punto b) del x3.7,




2 = 1 + 1
S
S2 ,
n m p

2
indicato con
il valore di S
ricavato dal campione, i suddetti intervalli sono approssimati da




t 2
, t 2

e
1, t
.

Naturalmente, se ci si limita agli intervalli di accettazione per la statistica del test,


quello per il test bilaterale `e [t 2 , t 2 ], mentre quello per il test unilaterale `e (1, t ].
119

Caso c)

Le varianze 12 e 22 sono ignote e diverse

Essendo questa situazione facilmente arontabile sulla base di quanto appena visto
e delle nozioni gi`a introdotte nel x 3.7 (punto c), la tratteremo rapidamente. La
statistica da utilizzare `e

12

22 2
+
(X Y )
n
m

,
= T ,
=  2

2
2
2

22 2
S1
S2
1
+
n
n
m
+ m
n1
m1

essendo
12 e
22 i valori di S12 e S22 calcolati tramite il campione. Indicati quindi con
t 2 e t i quantili soluzioni, nellordine, delle equazioni

T (t) = 1
e
T (t) = 1 ,
2
le regioni di accettazione per i test bilaterale e unilaterale sinistro sono approssimate
da
'
(

(




12

12

12

22

22

22
t 2
+
, t 2
+
,
1, t
+
.
n
m
n
m
n
m

Caso d)

Campioni appaiati

Esaminiamo ora un caso di dierenza di due medie particolare, ma assai interessante


e frequente. Siano (X1 , X2 , . . . , Xn ) e (Y1 , Y2 , . . . , Yn ) due campioni casuali con la
stessa numerosit`a n, non indipendenti. Un test su due campioni siatti riguarda quelle
analisi sperimentali in cui occorre vericare una variazione di valore medio prima e
dopo un certo trattamento (oppure in presenza e assenza di una certa circostanza,
con e senza un certo dispositivo, etc..). Essendo Xi e Yi variabili casuali associate
alla stessa unit`a statistica, i due campioni non sono indipendenti.
Un possibile approccio per vericare che le medie dei due campioni sono uguali consiste nel considerare le dierenze Di = Xi Yi , per i = 1, 2, ..., n, che sono tra loro
indipendenti. Lanalisi del campione casuale (D1 , D2 , ..., Dn ) riconduce il test che interessa ad un test sulla media di un campione casuale proveniente da una popolazione
2
. Le ipotesi nulla ed alternativa per un
normale di media D e varianza incognita D
test bilaterale sono ovviamente le seguenti:
H0 : D = 0 ,
HA : D 6
= 0.
Per quanto gi`a visto nel x 3.12 la statistica del test, tenuto anche conto dellipotesi
nulla, `e
p D
n
Tn1 .
SD
Lesercizio 3.12.4 rappresenta un esempio di test per campioni appaiati.

120

3.14 CURVE CARATTERISTICHE OPERATIVE DEI TEST


Vediamo ora il procedimento per il calcolo del rischio di errore di seconda specie,
una volta che siano stati specicati lipotesi nulla H0 : =0 ed il rischio di errore
di prima specie, in funzione di ipotesi alternative diverse.
Prendiamo come riferimento lesempio 3.11.1, che riguardava la durata dei cambi. Il
problema `e stato arontato utilizzando un test bilaterale con lipotesi nulla H0 : =
= 44800, con un rischio di prima specie
0 =44800 contro lipotesi alternativa HA : 6
(o livello di signicativit`a) del 5%. Ipotizziamo ora che che lipotesi nulla H0 : =44800
non sia vera, ma lo sia invece unipotesi alternativa HA : = A = 44900. Il rischio di
seconda specie rappresenta la probabilit`a di accettare, a torto, lipotesi nulla, cio`e la
probabilit`a di osservare medie campionarie entro la regione di accettazione del test
pur essendo =44900.
Come abbiamo visto nellesempio in questione, la regione di accettazione (o, meglio,
di non riuto) `e lintervallo
[x1 , x2 ] = [0 , 0 + ] = [44800 450 , 44800 + 450] = [44350 , 45250] .
Tale intervallo `e dunque centrato in 0 ed ha ampiezza 2 data da

= p u 2
con u 2 soluzione dellequazione (u) = 1 .
n
2
I valori estremi x1 =44350 e x2 =45250 rapresentano rispettivamente il valore minimo
e il valore massimo delle medie (dei campioni con n=200) oltre i quali lipotesi nulla va
riutata. Il rischio di seconda specie `e quindi dato dalla probabilit`a di osservare(ovviamente
per campioni della stessa dimensione) medie comprese fra x1 e x2 quando sia vera lipotesi
altenativa HA : =A =44900, o equivalentemente



= P x1 X x2 HA : A =44900 .

Standardizzando questa relazione si ottiene:


x


X A
x 
1
p A
p 2 p A = P z1 Z z2 = (z2 ) (z1 ) ,
=P
/ n
/ n
/ n
essendo
x1 A
x2 A
p ,
p .
z1 =
z2 =
/ n
/ n
Per A =44900, ricordando che n=200 e =3250 (da cui

 44350 44900 

230), si ha

 350 
 550 

230
230
230
230
(1.52) (2.39) = (1.52) + (2.39) 1 0.936 + 0.992 1 = 0.928

 45250 44900 

` evidente che il rischio di seconda specie dipende da A ; in altre parole = (A ).


E
Per avere unidea di questa funzione si pu`o calcolare per diversi valori di A . Ne
risulta la tabella riportata alla pagina che segue.
Il graco riportato accanto alla tabella `e ottenuto ponendo in ascissa A ed in ordinata
. Esso costituisce la curva caratteristica operativa. In alternativa si poteva porre
in ordinata 1: in questo caso avremmo ottenuto la curva di potenza.
121

Va fatto notare che che la scelta in alternativa tra un test unilaterale o bilaterale
dipende dallo specico quesito posto e dalle caratteristiche del problema esaminato.
In ogni caso si pu`o aermare che la potenza di un test bilaterale, cio`e la probabilit`a
di riutare H0 quando H0 `e falsa, a parit`a di dimensione del campione e di livello
di ducia, `e minore rispetto a quella del corrispondente test unilaterale. Ci`o risulta
evidente dalla gura che segue, dove sono messe a confronto le curve caratteristiche
operative per il test bilaterale HA : 6
= 44800 e per il test unilaterale HA : < 44800.

` importante notare che per i principali test statistici le curve caratteristiche sono diE
sponibili gi`a tabulate in funzione della dierenza o del rapporto tra il valore ipotizzato
nellipotesi nulla e quello nellipotesi alternativa, naturalmente in forma standardizzata. I graci che seguono lEsempio 11.9 mostrano le curve caratteristiche operative
X 0 p
n, con rischio di prima specie = 0.05, per test
relative alla statistica Z =

unilaterali e test bilaterali. In ascissa ci sono i valori assunti dal rapporto j0 A j/,
dove 0 `e il valore della media ipotizzato nellipotesi nulla H0 e A `e un preciso valore
tra quelli considerati nelle ipotesi alternative, con scarto quadratico medio supposto
noto.

122

Le curve caratteristiche operative si avvicinano allasse delle ordinate e diventano


pi`
u ripide al crescere della dimensione n del campione, in quanto cos` il test diventa
pi`
u potente ed in sostanza aumenta la sua capacit`a di discriminazione tra ipotesi,
anche in base a scarti di piccola entit`a. Le curve caratteristiche operative consentono
quindi la determinazione razionale della dimensione del campione da utilizzare per un
determinato test per rischi di errore di prima specie e di seconda specie specicati
o, in alternativa, come modicare tali livelli per renderli compatibili con il numero di
prove consentito da limiti di tempo e di spesa. Naturalmente i rischi devono essere
valutati caso per caso in base alle implicazioni: le conseguenze di una rottura sono ben
diverse a seconda che si tratti dello sterzo o del portacenere di unauto. Nellesempio
che segue si vedr`a, fra laltro, come si procede per la determinazione della dimensione
del campione.
Esempio 3.14.1

Un tecnico vuole determinare se un gruppo di 26 fili di rame proveniente


da una ditta rispetta la specifica nominale di avere un diametro prefissato, pari a 1.54 mm.
a) cosa pu`
o affermare con un livello di fiducia del 95% se il diametro medio dei fili esaminati
`e di 1.6 mm, supposto che le misure dei diametri siano distribuite normalmente con varianza
2 =0.0529 mm2 ? b) qual `e lerrore di seconda specie che il tecnico commette se la media
del processo produttivo ha subito uno slittamento ed ora `e pari a 1.62 mm ? c) quale deve
essere la dimensione del campione se si vuole testare lipotesi nulla H0 : =1.54 mm contro
lipotesi alternativa HA : > 1.54 mm con un errore di prima specie del 5% se si volesse un
errore di seconda specie del 10% relativamente allipotesi alternativa HA : =1.65 mm ?
Tenendo presente i requisiti tecnici specifici, faremo uso anche per la prima parte di un test
unilaterale superiore, rendendo cos` confrontabili i risultati dei tre quesiti posti. Procediamo
secondo la sequenza di passi visti in precedenza (omettendo per semplicit`
a, come abbiamo
gi`
a fatto negli esempi prededenti, le unit`
a di misura).
a) I dati del campione, che ha dimensione n=26, provengono da una popolazione normale
con varianza 2 =0.0529 , da cui =0.23 . Inoltre, x=1.6.
a1 ) Lipotesi nulla `e H0 : = 0 = 1.54 contro lipotesi alternativa HA : > 1.54 . La
statistica da testare `e

Z=

X 0
X 1.54 X 1.54
p =
p =
;
0.0451
/ n
0.23/ 26

a2 ) il rischio di prima specie `e =0.05 ;


a3 ) la regione di rifiuto `e Z > u0.05 1.645 o, equivalentemente,

X > 2 = 0 + p u 1.54 + 0.04511.645 1.614 ;


n
a4 ) lintervallo di fiducia `e dunque [1, 1.614]. Poich`e la media calcolata x vale 1.6 e
o essere rifiutata. E
quindi vi cade internamente, lipotesi nulla H0 : 0 = 1.54 non pu`
questa `e la risposta alla prima domanda.
b) Ora si sa che la media vale 1.62. Ci si chiede dunque qual `e il rischio di seconda specie
quando lipotesi alternativa `e HA : A =1.62. Ci si chiede cio`e quanto vale essendo



= P X 2 j HA : = 1.62 .
123

Standardizzando si ha

 X 1.62

2 1.62 

P Z 0.133] =
0.0451
0.0451
= 1 P [Z 0.133] 1 0.553 = 0.447 45% .

=P

Vi `e dunque una probabilit`


a di circa il 45% di non rifiutare lipotesi che i fili di rame
provengano da un processo produttivo con media 1.54 quando in realt`
a tale media `e 1.62.
c) Si deve ora determinare la dimensione n che dovrebbe avere il campione perch`e si abbia
un errore di seconda specie del 10% relativamente allipotesi alternativa HA : = 1.65,
fermo restando lerrore di prima specie del 5% per testare lipotesi nulla H0 : = 1.54
contro lipotesi alternativa HA : > 1.54. Il rischio di seconda specie `e con questultima
ipotesi alternativa `e dato da



= P X 2 (n) j HA : = 1.65 ,

dove 2 (n), che ora dipende da n, vale

0.3784
u
.
2 (n) = 0 + p 1.54 + p
n
n
Essendo noto ed uguale a 0.1, mediante standardizzazione la relazione scritta sopra porta
alla seguente equazione in n:

'
 X 1.65 p
2 (n) 1.65 p 
P
n
n =P Z
0.23
0.23

0.3784

0.11 p

0.23

n = 0.1 ,

da cui, essendo 0.1 = 0.9 1.281, segue


0.3784

0.11 p

0.23

n = 1.281

p p
p
(0.3784 0.11 n) n = 0.2946 n ,

da cui

e quindi

p
0.11 n = 0.673

ossia

n=

 0.673 2
0.11

(6.12)2 37.4 .

Dunque, la dimensione del campione che soddisfa alle condizioni poste nella domanda `e 38.
Se avessimo voluto determinare n mediante le curve caratteristiche, avremmo dovuto procedere nel modo seguente. Calcolata lascissa

d=

j0 A j
j1.54 1.65j
=
0.48 ,

0.23

essendo lordinata uguale a 0.1, si individua la curva caratteristica, fra quelle per test
unilaterali relative ad =0.05, che contiene il punto (d, ) (0.48, 0.1). Dai grafici che
seguono, per quanto un po grossolani, il valore che che si desume `e del tutto compatibile
con n=38.

124

Curve caratteristiche operative per test unilaterali per la media della popolazione
(varianza nota), con campioni di dimensione 2-10,15,20,30,40,50,75,100, per =0.05.

Curve caratteristiche operative per test bilaterali per la media della popolazione
(varianza nota), con campioni di dimensione 2-10,15,20,30,40,50,75,100, per =0.05.

125

QUANTILI DELLA LEGGE NORMALE STANDARD:

P [N (0, 1)] x

.00

.01

.02

.03

.04

.05

.06

.07

.08

.09

.0

.5000

.5040

.5080

.5120

.5160

.5199

.5239

.5279

.5319

.5359

.1

.5398

.5438

.5478

.5517

.5557

.5596

.5636

.5675

.5714

.5753

.2

.5793

.5832

.5871

.5910

.5948

.5987

.6026

.6064

.6103

.6141

.3

.6179

.6217

.6255

.6293

.6331

.6368

.6406

.6443

.6480

.6517

.4

.6554

.6591

.6628

.6664

.6700

.6736

.6772

.6808

.6844

.6879

.5

.6915

.6950

.6985

.7019

.7054

.7088

.7123

.7157

.7190

.7224

.6

.7257

.7291

.7324

.7357

.7389

.7422

.7454

.7486

.7517

.7549

.7

.7580

.7611

.7642

.7673

.7704

.7734

.7764

.7794

.7823

.7852

.8

.7881

.7910

.7939

.7967

.7995

.8023

.8051

.8078

.8106

.8133

.9

.8159

.8186

.8212

.8238

.8264

.8289

.8315

.8340

.8365

.8389

1.0

.8413

.8438

.8461

.8485

.8508

.8531

.8554

.8577

.8599

.8621

1.1

.8643

.8665

.8686

.8708

.8729

.8749

.8770

.8790

.8810

.8830

1.2

.8849

.8869

.8888

.8907

.8925

.8944

.8962

.8980

.8997

.9015

1.3

.9032

.9049

.9066

.9082

.9099

.9115

.9131

.9147

.9162

.9177

1.4

.9192

.9207

.9222

.9236

.9251

.9265

.9279

.9292

.9306

.9319

1.5

.9332

.9345

.9357

.9370

.9382

.9394

.9406

.9418

.9429

.9441

1.6

.9452

.9463

.9474

.9484

.9495

.9505

.9515

.9525

.9535

.9545

1.7

.9554

.9564

.9573

.9582

.9591

.9599

.9608

.9616

.9625

.9633

1.8

.9641

.9649

.9656

.9664

.9671

.9678

.9686

.9693

.9699

.9706

1.9

.9713

.9719

.9726

.9732

.9738

.9744

.9750

.9756

.9761

.9767

2.0

.9772

.9778

.9783

.9788

.9793

.9798

.9803

.9808

.9812

.9817

2.1

.9821

.9826

.9830

.9834

.9838

.9842

.9846

.9850

.9854

.9857

2.2

.9861

.9864

.9868

.9871

.9875

.9878

.9881

.9884

.9887

.9890

2.3

.9893

.9896

.9898

.9901

.9904

.9906

.9909

.9911

.9913

.9916

2.4

.9918

.9920

.9922

.9925

.9927

.9929

.9931

.9932

.9934

.9936

2.5

.9938

.9940

.9941

.9943

.9945

.9946

.9948

.9949

.9951

.9952

2.6

.9953

.9955

.9956

.9957

.9959

.9960

.9961

.9962

.9963

.9964

2.7

.9965

.9966

.9967

.9968

.9969

.9970

.9971

.9972

.9973

.9974

2.8

.9974

.9975

.9976

.9977

.9977

.9978

.9979

.9979

.9980

.9981

2.9

.9981

.9982

.9982

.9983

.9984

.9984

.9985

.9985

.9986

.9986

3.0

.9987

.9987

.9987

.9988

.9988

.9989

.9989

.9989

.9990

.9990

3.1

.9990

.9991

.9991

.9991

.9992

.9992

.9992

.9992

.9993

.9993

3.2

.9993

.9993

.9994

.9994

.9994

.9994

.9994

.9995

.9995

.9995

3.3

.9995

.9995

.9995

.9996

.9996

.9996

.9996

.9996

.9996

.9997

125

QUANTILI DELLA LEGGE

DI STUDENT:

P [Tn (x)]

=0.90

=0.95

=0.975

=0.98

=0.99

=0.995

3.078

6.314

12.71

15.894

31.821

63.66

1.886

2.920

4.303

4.849

6.965

9.925

1.638

2.353

3.182

3.482

4.541

5.841

1.533

2.132

2.776

2.999

3.747

4.604

1.476

2.015

2.571

2.757

3.365

4.032

1.440

1.943

2.447

2.612

3.143

3.707

1.415

1.895

2.365

2.517

2.998

3.499

1.397

1.860

2.306

2.449

2.896

3.355

1.383

1.833

2.262

2.398

2.821

3.250

10

1.372

1.812

2.228

2.359

2.764

3.169

11

1.363

1.796

2.201

2.328

2.718

3.106

12

1.356

1.782

2.179

2.303

2.681

3.055

13

1.350

1.771

2.160

2.282

2.650

3.012

14

1.345

1.761

2.145

2.264

2.624

2.977

15

1.341

1.753

2.131

2.249

2.602

2.947

16

1.337

1.746

2.120

2.235

2.583

2.921

17

1.333

1.740

2.110

2.224

2.567

2.898

18

1.330

1.734

2.101

2.214

2.552

2.878

19

1.328

1.729

2.093

2.205

2.539

2.861

20

1.325

1.725

2.086

2.197

2.528

2.845

21

1.323

1.721

2.080

2.189

2.518

2.831

22

1.321

1.717

2.074

2.183

2.508

2.919

23

1.319

1.714

2.069

2.177

2.500

2.807

24

1.318

1.711

2.064

2.172

2.492

2.797

25

1.316

1.708

2.060

2.167

2.485

2.787

26

1.315

1.706

2.056

2.162

2.479

2.779

28

1.313

1.701

2.048

2.154

2.467

2.763

30

1.310

1.697

2.042

2.147

2.457

2.750

32

1.309

1.694

2.037

2.141

2.449

2.738

35

1.306

1.690

2.030

2.133

2.438

2.724

40

1.303

1.684

2.021

2.123

2.423

2.704

50

1.299

1.676

2.009

2.109

2.403

2.678

60

1.296

1.671

2.000

2.099

2.390

2.660

1.282

1.645

1.960

2.054

2.326

2.576

126

QUANTILI DELLA LEGGE CHI-QUADRO:

0.005

0.01

0.025

0.05

.00004

.00016

.00098

0.0100

0.0201

0.0506

0.0717

0.115

0.207

0.297

0.412

0.554

0.676

0.872

0.989

1.344

P [2n (x)]

0.10

0.90

0.95

0.975

0.99

0.995

.0039

.015

2.706

3.841

5.024

6.635

7.879

0.103

0.211

4.605

5.991

7.378

9.210

10.597

0.216

0.352

0.584

6.251

7.815

9.348

11.345

12.838

0.484

0.711

1.064

7.779

9.488

11.143

13.277

14.860

0.831

1.145

1.610

9.236

11.070

12.832

15.086

16.750

1.237

1.635

2.204

10.645

12.592

14.449

16.812

18.548

1.239

1.690

2.167

2.833

12.017

14.067

16.013

18.475

20.278

1.647

2.180

2.733

3.490

13.362

15.507

17.535

20.090

21.955

1.735

2.088

2.700

3.325

4.168

14.684

16.919

19.023

21.666

23.589

10

2.156

2.558

3.247

3.940

4.865

15.987

18.307

20.483

23.209

25.188

11

2.603

3.053

3.816

4.575

5.578

17.275

19.675

21.920

24.725

26.757

12

3.074

3.571

4.404

5.226

6.304

18.549

21.026

23.337

26.217

28.300

13

3.565

4.107

5.009

5.892

7.041

19.812

22.362

24.736

27.688

29.819

14

4.075

4.660

5.629

6.571

7.790

21.064

23.685

26.119

29.141

31.319

15

4.601

5.229

6.262

7.261

8.547

22.307

24.996

27.488

30.578

32.801

16

5.142

5.812

6.908

7.962

9.312

23.542

26.296

28.845

32.000

34.267

17

5.697

6.408

7.564

8.672

10.085

24.769

27.587

30.191

33.409

35.718

18

6.265

7.015

8.231

9.390

10.865

25.989

28.869

31.526

34.805

37.156

19

6.844

7.633

8.907

10.117

11.651

27.204

30.144

32.852

36.191

38.582

20

7.434

8.260

9.591

10.851

12.443

28.412

31.410

34.170

37.566

39.997

21

8.034

8.897

10.283

11.591

13.240

29.615

32.671

35.479

38.932

41.401

22

8.643

9.542

19.982

12.338

14.041

30.813

33.924

36.781

40.289

42.796

23

9.260

10.196

11.689

13.091

14.848

32.007

35.172

38.076

41.638

44.181

24

9.886

10.856

12.401

13.848

15.659

33.196

36.415

39.364

42.980

45.558

25

10.520

11.524

13.120

14.611

16.473

34.382

37.652

40.646

44.314

46.928

26

11.160

12.198

13.844

15.379

17.292

35.563

38.885

41.923

45.642

48.290

27

11.808

12.878

14.573

16.151

18.114

36.741

40.113

43.195

46.963

49.645

28

12.461

13.565

15.308

16.928

18.939

37.916

41.337

44.461

48.278

50.994

29

13.121

14.256

16.047

17.708

19.768

39.087

42.557

45.722

49.588

52.335

30

13.787

14.953

16.791

18.493

20.599

40.256

43.773

46.979

50.892

53.672

32

15.134

16.362

18.291

20.072

22.271

42.585

46.194

49.480

53.486

56.328

34

16.501

17.789

19.806

21.664

23.952

44.903

48.602

51.966

56.061

58.964

36

17.887

19.233

21.336

23.269

25.643

47.212

50.998

54.437

58.619

61.581

38

19.289

20.691

22.878

24.884

27.343

49.513

53.384

56.895

61.162

64.181

40

20.707

22.164

24.433

26.509

29.051

51.805

55.758

59.342

63.691

66.766

45

24.311

25.901

28.366

30.612

33.350

57.505

61.656

65.410

69.957

73.166

50

27.991

29.707

32.357

34.764

37.689

63.167

67.505

71.420

76.154

79.490

60

35.534

37.485

40.482

43.188

46.459

74.397

79.082

83.298

88.379

91.952

70

43.275

45.442

48.758

51.739

55.329

85.527

90.531

95.023

100.425 104.215

80

51.172

53.140

57.153

60.391

64.278

96.578

101.879 106.629 112.329 116.321

90

59.196

61.754

65.647

69.126

73.291

107.565 113.145 118.136 124.116 128.299

100

67.328

70.065

74.222

77.929

82.358

118.498 124.342 129.561 135.807 140.170

127

BIBLIOGRAFIA

Anichini Giuseppe, Calcolo 4, Parte Prima, Elementi di calcolo delle probabilit`


a
e di inferenza statististica, Pitagora (Bologna), 1995.
Ross Sheldon M., Probabilit`
a e Statistica per LIngegneria e le scienze, Apogeo
(Milano), 2003.
Vicario Grazia, Raaello Levi, Calcolo delle probabilit`
a e statistica per ingegneri,
Esculapio (Bologna), 2000.
William Navidi, Probabilit`
a e statistica per lingegneria e le scienze, McGraw-Hill,
2006.

Ultime modifiche apportate il 16/4/2009

128