Sei sulla pagina 1di 127

Esercizi di Statistica con soluzioni

a cura di Giovanni M. Marchetti


con i docenti del corso di Statistica per i Corsi di Laurea
in Economia Aziendale ed Economia e Commercio di Firenze

Dipartimento di Statistica, Informatica, Applicazioni


Università di Firenze, 11 marzo 2021
2
Indice

1 Perché studiare la statistica? 3


1.1 Concetti fondamentali . . . . . . . . . . . . . . . . . . . . . . 3

2 Descrizione grafica dei dati 5


2.1 Concetti fondamentali . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Descrizione numerica dei dati 11


3.1 Concetti fondamentali . . . . . . . . . . . . . . . . . . . . . . 11
3.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4 Probabilità 21
4.1 Concetti fondamentali . . . . . . . . . . . . . . . . . . . . . . 21
4.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

5 Distribuzioni di variabili aleatorie discrete 31


5.1 Concetti fondamentali . . . . . . . . . . . . . . . . . . . . . . 31
5.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

6 Distribuzioni di variabili aleatorie continue 43


6.1 Concetti fondamentali . . . . . . . . . . . . . . . . . . . . . . 43
6.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

7 Campionamento e distribuzioni campionarie 49


7.1 Concetti fondamentali . . . . . . . . . . . . . . . . . . . . . . 49
7.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

8 Problemi di stima su una singola popolazione 53


8.1 Concetti fondamentali . . . . . . . . . . . . . . . . . . . . . . 53
8.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

i
ii I NDICE

9 Verifica di ipotesi su una singola popolazione 63


9.1 Concetti fondamentali . . . . . . . . . . . . . . . . . . . . . . 63
9.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

10 Soluzioni 73
Prefazione

Questa raccolta di esercizi riflette l’esperienza del corso di Statistica per i


Corsi di Laurea in Economia Aziendale ed Economia e Commercio dell’U-
niversità di Firenze. Il corso è basato sui capp. 1-8 e 10 del libro di testo
consigliato di Newbold, Carlson e Thorne (2014). Vari esercizi in questo
documento sono ispirati a quelli del libro di testo e a quelli generati col
sistema TestGen associato; si veda Newbold Carlson e Thorne (2010).

1
2 I NDICE
1

Perché studiare la statistica?

1.1 Concetti fondamentali


Unità, variabili, modalità I dati osservati sono in generale il risultato
delle seguenti operazioni: esiste un insieme di unità (persone, aziende,
famiglie, pezzi prodotti, etc.) su cui vengono osservate e misurate delle
caratteristiche utili.
L’insieme delle unità è di solito un campione, cioè un sottoinsieme di un
collettivo più grande che si chiama popolazione.
La Statistica in quanto scienza dei dati

• predispone la raccolta di dati mediante campioni o esperimenti

• analizza i dati con metodi opportuni riassumendoli in modo efficiente


ed rilevando gli aspetti essenziali e inaspettati (statistica descrittiva)

• specifica modelli e cerca di imparare dai dati come sono fatte le po-
polazioni da cui i dati provengono (statistica inferenziale) valutando
l’errore di campionamento.

3
4 1. P ERCH É STUDIARE LA STATISTICA ?
2

Descrizione grafica dei dati

2.1 Concetti fondamentali


Una variabile è il risultato dell’operazione di misurazione di una caratteri-
stica su ogni unità di osservazione.
Le unità sono indicate da un indice i = 1, . . . , n e la variabile è indicata
con X. Il valore che la variabile assume sull’unità iesima è indicato con xi .
La successione dei dati si indica con

x1 , . . . , xn , oppure con ( xi , i = 1, . . . , n)

I valori x che la variabile può in teoria assumere sono chiamati moda-


lità della variabile. Una frequenza di una modalità x di una variabile è il
numero di volte che x si presenta nella successione dei dati.

Classificazione delle variabili

Variabile Dati Esempi


qualitativa binari buono-difettoso, sano-malato
nominali gruppo sanguigno, religione, lingua
ordinali gravità di sintomi, livello di istruzione
quantitativa discreti numero di figli, numero di incidenti
continui durata di una chiamata, peso, temperatura

Distribuzione di frequenza Una distribuzione di frequenza è una tabella


in cui si fa corrispondere ad ogni modalità della variabile la sua frequenza.

5
6 2. D ESCRIZIONE GRAFICA DEI DATI

Per esempio con due modalità

X frequenza
x1 n1
x2 n2
Totale n

Diagrammi a barre e Istogrammi Sono rappresentazioni grafiche in coor-


dinate cartesiane

• diagramma a barre per variabili discrete. È basato su segmenti verticali


di lunghezza uguale alle frequenze

• istogramma per variabili continue. È basato su rettangoli affiancati


di area uguale alle frequenze e con base uguale all’intervallo definito
dalle classi(che devono essere contigue).

Distribuzioni doppie di frequenza Nella situazione in cui si hanno due


variabili X e Y definite in corrispondenza di due caratteristiche osservate
simultaneamente sulle unità si ha una successione di coppie di dati. Essa è
indicata con

( x1 , y1 ), · · · , ( xn , yn ) oppure (( xi , yi ), i = 1, . . . , n)

Se si indicano con x e y le modalità teoriche delle due variabili è possibile


classificare le unità in una tabella doppia di frequenze. Questo significa
per ogni coppia di modalità ( x, y) contare il numero di unità che hanno
esattamente X = x e Y = y. Questo numero è chiamato frequenza congiunta.
Per esempio, se X è il sesso e Y è il reddito mensile di 200 persone la
seguente è una distribuzione di frequenza congiunta di X e Y

y
x 1000 2000 3000 Totale
M 30 60 10 100
F 50 40 10 100
Totale 80 100 20 n = 200

Le frequenze totali di riga e di colonna si chiamano frequenze marginali e


definiscono la distribuzione di frequenza di X e di Y separatamente l’una
dall’altra.
2.2. E SERCIZI 7

Diagrammi di dispersione Quando si vuole rappresentare graficamente


una successione ( xi , yi ) di dati rilevati su una coppia di variabili quanti-
tative X e Y si usa il diagramma di dispersione o scatter. È un grafico in
coordinate cartesiane dei punti di coordinate ( xi , yi ). Dal grafico si vede la
relazione tra le due variabili.

2.2 Esercizi

Esercizio 2.1
Considera 20 nuclei famigliari. Per ciascuno rileviamo il numero di com-
ponenti a una certa data.

Numero di componenti: 1 3 2 5 4 2 2 3 3 2 3 4 4 3 2 7 4 3 3 1

Qual è l’unità statistica? Qual è la variabile? Quali sono le modalità della


variabile? La variabile di che tipo è? [→ Soluzione Es. 2.1]

Esercizio 2.2
Per i dati dell’esercizio precedente, costruisci la distribuzione di fre-
quenza. → Soluzione 2.2

Esercizio 2.3
Fare una rappresentazione grafica opportuna del numero di componen-
ti della famiglia. [→ Soluzione Es. 2.3]

Esercizio 2.4
Per 20 giorni ho registrato i minuti di ritardo del treno per arrivare da
Montecatini a Firenze:

28 5 4 12 17 12 14 5 4 4 11 8 4 26 17 6 0 19 8 38

Costruisci una distribuzione di frequenza con classi

0-9 10-19 20-29 30-39

Nota: le classi definiscono intervalli adiacenti senza spazi: per esempio la


classe 0-9 definisce l’intervallo [0, 10) chiuso a sinistra e aperto a destra. [→
Soluzione Es. 2.4]
8 2. D ESCRIZIONE GRAFICA DEI DATI

Esercizio 2.5
Nell’esempio precedente dire: qual è l’unità statistica? Qual è la varia-
bile? Quali sono le modalità della variabile? [→ Soluzione Es. 2.5]

Esercizio 2.6
In un’ora una libreria fa 20 scontrini per i seguenti importi in Euro:

10 13 13 18 18 18 19 19 20 20 20 20 22 22 23 24 24 25 26 27

Fate un istogramma con classi di ampiezza 5 Euro partendo da 10 Euro. [→


Soluzione Es. 2.6]

Esercizio 2.7
Il salario mensile (in Euro) di un campione di 1800 lavoratori è distri-
buito come segue.

Classi di reddito Frequenze


[0, 500) 100
[500, 1000) 200
[1000, 2000) 500
[2000, 4000) 600
[4000, 8000) 400
Totale 1800

Volendo disegnare l’istogramma in modo che le aree dei rettangoli siano


uguali alle frequenze, come calcolate le altezze dei rettangoli? [→ Soluzio-
ne Es. 2.7]

Esercizio 2.8
Il diagramma a barre è comunemente utilizzato per descrivere dati qua-
litativi. Vero o Falso?

Esercizio 2.9
In una ricerca di marketing, ai consumatori è stato dato uno fra 4 mar-
che di detersivo per lavastoviglie ed è stato chiesto di usarlo per un mese.
Allo scadere del periodo è stato chiesto un giudizio sul detersivo utilizzato
in termini di qualità complessiva. I risultati sono i seguenti.
2.2. E SERCIZI 9

Giudizio
Marca Mediocre Medio Discreto Buono Totale
a 5 17 11 10 43
b 14 26 8 18 66
c 10 23 11 17 61
d 11 19 7 5 42
Totale 40 85 37 50 212

Qual è la proporzione di consumatori che ha valutato il proprio detersivo


discreto o buono? [→ Soluzione Es. 2.9]

A: 0.39 B: 0.49 C: 0.29 D: 0.41

Esercizio 2.10
Stessa tabella: qual è la proporzione di consumatori che ha valutato il
detersivo ‘Buono‘ e aveva la marca ‘a‘? [→ Soluzione Es. 2.10]

Esercizio 2.11
Stessa tabella: tra i consumatori che hanno usato la marca ‘d‘ qual è la
proporzione che ha dato un giudizio ‘Mediocre‘? [→ Soluzione Es. 2.11]

Esercizio 2.12
Rappresentare graficamente le seguenti quotazioni del titolo Enel a Feb-
braio 2020. [→ Soluzione Es. 2.12]

Data 18 20 24 26 28
Euro 8.47 8.43 8.03 7.96 7.58

Esercizio 2.13
Considera la seguente distribuzione di frequenza dell’età di un certo
numero di case.
Età Frequenze cumulate
10 10
20 40
30 80
40 140
50 240
60 320
10 2. D ESCRIZIONE GRAFICA DEI DATI

(a) Qual’è la proporzione di case che hanno al massimo 40 anni? (b) Qual
è la proporzione di case che hanno almeno 50 anni? (c) Trova le frequenze
assolute. [→ Soluzione Es. 2.13]
3

Descrizione numerica dei dati

3.1 Concetti fondamentali


Indici riassuntivi I dati possono essere sintetizzati da un numero ridotto
di indici che descrivono certe proprietà della distribuzione. Per le variabili
quantitative ha senso misurare

• un valore centrale (media, mediana)

• la variabilità dei dati (varianza, deviazione standard, scarto interquar-


tile)

• la simmetria o asimmetria della distribuzione.

Inoltre se si rilevano due variabili quantitative X e Y è estremamente utile


definire degli indici che misurano

• la forza di associazione tra le variabili (correlazione lineare)

• di quanto varia una variabile Y se varia X (retta dei minimi quadrati)

Valori centrali

• La media si ottiene equiripartendo tra le unità il totale dei dati. Per


una successione di dati ( xi , i = 1, . . . , n) essa è definita da

1
media = ( x1 + · · · + x n ).
n
Viene indicata con x nel campione e µ nella popolazione.

11
12 3. D ESCRIZIONE NUMERICA DEI DATI

• La mediana è un valore Me tale che la metà dei dati è inferiore a Me e


l’altra metà è superiore a Me. Per una successione di dati è calcolato
creando prima la successione ordinata. Quindi, se i dati sono in numero
dispari definendo Me come il valore centrale, se i dati sono in numero
pari definendo Me come la semisomma dei due valori centrali.

Variabilità

• La varianza è un indice sempre positivo che misura la variabilità dei


dati rispetto alla media. Si calcola per una successione con

( x1 − x )2 + · · · + ( x i − x )2
varianza = .
n−1

Si indica con s2 nel campione e σ2 nella popolazione.

• La deviazione standard è la radice quadrata della varianza ed è più co-


moda da interpretare perché ha la stessa unità di misura della variabile.

• Il coefficiente di variazione è utile per confrontare la variabilità in due


diverse distribuzioni di frequenza anche con unità di misura diver-
se. Si calcola come rapporto tra la deviazione standard e la media,
tipicamente per variabili che assumono solo valori positivi. Pertanto
l’indice non ha unità di misura e si può usare per confronti.

Indici di variabilità basati sui dati ordinati Da una successione di dati


( xi ) otteniamo una successione ordinata xei . Da questa successione ordinata
si calcolano

• il campo di variazione: xen − xe1 cioè la differenza tra il massimo e il


minimo.

• la differenza interquartile: Q3 − Q1 cioè la differenza tra il terzo quartile


e il primo quartile. Se n è pari, Q1 è la mediana della prima metà dei
valori xei , i = 1, . . . , n/2, mentre Q3 è la mediana della seconda metà
dei valori xei , i = n/2, . . . , n.

Asimmetria Per valutare la simmetria o asimmetria nei dati occorre stu-


diare la rappresentazione grafica della sua distribuzione di frequenza. I
grafici seguenti spiegano alcuni casi fondamentali.
3.1. C ONCETTI FONDAMENTALI 13

Asimmetria negativa Simmetria 0.4


Asimmetria positiva
0.30 0.25

0.25 0.20 0.3


0.20
0.15
0.15 0.2
0.10
0.10
0.1
0.05 0.05

0.00 0.00 0.0

0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10

x x x
Asimmetria negativa Simmetria Asimmetria positiva
2.0 3.5
1.0 3.0
1.5 2.5
0.9 2.0
1.0
1.5
0.8
1.0
0.5
0.7 0.5
0.0 0.0

0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10

x x x

La differenza tra media e mediana dà un’indicazione sulla simmetria o


meno della distribuzione.

• Se la distribuzione è simmetrica media e mediana sono uguali

• Se la distribuzione è asimmetrica positivamente la media è maggiore


della mediana

• Se la distribuzione è asimmetrica negativamente la media è minore


della mediana.

Proporzione di dati in un intorno della media In ogni distribuzione di fre-


quenza la proporzione di dati nell’intervallo µ ± kσ è come minimo uguale
a 1 − 1/k2 . Questo risultato è chiamato disuguaglianza di Chebyshev. Per
esempio:
Intervallo Proporzione
µ ± 2σ ≥ 1 − 1/4 = 0.75
µ ± 3σ ≥ 1 − 1/9 = 0.89

Associazione tra due variabili In questo caso le variabili sono considera-


te sullo stesso piano.

• La covarianza tra due variabili X e Y è

( x1 − x )(y1 − y) + · · · + ( xn − x )(yn − y)
cov( X, Y ) =
n−1
14 3. D ESCRIZIONE NUMERICA DEI DATI

– Se è positiva significa che valori sopra la media di X tendono a


corrispondere valori sopra la media di Y. Inoltre a valori sotto la
media di X tendono a corrispondere valori sotto la media di Y.
– Se è negativa significa che a valori sopra la media di X tendono a
corrispondere valori sotto la media di Y. Inoltre a valori sotto la
media di X tendono a corrispondere valori sopra la media di Y.

• Il coefficiente di correlazione lineare è la covarianza divisa per il prodotto


delle deviazioni standard di X e di Y:
cov( X, Y )
corr( X, Y ) = r = .
s X sY
Questo consente di avere un indice sempre compreso tra −1 e 1. L’in-
terpretazione è analoga a quella della covarianza, ma il valore del
coefficiente di correlazione evidenza la forza dell’associazione lineare.

negativa r = −1 −1 < r ≤ −0.5 −0.5 < r ≤ −0.2 −0.2 < r ≤ 0


significato esatta forte debole nulla

positiva 0 ≤ r < 0.2 0.2 ≤ r < 0.5 0.5 ≤ r < 1 r=1


significato nulla debole forte esatta

Se il coefficiente di correlazione è 1 o −1 la relazione tra X e Y è esat-


tamente lineare. Se r = 0 la relazione lineare non esiste e si dice che
le variabili sono incorrelate. In questo caso non è detto che le variabili
siano indipendenti.

Relazioni lineari In questo caso le varianili non sono sullo stesso piano,
ma Y è una variabile che si vuole predire e X è una variabile che si usa per
fare la previsione. Y si chiama variabile dipendente e X variabile esplicativa.
Per esempio si vuole prevedere la quantità venduta Y a seconda del prezzo
X.

• Data una successione doppia ( xi , yi ), i = 1, . . . , n rappresentata su


uno scatter, si vuole prevedere Y usando una funzione lineare y =
b0 + b1 x. Si scelgono l’intercetta b0 e la pendenza b1 usando la retta dei
minimi quadrati. Essa è la retta y = b0 + b1 x che rende minimo l’errore
di previsione

[y1 − (b0 + b1 xn )]2 + · · · [yn − (b0 + b1 xn )]2 .


3.2. E SERCIZI 15

• La retta dei minimi quadrati ha pendenza e intercetta definite da


sY
b1 = r , b0 = y − b1 x
sX

3.2 Esercizi

Esercizio 3.1
Le temperature in gradi Celsius in una certa località a mezzogiorno in 7
giorni sono state
12.1 14.5 9.7 8.1 13.0 12.5 10.5
Calcola la media e la mediana. [→ Soluzione Es. 3.1]

Esercizio 3.2
La popolazione delle prime 10 città americane in milioni è la seguente.
New York (New York) 9.21
Los Angeles (California) 4.05
Chicago (Illinois) 2.83
Houston (Texas) 2.01
Phoenix (Arizona) 1.55
Filadelfia 1.45
Dallas (Texas) 1.31
San Diego (California) 1.30
San Antonio (Texas) 1.24
San Jose (California) 0.94
Calcolare la popolazione media e la popolazione mediana. Quale indice è
migliore? [→ Soluzione Es. 3.2]

Esercizio 3.3
La distribuzione di 520 studenti per numero di esami superati è
Esami Studenti
0 50
1 100
2 160
3 120
4 80
5 10
16 3. D ESCRIZIONE NUMERICA DEI DATI

(a) Calcolare le frequenze relative.

(b) Calcolare il numero medio di esami superati

(c) Calcolare la mediana del numero di esami.

[→ Soluzione Es. 3.3]

Esercizio 3.4
Il voto di laurea di 5 studenti di Lettere è

110 109 108 110 110

Il voto di laurea di 5 studenti di Economia è

90 98 110 105 102

C’è maggiore variabilità di voto a Economia o a Lettere? Giustificare calco-


lando le varianze del voto e le deviazioni standard. [→ Soluzione Es. 3.4]

Esercizio 3.5
Considera la distribuzione di 100 studenti secondo il voto di laurea

Voto Frequenza
98 1
99 4
100 25
101 40
102 25
103 4
104 1

(a) Mostrate che la media e la mediana sono uguali a 101. Verificate che
la deviazione standard è di 1 punto.

(b) Calcolate la frequenza relativa di studenti che hanno preso un voto


compreso tra 101 - 2 = 99 e 101 + 2 = 103. Secondo la disuguaglianza
di Chebyshev questa frequenza relativa quanto dovrebbe essere?

[→ Soluzione Es. 3.5]


3.2. E SERCIZI 17

Esercizio 3.6
Un campione casuale di dati ha media 68 e varianza 64. Utilizza la di-
suguaglianza di Chebychev per determinare la percentuale di osservazioni
tra 52 e 84. [→ Soluzione Es. 3.6]

Esercizio 3.7
Si considerino due investimenti con lo stesso tasso di rendimento atteso.
Negli ultimi mesi l’investimento A ha avuto un prezzo medio di chiusura
di 14.00 e una deviazione standard di 4.00. L’investimento B un prezzo
medio di chiusura di 58.00 e una deviazione standard di 15.00. Il valore di
mercato dell’investimento A ha una variabilità relativa maggiore di quello
dell’investmento B. Vero o Falso? [→ Soluzione Es. 3.7]

Esercizio 3.8
Su 4 famiglie di 2 componenti misuriamo il reddito di Febbraio X e le
relative spese per riscaldamento Y.

X: 1500 1700 1400 1600


Y: 200 350 150 300

(a) Fare lo scatter. (b) Calcolare il coefficiente di correlazione e interpretarlo.


[→ Soluzione Es. 3.8]

Esercizio 3.9
Rappresentate la relazione tra spesa e reddito con la retta dei minimi
quadrati. [→ Soluzione Es. 3.9]

Esercizio 3.10
Vero o Falso? Se X e Y sono due variabili con var( X ) = 3.25, var(Y ) =
5.8, cov( X, Y ) = 14.703 allora il coefficiente di correlazione è 0.78. Giustifi-
care. [→ Soluzione Es. 3.10]

Esercizio 3.11
Quale delle seguenti affermazioni è vera?

A) La covarianza è sempre maggiore del coefficiente di correlazione.

B) La covarianza può essere uguale al coefficiente di correlazione.


18 3. D ESCRIZIONE NUMERICA DEI DATI

C) Né la covarianza né il coefficiente di correlazione possono essere pari


a zero.

D) Il coefficiente di correlazione è sempre più grande della covarianza.

[→ Soluzione Es. 3.11]

Esercizio 3.12
Il coefficiente di correlazione lineare è sempre compreso nell’intervallo
[0, 1]. Vero o Falso? [→ Soluzione Es. 3.12]

Esercizio 3.13
Sia dato lo scatter seguente.
44
40
36

24 26 28 30 32 34

Quale tra i valori seguenti potrebbe essere il coefficiente di correlazione


lineare tra le due variabili?

A) −0.8 B) 0.0 C) −0.3 D) −1.

[→ Soluzione Es. 3.13]

* Esercizio 3.14
Di seguito un campione casuale di undici coppie ( xi , yi ).

(18, 36)(12, 24)(2, 4)(10, 20)(7, 14)(14, 28)(8, 16)(4, 8)(6, 12)(13, 26)(5, 10).

(a) Calcola la covarianza. (b) Calcola il coefficiente di correlazione. [→


Soluzione Es. 3.14]

Esercizio 3.15
3.2. E SERCIZI 19

Considerate i 4 insiemi di dati seguenti


u : 1, 1, 1, 1, 8, 8, 8, 8
v : 1, 2, 3, 4, 5, 6, 7, 8
x : −6, −3, 0, 3, 6, 9, 12, 15
y : 1, 1, 4, 4, 5, 5, 8, 8
I quattro insiemi hanno la stessa media. Senza fare i calcoli ordinate i 4
insiemi a seconda della varianza da quello che ha minor varianza a quello
che ha la maggior varianza.
A)v, y, u, x
B) x, u, y, v
C ) x, y, u, v
D )u, y, v, x
[→ Soluzione Es. 3.15]

Esercizio 3.16
In un negozio di Singapore vengono rilevati i prezzi (in dollari del 1992)
di 48 anelli con diamante e i rispettivi carati dei diamanti. Nella figura
seguente potete vedere lo scatter bidimensionale.
1000
prezzo

600
0 200

0.0 0.1 0.2 0.3 0.4

carati

Si conoscono gli indici statistici seguenti

prezzo carati
media 500$ 0.2
deviazione standard 213.6$, 0.0568
correlazione 0.989
20 3. D ESCRIZIONE NUMERICA DEI DATI

(a) Trovare la retta dei minimi quadrati (arr. 1 decimale)


(b) Interpretare il coefficiente angolare
(c) L’intercetta è positiva o negativa ?
(d) Se i carati sono pari a 0.2 qual è il prezzo che vi attendete?
(e) Se i carati sono 0.3 qual è il prezzo che vi attendete?.
[→ Soluzione Es. 3.16]
4

Probabilità

4.1 Concetti fondamentali


Questo capitolo è abbastanza denso e richiede tempo per assimilare tutti i
concetti.

1. Esperimenti aleatori, Eventi elementari, eventi

2. Probabilità (classica e frequentista), concetti ed esempi di calcolo

3. Probabilità condizionata e indipendenza di eventi

4. Formula di Bayes

Terminologia e risultati

• Un esperimento aleatorio è un esperimento con un certo numero di even-


ti elementari possibili ciascuno dei quali può capitare, ma il risultato è
incerto

• Un evento è un insieme di eventi elementari specificati. Un evento si


verifica quando si verifica uno dei suoi eventi elementari.

• La probabilità di un evento A è una misura P( A) dell’incertezza asso-


ciata al verificarsi di tale evento.

Gli eventi si comportano e si combinano fra loro come insiemi. Si di-


stinguono:

• L’evento certo S che si verifica sempre

21
22 4. P ROBABILIT À

• L’evento impossibile ∅ che non si verifica mai

• L’evento A ∪ B unione di due eventi A e B che si verifica se si verifica


l’uno, l’altro o entrambi

• L’evento A ∩ B intersezione di A e B che si verifica se si verificano


entrambi

• L’evento complementare A di un evento A che si verifica se A non si


verifica.

• Due eventi incompatibili o mutuamente esclusivi per cui l’intersezione è


impossibile: A ∩ B = ∅

• Due eventi esaustivi la cui unione è l’evento certo: A ∪ B = S

• Se A è un evento incluso in un evento B allora se A se verifica anche


B si verifica.

• Se A è un evento la sua probabilità è 0 ≤ P( A) ≤ 1

• Se A è l’evento certo P( A) = 1

• Se A è l’evento impossibile P( A) = 0

• Se A è incluso in B P( A) ≤ P( B).

• Se A e B sono mutuamente esclusivi P( A ∪ B) = P( A) + P( B)

• P( A) = 1 − P( A)

• P( A ∪ B) = P( A) + P( B) − P( A ∩ B)

• Regola di de Morgan

P( A ∩ B) = P( A ∪ B) = 1 − P( A ∪ B)

(probabilità che non si verifichi né A né B)

• Probabilità classica: se ogni evento elementare ha a priori la stessa


probabilità
n. esiti favorevoli
P( A) = .
n.esiti possibili
4.1. C ONCETTI FONDAMENTALI 23

• Combinazioni: Il numero di combinazioni di n oggetti di classe k è


n · ( n − 1) · · · ( n − k + 1)
 
n
=
k n!

• Il numero di tutti i possibili sottoinsiemi di k elementi di un insieme


di n > k elementi è (nk).
• Probabilità condizionata: è la probabilità P( A | B) di un evento A sup-
ponendo che si sia verificato un evento B. Vale la relazione seguente
P( A | B) = P( A ∩ B)/P( B)
Vale anche la relazione invertita
P ( A ∩ B ) = P ( A ∩ B ) P ( B ).

• Due eventi si dicono indipendenti se P( A | B) = P( A) ovvero se P( A ∩


B ) = P ( A ) P ( B ).
• Tavole di probabilità: Se A e B sono due eventi si definisce la tabella
seguente
B B
A P( A ∩ B) P( A ∩ B) P( A)
A P( A ∩ B) P( A ∩ B) P( A)
P( B) P( B) 1

• Se A e B sono indipendenti

B B
A P( A) P( B) P( A) P( B) P( A)
A P( A) P( B) P( A) P( B) P( A)
P( B) P( B) 1

• Formula delle probabilità totali: Sostituendo nella tavola P( A ∩ B) =


P( A | B) P( B) etc.
B B
A P( A | B) P( B) P( A | B) P( B) P( A)
A P( A | B) P( B) P( A | B) P( B) P( A)
P( B) P( B) 1
e quindi
P( A) = P( A | B) P( B) + P( A | B) P( B)
24 4. P ROBABILIT À

• Formula di Bayes: Se B e B sono due ipotesi esaustive e disgiunte (sa-


no, malato) e A è un sintomo (risulta positivo a un test diagnostico)
la formula permette di calcolare la probabilità dell’ipotesi B dato A
usando P( A | B):
P( A | B) P( B)
P( B | A) =
P( A | B) P( B) + P( A | B) P( B)
P( B) è la probabilità iniziale di B, P( B | A) è la probabilità finale
aggiornata dopo aver visto il sintomo.

4.2 Esercizi

Esercizio 4.1
Supponiamo di lanciare due dadi e si consideri la somma dei punti dei due
dadi. Sia A l’evento ‘si osserva un numero pari’ e B l’evento ‘si osserva un
numero maggiore di 7’. Cos’è A ∪ B?
A) {2, 3, 4, 5, 6, 7}
B) {2, 4, 6}
C) {2, 3, 4, 5, 6, 7, 9, 11}
D) {3, 5, 7}
[→ Soluzione Es. 4.1]

Esercizio 4.2
La probabilità dell’intersezione di due eventi non può essere superiore
alla somma delle loro probabilità. Vero o Falso? [→ Soluzione Es. 4.2]

Esercizio 4.3
Dati due eventi A e B, se almeno uno di loro è necessariamente vero si
dice che A e B sono collettivamente esaustivi. Vero o Falso? [→ Soluzione
Es. 4.3]

Esercizio 4.4
Una classe di studenti di Statistica è formata da 200 persone di cui 120
sono femmine. Ci sono 60 maschi che provengono da Ragioneria. Ci sono
in totale 90 studenti che non hanno fatto Ragioneria.
Supponiamo di estrarre a caso uno studente. Trovate:
4.2. E SERCIZI 25

• la probabilità di selezionare una femmina

• la probabilità di selezionare un maschio

• la probabilità di selezionare una persona che non ha fatto Ragioneria

• la probabilità di selezionare una femmina che ha fatto Ragioneria

• la probabilità di selezionare o una femmina o una persona che ha fatto


Ragioneria.

Suggerimento:

Sesso
Scuola Maschio Femmina Totale
Ragioneria 60 * *
Altra * * 90
Totale 120 200

[→ Soluzione Es. 4.4]

Esercizio 4.5
Una tavola con due righe, A1 e A2 , e due colonne, B1 and B2 , riporta le
seguenti probabilità congiunte:

P( A1 ∩ B1 ) = 0.10, P( A1 ∩ B2 ) = 0.30, P( A2 ∩ B1 ) = 0.05, P( A2 ∩ B2 ) = 0.55.

Quanto vale P( B1 )?

A) 0.15

B) 0.60

C) 0.40

D) 0.85

[→ Soluzione Es. 4.5]

Esercizio 4.6
In un’indagine recente, i rispondenti sono stati classificati rispetto al
sesso, lo stato civile e l’area geografica di residenza. I dati sono sintetizzati
nella seguente tabella (nella quale M è usato per indicare il sesso maschile
e F per indicare il sesso femminile):
26 4. P ROBABILIT À

Single Sposato
Area M F M F Totale
Nord-est 12 17 22 10 61
Nord-ovest 31 26 7 23 87
Centro 45 33 52 38 168
Sud 34 19 18 13 84
Totale 122 95 99 84 400

Qual è la proporzione di rispondenti non sposati?

A) 0.543

B) 0.510

C) 0.620

D) 0.305

[→ Soluzione Es. 4.6]

Esercizio 4.7
Supponiamo che in una partita di calcio la probabilità che vinca la squa-
dra di casa sia 0.5 e la probabilità che vinca la squadra ospite sia 0.2. Qual
è la probabilità di pareggio? [→ Soluzione Es. 4.7]

Esercizio 4.8
In una recente indagine sulla fiducia dei consumatori, 160 rispondenti
sono stati classificati in base al loro livello di fiducia e al loro titolo di studio:

Titolo di studio
Fiducia Diploma Laurea Master
Bassa 13 17 15
Media 27 22 13
Alta 32 14 7

Supponiamo di estrarre a caso un consumatore: gli eventi ‘ha un master’ e


‘ha un alto livello di fiducia’ sono statisticamente indipendenti?

A) No.

B) Forse.

C) Sı̀.
4.2. E SERCIZI 27

D) Non ci sono sufficienti informazioni per rispondere.


[→ Soluzione Es. 4.8]

Esercizio 4.9
Una squadra di operai edili deve essere composta da due muratori e
da quattro manovali, scelti da un totale di cinque muratori e di sei mano-
vali. Le selezioni dei muratori e dei manovali sono indipendenti. Quante
diverse combinazioni sono possibili? [→ Soluzione Es. 4.9]

Esercizio 4.10
Da un mazzo di carte (da 52) si pescano a caso 2 carte. Calcolare con la
regola classica la probabilità che siano due assi. Suggerimento: quanti sono
i casi possibili = numero di eventi elementari? Quanti sono i casi favorevoli
= numero di eventi elementari componenti l’evento “2 assi”?
Nota. L’evento elementare è la coppia non ordinata di carte. Il nume-
ro di coppie (non ordinate) possibili prese da N oggetti sono N ( N − 1)/2.
Queste si chiamano anche combinazioni di N oggetti di classe 2. Per esem-
pio il numero di coppie prese da tre oggetti { a, b, c} sono { a, b}, { a, c} e
{b, c}. Infatti se N = 3, N ( N − 1)/2 = 3. Notare che { a, b} = {b, a}, e
l’ordine non conta. [→ Soluzione Es. 4.10]

Esercizio 4.11
In un certo gruppo di persone la probabilità di estrarre casualmente
una persona che fumi oppure che sia maschio è 0.7. Qual è la probabilità di
estrarre una persona che sia una femmina e non fumi?
Nota. Definiamo gli eventi A = ‘la persona è maschio’ e B = ‘la persona
fuma’. L’evento ‘la persona fuma oppure è un maschio’ si denota con A ∪ B.
L’evento: ‘la persona è una una femmina e non fuma’ è A ∩ B = A ∪ B.
Questa è una legge logica detta di de Morgan. Se diciamo: “non voglio
né questo né quello” è come dire: “(non voglio questo) e (non voglio quel-
lo)”. Ma significa anche: “non voglio (questo oppure quello) = non voglio
(questo solo, quello solo, entrambi)”. [→ Soluzione Es. 4.11]

Esercizio 4.12
Un analista finanziario fornisce le stime dell’utile di un’azienda nel pros-
simo anno, considerando anche il tasso di interesse. Eccole.
Utile
Tasso di interesse <8% da 8% a 12% > 12%
28 4. P ROBABILIT À

< 3% 0.09 0.15 0.16


da 4% a 5% 0.14 0.17 0.05
> 5% 0.16 0.07 0.01

Qual è la probabilità che l’azienda realizzi un utile di almeno l’8%? [→


Soluzione Es. 4.12]

Esercizio 4.13
La probabilità dell’intersezione tra due eventi A e B non può essere
maggiore né della probabilità di A né della probabilità di B. Vero o falso?
[→ Soluzione Es. 4.13]

Esercizio 4.14
Una recente indagine ha rivelato che il 14% delle segretarie ha dolore
al polso. Inoltre, il 6% delle segretarie intervistate ha dolore al polso e al
tempo stesso assume regolarmente un farmaco antinfiammatorio. Qual è la
probabilità che una segretaria che ha dolore al polso assuma regolarmente
un farmaco antinfiammatorio? [→ Soluzione Es. 4.14]

Esercizio 4.15
Si abbia una popolazione di 10 oggetti. Si estraggano senza ripetizione
tutti i possibili campioni non ordinati di dimensione 4. Quanti campioni
fanno parte dello spazio campionario? [→ Soluzione Es. 4.15]

Esercizio 4.16
La tabella seguente riporta le probabilità congiunte di un insieme di
nuove aziende che operano nel settore del commercio via internet, classifi-
cate per regione di ubicazione e prospettiva di crescita.

Crescita Nord-Est Sud Centro Nord-Ovest


Bassa 0.04 0.12 0.14 0.19
Media 0.05 0.08 0.06 0.12
Alta 0.03 0.05 0.08 0.04

Se l’azienda ha una crescita attesa media o alta, qual è la probabilità che sia
ubicata nel Nord-Ovest?

A) 0.16 B) 0.31 C) 0.27 D) 0.46

[→ Soluzione Es. 4.16]


4.2. E SERCIZI 29

* Esercizio 4.17
Un negozio di computer ha ricevuto una fornitura di 14 computer, 5
dei quali con modem già istallato. Sfortunatamente sulle scatole mancano
le etichette per distinguere i computer con modem dagli altri. Supponi di
scegliere casualmente 4 computer. Qual è la probabilità che esattamente 2
di essi siano provvisti di modem?

A) 0.3012 B) 0.3704 C) 0.3596 D) 0.3288

[→ Soluzione Es. 4.17]

Esercizio 4.18
In un recente sondaggio sul sindaco di un certa città, il 62% dei rispon-
denti ha fiducia nel sindaco. Le donne costituiscono il 53% del campione,
e tra queste il 46% ha fiducia nel sindaco. Si seleziona a caso una persona
tra quelle intervistate. Qual è la probabilità che la persona selezionata sia
maschio ? [→ Soluzione Es. 4.18]

Esercizio 4.19
Supponiamo di lanciare due dadi. Si consideri la somma dei due da-
di: sia A l’evento ‘si osserva un numero pari’ e B l’evento ‘si osserva un
numero maggiore di 7’. Quale delle seguenti affermazioni è vera?

A) Gli eventi A e B sono mutuamente esclusivi.

B) L’intersezione tra A e B è l’insieme [6, 8, 10, 12].

C) Gli eventi A e B sono collettivamente esaustivi.

D) Nessuna delle precedenti.

[→ Soluzione Es. 4.19]

Esercizio 4.20
La probabilità di passare lo scritto di Statistica è il 50%. La probabilità
di passare l’esame orale dato che si è superato lo scritto è il 98%. Qual è la
probabilità di passare l’esame? [→ Soluzione Es. 4.20]

* Esercizio 4.21
In una popolazione ci sono il 50% di maschi e il 50% di femmine. Sup-
poniamo che il 5% degli uomini e il 10% delle donne siano daltonici (non
30 4. P ROBABILIT À

riconoscono i colori). Si sceglie a caso una persona daltonica. Qual è la


probabilità che sia un maschio? [→ Soluzione Es. 4.21]

Esercizio 4.22
Se in una certa prova si ha che dato un evento A, P( A) = 0.7 può
accadere che per un’altro evento B P( A ∪ B) = 0.5?
A) Solo se A e B sono eventi incompatibili
B) Solo se B=∅
C) Sı̀ è possibile
D) No mai
[→ Soluzione Es. 4.22]

Esercizio 4.23
Quale delle seguenti affermazioni è sempre vera per qualsiasi coppia di
eventi A e B definiti in uno spazio degli eventi elementari S?
A) Se l’unione degli eventi A e B è l’insieme vuoto, allora sia A che B
sono insiemi vuoti.
B) Se gli eventi A e B sono collettivamente esaustivi, allora A ∪ B = ∅.
C) Se l’intersezione degli eventi A e B è l’insieme vuoto, allora A e B
sono collettivamente esaustivi.
D) Se gli eventi A e B sono mutuamente esclusivi e collettivamente esau-
stivi, allora l’unione di A e B non è necessariamente uguale a S.
[→ Soluzione Es. 4.23]

Esercizio 4.24
Se in una certa prova si ha che P( A) = 0.7 può accadere che P( A ∪ B) =
0.5?
A) Solo se A e B sono eventi incompatibili
B) Solo se B = ∅
C) Sı̀ è possibile
D) No mai
[→ Soluzione Es. 4.24]
5

Distribuzioni di variabili
aleatorie discrete

5.1 Concetti fondamentali


Le variabili aleatorie discrete sono una generalizzazione delle variabili sta-
tistiche discrete. Gli argomenti base sono i seguenti.

Definizioni base

• Una variabile aleatoria discreta X con modalità x è definita dalla funzio-


ne di probabilità1
p( x ) = P( X = x )

dove x prende i valori delle modalità possibili di X. La funzione p( x )


ha le proprietà
p( x ) ≥ 0 e ∑ p( x ) = 1.
x

• La funzione di ripartizione di X è la distribuzione delle probabilità cu-


mulate.

• Il valore atteso di X è la media di X

E( X ) = µ X = ∑ xp(x).
x
1 Il
libro la indica con P( x ) ma io preferisco la notazione standard p( x ) per distinguerla
dalla probabilità di un evento.

31
32 5. D ISTRIBUZIONI DI VARIABILI ALEATORIE DISCRETE

• La varianza di X è

var( X ) = σX2 = ∑ ( x − µ X )2 p ( x ).
x

• La varianza si può calcolare anche con la formula alternativa

var( X ) = E( X 2 ) − E( X )2 = ∑ x2 p(x) − µ2X .


x

p
• La deviazione standard è σX = var( X ).

• Il valore atteso e la varianza hanno le proprietà fondamentali:

E( a + bX ) = a + bE( X ), var( a + bX ) = b2 var( X ).

Bernoulli e Binomiale

• Una prova di Bernoulli è un esperimento che produce due soli possibili


risultati: successo e insuccesso.

• La variabile aleatoria di Bernoulli è una variabile X che vale 1 (successo)


con probabilità p e 0 (insuccesso) con probabilità 1 − p. Ha funzione
di probabilità
x 0 1 Totale
p( x ) 1 − p p 1

dove p è detta probabilità di successo.

• La v.a. di Bernoulli ha media e varianza

µ = p, σ2 = p(1 − p) = pq.

• Una successione di prove di Bernoulli indipendenti e identiche è una una


successione di prove di Bernoulli indipendenti l’una dall’altra e con
la stessa probabilità di successo.

• Il numero di successi S in una successione di prove di Bernoulli in-


dipendenti e identiche è S = X1 + X2 + · · · + Xn dove le Xi sono
Bernoulli indipendenti tutte con probabilità di successo p.
5.1. C ONCETTI FONDAMENTALI 33

• Distribuzione del numero di successi: S è una variabile aleatoria detta


Binomiale che assume valori s = 0, 1, . . . , n e probabilità
 
n s
p(s) = p (1 − p ) n − s
s

Si scrive S ∼ Bi (n, p) dove n e p sono i parametri della distribuzione


Binomiale.

• La media e la varianza della Binomiale sono

E(S) = np, var(S) = np(1 − p).

Distribuzioni congiunte di due variabili aleatorie

• Date due variabili aleatorie X e Y discrete con modalità ( x, y) la fun-


zione di probabilità congiunta è definita da

p( x, y) = P( X = x ∩ Y = y), per ogni coppia possibile ( x, y)

con le due proprietà

p( x, y) ≥ 0 e ∑ p( x, y) = 1.
( x,y)

• Le funzioni di probabilità marginale di X e di Y sono

p( x ) = ∑ p(x, y), p(y) = ∑ p(x, y).


y x

• le funzioni di probabilità condizionata sono

p( x, y) p( x, y)
p(y| x ) = , p( x |y) = .
p( x ) p(y)

• L’indipendenza di X e Y si ha se

p( x, y) = p( x ) p(y) per ogni ( x, y).

• La covarianza tra X e Y è

cov( X, Y ) = ∑(x − µX )(y − µY ) p(x, y).


x,y
34 5. D ISTRIBUZIONI DI VARIABILI ALEATORIE DISCRETE

• La covarianza si può calcolare anche con la formula alternativa

cov( X, Y ) = E( XY ) − E( X ) E(Y ) = ∑ xy p(x, y) − µX µY .


x,y

• Il coefficiente di correlazione è
cov( X, Y )
corr( X, Y ) = .
σX σY

• Se X e Y sono indipendenti corr( X, Y ) = 0

• Se corr( X, Y ) = 0, X e Y sono dette incorrelate. Questa condizione è


molto più debole dell’indipendenza.

• Se corr( X, Y ) = 1 X e Y sono legate da una relazione lineare Y =


a + bX con b > 0.

• Se corr( X, Y ) = −1 X e Y sono legate da una relazione lineare Y =


a + bX con b < 0.

Varianza di una somma di variabili aleatoria

• La somma di due variabili T = X + Y è una variabile aleatoria. La


sua media e la sua varianza sono

µ X +Y = µ X + µ Y , σX2 +Y = σX2 + σY2 + 2cov( X, Y ).

• Se X e Y sono incorrelate la varianza e la deviazione standard di T =


X + Y sono
q
σX2 +Y = σX2 + σY2 , σX +Y = σX2 + σY2 .

• Il valore atteso e la varianza di T = aX + bY sono

µ T = aµ X + bµY , σT2 = a2 σX2 + b2 σY2 + 2ab σXY .

5.2 Esercizi

Esercizio 5.1
Considera la seguente distribuzione di probabilità.
5.2. E SERCIZI 35

Modalitˋa Probabilitˋa % Prob. Cumulata %


1 4 4
2 60 64
3 16 80
4 * 92
5 4 96
6 * 100

Calcola le probabilità mancanti e il valore atteso. [→ Soluzione Es. 5.1]

Esercizio 5.2
Data la seguente distribuzione di probabilità

x 0 1 2 3 4 5 6 7
p(x) 0.05 0.16 0.19 0.24 0.18 0.11 0.03 0.04

Quali delle seguenti affermazioni è vera?

A) P( X ≥ 3) = 0.64

B) P(2 < X < 5) = 0.42

C) P( X > 6) = 0.07

D) P( X ≤ 6) = 0.93

[→ Soluzione Es. 5.2]

Esercizio 5.3
Il numero di volte che uno studente ripete l’esame di statistica è una
variabile aleatoria X con distribuzione
x 1 2 3 4
p( x ) 0.5 0.25 0.15 0.1

Calcola la probabilità che uno studente:

a) ripeta l’esame più di una volta.

b) ripeta l’esame almeno 2 volte.

c) ripeta l’esame al massimo 2 volte.

[→ Soluzione Es. 5.3]


36 5. D ISTRIBUZIONI DI VARIABILI ALEATORIE DISCRETE

Esercizio 5.4
Calcolare il valore atteso e la deviazione standard di X dell’esercizio
precedente. [→ Soluzione Es. 5.4]

* Esercizio 5.5
Supponi di avere un urna con i numeri 1, 2, 3 e di pescarne 2 con ripeti-
zione.
(a) Descrivi lo spazio campionario che contiene tutti i campioni di due
elementi con ripetizione.
(b) Quindi considera la variabile aleatoria X = somma dei numeri estrat-
ti. Determina la sua distribuzione di probabilità e calcola il valore atteso.
[→ Soluzione Es. 5.5]

Esercizio 5.6
Si tirano 4 monete. Qual è la probabilità che escano tutte teste? [→
Soluzione Es. 5.6]

Esercizio 5.7
Si tirano 4 monete. Qual è la probabilità non esca mai croce? [→ Solu-
zione Es. 5.7]

Esercizio 5.8
Per andare da Piazza del Popolo a Piazza Italia ci sono 4 semafori indi-
pendenti ognuno dei quali è verde con probabilità 0.3. Qual è la probabilità
che guidando da PP a PI non si trovi mai un semaforo verde? [→ Soluzione
Es. 5.8]

Esercizio 5.9
Si lancia 2 volte una moneta truccata per cui P( T ) = 0.2 e P(C ) = 0.8.
Considerate la variabile X = numero di teste nei due lanci. Definite la sua
distribuzione di probabilità e calcolate il valore atteso E( X ) e la varianza.
[→ Soluzione Es. 5.9]

* Esercizio 5.10
Sia X una variabile aleatoria binomiale con n = 12 e p = 0.4. Allora

A) La X ha due mode in X = 5 e X = 4

B) La X ha due mode in X = 5 e X = 6.
5.2. E SERCIZI 37

C) La X ha una moda in X = 5.

D) La X ha una moda in X = 6.

Nota La moda di una distribuzione discreta è il valore (o i valori) con la


maggior probabilità. [→ Soluzione Es. 5.10]

Esercizio 5.11
Un test a risposta multipla ha 5 domande, ognuna con 5 possibili rispo-
ste. Se rispondi sempre a caso, qual è la probabilità di rispondere corretta-
mente a esattamente 3 domande?
A) 0.00032

B) 0.008

C) 0.0512

D) 0.0016
[→ Soluzione Es. 5.11]

Esercizio 5.12
La probabilità che una persona prenda il raffreddore durante l’inverno è
0.4. Si selezionano a caso 10 persone. Qual è la probabilità che esattamente
4 di loro prenderanno il raffreddore? [→ Soluzione Es. 5.12]

Esercizio 5.13
In un laghetto ci sono 10 pesci di cui 2 sono rossi. Peschi a caso con ripe-
tizione 5 pesci. Qual è la probabilità di pescare 1 pesce rosso? [→ Soluzione
Es. 5.13]

* Esercizio 5.14
In un laghetto ci sono 10 pesci di cui 2 sono rossi. Peschi a caso sen-
za ripetizione 5 pesci. Qual è la probabilità di pescare 1 pesce rosso? [→
Soluzione Es. 5.14]

Esercizio 5.15
Una macchina produce pezzi difettosi con probabilità 0.2. Prendi un
lotto di 5 pezzi: qual è la probabilità di trovare 1 pezzo difettoso? [→
Soluzione Es. 5.15]
38 5. D ISTRIBUZIONI DI VARIABILI ALEATORIE DISCRETE

Esercizio 5.16
Tiro 3 dadi. Qual è la probabilità che la somma sia 3? Qual è la proba-
bilità di ottenere tre 1? [→ Soluzione Es. 5.16]

* Esercizio 5.17
Estraggo un campione casuale senza ripetizione di 100 elettori da una
popolazione in cui vi è il 30% di favorevoli al premier. Qual è la probabilità
che il campione contenga 35 persone favorevoli al premier? [→ Soluzione
Es. 5.17]

Esercizio 5.18
Quale dei seguenti è un esempio di variabile aleatoria discreta?
A) L’ammontare di pioggia che cade in un intervallo temporale di 24 ore.
B) Il peso di un pacco all’ufficio postale.
C) La distanza che puoi percorrere con un pieno di benzina.
D) Il numero di vacche in una fattoria.
[→ Soluzione Es. 5.18]

* Esercizio 5.19
Un’indagine ha rilevato che il 40% dei controllori di volo ritiene il pro-
prio lavoro molto stressante. Supponi che 12 controllori di volo siano sele-
zionati casualmente. Qual è la probabilità che almeno 2 di loro ritengano il
proprio lavoro molto stressante?
A) 0.7218
B) 0.2806
C) 0.9804
D) 0.0282
[→ Soluzione Es. 5.19]

Esercizio 5.20
Considera la seguente distribuzione di probabilità della variabile alea-
toria X.
x 0 1 2 3 4 5 6
p( x ) 0.07 0.19 0.23 0.17 0.16 0.14 0.04
5.2. E SERCIZI 39

Qual è il valore atteso di X?


A) 0.46

B) 1.78

C) 2.74

D) 3.02
[→ Soluzione Es. 5.20]

Esercizio 5.21
Se X e Y sono due variabili aleatorie con cov( X, Y ) = 0.25, σX2 = 0.36, e
σY2 = 0.49, allora il coefficiente di correlazione è
A) 0.595 B) 0.354 C) 1.417 D) 1.190.
[→ Soluzione Es. 5.21]

* Esercizio 5.22
Se X e Y sono due variabili aleatorie con E( X ) = 5, E(Y ) = 6, E( XY ) =
21, var( X ) = 9 e var(Y ) = 10, allora l’associazione lineare tra X e Y è:
A) debole e positiva.

B) debole e negativa.

C) forte e negativa.

D) forte e positiva.
[→ Soluzione Es. 5.22]

Esercizio 5.23
Ci siamo recentemente iscritti ad un golf club. Il numero di volte che si
presume di giocare a golf in un mese è una variabile aleatoria con media
10 e deviazione standard 2.2. Si assume di pagare una quota sociale di 500
euro al mese e di pagare una quota addizionale di 50 euro per ogni partita
di golf giocata. Qual è la deviazione standard della quota media mensile
da pagare al club?
A) 110

B) 324
40 5. D ISTRIBUZIONI DI VARIABILI ALEATORIE DISCRETE

C) 180

D) 230
[→ Soluzione Es. 5.23]

Esercizio 5.24
Se X e Y sono due variabili aleatorie qualsiasi, quali delle seguenti
ugualianze non è sempre vera?
A) E( X + Y ) = E( X ) + E(Y )

B) var( X + Y ) = var( X ) + var(Y )

C) var(4X + 5Y ) = 16var( X ) + 25var(Y ) + 40cov( X, Y )

D) E(4X + 5Y ) = 4E( X ) + 5E(Y )


[→ Soluzione Es. 5.24]

Esercizio 5.25
Data la variabile aleatoria Y = a + bX, segue che µY = bµ X . Vero o
Falso? [→ Soluzione Es. 5.25]

Esercizio 5.26
Se il coefficiente di correlazione lineare è nullo, allora non c’è nessun
tipo di relazione tra le due variabili. Vero o Falso? [→ Soluzione Es. 5.26]

Esercizio 5.27
Il lancio di una moneta rappresenta un esperimento di Bernoulli solo se
la moneta è bilanciata, cioè se p = 0.5. [→ Soluzione Es. 5.27]

Esercizio 5.28
Se X e Y sono due variabili aleatorie correlate, allora E( X + Y ) = E( X ) +
E(Y ) + cov( X, Y ). Vero o Falso? [→ Soluzione Es. 5.28]

* Esercizio 5.29
Se due variabili aleatorie X e Y sono indipendenti, allora

p(y | x ) = p( x ), e p( x | y) = p(y) per ogni x, y.

Vero o Falso? [→ Soluzione Es. 5.29]


5.2. E SERCIZI 41

Esercizio 5.30
Se X è una variabile aleatoria binomiale con n = 5 e p = 0.2, allora il
valore atteso è 1. Vero o Falso? [→ Soluzione Es. 5.30]

Esercizio 5.31
Se la distribuzione di ( X, Y ) ha varianze var( X ) = 10, var(Y ) = 5 e
coefficiente di correlazione 0.4 qual è la varianza di X − Y? [→ Soluzione
Es. 5.31]

* Esercizio 5.32
Data la distribuzione congiunta

X
Y 1 2
0 0.0 0.6
1 0.4 0.0

Calcolare

(a) La covarianza e il coefficiente di correlazione

(b) La media e la varianza di W = 2X - 4Y

[→ Soluzione Es. 5.32]

Esercizio 5.33
Un portafoglio comprende 20 azioni ALFA e 30 azioni BETA. Il prez-
zo delle azioni ALFA è una variabile aleatoria X con media 10 e varianza
9, il prezzo delle azioni BETA è una variabile aleatoria Y con media 25 e
varianza 16. I prezzi delle due azioni sono correlati negativamente con un
coefficiente di correlazione lineare pari a −0.4.
Calcolare il valore atteso e la varianza del valore del portafoglio. [→
Soluzione Es. 5.33]
42 5. D ISTRIBUZIONI DI VARIABILI ALEATORIE DISCRETE
6

Distribuzioni di variabili
aleatorie continue

6.1 Concetti fondamentali


Concetti base
• Una variabile continua X ha modalità x che appartengono all’insieme
dei numeri reali R = (−∞, +∞). È definita da una funzione di densità
positiva f ( x ) tale che l’area sotto la funzione è 1.
• La funzione di ripartizione di X è F ( x ) = P( X ≤ x ).
• La probabilità che X appartenga a un intervallo [ a, b] è
P ( a ≤ X ≤ b ) = P ( X ≤ b ) − P ( X ≤ a ) = F ( b ) − F ( a ).
Nota che per le variabili continue si possono sostituire i simboli ≤ con
< senza cambiare niente perché P( X = a) = 0 per ogni a.

R atteso di X è calcolato matematicamente con un integrale E( X ) =


• Il valore
µ X = x f ( x )dx.
• La varianza di X è σX2 = E[( X − µ X )2 ].

Distribuzioni continue
• La variabile uniforme su un intervallo [ a, b], X ∼ U ( a, b) ha funzione
di densità
f ( x ) = 1/(b − a)
se x ∈ [ a, b] e f ( x ) = 0 altrove.

43
44 6. D ISTRIBUZIONI DI VARIABILI ALEATORIE CONTINUE

• La variabile uniforme ha valore atteso e varianza


µ X = ( a + b)/2, σX2 = (b − a)2 /12.

• La variabile normale standard Z ∼ N (0, 1) ha densità


1 2
f (z) = √ e−z /2 , −∞ < z < ∞

• Il valore atteso e la varianza della normale standard sono rispettiva-
mente 0 e 1.
• La variabile normale generale X ∼ N (µ, sigma2 ) si ottiene con la tra-
sformando Z:
X = µ + σZ.
• La N (µ, σ2 ) ha valore atteso µ e varianza σ2 .
• La funzione di ripartizione della normale standard F (z) = P( Z ≤ z) è
tabulata nella Tavola 1 del Libro.
• Dalla tavola si vede che
P(µ − σ < X < µ + σ) ' 0.68
P(µ − 2σ < X < µ + 2σ) ' 0.95
P(µ − 3σ < X < µ + 3σ) ' 0.99
Questi valori sono usati tipicamente per distribuzioni campanula-
ri simmetriche e danno luogo a quella che il libro chiama la regola
empirica.
• I quantili superiori della normale standard sono i valori zα tali che
P( Z > zα ) = α
Alcuni quantili zα sono tabulati nell’ultima riga della Tavola 2 del
Libro.
• La disuguaglianza di Chebyshev stabilisce che per qualunque variabile
aleatoria con media µ e deviazione standard σ, la probabilità che X
differisca dalla media per k deviazioni standard, cioè che
µ − kσ ≤ X ≤ µ + kσ
1
è almeno 1 − .
k2
• Se X è normale la probabilità precedente si può calcolare esattamente
usando le tavole.
6.2. E SERCIZI 45

6.2 Esercizi

Esercizio 6.1
Se X ha distribuzione uniforme tra 2 e 5, qual è la probabilità che X assuma
valori tra 3 e 4? [→ Soluzione Es. 6.1]

Esercizio 6.2
Trova il valore P( Z ≤ 0.67) se Z è normale standard. [→ Soluzione
Es. 6.2]

Esercizio 6.3
Se Z ∼ N (0, 1) calcola le probabilità (disegnando il grafico!)

(a) P( Z < 0.5)

(b) P( Z < −1)

(c) P(0 < Z < 0.5)

(d) P(1 < Z < 2)

(e) P(−0.5 < Z < 1)

(f) P(−2 < Z < 0)

(g) P(−2 < Z < −1)

(h) P( Z > 1)

(i) P( Z > −1)

[→ Soluzione Es. 6.3]

Esercizio 6.4
Sia Z una normale standard. Trovare sulle tavole della Normale quel
valore z∗ tale che
P( X < z∗ ) = 0.75
46 6. D ISTRIBUZIONI DI VARIABILI ALEATORIE CONTINUE

Nota scegliere il valore z∗ che corrisponde al valore più vicino possibile a


0.75.
Si noti anche che il valore risultante è il terzo quartile della Normale
standard. [→ Soluzione Es. 6.4]

Esercizio 6.5
Trova il primo quartile della normale standard. [→ Soluzione Es. 6.5]

Esercizio 6.6
Trova lo scarto interquartile della normale standard. [→ Soluzione Es. 6.6]

Esercizio 6.7
Sia Z ∼ N (0, 1). Qual è quel valore z∗ che è superato dal 25% delle Z?
[→ Soluzione Es. 6.7]

Esercizio 6.8
Se X ∼ N (80, σ2 = 100) calcola
• P( X > 60)

• P(72 < X < 82)

• P( X < 55)
[→ Soluzione Es. 6.8]

Esercizio 6.9
La regola empirica si applica a qualsiasi distribuzione, indipendente-
mente dalla sua forma, come guida per interpretare la distribuzione. Vero
o Falso? [→ Soluzione Es. 6.9]

Esercizio 6.10
Sempre per X ∼ N (80, σ2 = 100) determina il valore x ∗ tale che

P( X > x ∗ ) = 0.10

[→ Soluzione Es. 6.10]

* Esercizio 6.11
Determina l’intorno centrato nella media tale che la probabilità che X
assuma valori all’esterno sia 0.05. [→ Soluzione Es. 6.11]
6.2. E SERCIZI 47

Esercizio 6.12
Le previsioni sulla domanda di un prodotto sono una variabile normale
X con media 1200 e deviazione standard 100.

(a) Qual è la probabilità che le vendite superino 1000?

(b) Qual è la probabilità che le vendite stiano fra 1100 e 1300?

(c) Qual è il valore delle vendite x ∗ che ha probabilità 0.10 di essere


superato?

[→ Soluzione Es. 6.12]

* Esercizio 6.13
Una variabile X ha una distribuzione con media 250 e e deviazione
standard 20. Dare indicazioni sulla probabilità:

(a) P(210 < X < 290)

(b) P(220 < X < 280)

Determinare le stesse probabilità sapendo che X è normale N (250, σ = 20).


[→ Soluzione Es. 6.13]
48 6. D ISTRIBUZIONI DI VARIABILI ALEATORIE CONTINUE
7

Campionamento e
distribuzioni campionarie

7.1 Concetti fondamentali


1. Campionamento

2. Distribuzione campionaria della media

3. Teorema del limite centrale

4. Distribuzione della proporzione campionaria

Concetti base

• Un campione casuale da una popolazione finita può essere con ripeti-


zione o senza ripetizione.

• Un campione casuale con ripetizione da una popolazione con una di-


stribuzione X è un’n-upla di osservazioni ( x1 , . . . , xn ) che si può equi-
parare alle realizzazioni di n variabili aleatorie X1 , . . . , Xn che siano
(a) indipendenti e (b) identicamente distribuite come X. Questo tipo
di campioni sono detti campioni i.i.d.

• I campioni casuali sono importanti per stimare una caratteristica della


popolazione senza fare un censimento.

• La distribuzione campionaria della media in campioni casuali i.i.d. di di-


mensione n ( X1 , . . . , Xn ) da una popolazione descritta da una variabi-

49
50 7. C AMPIONAMENTO E DISTRIBUZIONI CAMPIONARIE

le aleatoria X è la distribuzione di probabilità della media aritmetica


X = ∑in=1 Xi /n nel campionamento ripetuto dalla popolazione.

• Il valore atteso della distribuzione della media campionaria è E( X ) =


E( X ) = µ.

• La varianza della distribuzione della media campionaria è var( X ) =


var( X )/n = σ2 /n.

• In campioni i.i.d. da una distribuzione normale N (µ, σ2 ) la distribu-


zione campionaria della media è esattamente normale X ∼ N (µ, σ2 /n)
per qualsiasi dimensione del campione.

• Il teorema centrale del limite stabilisce che la distribuzione campionaria


della media in campioni i.i.d. di grandi dimensioni da una qualsiasi po-
polazione è sempre approssimativamente normale X ≈ N (µ, σ2 /n)

• La distribuzione campionaria della proporzione di successi in campioni


i.i.d di dimensione n da una popolazione bernoulliana con parametro
p è la distribuzione di probabilità della proporzione p̂ = S/n dove S
è il numero di successi nel campione.

• la distribuzione campionaria della proporzione p̂ è Binomiale con


modalità 0, 1/n, 2/n, . . . , n/n, con valore atteso e varianza

E( p̂) = p, var( p̂) = p(1 − p)/n.

• Se la numerosità del campione n è grande (per esempio se np(1 −


p) > 9 la distribuzione campionaria di p̂ è approssimativamente
normale per il teorema centrale del limite.

Approssimazioni normali Pertanto abbiamo due approssimazioni nor-


mali usate frequentemente:

• Media campionaria

X−µ
√ ≈ N (0, 1), n ≥ 100
σ/ n

• Proporzione campionaria
p̂ − p
p ≈ N (0, 1), np(1 − p) > 9.
p̂(1 − p̂)/n
7.2. E SERCIZI 51

7.2 Esercizi

Esercizio 7.1
Un’azienda produce un modello di auto la cui percorrenza X (in km con
1 litro di benzina) ha distribuzione normale, media 25 km/l e deviazione
standard 2 km/l. Supponiamo di avere un campione casuale di 4 auto
prodotte in serie.

(a) La percorrenza media campionaria che distribuzione ha?

(b) Qual è la probabilità che la percorrenza media sia superiore a 26 km/l?

(c) Ricalcolare la probabilità precedente con una dimensione campiona-


ria di 25 auto.

[→ Soluzione Es. 7.1]

Esercizio 7.2
Una popolazione di studenti è composta dal 40% di femmine e dal 60%
di maschi. Se si estrae un campione casuale con ripetizione di 25 studen-
ti qual è la distribuzione di probabilità della proporzione di femmine nel
campione? Qual è la varianza della proporzione di femmine nel campione?
[→ Soluzione Es. 7.2]

Esercizio 7.3
Sia X la distribuzione dell’età di una popolazione con E( X ) = 50 anni
e σ( X ) = 10 anni. Se seleziono un campione di n = 4 persone e calcolo la
media. Domande:

(a) Si conosce la distribuzione campionaria dell’età media?

(b) Si conosce il valore atteso della distribuzione campionaria?

(c) Si conosce la varianza della distribuzione campionaria?

Giustificare. [→ Soluzione Es. 7.3]

Esercizio 7.4
Rispondere all’esercizio precedente se n = 100. [→ Soluzione Es. 7.4]
52 7. C AMPIONAMENTO E DISTRIBUZIONI CAMPIONARIE

* Esercizio 7.5
Il tempo che gli studenti dedicano allo studio segue una distribuzione
normale con deviazione standard di 8 ore. Si estrae un campione casuale
i.i.d. di 4 studenti. La probabilità che la media campionaria differisca dalla
media della popolazione per più di 4 ore è

A) 0.2987 B) 0.3080 C) 0.3174 D) 0.3085

[→ Soluzione Es. 7.5]

Esercizio 7.6
Da una popolazione infinita con media pari a 80 e deviazione standard
18, vengono selezionati campioni casuali di dimensione n = 36. La me-
dia e la deviazione standard della relativa distribuzione campionaria della
media sono rispettivamente:

A) 80 e 18, B) 80 e 3 C) 36 e 2 D) 80 e 2.

[→ Soluzione Es. 7.6]

Esercizio 7.7
Se la deviazione standard della distribuzione della proporzione cam-
pionaria è 0.0229 per campioni di dimensione n = 400, allora la vera pro-
porzione nella popolazione deve essere:

A) 0.2 o 0.8.

B) 0.3 o 0.7.

C) 0.4 o 0.6.

D) 0.5 o 0.5.

[→ Soluzione Es. 7.7]


8

Problemi di stima su una


singola popolazione

8.1 Concetti fondamentali


1. Campioni casuali e distribuzioni campionarie

2. Stima

3. Stimatori ‘corretti’

4. Errore standard

5. Intervalli di confidenza per la media (varianza nota)

6. Intervalli di confidenza per la media (varianza incognita)

7. Distribuzione t e tavole dei quantili

8. Intervalli di confidenza asintotici per una proporzione

9. Ampiezza dell’intervallo di confidenza

Concetti base
• Un campione casuale i.i.d. da una popolazione con una distribu-
zione definita dalla variabile aleatoria X è un’n-upla di osservazio-
ni ( x1 , . . . , xn ) che si può equiparare alle realizzazioni di n variabili
aleatorie X1 , . . . , Xn che siano

– indipendenti

53
54 8. P ROBLEMI DI STIMA SU UNA SINGOLA POPOLAZIONE

– identicamente distribuite come X.

• I campioni casuali sono importanti per stimare una caratteristica della


popolazione senza fare un censimento.

• La caratteristica della popolazione X si chiama parametro. Per esem-


pio µ o σ2 sono parametri di una popolazione continua. Invece una
proporzione di successi p è un parametro di una popolazione binaria
(composta di 0 e 1).

• Il parametro si stima utilizzando i dati campionari x1 , . . . , xn . Le sti-


me più comuni sono

– x = ∑in=1 xi /n la media campionaria stima µ.


– s2 = ∑in=1 ( xi − x )2 /(n − 1) stima la varianza σ2 .
– p̂ = proporzione di successi nel campione, stima p.

• Uno stimatore è la stima nel campionamento ripetuto. Si descrive con


una variabile aleatoria che esprime il variare della stima nell’universo
dei campioni. Gli stimatori corrispondenti alle stime precedenti sono

– Lo stimatore di µ: X = ∑in=1 Xi /n
– Lo stimatore di σ2 : S2 = ∑in=1 ( Xi − X )2 /(n − 1).
– Lo stimatore di p: P̂ = ∑i=1 Xi /n.

• Uno stimatore è una variabile aleatoria con una distribuzione detta


distribuzione campionaria.

• Dato un campione casuale iid ( X1 , . . . , Xn ) da una popolazione X


continua con una media µ si dice stimatore media campionaria X =
( X1 + · · · + Xn )/n.

• Lo stimatore X è rappresentato dalla sua distribuzione campionaria cioè


dalla distribuzione ottenuta calcolando la media in ogni campione
dell’universo dei campioni.

• Lo stimatore va distinto dalla stima della media cioè il semplice dato


x = ( x1 + · · · + xn )/n indicato con la lettera minuscola.

• Uno stimatore è detto corretto per un parametro se il suo valore atteso


nel campionamento ripetuto è sempre uguale al parametro.
8.1. C ONCETTI FONDAMENTALI 55

• Lo stimatore media campionaria X = ( X1 + · · · + Xn )/n è corretto per


µ cioè
E( X ) = µ
qualunque sia la popolazione e qualunque sia µ.

• Dati due stimatori corretti T1 e T2 di µ si dice che T1 è più efficiente di


T2 se
var( T1 ) ≤ var( T2 ), per ogni µ.
Per esempio, la media campionaria X è più efficiente della mediana
campionaria in campioni provenienti da una distribuzione normale.

• Lo stimatore X ha varianza σ2 /n e la sua deviazione standard, chia-


mata errore standard nel contesto della stima, è
σ
ES = √ .
n

• Se la popolazione è normale lo stimatore X ha distribuzione N (µ, σ2 /n)


esattamente, qualunque sia la dimensione del campione.

• Se la popolazione non è normale, ma la dimensione del campione


è sufficientemente grande (> 100) lo stimatore X ha distribuzione
approssimata da N (µ, σ2 /n) (teorema centrale del limite).

• Data una popolazione dicotomica, cioè di 0 e 1, con una proporzio-


ne di successi pari a p, e un campione casuale i.i.d. ( X1 , . . . , Xn )
si dice stimatore proporzione campionaria P̂ = ( X1 + · · · + Xn )/n =
# successi/n.

• Lo stimatore P̂ è rappresentato dalla sua distribuzione campionaria


che è esattamente Binomiale con modalità 0, 1/n, 2/n, . . . , 1.

• La proporzione campionaria P̂ è uno stimatore corretto di p, cioè

E( P̂) = p

qualunque sia p e per ogni numerosità n.

• La varianza della proporzione P̂ è p(1 − p)/n.

• L’errore standard di P̂ è
q
ES( P̂) = p(1 − p)/n.
56 8. P ROBLEMI DI STIMA SU UNA SINGOLA POPOLAZIONE

• la distribuzione campionaria di una proporzione P̂ è approssimativa-


mente normale se np(1 − p) > 9

P̂ ≈ N ( p, p(1 − p)/n).

• Gli errori standard dipendono dai parametri incogniti e quindi ven-


gono stimati opportunamente.

c ( X ) = s/ n
– ES
p
c ( P̂) = p̂(1 − p̂)/n
– ES

Questo fornisce una misura calcolabile dell’errore di campionamento


che si commette nella stima del parametro.

X−µ
• La distribuzione di √ è normale standard.
σ2 /n

X−µ
• La distribuzione di √ dove
s2 /n
n
1
n − 1 i∑
s2 = ( x i − x )2
=1

è t di Student con n − 1 gradi di libertà. I suoi quantili sono tabula-


ti sulla Tavola 2 del libro. Quando n > 100 la t di Student si può
approssimare con una normale standard.

• Un intervallo di confidenza per µ al livello c (tipicamente c = 0.95 o


c = 0.99) è un intervallo di stima con estremi A e B tali nell’universo
dei campioni una proporzione c di campioni produce intervalli che
contengono µ:
P( A < µ < B) = c.

• Un intervallo di confidenza di livello 1 − α per la media di una distri-


buzione normale con varianza nota è

X ± z · σ/ n

dove z è tale che P( Z < z) = 1 − α/2 ossia P( Z > z) = α/2 e Z è la


normale standard.
8.2. E SERCIZI 57

• Un intervallo di confidenza di livello 1 − α per la media di una distri-


buzione normale di cui non si conoscono né la media né la varianza
è p
X ± t · s2 /n
1
dove s2 = n− 2
1 ∑ ( Xi − X ) . Il valore t è un quantile della t di Student,
cioè è tale che P( T < t) = 1 − α/2 ossia P( T > t) = α/2 in cui T è la
t di Student con n − 1 gradi di libertà.

• Un intervallo di confidenza di livello approssimato 1 − α per la media


di una distribuzione normale con un campione di dimensione elevata
è p
X ± z · s2 /n
dove z è tale che P( Z < z) = 1 − α/2 ossia P( Z > z) = α/2 e Z è
normale standard.

• Un intervallo di confidenza di livello approssimato 1 − α per la pro-


porzione di una popolazione dicotomica in cui n p̂(1 − p̂) > 9 è
q
p̂ ± z · p̂(1 − p̂)/n

dove z è tale che P( Z < z) = 1 − α/2 ossia P( Z > z) = α/2 e Z è


normale standard.

8.2 Esercizi

Esercizio 8.1
Il valore atteso della media della popolazione è dato dalla media campio-
naria. Vero o Falso? [→ Soluzione Es. 8.1]

Esercizio 8.2
Il numero di televisori che escono ogni giorno da una certa linea di pro-
duzione si distribuisce come una variabile aleatoria con deviazione stan-
dard (nota) di 17.4. La media giornaliera della linea di produzione determi-
nata su un campione di 20 giorni è 452.3. Quale dei seguenti intervalli rap-
presenta un intervallo di confidenza al 95% per la media della produzione
in un giorno?

A) 453 ± 9.4
58 8. P ROBLEMI DI STIMA SU UNA SINGOLA POPOLAZIONE

B) 452.3 ± 13.8

C) 452.3 ± 11.3

D) 452.3 ± 7.63

[→ Soluzione Es. 8.2]

Esercizio 8.3
L’errore di stima è la differenza tra il valore di una statistica determina-
ta su un campione ed il corrispondente valore del parametro determinato
nella popolazione. Vero o falso? [→ Soluzione Es. 8.3]

Esercizio 8.4
Uno stimatore è una variabile aleatoria calcolata su un campione casua-
le che fornisce la stima puntuale per il parametro della popolazione. Vero
o falso? [→ Soluzione Es. 8.4]

Esercizio 8.5
Un intervallo di confidenza al 95% per la media della popolazione µ è
stimato da 65.48 a 76.52. Se ora viene stimato un intervallo di confidenza al
90% per µ sarà:

A) più ampio di quello al 95%.

B) lo stesso dell’intervallo al 95%.

C) più stretto di quello al 95%.

D) Non c’è abbastanza informazione per rispondere.

[→ Soluzione Es. 8.5]

Esercizio 8.6
Un’agenzia turistica è interessata all’ammontare medio di denaro spe-
so al giorno da un tipico studente universitario durante le vacanze estive.
Un’indagine condotta su 30 studenti mette in luce che la somma media
spesa è 63.57 Euro con una deviazione standard di 17.32 Euro. Determina-
re l’intervallo di confidenza al 95% per la spesa media nella popolazione.
[→ Soluzione Es. 8.6]
8.2. E SERCIZI 59

Esercizio 8.7
Nel costruire un intervallo di confidenza per la media della popolazione
è stato utilizzato un campione di 40 osservazioni. La stima intervallare
risultante è stata 28.76 ± 1.48. Se la numerosità campionaria fosse stata 160
invece che 40, la stima intervallare sarebbe stata:

A) 28.76 ± 0.74.

B) 28.76 ± 0.37.

C) 7.19 ± 0.37.

D) 7.19 ± 1.48.

[→ Soluzione Es. 8.7]

Esercizio 8.8
Siano X1 , X2 , X3 e X4 le osservazioni di un campione casuale semplice
estratto da una popolazione X con media µ e varianza σ2 . Si consideri il
seguente stimatore di µ:

T = 0.15X1 + 0.35X2 + 0.20X3 + 0.30X4 .

Qual è la varianza di T? [→ Soluzione Es. 8.8]

Esercizio 8.9
La distribuzione campionaria della media avrà la stessa media della
popolazione dalla quale sono stati estratti i campioni che l’hanno generata.
Vero o falso? [→ Soluzione Es. 8.9]

Esercizio 8.10
Trova il quantile superiore della t di Student con 8 gradi di libertà che
lascia a destra una probabilità di 0.025. [→ Soluzione Es. 8.10]

Esercizio 8.11
Si supponga che il tempo medio che un ragazzo passa su Facebook sia
distribuito come una variabile normale con una deviazione standard di 1.5
ore. In un campione di 100 ragazzi è stata rilevata una media di 6.5 ore.
Determinare l’intervallo di confidenza al 95% per il tempo medio passato
su Facebook nella popolazione. [→ Soluzione Es. 8.11]
60 8. P ROBLEMI DI STIMA SU UNA SINGOLA POPOLAZIONE

Esercizio 8.12
Un ricercatore, incaricato di stimare la percentuale di famiglie italiane
che hanno più di un computer, dopo aver rilevato che il 27% di un cam-
pione costituito da 492 famiglie ha dichiarato di possedere più di un com-
puter, fornisce l’intervallo di confidenza (0.2308; 0.3092), ma omette di dire
il livello di confidenza. Qual è il livello di confidenza associato a questo
intervallo?
[→ Soluzione Es. 8.12]

* Esercizio 8.13
Determinare l’ampiezza campionaria necessaria per stimare la propor-
zione p nella popolazione se ME = 0.05 e il livello di confidenza è il 99%.
[→ Soluzione Es. 8.13]

Esercizio 8.14
Si intervista un campione casuale di 220 famiglie e si rileva che il 58.7%
legge la pubblicità postale. Trovare l’intervallo di confidenza al 99% per la
proporzione di destinatari che legge la pubblicità postale nella popolazio-
ne. [→ Soluzione Es. 8.14]

Esercizio 8.15
La quantità di stoffa usata per produrre poltrone è distribuita come una
variabile casuale normale. Su un campione casuale di 15 poltrone, si è ri-
scontrato che l’ammontare medio del materiale è 912 centimetri quadrati,
con una deviazione standard di 64 centimetri quadrati. Quali dei seguenti
intervalli rappresenta l’intervallo di confidenza al 99% per la media della
quantità di materiale?

A) 912 ± 44.3

B) 912 ± 42.6

C) 912 ± 49.2

D) 912 ± 46.8

[→ Soluzione Es. 8.15]

Esercizio 8.16
8.2. E SERCIZI 61

Si supponga che il tempo trascorso dai clienti in un negozio sia distri-


buito in modo normale con media incognita e deviazione standard pari a
6 minuti. Si supponga di aver stimato il tempo medio della popolazione
tramite un intervallo di confidenza al 95% e di aver ottenuto il seguente ri-
sultato: (22.06, 27.94). Qual è stata la dimensione del campione necessaria
ad ottenere il precedente intervallo di confidenza? [→ Soluzione Es. 8.16]
62 8. P ROBLEMI DI STIMA SU UNA SINGOLA POPOLAZIONE
9

Verifica di ipotesi su una


singola popolazione

9.1 Concetti fondamentali


• Procedura dei test delle ipotesi

• Errore del I e del II tipo

• Valore p (p-value)

• Test sulla media di una normale con varianza nota

• Test sulla media di una normale con varianza incognita

• Test sulla media di una distribuzione non normale per grandi cam-
pioni

• Test su una proporzione

• Potenza del test

Concetti base

• L’ipotesi nulla H0 è una congettura su un parametro che vogliamo


verificare trovando nei dati le prove a carico

• L’ipotesi alternativa H1 indica la direzione nella quale si cercano le


prove contrarie all’ipotesi nulla.

63
64 9. V ERIFICA DI IPOTESI SU UNA SINGOLA POPOLAZIONE

• Le prove contrarie si raccolgono calcolando dai dati una statistica test


che misura la distanza tra i dati e l’ipotesi nulla.

• Se la statistica test cade in una regione critica si rifiuta l’ipotesi nulla.

• Se si rifiuta H0 si può commettere un errore detto del primo tipo se


H0 è vera.

• Se non si rifiuta H0 si può commettere un errore del II tipo se H0 è


falsa.

• Nei test delle ipotesi talvolta la probabilità di commettere l’errore di


I tipo viene prefissata a un livello α detto livello del test e fatto ciò si
sceglie se possibile la regione critica che rende minima la probabilità
di commettere l’errore del II tipo.

• Spesso si usa calcolare come risulta il livello del test se si considerasse


il valore della statistica test come precisamente decisivo contro l’ipo-
tesi nulla. Questo livello è chiamato livello di significatività osservato
o p-value e misura l’evidenza empirica contraria all’ipotesi nulla. Il
valore p si valuta tradizionalmente su questa scala:

p-value Prove contro H0 Risultato


< 0.01 molto forti altamente significativo
0.01 ≤ p < 0.05 forti significativo
0.05 ≤ p < 0.10 deboli non significativo
> 0.10 scarse o nulle non significativo

• Modello X1 , . . . , Xn ∼ N (µ, σ02 ) varianza nota. Test z di H0 : µ = µ0 .


Statistica test:

X − µ0
Z= σ0 ∼ N (0, 1) sotto ipotesi nulla.

n

– Alternativa µ 6= µ0 . Regione critica: Z ≥ zα/2 √σ0n oppure Z ≤


−zα/2 √σ0n
– Alternativa: µ > µ0 . Regione critica: Z ≥ zα √σ0n

– Alternativa: µ < µ0 . Regione critica: Z ≤ −zα √σ0n


9.2. E SERCIZI 65

• Modello X1 , . . . , Xn ∼ N (µ, σ2 ) varianza incognita. Test t di H0 : µ =


µ0 . Statistica test:

X − µ0
T= ∼ tn−1 sotto ipotesi nulla.
√s
n

– Alternativa µ 6= µ0 . Regione critica: T ≥ tn−1,α/2 √sn oppure


T ≤ −tα/2,n−1 √sn
– Alternativa: µ > µ0 . Regione critica: T ≥ tα,n−1 √sn
– Alternativa: µ < µ0 . Regione critica: T ≤ −tα,n−1 √sn

• Modello X1 , . . . , Xn ∼ Bernoulli( p). Test Z per grandi campioni di


H0 : p = p0 . Statistica test:

p̂ − p0
Z= q ≈ N (0, 1) sotto ipotesi nulla e se np0 (1 − p0 ) ≥ 9.
p0 (1− p0 )
n
q
p (1− p )
– Alternativa p 6= p0 . Regione critica: Z ≥ zα/2 0
n
0
oppure
q
p0 (1− p0 )
Z ≤ −zα/2 n
q
p0 (1− p0 )
– Alternativa: p > p0 . Regione critica: Z ≥ n
q
p0 (1− p0 )
– Alternativa: p < p0 . Regione critica: Z < − n .

9.2 Esercizi

Esercizio 9.1
Se si rifiuta l’ipotesi nulla contro l’ipotesi alternativa ad un livello di signi-
ficatività del 5% , allora, con gli stessi dati deve essere rifiutata anche ad un
livello di significatività dell’1%. Vero o Falso? [→ Soluzione Es. 9.1]

Esercizio 9.2
Un idraulico afferma di poter completare l’installazione di un box doc-
cia in meno di un’ora. Per un campione di 24 interventi, l’idraulico impiega
una media di 63.2 minuti con una deviazione standard di 7.7 minuti. Qual
è la statistica test osservata?
66 9. V ERIFICA DI IPOTESI SU UNA SINGOLA POPOLAZIONE

A) t = 1.79

B) t = 2.04

C) Z = 2.04

D) Z = 1.79

[→ Soluzione Es. 9.2]

Esercizio 9.3
La ditta produttrice di un nuovo macchinario afferma che il suo mac-
chinario incrementerà la produzione per macchina di almeno 29 unità di
prodotto all’ora. Vengono acquistate 15 nuove macchine e si trova che l’in-
cremento di produzione medio ottenuto è pari a 26 pezzi per macchina al-
l’ora con una deviazione standard di 4.2. C’è evidenza empirica sufficiente
per dubitare dell’affermazione fatta dal produttore dei nuovi macchinari
considerando un livello di significatività α = 0.05? [→ Soluzione Es. 9.3]

Esercizio 9.4
Un professore sostiene che il punteggio medio in un certo test è stato
almeno 83. Si assuma che il punteggio al test si distribuisca normalmente.
Tu ritieni che invece il punteggio medio sia inferiore ad 83, per cui decidi
di chiedere ad un campione casuale di studenti il loro voto e risulta:

82, 77, 85, 76, 81, 91, 70, 82.

Verifica che la media e la varianza corretta sono: 80.5 e s2 = 39.71429.


Ritieni sia lecito dubitare dell’affermazione del professore ad un livello
di significatività del 5%? [→ Soluzione Es. 9.4]

Esercizio 9.5
Supponi di voler effettuare con un livello di significatività α = 0.10 il
seguente test sulla media di una popolazione:

H0 : µ = 277 contro H1 : µ 6= 277.

Supponi inoltre di sapere che la deviazione standard della popolazione è


σ = 13.5. Se selezioni un campione casuale di 20 osservazioni, per qua-
le valore della media campionaria rifiuterai l’ipotesi nulla? [→ Soluzione
Es. 9.5]
9.2. E SERCIZI 67

Esercizio 9.6
Si verifica un errore del I tipo quando viene rifiutata un’ipotesi nulla
vera. Vero o Falso? [→ Soluzione Es. 9.6]

Esercizio 9.7
Un’azienda produttrice di caffè asserisce che ciascun lotto contiene al-
meno 50.1 kg di prodotto. Si assuma che la deviazione standard della quan-
tità di caffè contenuta in ciascun lotto sia 1.2 kg. La regola di decisione
adottata dall’azienda è di fermare le consegne se la media campionaria del-
la quantità di caffé in un campione di 40 lotti è inferiore a 49.7. Qual è la
probabilità di commettere un errore del primo tipo? [→ Soluzione Es. 9.7]

Esercizio 9.8
Associa al simbolo β la definizione opportuna.

A) La potenza del test.

B) La probabilità dell’errore di II tipo.

C) La probabilità dell’errore di I tipo.

D) La probabilità di rifiutare H0 .

[→ Soluzione Es. 9.8]

Esercizio 9.9
Aumentando il livello di significatività di un test, la probabilità dell’er-
rore del II tipo aumenta. Vero o Falso? [→ Soluzione Es. 9.9]

Esercizio 9.10
Quale delle seguenti frasi NON è vera?

A) La regione di rifiuto è l’insieme di tutti i valori della statistica test per


cui l’ipotesi alternativa viene rifiutata.

B) Una statistica test è una funzione dei dati campionari sulla base della
quale si decide se rifiutare o meno l’ipotesi nulla.

C) La regione di rifiuto è l’insieme di tutti i valori della statistica test per


cui l’ipotesi nulla viene rifiutata.
68 9. V ERIFICA DI IPOTESI SU UNA SINGOLA POPOLAZIONE

D) Una buona procedura di test delle ipotesi deve comportare una pro-
babilità dell’errore del I tipo e del II tipo piccola.

[→ Soluzione Es. 9.10]

* Esercizio 9.11
Quale deve essere la dimensione del campione necessaria per stimare
la media di una popolazione distribuita normalmente se ME = 5, σ = 40,
livello di confidenza = 99% ? [→ Soluzione Es. 9.11]

Esercizio 9.12
Il livello di significatività di un test è la probabilità che l’ipotesi nulla
sia vera. Vero o Falso? [→ Soluzione Es. 9.12]

Esercizio 9.13
Si supponga di voler verificarfe l’ipotesi H0 : µ ≥ 0.54 contro H1 : µ <
0.54 basato su un campione iid di n = 25 da N (µ, σ2 ) sapendo che nel
campione s = 13.2. Quale dovrebbe essere la statistica test?

A) ( X − 0.54)/2.64

B) ( X − 0.54)/34.848

C) ( X − 0.54)/0.528

D) ( X − 0.54)/0.2789

[→ Soluzione Es. 9.13]

Esercizio 9.14
Un professore asserisce che il punteggio medio conseguito ad un re-
cente esame è stato 83. Si assuma che la variabile punteggio conseguito si
distribuisca normalmente. Tu chiedi ad alcuni in classe quale punteggio
abbiano conseguito ed ottieni le seguenti risposte: 82, 77, 85, 76, 81, 91, 70
e 82. Supponi di voler verificare se l’affermazione del professore è corretta
contro un alternativa bilaterale.
Quale affermazione tra le seguenti è più appropriata per il p-value?

A) p-value < 0.10

B) p-value < 0.01


9.2. E SERCIZI 69

C) p-value < 0.05

D) p-value > 0.10

[→ Soluzione Es. 9.14]

Esercizio 9.15
Supponiamo di voler effettuare una procedura di verifica delle ipotesi
su una porporzione p, e che la proporzione campionaria p̂ sia approssima-
tivamente normale. Se l’ipotesi alternativa è H1 : p 6= p0 , allora la regione
di rifiuto al livello α = 0.05 è Z < −1.96 o Z > 1.96. Vero o Falso? [→
Soluzione Es. 9.15]

Esercizio 9.16
Associa al simbolo 1 − β la definizione opportuna.

A) La probabilità di rifiutare H0 .

B) La probabilità dell’errore di I tipo.

C) La probabilità di corretto rifiuto di H0 .

D) La probabilità dell’errore di II tipo.

[→ Soluzione Es. 9.16]

Esercizio 9.17
La Regione Veneto ha dichiarato che il reddito medio familiare annuo
della regione è superiore a 37000 Euro. Si assuma che la distribuzione del
reddito medio familiare della Regione Veneto sia distribuito come una va-
riabile normale con deviazione standard di 5756 euro. Si supponga che
in un campione di 25 famiglie si sia rilevato un reddito medio annuo pari
a 36243 euro. Quale affermazione tra le seguenti è più appropriata per il
p-value?

A) p-value < 0.01

B) p-value < 0.10

C) p-value < 0.05

D) p-value > 0.10


70 9. V ERIFICA DI IPOTESI SU UNA SINGOLA POPOLAZIONE

[→ Soluzione Es. 9.17]

Esercizio 9.18
Un’ipotesi nulla è rifiutata a livello di significatività 0.025, ma non ad
un livello di 0.01. Ciò significa che il p-value del test è compreso tra 0.01 e
0.025. Vero o Falso? [→ Soluzione Es. 9.18]

Esercizio 9.19
Un commercialista afferma di poter completare una dichiarazione dei
redditi standard in meno di un’ora. Per un campione di 24 dichiarazioni, il
commercialista impiega una media di 63.2 minuti con una deviazione stan-
dard di 7.7 minuti. Quale affermazione tra le seguenti è più appropriata
per il p-value?

A) 0.025 < p-value < 0.05

B) p-value < 0.025

C) p-value > 0.05

D) p-value < 0.01

[→ Soluzione Es. 9.19]

Esercizio 9.20
Aumentando il livello di significatività di un test, la probabilità dell’er-
rore del II tipo aumenta. Vero o Falso? [→ Soluzione Es. 9.20]

Esercizio 9.21
Associa al simbolo 1 − α la definizione opportuna.

A) La probabilità dell’errore di II tipo.

B) La probabilità dell’errore di I tipo.

C) La probabilità di non rifiutare l’ipotesi nulla quando questa è vera.

D) La potenza del test.

[→ Soluzione Es. 9.21]


9.2. E SERCIZI 71

Esercizio 9.22
Avete un campione da una normale la cui media può essere 10 o 12
(non si sa quale delle due) e deviazione standard 2. Con un campione di 4
elementi dalla popolazione dovete verificare H0 : µ = 10 contro H1 : µ =
12 e pensate di rifiutare H0 quando la media campionaria è maggiore di
11.5.

• Qual è la probabilità di errore del I tipo?

• Qual è la probabilità di corretto rifiuto (ossia la potenza del test)?

[→ Soluzione Es. 9.22]

Esercizio 9.23
Associa al simbolo β la definizione opportuna:

A) La probabilità dell’errore di I tipo.

B) La probabilità di non rifiutare H0 vera.

C) La probabilità di accettare un’ipotesi nulla falsa.

D) La potenza del test.

[→ Soluzione Es. 9.23]

Esercizio 9.24
L’errore del II tipo può essere definito come:

A) Rifiutare un’ipotesi alternativa vera.

B) Non rifiutare un’ipotesi alternativa falsa.

C) Non rifiutare un’ipotesi nulla falsa.

D) Rifiutare un’ipotesi nulla vera.

[→ Soluzione Es. 9.24]

Esercizio 9.25
L’azienda produttrice di sacchi di farina afferma che ciascun sacco con-
tiene almeno 50.1 kg di farina. Si assuma che la deviazione standard della
72 9. V ERIFICA DI IPOTESI SU UNA SINGOLA POPOLAZIONE

quantità di farina contenuta in ciascun sacco sia 1.21 kg. La regola di de-
cisione adottata dall’azienda è di mettere in manutenzione una macchina
riempitrice se la media campionaria della quantità di farina in un campione
di 40 sacchi è inferiore a 49.7. Qual è la probabilità di commettere un errore
del primo tipo? [→ Soluzione Es. 9.25]

Esercizio 9.26
Un produttore di lenti per occhiali sostiene che almeno l’80% degli ocu-
listi preferisce il suo tipo di lenti per occhiali. Decidi di verificare la sua
affermazione e, su un campione di 200 oculisti, trovi che il 74.1% preferi-
sce quelle lenti. C’è sufficiente evidenza per dubitare dell’affermazione del
produttore? Usa il livello α = 0.025. [→ Soluzione Es. 9.26]
10

Soluzioni

Soluzione dell’esercizio 2.1


Stiamo rilevando la variabile X = numero di componenti della famiglia,
su un collettivo di famiglie. Le famiglie sono le unità statistiche. La varia-
bile ha modalità x = 1, 2, 3, 4, 5, 6, 7. La variabile è quantitativa discreta.

Soluzione dell’esercizio 2.2


Il primo passo è fare lo spoglio dei dati. Questo è equivalente a ordinare
i dati

Dati ordinati: 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 5 7
Ripetizioni: 2 5 7 4 1 1

Quindi la distribuzione di frequenza è

Componenti 1 2 3 4 5 6 7 Totale
Famiglie 2 5 7 4 1 0 1 20

Si può rappresentare anche per colonna.

Soluzione dell’esercizio 2.3


La rappresentazione corretta è il diagramma a barre.

73
74 10. S OLUZIONI

7
6
5
Frequenza 4
3
2
1
0

1 2 3 4 5 6 7

N. componenti

Soluzione dell’esercizio 2.4


Un modo per farlo è fare lo spoglio usando la cifra delle decine come
stelo e la cifra delle unità come foglia.
0 | 0444455688
1 | 1224779
2 | 68
3 | 8

La distribuzione di frequenza è dunque


Ritardo Treni
0-9 10
10-19 7
20-29 2
30-39 1
Totale 20

Soluzione dell’esercizio 2.5


L’unità è il treno, la variabile X è il ritardo in minuti. È una variabile
quantitativa e continua.

Soluzione dell’esercizio 2.6


I dati vanno da un minimo di 10 a un massimo di 27. Le classi di
ampiezza 5 sono
[10, 15), [15, 20), [20, 25), [25, 30)
75

Ordino i dati e calcolo le frequenze

[10, 15) [15, 20) [20, 25) [25, 30)


10 13 13 18 18 18 19 19 20 20 20 20 22 22 23 24 24 25 26 27
3 5 9 3

Calcolo la distribuzione di frequenza e le densità di frequenza relativa

Importo clienti Densità


[10, 15) 3 3/5
[15, 20) 5 5/5
[20, 25) 9 9/5
[25, 30) 3 3/5
Totale 20

1.5
Densità

1.0

0.5

0.0

10 15 20 25 30

Importo

Soluzione dell’esercizio 2.7


Le altezze sono uguali alle densità e cioè sono sempre le (frequenze/ampiezza
di classe). Quindi

Classi di reddito Ampiezze Frequenze Densità


[0, 500) 500 100 0.2
[500, 1000) 500 200 0.4
[1000, 2000) 1000 500 0.5
[2000, 4000) 2000 600 0.3
[4000, 8000) 4000 400 0.1
Totale 1800
76 10. S OLUZIONI

Soluzione dell’esercizio 2.8


Vero. Ci sono vari esempi sul libro.

Soluzione dell’esercizio 2.9

Persone con giudizio ‘Buono’ = 50. È il totale della colonna ‘Buono’.


Persone con giudizio ‘Discreto’ = 37. È il totale della colonna ‘Discre-
to‘.
Persone con giudizio Buono o Discreto = 50 + 37
La proporzione sul totale di consumatori con un giudizio Buono o Discreto
è 87/212 = 0.410. Quindi la soluzione è D.

Soluzione dell’esercizio 2.10


I consumatori che hanno valutato il detersivo ‘Buono‘ e avevano la mar-
ca ‘a‘ sono all’intersezione della colonna ‘Buono‘ e della riga ‘a‘, cioè 10. La
proporzione è 10/212 = 0.047.

Soluzione dell’esercizio 2.11


I consumatori che hanno usato la marca ‘d‘ sono in totale 42. Tra di loro
quelli che hanno dato un giudizio ‘Mediocre‘ sono 11 e stanno all’incrocio
della riga ‘d‘ e della colonna ‘Mediocre‘. Quindi la proporzione richiesta è
11/42 = 0.26.

Soluzione dell’esercizio 2.12


Si tratta di una serie storica. Il grafico giusto è una spezzata che unisce
i punti che hanno come coordinate (data, valore).

8.4

8.2
euro

8.0

7.8

7.6

18 20 22 24 26 28

tempo
77

Soluzione dell’esercizio 2.13


(a) Le case che hanno al massimo 40 anni sono le case che hanno 10 o
20 o 30 o 40 anni. Queste sono in totale 140 perché è proprio la frequenza
cumulata. La proporzione è 140/320 = 0.4375. Infatti 320 è il numero totale
di case analizzato.
(b) Le case che hanno almeno 50 anni sono le case che hanno 50 o 60
anni. Le case che hanno 50 anni sono 240 - 140 = 100. Le case che hanno 60
anni sono 320 - 240 = 80. Quindi in totale le case che hanno almeno 50 anni
sono 100 + 80 = 180. La proporzione cercata è 180/320 = 0.5625.
(c) Le frequenze assolute si trovano facilmente calcolando le differenze
consecutive tra le frequenze cumulate.

Soluzione dell’esercizio 3.1


Abbiamo
12.1 + 14.5 + 9.7 + 8.1 + 13.0 + 12.5 + 10.5
media = = 80.4/7 = 11.48.
7
Per la mediana, prima ordiniamo i dati

8.1 9.7 10.5 12.1 12.5 13.0 14.5

Quindi siccome i dati sono in numero dispari, la mediana è il dato in posi-


zione centrale cioè Me = 12.1 gradi.

Soluzione dell’esercizio 3.2


La popolazione totale è 25.80 milioni. Quindi la media è 2.58 milioni.
La mediana è la semisomma tra 1.45 e 1.55 cioè 1.5 milioni di abitanti.
È meglio la mediana perché non risente troppo dei valori anomali (come
New York).

Soluzione dell’esercizio 3.3


(a) Le frequenze relative sono le frequenze divise per il totale di unità.
Si ottiene la tabella seguente:

Esami Studenti Freq. relative


0 50 0.10
1 100 0.19
2 160 0.31
3 120 0.23
78 10. S OLUZIONI

4 80 0.15
5 10 0.02
Totale 520 1.00

(b) Per calcolare la media dobbiamo calcolare il numero totale di esami


superati e dividerlo per il numero di unità, cioè 520. Il numero totale di
esami si calcola come somma di prodotti tra modalità e frequenze.

tot. esami = (0)(50) + (1)(100) + (2)(160) + (3)(120) + (4)(80) + (5)(10) = 1150.

È conveniente fare una tabella come questa:

Esami Studenti Prodotto


0 50 0
1 100 100
2 160 320
3 120 360
4 80 320
5 10 50
Totale 520 1150

Quindi la media è 1150/520 = 2.21 esami.


(c) Per calcolare la mediana si osserva che i dati sono già ordinati nel-
la tabella di frequenza. Il numero di studenti è 520, un numero pari. La
mediana è la semisomma del numero di esami delle due unità centrali
che sono la 260-ma e la 261-ma. Per trovare i valori corrispondenti è utile
guardare le frequenze cumulate

Esami Studenti Cumulate


0 50 50
1 100 150
2 160 310
3 120 430
4 80 510
5 10 520
Totale 520

da cui si vede che l’unità 260 sta nella terza classe con 2 esami. Anche la
261 sta nella stessa classe. Quindi la mediana è 2 esami superati.

Soluzione dell’esercizio 3.4


79

Per fare i conti costruiamo due tabelle.


Lettere: studenti 1 2 3 4 5 Totale
voto 110 109 108 110 110 547
scarti 0.6 −0.4 −1.4 0.6 0.6 0
scarti2 0.36 0.16 1.96 0.36 0.36 3.2

Il voto medio di laurea a Lettere è 547/5 = 109.4. 2


√ La varianza è s =
3.2/(5 − 1) = 0.8. La deviazione standard è s L = 0.8 = 0.89 punti.

Economia: studenti 1 2 3 4 5 Totale


voto 90 98 110 105 102 505
scarti −11 −3 9 4 1 0
scarti2 121 9 81 16 1 228

Il voto medio di laurea ad Economia è 505/5 = 101 punti, abbastanza infe-


riore a quello di Lettere. La varianza
√ è s2E = 228/(5 − 1) = 57. La deviazio-
ne standard del voto è s E = 57 = 7.55 punti. Evidentemente la variabilità
del voto di laurea è molto minore a Lettere.

Soluzione dell’esercizio 3.5


(a) Si osserva che la distribuzione è simmetrica (vedi diagramma a bar-
re) e quindi media e mediana sono uguali. La mediana è evidentemente
101.
40

30
Frequenza

20

10

0
98 99 100 101 102 103 104

voto

Verifichiamo che anche la media è 101. Costruiamo la tabella seguente.


Per calcolare la varianza compiliamo la tabella seguente

voto 98 99 100 101 102 103 104 Totale


frequenza 1 4 25 40 25 4 1 100
prodotto 98 396 2500 4040 2550 412 104 10100
80 10. S OLUZIONI

La media è dunque 10100/100 = 101.


Quindi calcoliamo la varianza creando la tabella seguente.

voto 98 99 100 101 102 103 104 Totale


frequenza 1 4 25 40 25 4 1 100
scarti da 101 −3 −2 −1 0 1 2 3
scarti2 9 4 1 0 1 4 9
2
scarti · frequenza 9 16 25 0 25 16 9 100

Quindi
√ la varianza è s2 = 100/99 = 1.01 e la deviazione standard è s =
1.01 ' 1.
(b) La proporzione di studenti che hanno preso un voto tra 99 e 103 è
980/1000 = 98%.
Questo è in accordo con la disuguaglianza di Chebychev che asserisce
che questa proporzione deve essere maggiore di 1 − 1/4 = 75%.

Soluzione dell’esercizio 3.6

Gli estremi dell’intervallo (52, 85) sono 52 = media − 16 e 84 = media +


16. Inoltre la deviazione standard è s = 8 quindi l’intervallo (52, 85) è del-
la forma 68 ± 2 × 8 cioè x ± 2s. Quindi l’intervallo contiene come minimo
una proporzione di osservazioni 1 − 1/4 = 0.75. La percentuale minima è
il 75%.

Soluzione dell’esercizio 3.7

Per valutare la variabilità relativa si usa il coefficiente di variazione


CV = σ/µ. Quindi

CVA = 4/14 = 0.286, CVB = 15/58 = 0.259

Quindi CVA > CVB . Vero.

Soluzione dell’esercizio 3.8

Scatter:
81

350

300

250
y

200

150

1400 1450 1500 1550 1600 1650 1700

Calcoli:
famiglie 1 2 3 4 Totale Media
reddito 1500 1700 1400 1600 6200
scartiX −50 150 −150 50 0 1550
scarti2X 2500 22500 22500 2500 50000

spesa 200 350 150 300 1000


scartiY −50 100 −100 50 0 250
scartiY2 2500 10000 10000 2500 25000

scartiX scartiY 2500 15000 15000 2500 35000


Perciò abbiamo media(X) = 1550, media(Y) = 250, var(X) = 50000/(5-1),
var(Y) = 25000/(5-1). cov(X, Y ) = 35000/(5 − 1).
Quindi √
r = 35000/ 50000 × 25000 = 0.9899.
Vi è una forte relazione lineare positiva, quasi perfetta.

Soluzione dell’esercizio 3.9


Coefficiente angolare:
35000
q
b1 = cor( X, Y ) var(Y )/var( X ) = cov( X, Y )/var( X ) = = 0.7.
50000
La retta deve passare per il punto (media(X), media(Y)) = (1550, 250) e
quindi ha equazione
y = 250 + 0.7( x − 1550) = −835 + 0.7x.
82 10. S OLUZIONI

La pendenza ha l’interpretazione: per ogni Euro in più di reddito la spesa


aumenta di 70 centesimi di Euro.

Soluzione dell’esercizio 3.10


Falso. Perché 0.78 = cov( X, Y )/(var( X )var(Y )) mentre il coefficiente
di correlazione è
q
cor( X, Y ) = cov( X, Y )/ var( X )var(Y ).

Soluzione dell’esercizio 3.11

A) Falso. La covarianza cambia al variare dell’unità di misura e quindi


si può rendere più piccola del coefficiente di correlazione.

B) Vero. Perché il coefficiente di correlazione è la covarianza fra le due


variabili standardizzate.

C) Falso. Evidentemente altrimenti non esisterebbe il concetto di incor-


relazione.

D) Falso. La covarianza cambia al variare dell’unità di misura e quindi


si può rendere più grande del coefficiente di correlazione.

Soluzione dell’esercizio 3.12


Falso. È sempre compreso in [−1, 1].

Soluzione dell’esercizio 3.13


È chiaro che il coefficiente di correlazione deve essere negativo. Ovvia-
mente si scartano la B) (incorrelazione) e la D) (perfetto allineamento). Tra
A) e D) si sceglie A) perché l’associazione lineare è più vicina a −1 che a 0.
Qui ci vuole un po’ d’occhio.

Soluzione dell’esercizio 3.14


Calcolare la covarianza di 11 coppie di valori è piuttosto pesante. Sareb-
be meglio farlo con un computer. Tuttavia a uno sguardo più attento si nota
che le coppie di valori seguono tutte una regola precisa y = 2x. Perciò sullo
scatter dei dati i punti sono tutti allineati sulla retta y = 2x con pendenza
positiva 2. Questo implica che il coefficiente di correlazione è r = 1.
83

Per rispondere alla domanda (a) sappiamo che

cov( X, Y )
r=
s X sY

quindi cov( X, Y ) = s X sY . Occorre calcolare la deviazione standard di X e


di Y = 2X.
Per calcolare la varianza di X si calcola prima la media che risulta

1
x= (18 + 12 + 2 + 10 + 7 + 14 + 8 + 4 + 6 + 13 + 5) = 9
11

La somma dei quadrati degli scarti dalla media 9 è

(18 − 9)2 + (12 − 9)2 + (2 − 9)2 + (10 − 9)2 + (7 − 9)2 + (14 − 9)2 +
+ (8 − 9)2 + (4 − 9)2 + (6 − 9)2 + (13 − 9)2 + (5 − 9)2 = 236.

Quindi la varianza è s2X = 236/(11 − 1) = 23.6. La varianza di Y = 2X è il


quadruplo della varianza di X cioè sY2 = 4 × 23.6 = 94.4.

Pertanto, la covarianza è cov( X, Y ) = s X sY = 23.6 × 94.4 = 47.2.

Soluzione dell’esercizio 3.15

Soluzione dell’esercizio 3.16

(a) m = 0.989 · 213.6/0.0568 = 3719.1 Quindi la retta dei minimi qua-


drati è

prezzo ≈ 500 + 3719.1 (carati − 0.2)

ovvero

prezzo ≈ −243.82 + 3719.1 carati

La figura sottostante mostra la retta sullo scatter.


84 10. S OLUZIONI

1000
prezzo

600
0 200

0.0 0.1 0.2 0.3 0.4

carati

(b) Per ogni carato in più il prezzo aumenta di 3719 $. Ovvero per ogni
decimo di carato in più il prezzo aumenta di 371.9 $.
(c) È negativa.
(d) Ci si attende un prezzo pari alla media di 500 $ perché 0.2 è la media
dei carati e la retta sei minimi quadrati passa sempre per il punto ( x, y).
(e) Se i carati sono 0.3 il prezzo atteso è

−243.82 + 3719.1 0.3 = 871.91$.

Soluzione dell’esercizio 4.1


A = {2, 4, 6, 8, 10, 12} e quindi A = {3, 5, 7, 9, 11}. Nota che non può
avvenire che la somma di due dadi sia 1!
B = {8, 9, 10, 11, 12} quindi B = {2, 3, 4, 5, 6, 7}. Conclusione: A ∪ B =
{2, 3, 4, 5, 6, 7, 9, 11}: risposta C.

Soluzione dell’esercizio 4.2


P( A ∩ B) = P( A) + P( B) − P( A ∪ B) quindi P( A ∩ B) ≤ P( A) + P( B).
Vero.

Soluzione dell’esercizio 4.3


Due eventi sono esaustivi se la loro unione è l’intero spazio campiona-
rio. Ossia se l’evento “si verifica A oppure si verifica B” è l’evento certo.
Quindi è Vero.
85

Soluzione dell’esercizio 4.4


Usando le informazioni possiamo completare la tabella:

Sesso
Scuola Maschio Femmina Totale
Ragioneria 60 50 110
Altra 20 70 90
Totale 80 120 200

Quindi

• la probabilità di selezionare una femmina = 120/200 = 0.6

• la probabilità di selezionare un maschio = 0.4

• la probabilità di selezionare una persona che non ha fatto Ragioneria


= 90/200 = 0.45

• la probabilità di selezionare una femmina che ha fatto Ragioneria =


50/200 = 0.25

• la probabilità di selezionare o una femmina o una persona che ha fatto


Ragioneria = (50 + 60 + 70)/200 = 0.9.

Soluzione dell’esercizio 4.5


La tavola è
B1 B2
A1 0.10 1.30
A2 0.05 0.55

La P( B1 ) è il totale della prima colonna cioè P( B1 ) = P( A1 ∩ B1 ) +


P( A2 ∩ B1 ) = 0.10 + 0.05 = 0.15.

Soluzione dell’esercizio 4.6


Interpreta la proporzione come una probabilità. Casi possibili: 400 ri-
spondenti. Casi favorevoli: single M o single F = 122 + 95 = 217. Quindi la
proporzione è 217/400 = 0.5425 che arrotondato a 3 cifre è 0.543.
86 10. S OLUZIONI

Soluzione dell’esercizio 4.7


Risulta

P(pareggio) = P(non(Vinca 1 o Vinca 2))


= 1 − P(Vinca 1 o Vinca 2) = 1 − 0.5 − 0.2 = 0.3.

Soluzione dell’esercizio 4.8


Sono indipendenti se

P(Master ∩ Alta) = P(Master) P(Alta)

Risulta che i casi possibili sono 160, mentre

15 + 13 + 7
P(Master ∩ Alta) = 7/160, P(Master) = = 35/160,
160
32 + 14 + 7
P(Alta) = = 53/160
160
Quindi poiché 7/160 6= (35/160)(53/160) i due eventi non sono indipen-
denti.

Soluzione dell’esercizio 4.9

• Numero di modi con cui possiamo prendere 2 muratori da 5: (52) = 10

• Numero di modi con cui possiamo prendere 4 manovali da 6: (64) =


15.

Quindi i diversi modi sono 10 · 15 = 150.

Soluzione dell’esercizio 4.10


I casi possibili sono 52 · 51/2 = 1326 (tutte le coppie possibili). Sono gli
eventi elementari che ti possono capitare. I casi favorevoli all’evento sono
quei casi in cui estrai due assi dei 4 esistenti. Sono 4 · 3/2 = 6:

C F Q P C = Asso di cuori, F = fiori,


C - CF CQ CP Q = quadri, P = picche
F - FQ FP
Q - QP
87

Quindi la probabilità di ottenere esattamente due assi in due carte è


6/1326.

Soluzione dell’esercizio 4.11


Abbiamo P(fuma o maschio) = 0.7 e

P(non fuma e non maschio) = P(non(fuma o maschio))


= 1 − P(fuma o maschio) = 1 − 0.7 = 0.3.

Soluzione dell’esercizio 4.12


La probabilità dell’evento A = ‘l’azienda realizza un utile minore dell’
8%‘ è
P( A) = 0.09 + 0.14 + 0.16 = 0.39.
( basta fare il totale della prima colonna). Quindi la probabilità cercata è

P( A) = 1 − 0.39 = 0.61.

Soluzione dell’esercizio 4.13


Se un evento C è contenuto in un altro evento A, la probabilità di C deve
per forza essere minore o uguale alla probabilità di A. Infatti tutti gli eventi
elementari di C sono contenuti in A e quindi se C si verifica per forza si
verifica anche A. Ora l’intersezione di A e B è per forza contenuta sia in A
che in B. Quindi

P( A ∩ B) ≤ P( A) e P( A ∩ B) ≤ P( B)

e l’affermazione quindi è vera.

Soluzione dell’esercizio 4.14


Sia A = la segretaria ha il dolore al polso e B = la segretaria assume il
farmaco. Perciò: P( A) = 0.14 e P( A ∩ B) = 0.06.
La probabilità richiesta è la probabilità condizionata P( B | A).
Per definizione

P( B| A) = P( B ∩ A)/P( A) = 0.06/0.14 = 0.428.


88 10. S OLUZIONI

Soluzione dell’esercizio 4.15


Sono le combinazioni di 10 oggetti di classe 4
 
10 (10)(9)(8)(7)
= = 210.
4 (4)(3)(2)(1)

Soluzione dell’esercizio 4.16


Siano gli eventi M = ‘l’azienda ha una crescita media’ e A = ‘l’azienda
ha una crescita alta’.
Definiamo l’evento N = ‘l’azienda è ubicata nel Nord-Ovest’. Abbiamo
P( M ) = 0.05 + 0.08 + 0.06 + 0.12 = 0.31
P( A) = 0.03 + 0.05 + 0.08 + 0.04 = 0.20
Quindi
P( M ∪ A) = P( M) + P( A) = 0.31 + 0.20 = 0.51.
Per comodità chiamiamo B = M ∪ A. Si chiede P( N | M ∪ A) = P( N | B).
Quindi per definizione

P( N | B) = P( N ∩ B)/P( B)
P(ubicata a NW e a crescita medio/alta)
=
P(a crescita medio/alta)
= (0.12 + 0.04)/0.51 = 0.31.
Quindi la soluzione è B).

Soluzione dell’esercizio 4.17


Casi possibili = # combinazioni di 14 oggetti di classe 4
 
14 (14)(13)(12)(11)
= = 1001.
4 (4)(3)(2)(1)
Casi favorevoli = # di modi di appaiare 2 computer col modem e 2 senza.
Siccome i 2 col modem sono presi dai 5 con e i 2 senza sono presi dai 9
senza, i casi favorevoli sono
  
5 9
= (5)(4)/2 · (9)(8)/2 = 360.
2 2
Quindi la probabilità è 360/1001 = 0.3596.
89

Soluzione dell’esercizio 4.18


Eventi: F = ‘un rispondente ha fiducia nel sindaco’. D = ‘un rispondente
è donna’, M = ‘un rispondente è maschio’.
Cosa sappiamo?

P( F ) = 0.62, P( D ) = 0.53, P( F | D ) = 0.46

Chiede la probabilità P( M ) = P(non D ) = 1 − P( D ) = 1 − 0.53 = 0.47.


L’esercizio spiazza un po’ perché fornisce un dato che non serve.

Soluzione dell’esercizio 4.19

A = {2, 4, 6, 8, 10, 12}, B = {8, 9, 10, 11, 1, 2}, A ∩ B = {8, 10, 12}.

A) FALSO (l’intersezione non è vuota)

B) FALSO (l’intersezione non è quella)

C) FALSO (A ∪ B non comprende tutti i casi come dovrebbe: per esem-


pio non il 3)

D) VERO

Soluzione dell’esercizio 4.20


S = ‘lo studente passa lo scritto‘. O = ‘lo studente passa l’orale‘. Quindi

P(S) = 0.5, P(O|S) = 0.98

Poiché S ∩ O = ‘lo studente passa l’esame‘,

P(S ∩ O) = P(S) P(O | S) = (0.5)(0.98) = 0.49.

Soluzione dell’esercizio 4.21


M = ‘maschio’, F = ‘femmina’, D = ‘persona daltonica’. Sappiamo che
P( M ) = 0.5 = P( F ). Inoltre P( D | M) = 0.05 e P( D | F ) = 0.10. Si chiede
P( M | D ). È un caso in cui bisogna usare la formula di Bayes.
90 10. S OLUZIONI

Abbiamo P( M | D ) = P( D ∩ M )/P( D ). Inoltre:

P( D ∩ M ) = P( D | M) P( M ) = (0.05)(0.5) = 0.025
P( D ) = P( D ∩ M) + P( D ∩ F )
= P( D | M) P( M) + P( D | F ) P( F )
= (0.05)(0.5) + (0.10)(0.5) = 0.025 + 0.05 = 0.075.

Quindi P( M | D ) = 0.025/0.075 = 1/3.

Soluzione dell’esercizio 4.22


A è incluso in A ∪ B. Perciò P( A) ≤ P( A ∪ B). Quindi non può
succedere: risposta D).

Soluzione dell’esercizio 4.23


A) Vera: A ∪ B = ∅ non può avvenire se uno dei due eventi contiene de-
gli elementi. B) Falso: la definizione è A ∪ B = S. C) Falso: A ∩ B = ∅ im-
plica che gli eventi sono disgiunti non esaustivi. D) Falso: in questo caso gli
eventi sono una partizione di S e quindi la loro unione è necessariamente
uguale a S.

Soluzione dell’esercizio 4.24

A) Falsa: per esempio perché se B è disgiunto da A, P( A ∪ B) = P( A) +


P( B) ≥ 0.7.

B) Falsa: se B = ∅, P( A ∪ B) = P( A) = 0.7

C) Falsa: vedi D).

D) Vera: L’evento A ∪ B contiene sempre A e quindi si verifica sempre


se si verifica A. Quindi P( A ∪ B) ≥ P( A) e quindi non può mai
succedere che P( A ∪ B) = 0.5 < P( A).

Soluzione dell’esercizio 5.1

P( X = 4) = P( X ≤ 4) − P( X ≤ 3) = 0.92 − 0.80 = 0.12.


P( X = 6) = 1 − P( X ≤ 5) = 1 − 0.96 = 0.04.
Quindi
91

Modalitˋa Probabilitˋa % Prob. Cumulata %


1 4 4
2 60 64
3 16 80
4 12 92
5 4 96
6 4 100

Il valore atteso è

E( X ) = 1 · 0.04 + 2 · 0.6 + 3 · 0.16 + 4 · 0.12 + 5 · 0.04 + 6 · 0.04 = 2.64.

Soluzione dell’esercizio 5.2

A) P( X ≥ 3) = 0.24 + 0.18 + 0.11 + 0.03 + 0.04 = 0.6. Falsa

B) P(2 < X < 5) = 0.24 + 0.18 = 0.42. Vera

C) P( X > 6) = 0.04. Falsa

D) P( X ≤ 6) = 1 − 0.04 = 0.96. Falsa.

Soluzione dell’esercizio 5.3

a) P( X > 1) = 1 − P( X = 1) = 1 − 0.5 = 0.5.


b) P( X ≥ 2) = P( X > 1) = 0.5
c) P( X ≤ 2) = P( X = 1 ∪ X = 2) = P( X = 1) + P( X = 2) = 0.75.

Soluzione dell’esercizio 5.4

E( X ) = 1 · 0.5 + 2 · 0.25 + 3 · 0.15 + 4 · 0.1 = 1.85.


var( X ) = (1 − 1.85)2 0.5 + (2 − 1.85)2 0.25+
+ (3 − 1.85)2 0.15 + (4 − 1.85)2 0.1 = 1.0275.

Quindi σX = 1.0275 = 1.014.
92 10. S OLUZIONI

Soluzione dell’esercizio 5.5


Lo spazio campionario è

11 12 13
21 22 23
31 32 33

Ognuno dei 9 eventi elementari ha la stessa probabilità 1/9. La somma X


dei numeri è
2 3 4
3 4 5
4 5 6
Quindi X assume come valori 2, 3, 4, 5, 6 con probabilità

p(2) = P(11) = 1/9


p(3) = P(12 ∪ 21) = 1/9 + 1/9 = 2/9
p(4) = P(13 ∪ 22 ∪ 31) = 3/9
p(5) = P(23 ∪ 32) = 2/9
p(6) = P(33) = 1/9

La funzione di probabilità

x 2 3 4 5 6 Totale
p( x ) 1/9 2/9 3/9 2/9 1/9 1

Inoltre E( X ) = 2(1/9) + 3(2/9) + 4(3/9) + 5(2/9) + 6(1/9) = 4.

Soluzione dell’esercizio 5.6


Posto p = P(1 successo in 1 prova) = 0.5. Allora P( 4 successi su 4
prove indipendenti) = p4 = 0.54 = 0.0625.

Soluzione dell’esercizio 5.7

P(0 successi su 4 prove indipendenti) = (1 − p)4 = 0.54 = 0.0625.


93

Soluzione dell’esercizio 5.8


Successo = semaforo verde. p = P( 1 successo in una prova) = 0.3.

P(0 successi su 4 prove indipendenti) = (1 − p)4 = 0.74 = 0.2401.

Soluzione dell’esercizio 5.9


La distribuzione del numero di teste è binomiale con n = 2 e p = 0.2.
La distribuzione è
x P( x )
0 0.82 = 0.64
1 (2)(0.80)(0.2) = 0.32
2 0.22 = 0.04
1.00
Il valore atteso è np = (2)(0.2) = 0.4 e la varianza è np(1 − p) = 2(0.2)(0.8) =
0.32 come si può verificare.

E( X ) = 0 · 0.64 + 1 · 0.32 + 2 · 0.04 = 0.4


var( X ) = (0 − 0.4)2 0.64 + (1 − 0.4)2 0.32 + (2 − 0.4)2 0.04 = 0.32

Soluzione dell’esercizio 5.10

A) La X ha due mode in X = 5 e X = 4 è falso perché la binomiale è


sempre unimodale

B) La X ha due mode in X = 5 e X = 6. Falso.

C) La X ha una moda in X = 5. Qui occorre vedere se la maggiore


probabilità si ha per X = 5 o X = 6.
 
12
P ( X = 5) = (0.4)5 (0.6)7 = 0.227
5
 
12
P ( X = 6) = (0.4)6 (0.6)6 = 0.176.
6
Quindi VERO.

D) La X ha una moda in X = 6. Falso di conseguenza.


94 10. S OLUZIONI

Soluzione dell’esercizio 5.11


Sono n = 5 prove di Bernoulli indipendenti ciascuna con probabilità
di successo p = 1/5. Se X = numero successi, la probabilità di X = 3 è
binomiale
 
5
P ( X = 3) = (0.2)3 (0.8)2 = (10)(0.008)(0.64) = 0.0512.
3

Soluzione dell’esercizio 5.12


Sono n = 10 prove di Bernoulli indipendenti con probabilità di successo
p = P(prendere il raffreddore) = 0.4. Notare che la selezione a caso è equi-
valente a un campione con ripetizione di 10 elementi da una popolazione
molto grande.
Perché con ripetizione? perché non si dice la dimensione della popola-
zione supponendola infinita. Quindi si pone X = numero di successi in 10
prove.
 
10
P ( X = 4) = (0.4)4 (0.6)6 = 210 · 0.0256 · 0.046656 = 0.251.
4

Soluzione dell’esercizio 5.13


Il campione è con ripetizione. Ad ogni estrazione la probabilità di estrar-
re un pesce rosso è costante e le estrazioni sono indipendenti. Quindi si usa
la Binomiale con n = 5 e p = probabilità di estrarre un pesce rosso dal lago
= 2/10 = 0.2. Quindi
 
5
P ( X = 1) = (0.2)1 (0.8)4 = (5)(0.2)(0.4096) = 0.4096.
1

Soluzione dell’esercizio 5.14


La popolazione dei pesci è finita e N = 10. Si estrae un campione senza
ripetizione di 5 pesci. Se X = numero di pesci rossi (successi) nel campione

P( X = 1) = P(1 pesce rosso nel campione)


    
2 8 10
= / = (2)(70)/(252) = 0.55555.
1 4 5
95

Soluzione dell’esercizio 5.15


La selezione di un lotto di 5 pezzi equivale a un campione con ripeti-
zione perché la popolazione è infinita (nota che non si dà la dimensione
della popolazione di pezzi che possono essere prodotti). Quindi si usa la
binomiale con n = 5 = dimensione del campione e p = P(difettoso) = 0.2.
Quindi  
5
P ( X = 1) = (0.2)1 (0.8)4 = 0.4096
1

Soluzione dell’esercizio 5.16


La somma può essere 1 solo se tutti e tre i dadi danno un 1.

P(somma = 3) = P(1 primo dado e 1 secondo e 1 terzo) = P(1) P(1) P(1)

perché si suppone che i tre lanci diano risultati indipendenti.


Poiché P(1) = 1/6, la probabilità che la somma sia 3 è (1/6)(1/6)(1/6) =
0.0046.

Soluzione dell’esercizio 5.17


La popolazione non si sa quanto sia grande e quindi si suppone che sia
infinita o molto grande. Quindi non c’è differenza tra un campione senza e
con ripetizione.
Allora posso usare la binomiale con n = 100 e

p = P(estrarre un favorevole al premier) = 0.3.

Se X = numero di favorevoli al premier su 100, abbiamo


 
100
P( X = 35) = (0.3)35 (0.7)65 = 0.04677968
35

Ma qui ci vuole un calcolatore perché ad esempio


 
100
= 1095067153187962886461165020
35

Si può calcolare usando l’approssimazione della normale alla binomiale. Si


veda il capitolo 8.
96 10. S OLUZIONI

Soluzione dell’esercizio 5.18


Solo D). Le altre sono misure e quindi variabili continue.

Soluzione dell’esercizio 5.19


Qui si suppone che selezionare casualmente 12 controllori da una popo-
lazione (di numerosità ignota) sia equivalente a fare 12 prove di Bernoulli
indipendenti con probabilità 0.4 di selezionare uno stressato. Il numero X
di controllori di volo stressati su 12 è quindi binomiale.

X = # stressati su 12 ∼ Bin(n = 12, p = 0.4)

Quindi la probabilità che almeno 2 due di loro siano stressati su 12 è

P ( X ≥ 2) = 1 − P ( X < 2) = 1 − P ( X = 0) − P ( X = 1)

Quindi si usa la formula della probabilità Binomiale:


   
12 0 12 12
1− (0.4) (0.6) − (0.4)1 (0.6)11 = 1 − 0.612 − 12(0.4)(0.611 ) = 0.9804.
0 1

Soluzione dell’esercizio 5.20


Abbiamo

E( X ) = (0)(0.07) + (1)(0.19) + (2)(0.23) + (3)(0.17)+


+ (4)(0.16) + (5)(0.14) + (6)(0.04) = 2.74.

Soluzione dell’esercizio 5.21


Abbiamo
cov( X, Y )
corr( X, Y ) =
σX σY
quindi
0.25
corr( X, Y ) = √ = 0.595.
0.36 · 0.49
La risposta D) è un errore clamoroso perché dà un coefficiente di correla-
zione più grande di 1!
97

Soluzione dell’esercizio 5.22


L’associazione lineare si misura con il coefficiente di correlazione linea-
re.
q
corr( X, Y ) = cov( X, Y )/ var( X )var(Y ).

dove cov( X, Y ) = E( XY ) − E( X ) E(Y ) = 21 − (5)(6) = −9. Quindi


q
corr( X, Y ) = −9/ (9)(10) ' −0.95.

L’associazione è negativa e forte. Risposta C).

Soluzione dell’esercizio 5.23


Il numero di volte che si gioca è aleatorio e lo chiamiamo X. Se in un
mese paghiamo 500 euro più 50 a partita, in un mese paghiamo 500 + 50X
euro. In media perciò paghiamo

500 + 50E( X ) = 500 + (50)(10) = 1000 euro.

La varianza è

var( X ) = var(500 + 50X ) = 2500 var( X ) = 2500(2.22 ).

La deviazione standard è σX = (50)(2.2) = 110 euro.

Soluzione dell’esercizio 5.24


Chiede quale è Falsa. A) Vera. B) Falsa: manca il termine +2cov( X, Y ).
C) Vera. D) Vera.
Risposta B).

Soluzione dell’esercizio 5.25


Falso. E(Y ) = E( a + bX ) = a + bµ X .

Soluzione dell’esercizio 5.26


Falso. Ci può essere una relazione non lineare. Guarda questa figura:
98 10. S OLUZIONI

10
8
r= 0

6
4
y

2
0
−2

−3 −2 −1 0 1 2 3

Soluzione dell’esercizio 5.27


Falso perché l’esperimento di Bernoulli descrive tutte le situazioni in cui
il risultato è successo o insuccesso e la probabilità di successo è un qualsiasi
valore p, non solo p = 0.5.

Soluzione dell’esercizio 5.28


Falso: è sempre valida E( X + Y ) = E( X ) + E(Y ).

Soluzione dell’esercizio 5.29


Falso: la definizione è p( x, y) = p( x ) p(y) per ogni x, y. Cioè

p(y | x ) = p(y), e p( x | y) = p( x ) per ogni x, y.

Soluzione dell’esercizio 5.30


Vero: E( X ) = np = (5)(0.2) = 1.

Soluzione dell’esercizio 5.31

var( X − Y ) = var( X + (−1)Y )


= var( X ) + var[(−1)Y ] + 2cov( X, (−1)Y )
= var( X ) + (1)2 var(Y ) + 2(−1)cov( X, Y )
= var( X ) + var(Y ) − 2cov( X, Y )
√ √
= 10 + 5 − 2(0.4) 10 5 = 9.343.
99

Soluzione dell’esercizio 5.32


(a) X e Y sono legate linearmente perché X = 2 − Y. È una relazione
lineare decrescente. Quindi cor( X, Y ) = −1. Infatti:

E( X ) = 1(0.4) + 2(0.6) = 0.4 + 1.2 = 1.6.


E(Y ) = 0(0.6) + 1(0.4) = 0.4.
E( XY ) = (0)(1)(0) + (0)(2)(0.6) + (1)(1)(0.4) + (1)(2)(0) = 0.4.
cov( X, Y ) = E( XY ) − E( X ) E(Y ) = 0.4 − (1.6)(0.4) = −0.24.
E( X 2 ) = (1)(0.4) + (4)(0.6) = 2.8
E(Y 2 ) = (0)(0.6) + (1)(0.4) = 0.4
var( X ) = E( X 2 ) − E( X )2 = 2.8 − 1.62 = 0.24
var(Y ) = E(Y 2 ) − E(Y )2 = 0.4 − 0.42 = 0.24
p
Quindi corr( X, Y ) = −0.24/ (0.24)(0.24) = −1.
(b) La media e la varianza di W sono

E(W ) = E(2X − 4Y ) = 2E( X ) − 4E(Y ) = (2)(1.6) − (4)(0.4) = 1.6


var(W ) = 4var( X ) + 16var(Y ) − 16cov( X, Y )
= (4)(0.24) + (16)(0.24) − (16)(−0.24) = 8.64.

Soluzione dell’esercizio 5.33


Poiché il valore del portafoglio è T = 20X + 30Y,

E( T ) = 20E( X ) + 30E(Y ) = (20)(10) + (30)(25) = 950.


q
var( T ) = 400var( X ) + 900var(Y ) + (2)(20)(30)corr( X, Y ) var( X )var(Y )
= (400)(9) + (900)(16) + (1200)(−0.4)(3)(4) = 12240.

Soluzione dell’esercizio 6.1

P(3 < X < 4) = P( X < 4) − P( X < 3) = 2/3 − 1/3 = 1/3

Soluzione dell’esercizio 6.2


Dalle tavole si vede
100 10. S OLUZIONI

z F(z)
0.66 0.7454
0.67 0.7486
0.68 0.7517
0.69 0.7549
0.70 0.7580

Quindi P( Z ≤ 0.67) = F (0.67) = 0.7486. Nota che sulla Tavola 1 del libro
il valore è indicato con .7686 omettendo lo zero iniziale.

Soluzione dell’esercizio 6.3

(a) P( Z < 0.5) = 0.6915


0.4
0.3
0.2
0.1
0.0

−4 −2 0 2 4

(b) P( Z < −1) = 1 − P( Z < 1) = 1 − 0.8413 = 0.1587


0.4
0.3
0.2
0.1
0.0

−4 −2 0 2 4

(c) P(0 < Z < 0.5) = P( Z < 0.5) − P( Z < 0) = 0.6915 − 0.5 = 0.1915
101

0.4
0.3
0.2
0.1
0.0
−4 −2 0 2 4

(d) P(1 < Z < 2) = P( Z < 2) − P( Z < 1) = 0.9772 − 0.8413 = 0.1359


0.4
0.3
0.2
0.1
0.0

−4 −2 0 2 4

(e) P(−0.5 < Z < 1) = P( Z < 1) − (1 − P( Z < 0.5)) = 0.8413 − (1 −


0.6915) = 0.5328
0.4
0.3
0.2
0.1
0.0

−4 −2 0 2 4

(f) P(−2 < Z < 0) = P(0 < Z < 2) = P( Z < 2) − 0.5 = 0.9772 − 0.5 =
0.4772
0.4
0.3
0.2
0.1
0.0

−4 −2 0 2 4

z
102 10. S OLUZIONI

(g) P(−2 < Z < −1) = P(1 < Z < 2) = 0.1359

0.4
0.3
0.2
0.1
0.0
−4 −2 0 2 4

(h) P( Z > 1) = 1 − P( Z < 1) = 0.1587


0.4
0.3
0.2
0.1
0.0

−4 −2 0 2 4

(i) P( Z > −1) = P( Z < 1) = 0.8413.


0.4
0.3
0.2
0.1
0.0

−4 −2 0 2 4

Soluzione dell’esercizio 6.4


Dalle tavole si vede

z F(z)
0.66 0.7454
0.67 0.7486
103

0.68 0.7517
0.69 0.7549
0.70 0.7580

Quindi F (0.67) = 0.7486 e F (0.68) = 0.7517. Quindi il valore più vicino a


0.75 è il primo. Allora prendiamo z∗ = 0.67,

P( Z < 0.67) ' 0.75 e quindi Q3 = 0.67.


0.4
0.3
0.2

0.75
0.1
0.0

−3 −2 −1 0 0.67 1 2 3

Soluzione dell’esercizio 6.5


Per simmetria Q1 = −0.67

P( Z < −0.67) = 1 − P( Z < 0.67) = 1 − 0.75 = 0.25.

Soluzione dell’esercizio 6.6

scarto interquartile = Q3 − Q1 = 0.67 − (−0.67) = 1.34

Soluzione dell’esercizio 6.7


È il valore tale che P( Z > z∗ ) = 0.25 cioè tale che

P( Z < z∗ ) = 1 − 0.25 = 0.75

cioè z∗ = 0.67.

Soluzione dell’esercizio 6.8


104 10. S OLUZIONI

P( X > 60) = P( Z > (60 − 80)/10) = P( Z > −2) = P( Z < 2) = 0.9772.


P(72 < X < 82) = P( X < 82) − P( X < 72)
= P( Z < (82 − 80)/10) − P( Z < (72 − 80)/10)
= P( Z < 0.2) − P( Z < −0.8) = 0.5793 − (1 − P( Z < 0.8))
= 0.5793 − (1 − 0.7881) = 0.3674.
P( X < 55) = P( Z < (55 − 80)/10)
= P( Z < −2.5) = 1 − P( Z < 2.5) = 1 − 0.9938 = 0.0062.
0.04

0.04

0.04
0.03

0.03

0.03
0.02

0.02

0.02
0.01

0.01

0.01
0.00

0.00

0.00
40 60 80 100 120 40 60 80 100 120 40 60 80 100 120

x x x

Soluzione dell’esercizio 6.9


Per definizione: la regola empirica si applica solo se la popolazione è
simile a una variabile normale. Falso.

Soluzione dell’esercizio 6.10


Prima cosa occorre trasformare il problema

P( X > x ∗ ) = 0.10 è equivalente a P( X < x ∗) = 0.90

Poi si standardizza:

P( Z < ( x ∗ − 80)/10) = 0.90.

Quindi il quantile 0.9 della normale standard è 1.28 (vedi Tavola 1). Cioè

( x ∗ − 80)/10 = 1.28

da cui risolvendo
x ∗ = 80 + (10)(1.28) = 92.8.
105

Soluzione dell’esercizio 6.11


Equivale a dire: trova il valore k tale che la probabilità che X stia tra
80 − k e 80 + k sia 0.95. In altre parole:

P(80 − k < X < 80 + k ) = 0.95.

Bisogna perciò risolvere

P( X < 80 + k ) − P( X < 80 − k ) = 0.95

Siccome la normale è simmetrica rispetto alla media

P( X < 80 − k ) = 1 − P( X < 80 + k )

si ha
P( X < 80 + k ) − (1 − P( X < 80 + k )) = 0.95
2P( X < 80 + k ) − 1 = 0.95
P( X < 80 + k ) = 0.975
Quindi standardizzando

P[ Z < (80 + k − 80)/10] = 0.975.

Il quantile 0.975 della normale standard è 1.96. Perciò

(80 + k − 80)/10 = 1.96

da cui risolvendo si ottiene k = 19.6.

Soluzione dell’esercizio 6.12


Siano X le vendite. Allora

(a) P( X > 1000) = P( Z > (1000 − 1200)/100) = P( Z > −2) = P( Z <


2) = 0.9772.

(b) Si calcola

P(1100 < X < 1300) = P((1100 − 1200)/100 < Z < (1300 − 1200)/100)
= P(−1 < Z < 1) = P( Z < 1) − P( Z < −1)
= P( Z < 1) − (1 − P( Z < 1))
= 2P( Z < 1) − 1 = 2(0.8413) − 1 = 0.6826.
106 10. S OLUZIONI

(c) Qual è il numero di unità vendute che ha probabilità 0.1 di essere su-
perato? Se X ∼ N (1200, 1002) sono le vendite si deve calcolare il va-
lore d tale che P( X > d) = 0.1. Bisogna usare la Tavola 1 all’inverso.
Quindi si standardizzano ambo i membri:

P( Z > d − 1200100) = 0.1

Sulle Tavola si trova che P( Z ≤ 1.28) ' 0.9 e quindi P( Z > 1.28) '
0.1. Perciò d − 1200100 = 1.28. Dunque il valore d cercato è d =
1200 + 1.28 · 100 = 1328.

Soluzione dell’esercizio 6.13


Se la distribuzione di X è ignota si usa la disuguaglianza di Cheby-
shev. Entrambi gli intervalli hanno come punto centrale la media della
distribuzione.
(a) Nel primo caso $(210, 290)4 ha punto centrale (210 + 290)/2 = 250.
Si trova il raggio dell’intorno di 250 che è (290 − 210)/2 = 40. Quindi
l’intervallo è 250 ± 40.
Quindi si esprime il raggio come un multiplo della deviazione standard
cioè 40 = k20 da cui si ottiene k = 2 (il raggio 40 è il doppio della deviazione
standard). Infine si usa la disuguaglianza di C.

P(210 < X < 290) ≥ 1 − 1/(k2 ) = 1 − 1/4 = 0.75.

(b) Nel secondo caso il raggio è (280 − 220)/2 = 60/2 = 30 e poiché


30 = k20 implica k = 1.5.

P(220 < X < 280) ≥ 1 − 1/(k2 ) = 1 − 1/(1.52 ) = 0.555

Sapendo che X è normale le probabilità si possono ottenere usando le


tavole.

(a) P(210 < X < 290) = P(−2 < Z < 2) = 2(0.9772) − 1 = 0.9544

(b) P(220 < X < 280) = P(−1.5 < Z < 1.5) = 2(0.9332) − 1 = 0.8664

Soluzione dell’esercizio 7.1


X ∼ N (25, σ = 2). Campione = ( X1 , X2 , X3 , X4 ) indipendenti e identi-
camente distribuiti come X.
107

(a) La percorrenza media è X = √


( X1 + X2 + X3 + X4 )/4 ed ha distribu-
zione normale N (25, σX = 2/ 4 = 1).

(b) P( X > 26) = P( Z > (26 − 25)/1) = P( Z > 1) = 1 − P( Z < 1) =


1 − 0.8413 = 0.1587.

(c) P( X > 26) = P( Z > (26 − 25)/(2/5)) = P( Z > 2.5) = 1 − P( Z <


2.5) = 1 − 0.9938 = 0.0062.

Soluzione dell’esercizio 7.2


X ∼ Bernoulli con p = 0.4, q = 0.6. Perciò var( X ) = pq = 0.24.
Campione di n = 25 elementi ( X1 , . . . , X25 ).

p̂ = proporzione di femmine = S/25 = ( X1 + ... + X25 )/25.

S è distribuita come una Binomiale(25, p = 0.4). Sappiamo allora che

var( p̂) = var(S)/n = 0.24/25 = 0.0096.

Soluzione dell’esercizio 7.3


X = età con distribuzione incognita con media µ = 50 e deviazione
standard σ = 10.
Campione: ( X1 , X2 , X3 , X4 ) indipendenti e identicamente distribuiti co-
me X. X = ( X1 + X2 + X3 + X4 )/4.

(a) No, è incognita.

(b) Sı̀, è E( X ) = µ = 50 anni.

(c) Sı̀, è var( X ) = σ2 /n = 100/4 = 25.

Soluzione dell’esercizio 7.4

(a) Sı̀, poiché la dimensione del campione è grande ha approssimativa-


mente distribuzione normale.

(b) Sı̀, è E( X ) = µ = 50 anni.

(c) Sı̀, è var( X ) = σ2 /n = 100/100 = 1.


108 10. S OLUZIONI

Soluzione dell’esercizio 7.5


Tempo = X ∼ N (µ =?, σ = 8). Notare che la media della popolazione
è sconosciuta.
Se ho un campione di dimensione n = 4, la media campionaria X =
( X1 + X2 + X3 + X4 )/4 ha distribuzione

X ∼ N (µ =?, σX = 8/2 = 4).

La probabilità che X differisca da µ per più di 4 ore è

P(| X − µ| > 4) = 1 − P(−4 < X − µ < 4) = 1 − P(µ − 4 < X < µ + 4)

Nota Fate attenzione a queste disuguaglianze, studiatele con calma.


Quindi se si standardizza X rispetto alla sua media µ e alla sua devia-
zione standard = 4 si ha

P(| X − µ| > 4) = 1 − P(−1 < Z < 1) = 1 − (0.8413 − (1 − 0.8413)) = 0.3174

e quindi la risposta corretta è la C).

Soluzione dell’esercizio 7.6


La media X di un campione i.i.d. di n = 36 elementi da una qualsiasi
distribuzione X è tale che

E( X ) = µ, var( X ) = σ2 /n, σX = σ/ n

Quindi in questo caso

E( X ) = 80, σX = 18/6 = 3.

Quindi la soluzione è B).

Soluzione dell’esercizio 7.7


Una proporzione campionaria p̂ ha una deviazione standard
q
p(1 − p)/n

poichè questa deve essere 0.0229 basta provare nei casi A), B), C) e D)
ottenendo:

A) 0.2 · 0.8/400 = 0.02
109


B) 0.3 · 0.7/400 = 0.02291288

C) 0.4 · 0.6/400 = 0.0244949

D) 0.5 · 0.5/400 = 0.025
Quindi, arrotondando a 3 decimali, la risposta giusta è B).

Soluzione dell’esercizio 8.1


Falso. La verità è che E( X ) = µ. Qui si dice invece che E(µ) = X e
questo non è assolutamente vero.

Soluzione dell’esercizio 8.2


X = # televisioni ∼ N (µ =?, σ = 17.4). Notare che il sigma fornito dal
testo è la deviazione standard della popolazione.
La stima di µ con
√ un campione√ di n = 20 elementi è 452.3 con un errore
standard ES = σ/ 20 = 17.4/ 20 = 3.890758. L’intervallo di confidenza
(IC) al 95% è
452.3 ± ME
con un margine di errore

ME = 1.96 ES = (1.96)(3.890758) = 7.625886.

Quindi la risposta corretta è (arrotondando a 2 decimali) la D).

Soluzione dell’esercizio 8.3


L’errore di stima è la differenza tra uno stimatore e il parametro. Il
termine “statistica” è sinonimo di stimatore, e vuol dire un indice calcolato
sul campione.
Quindi la risposta corretta è: Vero.

Soluzione dell’esercizio 8.4


È esattamente cosı̀: la stima è un numero, mentre lo stimatore è una
variabile aleatoria calcolata sul campione che fornisce una stima del para-
metro della popolazione. Quindi: Vero.

Soluzione dell’esercizio 8.5


Un intervallo di confidenza è

X ± ME
110 10. S OLUZIONI

dove ME, il margine di errore è



ME = zα/2 σ/ n.

L’ampiezza dell’intervallo cresce o decresce con ME. Se il livello di confi-


denza cambia, ME cambia perché cambia zα/2 . Allora, ad esempio abbia-
mo:
Livello 1 − α α/2 zα/2
95% 2.5% 1.96
90% 5% 1.64
Quindi se il livello è 90% il ME è più piccolo e l’intervallo di confidenza è
meno ampio. La risposta giusta è C).

Soluzione dell’esercizio 8.6


Spesa giornaliera di uno studente = X ∼ N (µ =?, σ =?). Da un cam-
pione di n = 30 studenti si sa che

X = 63.57 Euro s = 17.32 Euro

Nota: la deviazione standard fornita è quella del campione non quella della
popolazione.
Quindi l’IC per µ è basato sulla t di Student con n − 1 = 29 gradi di
libertà: √
X ± tα/2 s/ n
ossia √
63.57 ± (2.045)17.32/ 30
Cioè IC = (57.10333, 70.03667).

Soluzione dell’esercizio 8.7


Siccome 160 è una numerosità quadrupla di quella di partenza di n = 40,
l’ampiezza dell’intervallo di confidenza è la metà perché l’errore standard
è √ √
ES = σ/ 4n = (1/2)σ/ n.
quindi il margine di errore con n = 160 è ME = 1.48/2 = 0.74. Quindi la
risposta giusta è A).
NOTA: Naturalmente qui si suppone che sia nel caso n = 40 che nel
caso n = 160 la media campionaria sia sempre la stessa.
111

Soluzione dell’esercizio 8.8


La varianza di T è

var( T ) = var(0.15X1 + 0.35X2 + 0.20X3 + 0.30X4 )


= 0.152 var( X1 ) + 0.352 var( X2 ) + 0.202 var( X3 ) + 0.302 var( X4 )
= (0.152 + 0.352 + 0.202 + 0.302 )var( X )
= 0.275σ2 .

Soluzione dell’esercizio 8.9


È vero perché la media campionaria è uno stimatore corretto di µ:

E( X ) = µ.

Soluzione dell’esercizio 8.10


Il quantile è t8,0.025 = 2.306.

Soluzione dell’esercizio 8.11


Tempo passato su Facebook = X ∼ N (µ =?, σ = 1.5). L’intervallo di
confidenza è basato sulla normale perché la varianza della popolazione è
nota.
IC = X ± ME
ossia
IC = 6.5 ± 1.96(1.5)/10
da cui IC = (6.206, 6.794).

Soluzione dell’esercizio 8.12


Un intervallo di confidenza per p (approssimato per grandi campioni)
è p
p̂ ± zα/2 ES dove ES = p̂q̂/n.
Il margine di errore è ME = zα/2 ES e quindi zα/2 = ME/ES.
Qui p̂ è la proporzione stimata che ovviamente è il punto centrale del-
l’intervallo cioè
p̂ = (0.2308 + 0.3092)/2 = 0.27.
112 10. S OLUZIONI

L’errore standard è
q
ES = (0.27)(0.73)/492 = 0.02.

Il margine di errore è la lunghezza di mezzo intervallo e lo sappiamo:

ME = 0.3092 − 0.27 = 0.0392.

Perciò
zα/2 = ME/ES = 0.0392/0.02 = 1.96
Siamo fortunati! A occhio sappiamo che il livello di confidenza è il 95%.
Ecco tutti i passaggi:

1 − α/2 = P( Z < 1.96) = 0.975

Quindi α = 0.05 e 1 − α = livello di confidenza = 0.95.

Soluzione dell’esercizio 8.13


p
Deve essere ME = 2.58 ( p(1 − p)/n). Siccome p non è noto si prende
il caso peggiore (variabilità massima) con p = 0.5. Quindi
p
ME = 2.58 · 0.52 /n

da cui 0.052 = (2.582 )(0.52 )/n e quindi

n = (2.582 )(0.52 )/(0.052 ) = 665.64.

Soluzione dell’esercizio 8.14


Con 220 famiglie si usa l’approssimazione normale. Il quantile appro-
priato è zα/2 = 2.58 dove α = 0.01. Quindi
q
ME = 2.58 · (0.587)(1 − 0.587)/220 = 0.0856

Quindi l’intervallo è 0.587 ± 0.0856 ovvero (0.501, 0.673).

Soluzione dell’esercizio 8.15


Campione di n = 15. X = 912 ed s = 64 (deviazione standard cam-
pionaria). L’intervallo è basato sulla t di Student con n − 1 = 14 gradi di
libertà. Quindi con α = 0.01 il quantile è tα/2 = 2.977.
113

√ √
L’errore standard è ES = s/ 15 = 64/ 15 = 16.52473. Quindi il
margine di errore è

ME = 2.977 · 16.52473 = 49.19 ' 49.2

Dunque la risposta è la C).


NOTA: l’errore tipico nei compiti è

ME = 2.58 · 16.52473 = 42.6

dove 2.58 è il quantile della normale (che in questo caso è sbagliato).

Soluzione dell’esercizio 8.16


Come visto il margine di errore per un intervallo di livello 95% è ME =
1.96ES e qui

ME = semiampiezza dell’intervallo = 2.94.

e inoltre √ √
ES = σ/ n = 6/ n
Quindi si imposta l’equazione

2.94 = 1.966/ n

e si risolve con
2.942 = (1.962 · 62 )/n
da cui
n = (1.962 · 62 )/(2.942 ) = 16.

Soluzione dell’esercizio 9.1


Falso. Per esempio può capitare che in un test con la normale la statisti-
ca stia tra 1.96 e 2.56. In questo caso si rifiuta al 5% ma non all’1%.

Soluzione dell’esercizio 9.2


Ipotesi: H0 : µ ≤ 60 contro H1 : µ > 60. Il parametro µ0 = 60. Abbiamo
le statistiche X = 63.2 e s = 7.7, con n = 24.
La statistica test è
x − µ0 63.2 − 60
t= √ = √ = 2.03594
s/ n 7.7/ 24
114 10. S OLUZIONI

che arrotondato a 2 decimali è t = 2.04. La risposta è B) e non C) perché la


statistica è una t di Student con 23 gradi di libertà.

Soluzione dell’esercizio 9.3


Affermazione: µ ≥ 29. Dato che c’è l’uguale (almeno. . . ) questa è H0.
Quindi
H0 : µ ≥ 29 contro H1 : µ < 29
Inoltre X ∼ N (µ =?, σ =?) entrambi incogniti.
Il test è unilaterale. Al livello del 5% si rifiuta se

t = ( x − µ0)/(s/ n) < −1.761

distribuita come una t di Student con n − 1 = 14 gradi di libertà e probabi-


lità a sinistra = 0.05.
Dati: n = 15; x = 26, s = 4.2. √
Quindi t = (26 − 29)/(4.2/ 15) = −2.766 e si rifiuta perché t <
−1.761. Quindi la risposta è SÌ c’è evidenza empirica per dubitare al livello
del 5%.

Soluzione dell’esercizio 9.4


Si ha n = 8, la media è

x = (82 + 77 + 85 + 76 + 81 + 91 + 70 + 82)/8 = 80.5.

La varianza campionaria corretta è

s2 = ((82 − 80.5)2 + (77 − 80.5)2 + (85 − 80.5)2 + (76 − 80.5)2 +


+ (81 − 80.5)2 + (91 − 80.5)2 + (70 − 80.5)2 + (82 − 80.5)2 )/(8 − 1)
= 39.71429

Quindi la deviazione standard è s = 39.71429 = 6.3.
Il sistema di ipotesi è

H0 : µ ≥ 83 contro H1 : µ < 83

La regione critica unilaterale al livello del 5% è t < −1.895 (quantile in-


feriore della t di Student
√ con 7 gradi di libertà al 5%). La statistica test è
(80.5 − 83)/(6.3/ 8) = −1.122.
Quindi non si rifiuta al livello del 5% perché −1.122 > −1.895.
115

0.4
0.3
0.2
0.1
0.0

t
−4 −2 0 2 4

Non si dubita dell’affermazione al livello del 5%.

Soluzione dell’esercizio 9.5


È un test per la media di una normale con deviazione standard nota =
13.5. Campione di dimensione n = 20. L’errore standard è
√ √
ES = σ/ n = 13.5/ 20 = 3.018692.

Sia z∗ = 1.645 il valore tale che P( Z > z∗ ) = 0.05 (vedi le tavole della t di
Student, ultima riga).
Si rifiuta se

( X − µ0 )/ES > 1.645 oppure ( X − µ0 )/ES < −1.645

cioè se
X > µ0 + 1.645ES oppure X < µ0 − 1.645ES
ossia se
X > 277 + 1.645(3.018692) = 281.9657
oppure
X < 277 − 1.645(3.018692) = 272.0343

Soluzione dell’esercizio 9.6


Vero. È la definizione: errore del I tipo = rifiutare H0 quando H0 è vera.
Si tratta di sbagliare gli innocenti per colpevoli.
116 10. S OLUZIONI

Soluzione dell’esercizio 9.7


Ipotesi nulla H0 : µ ≥ 50.1, alternativa H1 : µ < 50.1. Siccome il
testo dice “si assuma” vuol dire che 1.2 = σ la deviazione standard della
popolazione. Si usano campioni di numerosità n = 40.
La regola di decisione definisce la regione critica: ferma le consegne se
si rifiuta H0 cioè se X < 49.7.

P( I ) = P(Rifiutare H0 , quando µ = 50.1) = P( X < 49.7 quando µ = 50.1)



Quindi poiché sotto H0 X ∼ N (µ = 50.1, σ = 1.2/ 40 = 0.1897367)
risulta

P( I ) = P( X < 49.7) = P( Z < (49.7 − 50.1)/0.1897367)


= P( Z < −2.11) = 1 − P( Z < 2.11) = 0.0174.

Cioè il livello del test è 0.0174.

Soluzione dell’esercizio 9.8


È la probabilità di errore del II tipo cioè di accettare H0 quando è fal-
sa. Cioè la probabilità di scambiare un colpevole per innocente. Quindi la
risposta giusta è B).

Soluzione dell’esercizio 9.9


Falso. Infatti il livello del test è α e la probabilità di errore di II tipo è β.
Ma è noto che se α aumenta β diminuisce.

Soluzione dell’esercizio 9.10

A) è falsa: La regione di rifiuto è l’insieme di tutti i valori della statistica


test per cui l’ipotesi NULLA viene rifiutata.

B) è vera

C) è vera (vedi sopra)

D) Ovviamente è vera.

Quindi la risposta è A)
117

Soluzione dell’esercizio 9.11



Deve essere ME = 2.58σ/ n quindi

5 = (2.58)(40)/ n

ossia
25 = (2.582 )(402 )/n
che risolto dà
n = (2.582 )(402 )/25 = 426.

Soluzione dell’esercizio 9.12


FALSO. Il livello è la probabilità di rifiutare H0 quando è vera non la
probabilità che H0 sia vera.

Soluzione dell’esercizio 9.13


Nel test t di Student per la media la statistica test è

t = ( X − µ0)/ES

dove ES = s/ n. Qui µ0 = 0.54 e ES = 13.2/5 = 2.64.
Quindi la soluzione è A).

Soluzione dell’esercizio 9.14


Il sistema di ipotesi è H0 : µ = 83 contro H1 : µ 6= 83. La dimensione
campionaria è n = 8 e la media campionaria è 80.5 e la deviazione stan-
dard è s = 6.3. Si usa la statistica t di Student (dato che la varianza della
popolazione incognita è stimata dai dati) è

t = (80.5 − 83)/(6.3/ 8) = −1.12

(distribuzione t di Student con 7 gradi di libertà sotto H0 ).


Il p-value è la probabilità che la statistica test assuma un valore più
estremo di quello osservato sotto H0 . Cioè è

p = P( T < −1.12) + P( T > 1.12) = 1 − P(−1.12 < T < 1.12).

Questa probabilità non si può calcolare esattamente dalle tavole della t.


Tuttavia si nota che le regioni critiche classiche sono
al livello dell’1% t < −3.499, t > +3.499 al livello dell’5% t < −2.365, t >
2.365 al livello del 10% t < −1.895, t > 1.895
118 10. S OLUZIONI

quindi la probabilità di t < −1.12 o t > 1.12 deve essere per forza
maggiore del 10%. Conclusione: la risposta giusta è la D).

Soluzione dell’esercizio 9.15


La regione critica di livello α = 0.05 è Z > zα/2 o Z < −zα/2 . Dove
Z = ( p̂ − p0 )/ES( p̂).
Quindi se α = 0.05, zα/2 = 1.96. Quindi è vero.

Soluzione dell’esercizio 9.16


Poiché β è la probabilità P(II) di errore di secondo tipo cioè la probabilità
di accettare H0 quando è falsa, 1 − β è la probabilità di rifiutare H0 quando
è falsa, cioè la potenza del test. Soluzione C).

Soluzione dell’esercizio 9.17


Il problema suppone che il reddito X ∼ N (µ =?, σ = 5756). L’ipotesi
della Regione Veneto è che µ = E( X ) = E(reddito annuo) > 37000 Eu-
ro. Poiché non è specificata un’uguaglianza questa è l’ipotesi alternativa.
L’ipotesi da verificare è

H0 : µ ≤ 37000 contro H1 : µ > 37000 (l’ipotesi della Regione)

La statistica test è (con n = 25)



z = (36243 − 37000)/(5756/ 25) = −0.657.

Le regioni critiche classiche sono

• livello 1%: z < −2.58 o z > 2.58

• livello 5% : z < −1.96 o z > 1.96

• livello 10%: z < −1.64 o z > 1.64

Quindi il p-value è sicuramente > 0.10. Infatti z = −0.657 porterebbe


ad accettare H0 al livello del 10%.

Soluzione dell’esercizio 9.18


Se un’ipotesi è rifiutata al livello del 2.5% vuol dire che il p-value è <
del 2.5%.
Se un’ipotesi non è rifiutata al livello dell’ 1% vuol dire che il p-value è
> dell’ 1%.
119

Il p-value p è 0.01 < p < 0.025. Quindi è vero.

Soluzione dell’esercizio 9.19


Il tempo X impiegato ha distribuzione N (µ =?, σ =?). L’affermazione
è µ < 60 min e quindi è l’ipotesi alternativa. L’ipotesi nulla (che contiene il
segno di uguaglianza) è H0 : µ ≥ 60.
Abbiamo un campione di dimensione n = 24, x = 63.2, s = 7.7.
Quindi la statistica test è t di Student (con 23 gradi di libertà):

t = (63.2 − 60)/(7.7/ 24) = 2.034.

Le regioni critiche standard sono unilaterali sinistre:

• livello 1%: t < −2.500

• livello 2.5%: t < −2.069

• livello 5%: t < −1.714

• livello 10%: t < −1.319

Quindi t = 2.034 > −1.319 e quindi il p-value deve essere > 10% e
quindi anche maggiore del 5%.
La risposta quindi è C).

Soluzione dell’esercizio 9.20


Se il livello α del test aumenta la probabilità di errore di secondo tipo β
diminuisce a parità di altri elementi. Quindi è falso.

Soluzione dell’esercizio 9.21


α è la P( I ) = probabilità rifiutare H0 quando H0 è vera. Quindi 1 − α è
la probabilità di accettare H0 quando è vera. Quindi la risposta è C).

Soluzione dell’esercizio 9.22


La P( I ) = probabilità che la media campionaria sia > 11.5 quando H0 è
vera cioè se µ = 10.
La potenza = probabilità che la media campionaria sia > 11.5 quando
H0 è falsa cioè se µ = 12.
Quindi si possono calcolare sapendo che la media campionaria è

X ∼ N (µ, σ/ n = 2/2 = 1).
120 10. S OLUZIONI

Abbiamo

P( I ) = P( X > 11.5, X ∼ N (10, 1))


= P( Z > (11.5 − 10)) = P( Z > 1.5) = 1 − P( Z < 1.5) = 0.0668.

Inoltre

Potenza = P( X > 11.5, X ∼ N (12, 1))


= P( Z > (11.5 − 12)) = P( Z > −0.5) = P( Z < 0.5) = 0.6915.

Soluzione dell’esercizio 9.23


È la probabilità di errore di II tipo e cioè la probabilità di accettare
un’ipotesi nulla falsa. Risposta C).

Soluzione dell’esercizio 9.24


La definizione di errore del II tipo è accettare (ossia non rifiutare) H0
quando è falsa. Risposta C). È l’errore di scambiare un colpevole con un
innocente.

Soluzione dell’esercizio 9.25

• X = quantità di farina nel sacco = aleatoria ∼ N (µ =?, σ = 1.21).

• Test: H0 : µ ≥ 50.1, H1 : µ < 50.1

• Regione critica: X = media di 40 sacchi (campione casuale) < 49.7

• P( I ) = P( X < 49.7 quando µ = 50.1)

Questa si calcola sapendo che se µ = 50.1 allora



X ∼ N (50.1, σX = 1.21/ 40 = 0.1913178)

Quindi

P( I ) = P( Z < (49.7 − 50.1)/0.1913178)


= P( Z < −2.09) = 1 − P( Z < 2.09) = 0.02.
121

Soluzione dell’esercizio 9.26


L’ipotesi nulla è H0 : p ≥ 0.8 contro H1 : p < 0.8. In un campione di
dimensione n = 200, p̂ = 0.741. La statistica test è

z = (0.741 − 0.8)/ES

con
q q
ES = ( p0 (1 − p0 )/n) = (0.8(1 − 0.8)/200) = 0.02828427

Nota: l’errore standard viene calcolato sotto H0 . Pertanto z = −2.085


che sotto H0 ha una distribuzione approssimata normale (la binomiale è
approssimata bene da una normale se n = 200).
La regione critica unilaterale al livello 0.025 è (i valori della normale
sono all’ultima riga della tavola della t di Student) z < −1.96.
Perciò con un valore osservato di z = −2.085 si rifiuta H0 . Quindi c’è
sufficiente evidenza per dubitare dell’affermazione al livello del 2.5%.
122 10. S OLUZIONI
Bibliografia

Leoni, R. (1998). Statistica Descrittiva. Alfani, Firenze.

Newbold, P., Carlson, W.L., Thorne, B. (2014). Statistica. 2a ed., Pearson,


Torino.

Newbold, P., Carlson, W.L., Thorne, B. (2010). TestGen Computerized Te-


st Bank for Statistics for Business and Economics, 7th Edition, On-line
Supplement, Pearson.

123