Sei sulla pagina 1di 47

lOMoARcPSD|2635519

Esercizi 30001 1 Descrittiva sol

Statistica / Statistics (Università Commerciale Luigi Bocconi)

StuDocu non è sponsorizzato o supportato da nessuna università o ateneo.


Scaricato da lulu bottasi (carola.capodieci@gmail.com)
lOMoARcPSD|2635519

ESERCIZI PER IL CORSO 30001 – STATISTICA


Sergio Venturini
Mattia Oreste Cozzi
Paola Pagani1

STATISTICA DESCRITTIVA
ESERCIZIO D1
La distribuzione dell’ammontare in euro speso da 100 individui che hanno trascorso fuori casa le feste di fine
anno può essere descritta dalle seguenti misure di sintesi:

Ammontare speso Valore Indice


Minimo 359
1° Quartile 406
Mediana 421
3° Quartile 450
Massimo 610

Rispondere alle seguenti domande utilizzando le informazioni fornite.

a) Rappresentare graficamente la variabile Ammontare speso.


b) La media è più piccola o più grande della mediana? Commentare il risultato.
c) Valutare se sono presenti dati anomali (outlier) motivando la risposta.

Soluzione
a) La rappresentazione grafica della distribuzione di Ammontare speso possibile con i dati assegnati è il
box plot, che viene riportato di seguito:

b) La distribuzione dell’ammontare speso è obliqua a destra (asimmetria positiva), di conseguenza la media


è maggiore della mediana.
c) La differenza interquartile è pari a DI = 450 – 406 = 44.
Indicati con T1 = Q1 – 1.5DI = 406 – 66 = 359 e con T2 = Q3 + 1.5DI = 450 + 66 = 516 le due soglie
inferiore e superiore, sono considerati valori anomali le osservazioni il cui valore è più piccolo di T1 o
più grande di T2.
In questo caso abbiamo almeno un valore anomalo nella coda destra, poiché il massimo (610) è più
grande di T2.

1
Si ringraziano Alberto Biffi, Emilio Gregori, Alessandro Recla e Emiliano Sironi per la preziosa collaborazione.
1

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

ESERCIZIO D2
È stata effettuata un’indagine in tre città della Grecia riguardante la compagnia di telefono cellulare utilizzata
ottenendo i risultati riportati nella tabella seguente:

Città
Fornitore Atene Salonicco Patrasso
Wind 0.4 0.03
Vodafone 0.10 0.05

a) Completare la tabella sapendo che il numero di clienti Wind è del 50% più alto di quelli Vodafone e che
i clienti Wind intervistati sono stati 600.
b) Considerando unicamente la città di Patrasso, calcolare quanti sono i clienti Wind e Vodafone
intervistati.

Soluzione
a) Indichiamo con W il numero di clienti Wind intervistati e con V il numero di clienti Vodafone
intervistati. Dal testo sappiamo che W = 1.5 ´ V, quindi 600 = 1.5 ´ V ottenendo V = 400 per un totale di
1000 individui intervistati.

Possiamo quindi ricostruire la tabella congiunta ottenendo:

Città
Fornitore Atene Salonicco Patrasso Marginali di riga
Wind 0.4 0.17 0.03 0.6
Vodafone 0.25 0.10 0.05 0.4
Marginali di colonna 0.65 0.27 0.08 1

b) 0.03·1000 = 30 intervistati di Patrasso sono clienti Wind, mentre 0.05·1000 = 50 sono clienti Vodafone.

ESERCIZIO D3
I dati rappresentati nella seguente tabella sono stati raccolti durante un’indagine sull’uso del telefono
cellulare su un campione di 12 utenti.

Spesa
Telefoni Ore di settimanale
Età posseduti chiamata in euro Sesso Età × Spesa
19 1 3 24 M 456
16 1 8 30 F 480
60 1 2 10 M 600
24 2 5 31 M 744
49 3 25 115 F 5635
12 1 20 25 M 300
28 2 10 96 F 2688
47 1 9 30 F 1410
21 2 5 19 M 399
21 1 10 108 F 2268
57 1 4 16 F 912
17 1 6 20 M 340
Totali 371 17 107 524 16232

a) Mediamente spendono di più i maschi o le femmine? Motivare in modo opportuno la risposta.


b) Rappresentare graficamente la variabile Età attraverso un box plot.
c) Calcolare la covarianza tra Età e Spesa. Commentare il risultato ottenuto.

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Soluzione
a) Media(Spesa | F) = (30 + 115 + 96 + 30 + 108 + 16) / 6 = 395/6 = 65.8333
Media(Spesa | M) = (24 + 10 + 31 + 25 + 19 + 20) / 6 = 129/6 = 21.5
Pertanto, in media spendono di più le femmine poiché la media condizionata della spesa risulta essere
maggiore.

b) Gli indici di sintesi sono dati da:

Minimo 12
1° Quartile 17
Mediana 22.5
3° Quartile 49
Massimo 60

Il corrispondente box plot è raffigurato nella figura seguente:

12 æ 16232 371 524 ö


c) Cov ( Età, Spesa ) = ç - ´ ÷ = 2.8788
11 è 12 12 12 ø
Pertanto, tra le due variabili esiste una associazione lineare positiva: al crescere dell’età cresce
l’ammontare speso.

ESERCIZIO D4
La seguente tabella riporta l’ammontare in euro speso da 100 clienti di una profumeria

Ammontare in euro [18,30) [30,40) [40,50) [50,100]


Numero 23 20 35 22

Rappresentare graficamente la variabile ammontare speso e calcolare la classe modale.

Soluzione

Estremi Estremi Ampiezza


Frequenze Frequenze
inferiori superiori della Densità
assolute relative
delle classi delle classi classe
18 30 12 23 0.23 0.0192
30 40 10 20 0.2 0.02
40 50 10 35 0.35 0.035
50 100 50 22 0.22 0.0044

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

ISTOGRAMMA 2
0.035

0.03

0.025

Densità
0.02

0.015

0.01

0.005

0
18 30 40 50 100

Ammontare speso

La classe modale è pertanto [40,50), poichè tale classe possiede la densità di frequenza più elevata.

ESERCIZIO D5
Una catena di fast-food seleziona un campione di 9 dei suoi punti vendita per valutare la necessità e le
caratteristiche di nuove aperture. Per ciascun punto vendita del campione, vengono analizzate le seguenti
variabili:
POSTI numero di posti a sedere
INC incasso registrato nel giorno di rilevazione (Euro)
PERIF il punto vendita è collocato in periferia? (SI =1 / NO = 0)

POSTI INC PERIF POSTI2 INC2 POSTI × INC


50 1.83 1 2500 3.3489 91.5
70 2.17 0 4900 4.7089 151.9
100 4.35 0 10000 18.9225 435
80 2.35 1 6400 5.5225 188
75 1.96 0 5625 3.8416 147
150 7.25 0 22500 52.5625 1087.5
50 1.75 1 2500 3.0625 87.5
90 2.12 0 8100 4.4944 190.8
55 1.87 1 3025 3.4969 102.85
Totali 720 25.65 65550 99.9607 2482.05

a) Si costruisca il box plot della variabile POSTI.


b) Si determini la covarianza tra l’incasso giornaliero (INC) e il numero di posti a sedere (POSTI).

Soluzione
a) Il box plot relativo alla variabile POSTI è riportato qui sotto insieme ai numeri di sintesi usati per la sua
costruzione:

Variabile X Posizione indice nella serie ordinata Valore Indice


Minimo 1 50
1° Quartile (9+1)/4 = 2.5 (50+55)/2 = 52.5
Mediana (9+1)/2 = 5 75
3° Quartile 3·(9+1)/4 = 7.5 (90+100)/2 = 95
Massimo 9 150

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

BOX-WHISKER PLOT 1

160

140

120

100 Massimo
3° Quartile
80 Mediana
1° Quartile
60 Minimo

40

20

0
Variabile X

720 25.65
b) Indicando con M ( POSTI ) = e M ( INC ) = le medie di incasso e posti, avremo che la
9 9
covarianza campionaria è calcolata come segue (usando la formula ridotta):

n é1 n ù
sPOSTI , INC = × ê å POSTI i × INCi -M ( POSTI ) × M ( INC )ú
n - 1 ë n i =1 û
9 é1 720 25.65 ù
= × ê × 2482.05 - × = 53.7563
8 ë9 9 9 úû

ESERCIZIO D6
Al fine di monitorare la qualità del servizio offerto, una catena di fast-food seleziona un campione di 150
transazioni effettuate e rileva il tempo (minuti) per il quale il cliente ha dovuto attendere prima di essere
servito:
tempo d’attesa n. transazioni
[0, 1) 15
[1, 3) 45
[3, 5) 60
[5, 10) 30
a) Si calcoli la mediana del tempo d’attesa.
b) Si calcoli la media aritmetica del tempo d’attesa
c) Si calcoli lo scarto quadratico medio del tempo d’attesa.

Soluzione
a) La mediana è l’osservazione centrale della serie ordinata dei dati. Preventivamente è necessario
individuare la classe mediana, intesa come la prima classe che raggiunge il 50% della frequenza
cumulata:

tempo Punto medio Ampiezza Freq. Freq. Densità


n. transazioni
d’attesa (X) classe classe relativa cumulata relativa
[0, 1) 15 0.5 1 0.1 0.1 0.1
[1, 3) 45 2 2 0.3 0.4 0.15
[3, 5) 60 4 2 0.4 0.8 0.2
[5, 10) 30 7.5 5 0.2 1 0.04

La classe mediana risulta essere pertanto [3, 5).


Assumendo che le osservazioni siano distribuite uniformemente all’interno della classe, il calcolo della
mediana è dato da:
5

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

0.1
Mediana = 3 + = 3 + 0.5 = 3.5
0.2
1 k
c) x= å mi × f i , dove k è il numero di classi, ovvero
n i =1
1 7.5 + 90 + 240 + 225 562.5
x= × [0.5 × 15 + 2 × 45 + 4 × 60 + 7.5 × 30] = = = 3.75
150 150 150
d) Il calcolo (approssimato) della deviazione standard campionaria è dato da
1 k 2
s x2 = å f i × (mi - x ) =
n - 1 i =1
15 × (0.5 - 3.75) 2 + 45 × (2 - 3.75) 2 + 60 × (4 - 3.75) 2 + 30 × (7.5 - 3.75) 2
= =
150 - 1
15 × (-3.25) 2 + 45 × (-1.75) 2 + 60 × (0.25) 2 + 30 × (3.75) 2
= =
150
15 × 10.5625 + 45 × 3.0625 + 60 × 0.0625 + 30 × 14.0625
=
149
158.4375 + 137.8125 + 3.75 + 421.875
= 4.8448
149
s x = 4.8448 = 2.2011

Alternativamente, la deviazione standard campionaria può essere calcolata anche come segue:

1 ék ù
å f i × (mi ) - n × x 2 ú =
2
sx = ê
n - 1 ë i =1 û
1
=
150 - 1
[
15 × (0.5) + 45 × (2) 2 + 60 × (4) 2 + 30 × (7.5) 2 - 150 × (3.75) 2 =
2
]
1
= [15 × (0.25) + 45 × (4) + 60 × (16) + 30 × (56.25) - 150 × (14.0625)] =
149
1
= [2831.25 - 2109.375] = 721.875 = 4.8448 = 2.2011
149 149

ESERCIZIO D7
Al fine di stabilire se la prossima campagna pubblicitaria deve essere mirata ad una data fissata fascia d’età
oppure no, una catena di fast-food seleziona un campione di 130 clienti e li classifica secondo il numero di
articoli acquistati e la fascia d’età (giovane/adulto/anziano):

ARTICOLI 1 2 3 4
ETA'
giovane 7 2 8 3
adulto 3 9 6 12
anziano 28 20 12 20

a) Si può ritenere che ogni fascia d’età tenda ad acquistare un diverso numero di articoli? Si risponda
calcolando opportune frequenze percentuali e rappresentandole su un adeguato grafico.

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

b) Qual è la percentuale di clienti che sono adulti e hanno acquistato almeno 3 articoli? Qual è la
percentuale di giovani tra i clienti che hanno acquistato 4 articoli?

Soluzione
a) Partendo dalla tabella delle frequenze assolute, si ricavano le marginali:

Tabella freq. Congiunte e marginali 1 2 3 4 Frequenze marginali numero articoli


giovane 7 2 8 3 20
adulto 3 9 6 12 30
anziano 28 20 12 20 80
Frequenze marginali età 38 31 26 35 130

Le frequenze marginali sono utili per il calcolo delle subordinate degli articoli venduti
condizionatamente all’età, come segue:

Tabella freq. Subordinate (ARTICOLI | ETA’) 1 2 3 4


giovane 35.00% 10.00% 40.00% 15.00%
adulto 10.00% 30.00% 20.00% 40.00%
anziano 35.00% 25.00% 15.00% 25.00%

Dalla tabella delle frequenze subordinate emerge come, condizionando per l’età, i giovani
prevalentemente acquistino 3 articoli, mentre gli adulti in prevalenza 4. Gli anziani soltanto 1.

100% 15.00%
90% 25.00%
40.00%
80%
70% 40.00% 15.00%
Serie4
60% Serie3
20.00% 25.00%
50%
10.00% Serie2
40%
Serie1
30% 30.00%
20% 35.00% 35.00%
10% 10.00%
0%
giovane adulto anziano

b) Percentuale di clienti che sono adulti e hanno acquistato almeno 3 articoli:

Fr ( ETA' = ADULTO Ç ARTICOLI ³ 3) =


= Fr ( ETA' = ADULTO Ç ARTICOLI = 3) + Fr ( ETA' = ADULTO Ç ARTICOLI = 4) =
6 12 18
+ = = 0.1385 = 13.85%
130 130 130

Percentuale di giovani tra i clienti che hanno acquistato 4 articoli:

Fr ( ETA' = GIOVANE | ARTICOLI = 4) 3


Fr ( ETA' = GIOVANE | ARTICOLI = 4) = = = 8.57%
Fr ( ARTICOLI = 4) 35

ESERCIZIO D8
Per valutare il gradimento di un nuovo tipo di panino, una catena di fast-food ha commissionato un’indagine
campionaria ad una società di ricerche. Ad ogni intervistato è stato chiesto di esprimere un giudizio sul
nuovo tipo di panino; la società di ricerche ha prodotto il seguente grafico:

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

GRADIMENTO Totale,
Totale,
sufficien buono,
te, 25, 18, 18%
25%
Totale,
insufficie
nte, 7,
Totale, 7%
molto
buono,
50, 50%

a) Si indichino la tipologia e la scala di misurazione della variabile “gradimento”.


b) Il grafico è adeguato a rappresentare il fenomeno rilevato? Si risponda motivando brevemente la
risposta.

Soluzione
a) Tipologia: variabile categorica. Scala di misurazione: dato qualitativo ordinale.
b) No, perché il grafico più adeguato per illustrare la variabile è un diagramma a barre con ordinamento
delle categorie in senso crescente o decrescente.

ESERCIZIO D9
A seguito del diffondersi di voci di irregolarità nell’amministrazione di una società, è stato deciso di farne
esaminare la contabilità per valutare la reale situazione. La revisione è stata commissionata ad una società
che ha diviso i revisori in due gruppi, affidando ad uno la gestione operativa e all’altro la gestione
finanziaria. È stato valutato che il 75% delle operazioni contabili riguarda la gestione operativa, mentre la
rimanente percentuale riguarda le operazioni di natura finanziaria. Al termine del controllo, ciascun gruppo
redige un rapporto contenente un prospetto che riassume i risultati della propria attività d’ispezione. Indicato
con A l’ammontare dichiarato (in milioni di euro), P indica la percentuale rispetto ad A identificata come
irregolare.

Prospetto del gruppo GESTIONE OPERATIVA


P [0, 10) [10, 20) [20, 30) [30, 50) >50
Freq. rel. 0.19 0.25 0.274 0.24 0.046

Prospetto del gruppo GESTIONE FINANZIARIA


P [0, 10) [10, 20) [20, 30) [30, 50) >50
Freq. rel. 0.4 0.35 0.15 0.1 0

a) Si calcolino la media e la varianza di P nell’ambito della gestione finanziaria.


b) Si ricavi la percentuale di operazioni, tra quelle di natura operativa, per le quali P è maggiore o eguale al
10%.
c) Con i dati a disposizione, si costruisca la tabella delle frequenze relative congiunte per i caratteri P e T =
Tipo di gestione con modalità “Gestione operativa” e “Gestione finanziaria”.

Soluzione
a) Essendo la variabile P in classi di intervallo, occorre considerare i punti medi delle classi:
5
µ = å mi × pi = 5 × 0.4 + 15 × 0.35 + 25 × 0.15 + 40 × 0.1 = 15
i =1
5
s 2 = å pi × (mi - µ ) 2 = (5 - 15) 2 × 0.4 + (15 - 15) 2 × 0.35 + (25 - 15) 2 × 0.15 + (40 - 15) 2 × 0.1 = 117.5
i =1

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

b) La % di operazioni di natura operativa per le quali P è maggiore del 10% è dell’81%:

Fr ( P ³ 10%) = 1 - 0.19 = 0.81

c) Tanto il prospetto della gestione operativa quanto il prospetto della gestione finanziaria sono relativi alla
variabile P che è per entrambi i tipi di gestione, riclassificata nelle stesse classi di intervallo. Si conosce
inoltre qual è la % di operazioni contabili che riguarda la gestione operativa, e quale la % che riguarda la
gestione finanziaria. E’ pertanto possibile costruire la tabella delle frequenze relative congiunte,
considerando che le frequenze relative della Gestione Operativa rappresentano il 75% delle operazioni
contabili, e quelle della Gestione Finanziaria rappresentano il restante 25%.

P
T [0, 10) [10, 20) [20, 30) [30, 50) >50 TOT
Gestione
Finanziaria 0.1 0.0875 0.0375 0.025 0 0.25
Gestione
Operativa 0.1425 0.1875 0.2055 0.18 0.0345 0.75
TOT 0.2425 0.275 0.243 0.205 0.0345 1

ESERCIZIO D10
Il diagramma di dispersione sotto riportato è relativo al consumo annuo pro capite di energia elettrica per uso
domestico (in kWh) rilevato nei comuni capoluogo di provincia nel 2005 (X) e nel 2006 (Y). La linea
tratteggiata è la bisettrice del primo quadrante. Sono riportate anche alcune statistiche.

n x y sX sY s XY
111 1163 1087 167 157 24614

a) Si determinino i parametri della migliore interpolante (regressione) lineare della nuvola di punti.
b) Si dica quale effetto ha la presenza di valori estremi (rappresentati dai punti posti in alto a destra nel
diagramma di dispersione) sulla pendenza della migliore interpolante lineare determinata al punto a).
c) Sia Z = (X + Y)/2 la variabile che fornisce il consumo medio pro capite di energia elettrica nel biennio
2005-2006. Si calcoli la media di Z.

Soluzione
a) La migliore interpolante lineare è la retta ottenuta con il metodo dei minimi quadrati ordinari, la retta di
regressione yˆ = b0 + b1 × x , dove

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Cov( X , Y ) 24614
b1 = = = 0.8826
sx2 167 2
b0 = y - b1 × x = 1087 - 0.8826 ×1163 = 60.5362

b) I punti posti in alto a destra nel diagramma di dispersione tendono ad attrarre a sé la retta con l’effetto di
farla “piegare” verso il basso: b1 è infatti minore di 1.
X +Y
c) Se il consumo medio pro capite è Z = , allora
2

E ( X ) + E (Y ) 1163 + 1087
E (Z ) = = = 1125
2 2

ESERCIZIO D11
La tabella seguente riporta i dati relativi a 10 regioni della Cina:

Regione W Z X Y
1 1 A 300 50
2 2 C 1500 250
3 1 A 450 70
4 2 B 600 75
5 1 C 1200 200
6 2 B 500 65
7 3 D 1050 190
8 1 B 350 60
9 1 A 700 80
10 2 B 900 90

dove:
W tipologia della zona geografica (1 = “settentrionale”, 2 = “costiera” e 3 = “meridionale”)
Z economia prevalente (A = “grande industria”, B = “piccola industria”, C = “agricoltura”, D =
“servizi”)
X superficie in chilometri quadrati
Y tonnellate di riso prodotte annualmente

a) Si specifichi la tipologia delle variabili considerate.


b) Si costruisca la tabella a doppia entrata per le variabili W e Z.
c) Si determinino i 5 numeri di sintesi per la variabile Y e si costruisca il box plot. Cosa si può dire in
merito alla forma della distribuzione? Esistono delle osservazioni outlier?

Soluzione
a) W e Z sono variabili qualitative nominali, mentre X e Y sono variabili numeriche continue.
b) La tabella a doppia entrata per le variabili W e Z è data da

Z
W A B C D Totale
1 3 1 1 0 5
2 0 3 1 0 4
3 0 0 0 1 1
Totale 3 4 2 1 10

c) min = 50
10

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Posizione Q1 = 0.25(n+1) = 0.25×11 = 2.75 è 3 è Q1 = 65


Posizione Q2 = 0. 5(n+1) = 0.5×11 = 5.5 è Q2 = 77.5
Posizione Q3 = 0.75(n+1) = 0.25×11 = 8.25 è 8 è Q3 = 190
MAX = 250

BOX-WHISKER PLOT 1
300

250

200
Minimo
1° Quartile
150
Mediana
3° Quartile
100
Massimo

50

0
Y

Poiché Q3 – Q2 > Q2 – Q1 e MAX - Q3 > Q1 – min la distribuzione è obliqua a destra.


Poiché MAX – Q3 = 60 e Q1 – min = 15 sono inferiori a 1.5(Q3 – Q1) = 187.5 non ci sono outlier.

ESERCIZIO D12
Secondo una ricerca condotta su un campione di 300 studenti della facoltà di Economia si sa che il 30% degli
studenti legge il Sole 24 Ore. Il 70% degli studenti che leggono il Sole 24 Ore è di sesso maschile mentre
tale percentuale scende al 40% fra gli studenti che non leggono il Sole 24 Ore. Si organizzino le informazioni
fornite in una tabella di contingenza.

Soluzione
Indichiamo con X la variabile “legge Il sole 24 Ore” e con Y la variabile “sesso”.
Otteniamo la distribuzione marginale per la variabile X: gli studenti che leggono il giornale sono 300·0.3 =
90; quelli che non lo leggono sono 300 – 90 = 210.
Tra coloro che leggono il giornale 90·0.7 = 63 sono maschi, i rimanenti 90 – 63 = 27 femmine. Tra coloro
che non leggono il giornale, i maschi sono 210·0.4 = 84, le femmine 210 – 84 = 126.
La tabella di contingenza è la seguente:

X\Y M F Tot. X\Y M F Tot.


Sì 63 27 90 Sì 0.21 0.09 0.30
No 84 126 210 No 0.28 0.42 0.70
Tot 147 153 300 Tot 0.49 0.51 1.00
Frequenze assolute Frequenze relative

ESERCIZIO D13
Per i 20 capoluoghi di Regione d’Italia, vengono osservati i metri quadrati di aree pedonali per 100 abitanti.
Per tale variabile si forniscono i seguenti cinque numeri di sintesi:

Minimo 1.38
Primo quartile 5.76
Mediana 10.135
Terzo quartile 27.33
Massimo 467.58

11

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

a) Si rappresenti graficamente la distribuzione della variabile oggetto di indagine.


b) Che informazioni fornisce il terzo quartile? Che forma ha la distribuzione? Ritenete plausibile che la
media sia pari a 9.3? Motivare le risposte.
c) Esistono degli outlier? Giustificare la risposta.

Soluzione
a) Utilizziamo un box plot

500

450

400

350

300
Massimo
250 3° Quartile

200 Mediana
1° Quartile
150
Minimo

100

50

0
Variabile X

b) Il terzo quartile ci indica che, con riferimento alla sequenza ordinata dei valori rilevati sui 20 capoluoghi,
alla posizione occupata dal valore 27,33 corrisponde una percentuale di frequenze cumulate pari al 75%.
La distribuzione è obliqua a destra: Q3 - Q2 > Q2 - Q1 e MAX – Q3 > Q1 – min.
Essendo obliqua a destra la media è superiore alla mediana (10.135) per cui non è plausibile che la media
sia 9.3.
c) La differenza interquartile è pari a 27.33 – 5.76 = 21.57.
Poiché Q1 - min = 4.38 < 1.5·21.57 = 32.355 non vi sono valori anomali nella coda di sinistra.
Poiché invece MAX – Q3 = 440.25 > 1.5·21.57 = 32.355 si rileva la presenza di almeno un outlier,
corrispondente al valore massimo.

ESERCIZIO D14
In una cittadina, vengono intervistate 100 persone selezionate casualmente. La seguente tabella a doppia
entrata è relativa alle due domande “Intende partecipare alla sfilata in maschera il prossimo carnevale?” e
“Sesso dell’intervistato”.

“Intende partecipare…”
Sì No
M 12 28
Sesso F 13 47

a) Fornire un’opportuna rappresentazione grafica per evidenziare la possibile dipendenza della risposta alla
domanda posta dal sesso dell’intervistato e commentarla.
b) Qual è la percentuale di persone che intende partecipare alla sfilata? E la percentuale di coloro che
intendono partecipare alla sfilata tra tutte le donne intervistate?

Soluzione
a) Le due variabili oggetto d’esame sono entrambe categoriche, qualitative nominali. Un’opportuna
rappresentazione grafica per evidenziare la possibile associazione tra le due variabili è costituita dal
diagramma a barre sovrapposte ottenuto a partire dalle frequenze condizionate (dove il sesso svolge il
ruolo di variabile condizionante, cioè di denominatore):

12

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

“Intende partecipare…”
Sì No
M 30% 70%
Sesso F 21.67% 78.33%

100%
90%
80%
70%
60%
50% No
40% Sì
30%
20%
10%
0%
M F

12 + 13 25
b) % persone che intende partecipare alla sfilata: = = 25%
100 100
13 13
% che intende partecipare alla sfilata tra le donne intervistate: = = 21.6667%
13 + 47 60

ESERCIZIO D15
Si sa che le famiglie italiane con un figlio spendono in media per il carnevale 110 euro, con una varianza di
25 euro2.
a) E’ corretto affermare che la percentuale di famiglie con un figlio che spende per il carnevale tra 100 e
120 euro sia maggiore dell’80%? Giustificare la risposta.
b) Assumendo che la spesa per il carnevale abbia una forma campanulare e simmetrica, si dia una
valutazione della percentuale di famiglie con un figlio che spende per il carnevale tra 100 e 120 euro.

Soluzione
a) Non avendo alcuna indicazione sulla distribuzione della spesa per il carnevale delle famiglie italiane con
un figlio ma conoscendo, tuttavia, la media e la varianza di tale variabile, è possibile ricorrere alla
disuguaglianza di Chebyshev per rispondere alla domanda.
Possiamo rappresentare l’intervallo richiesto [100;120] come µ ± ks ossia come 100 ± k × 25 ,
trovando quindi un valore di k = 2 .
æ 1 ö
La disuguaglianza di Chebyshev afferma che nell’intervallo considerato cadrà almeno il ç1 - ÷%
è k2 ø
delle osservazioni.
In questo caso, per k = 2 , possiamo affermare che nell’intervallo [100;120] ricadranno almeno il 75%
delle osservazioni, ma non possiamo sostenere con certezza che la percentuale di famiglie con un figlio
che spende per il carnevale tra 100 e 120 sarà maggiore dell’80% senza ulteriori informazioni sulla
distribuzione della variabile spesa.
b) Sapendo che la distribuzione della variabile assume forma campanulare e simmetrica è possibile
applicare la regola empirica partendo dalle medesime considerazioni del punto prededente. In questo

13

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

caso la regola empirica afferma che nell’intervallo [100;120] pari a µ ± 2s ricadrà circa il 95% delle
osservazioni. È perciò possibile affermare che, utilizzando l’informazione aggiuntiva sulla distribuzione
della spesa, la percentuale di famiglie con un figlio che spende per il carnevale tra 100 e 120 sarà circa il
95% del totale.

ESERCIZIO D16
Selezionando un campione casuale di 8 studenti, si è rilevato, all’inizio del 2009, il numero di contatti
presenti nella rubrica del cellulare e, per tutto il 2009, i minuti passati al telefono. I risultati sono riportati in
tabella.

Numero di contatti in rubrica Minuti al telefono nell'ultimo anno


327 3787
210 2922
589 10892
333 6902
435 6897
234 5645
604 7234
390 5678
Somma 3122 49957
Somma dei quadrati 1369736 353157795

a) Quale delle due variabili riportate ha una variabilità maggiore? Giustificare la risposta calcolando un
opportuno indice.
b) Costruire l’istogramma della variabile “numero di contatti in rubrica”, riclassificando i dati nelle tre
classi: [200;300), [300;500) e [500;650).
c) Calcolare la media della variabile “numero di contatti in rubrica” sui dati originari e sui dati riclassificati
secondo le indicazioni del punto b). Come può essere giustificata la differenza tra i due indici?

Soluzione
a) Le due variabili oggetto di analisi sono entrambe quantitative. Tuttavia, essendo queste di natura
differente, per poter confrontare la loro variabilità è opportuno utilizzare il coefficiente di variazione.
Definendo come X = ”Numero di contatti in rubrica” e come Y = ”Minuti al telefono nell’ultimo anno” è
possibile calcolare il coefficiente di variazione come segue:
n n

åxi =1
i
3122
åy
i =1
i
49957
x= = = 390.25 y= = = 6244.625
n 8 n 8
n 1 n 2 8 1
sx = × ( å xi - x 2 ) = × ( 1369736 - 390.25 2 ) = 147.0547
n - 1 n i =1 7 8

n 1 n 2 8 1
sy = × ( å yi - y 2 ) = × ( 353157795 - 6244.6252 ) = 2425.9038
n - 1 n i =1 7 8
s 147,0547
CV x = x = = 0.3768 = 37.68%
x 390.25
s y 2425.9038
CV y = = = 0.3885 = 38.85%
y 6244.625

14

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Poiché CV y > CVx è possibile concludere che la variabile “minuti al telefono nell’ultimo anno” ha una
variabilità superiore rispetto “numero di contatti in rubrica”.
b) L’istogramma della variabile “numero di contatti in rubrica” si ottiene come segue

Densità
Frequenza Frequenza
Classi Ampiezza di
assoluta relativa %
frequenza
[200;300) 2 0.25 100 0.0025
[300;500) 4 0.5 200 0.0025
[500;650) 2 0.25 150 0.0017

0,0025

0,002
Densità

0,0015

0,001

0,0005

0
200 300 500 650
Numero di contatti in rubrica

c) Classi di mi Frequenze*mi
Frequenze
misura
[200;300) 2 250 500
[300;500) 4 400 1600
[500;650) 2 575 1150
8 3250

åfm
i =1
i i
3250
x= = = 406.25
n 8

La differenza con la media precedentemente calcolata è dovuta al fatto che, a differenza della media sui
dati grezzi, quella calcolata sui dati raggruppati costituisce un approssimazione del valore reale.

ESERCIZIO D17
Un’azienda che produce pc netbook realizza una ricerca selezionando casualmente alcuni consumatori, ai
quali viene chiesto se possiedono un cellulare o uno smartphone e se sono interessati all’acquisto di un
netbook nei prossimi 12 mesi. Il grafico riportato qui sotto mostra i risultati di tali rilevazioni.

15

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Commentare brevemente la seguente affermazione:


“Le due variabili considerate (interesse all’acquisto e possesso) sono tra loro indipendenti”.

Soluzione
L’affermazione è vera. Dal grafico, infatti, è possibile osservare che la percentuale di non interessati,
indifferenti e interessati è esattamente la stessa tra i possessori di smartphone e i possessori di cellulare.
In maniera qualitativa, è semplice vedere come le barre, tra i possessori di smartphone e quelli di cellulare,
aumentino in maniera perfettamente proporzionale.

ESERCIZIO D18
La tabella che segue riporta i valori dell’attivo di bilancio, del fatturato e del debito finanziario (in migliaia di
euro) per un campione di società quotate e non quotate iscritte nel Registro delle imprese.

Nome Impresa Tipo di società Attivo di bilancio Fatturato Debito Finanziario


Valerio Marziale Quotata 250 480 15
Tullio Cicerone Non Quotata 175 235 100
Plinio il Giovane Quotata 480 100 200
Appio Claudio Quotata 235 300 165
Cornelio Nepote Quotata 180 210 205
Severino Boezio Non Quotata 133 120 85
Lucio Seneca Non Quotata 95 100 25
Giulio Cesare Non Quotata 235 200 45

a) Si determinino le medie del debito finanziario per le società quotate e non quotate. Quale tipologia di
società risulta maggiormente indebitata?
b) Si considerino le variabili “fatturato” e “attivo di bilancio” per l’intero campione. Quale carattere
presenta la maggiore variabilità?
c) Si determini la deviazione standard della variabile “fatturato” nelle seguenti due ipotesi:
§ Ogni fatturato aumenta di 10 migliaia di Euro.
§ Ogni fatturato aumenta del 10%.

Soluzione
15 + 200 + 165 + 205
a) Media (“debito finanziario” | “quotata”) = = 146.25
4
100 + 85 + 25 + 45
Media (“debito finanziario” | “non quotata”) = = 63.75
4
Risultano maggiormente indebitate le società quotate.

b) Per valutare la variabilità dei due caratteri calcoliamo e confrontiamo i relativi coefficienti di variazione:

16

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

480 + 235 + 100 + 300 + 210 + 120 + 100 + 200


“FATTURATO”: x = = 218.125
8

( 480 - 218.125 )2 + ! + ( 200 - 218.125 )2 113496.875


s= = = 16213.8393
7 7

o in alternativa

8 æ 480 2 + 235 2 + ! + 200 2 ö 8 æ 494125 ö


s= × çç - 218.125 2 ÷÷ = ×ç - 218.125 2 ÷ = 16213.8393 = 127.3336
7 è 8 ø 7 è 8 ø

127.3336
CV ( fatturato) = ´ 100% = 58.38%
218.125
250 + 175 + 480 + 235 + 180 + 133 + 95 + 235
“ATTIVO DI BILANCIO”: y = = 222.875
8
( 250 - 222.875 )2 + ! + ( 235 - 222.875 )2 95702.8750
s= = = 13671.8393
7 7
o in alternativa
8 æ 250 2 + 175 2 + ! + 235 2 ö 8 æ 493089 ö
s= × çç - 222.875 2 ÷÷ = ×ç - 222.875 2 ÷ = 13671.8393 = 116.9266
7 è 8 ø 7 è 8 ø
116.9266
CV (attivo) = ´ 100% = 52.46%
222.875

Possiamo quindi concludere che il carattere “Fatturato” presenta maggior variabilità CV(fatturato) >
CV(attivo).

c) Sia X la variabile fatturato:


• W = X + 10 e si avrà
deviazione standard (W) = deviazione standard (X) = 127.3336
• Z = X·(1 + 0.1)
Var(W) = Var(X)·(1 + 0.1)2 = 16213.8393·(1 + 0.1)2 =19618.7455
Deviazione standard (W) = 19618.7455 = 140.0669

ESERCIZIO D19
L’altezza media delle ragazze del comune di Rivendello è pari a 165 cm con deviazione standard uguale a 10
cm. Sapendo che nel comune risiedono 1000 ragazze, quale è il numero minimo di ragazze alte tra 140 e 190
cm, compatibilmente con le informazioni fornite dal problema?

Soluzione
Per la disuguaglianza di Chebychev, data una popolazione di media µ =165 e deviazione standard s =10,
æ 1 ö
almeno ç 1 - ÷ ×100% delle osservazioni cade nell’intervallo ( µ - ks ; µ + ks ).
è k2 ø
L’intervallo (140;190) si può scrivere come (165-2.5·10; 165+2.5·10) à k = 2.5 e quindi almeno
æ 1 ö
ç1 - 2 ÷ ×100% = 0.84
è k ø
à almeno l’84%, ovvero almeno 840 ragazze hanno un’altezza tra 140 e 190 cm.

17

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

ESERCIZIO D20
Per ciascun componente di un gruppo di 19 amici collezionisti è stato rilevato il numero di francobolli rari
posseduti aventi valore superiore a 500 Euro. Si riportano alcune misure di sintesi:

Indicatori di sintesi Valore


Minimo 1
Secondo decile 10
Terzo Quartile 24
Ottantesimo
26
percentile

Qual è la percentuale di osservazioni comprese fra 10 e 26?

Soluzione
Secondo decile =10 à almeno 20% degli individui ha fino a 10 francobolli
ottantesimo percentile =26 à almeno 80% degli individui ha fino a 26 francobolli
80%-20%=60% à almeno 60% delle osservazioni è compresa tra 10 e 26

ESERCIZIO D21
Il sindaco di Rivendello sospetta che vi possa essere associazione tra il fatto di possedere un mezzo
inquinante (Euro 0 o Euro 1) e il livello di istruzione. Viene condotta una indagine campionaria su 150
cittadini, possessori dei seguenti titoli di studio: laurea, diploma di maturità, licenza media, ottenendo le
seguenti risposte:

Licenza media Diploma di maturità Laurea


Possiede un mezzo inquinante 45 46 14
Non possiede un mezzo inquinante 15 27 3

a) Rappresentare graficamente il fenomeno tramite un opportuno diagramma a barre affiancate basato sulle
frequenze percentuali per ciascun titolo di studio.
b) Quale è la percentuale di possessori di licenza media nel campione osservato? Qual è invece la
percentuale di cittadini che possiedono un mezzo inquinante e sono possessori di licenza media?

Soluzione
a)
90% 82.35%
80% 75.00%
70% 63.01%
60%
50% Possiede un mezzo
36.99% inquinante
40%
30% 25.00% Non possiede un mezzo
17.65% inquinante
20%
10%
0%
Licenza media Diploma di Laurea
maturità

b) Possessori di licenza media = 60/150 = 40%


Possessori mezzo inquinante con licenza media = 45/150 = 30%

18

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

ESERCIZIO D22
Su un campione di 11 clienti di una palestra sono state rilevate le seguenti quantità Abbonamento (A =
Annuale, M = Mensile, S = Semestrale) Presenza (Numero di giorni alla settimana in cui frequenta la
palestra) Sesso (M = Maschio, F = Femmina):

Abbonamento Età Presenza Sesso Età × Presenza


M 18 1 F 18
M 23 2 M 46
A 23 3 M 69
S 28 4 F 112
M 30 2 F 60
A 19 4 M 76
A 23 2 F 46
S 22 2 M 44
S 18 4 M 72
A 22 2 F 44
M 25 1 M 25
TOTALE 251 27 612

a) Confrontare l’età media dei maschi che frequentano la palestra e quella delle femmine.
b) Dopo aver classificato la variabile età nelle classi [18,21), [21,24), [24,27) e [27,31) calcolare la
distribuzione congiunta di età e presenza.
c) Calcolare la covarianza tra Età e Presenza, commentare il risultato ottenuto.

Soluzione
a) Indichiamo l’età del cliente con X ed isoliamo le osservazioni sui maschi e sulle femmine; otteniamo:

121 130
xF = = 24.2 xM = = 21.6667
5 6

Dall’analisi delle medie condizionate emerge come il genere influenzi l’età del cliente.
b) Otteniamo la seguente tabella a doppia entrata:

Presenza 1 2 3 4 Totale
Età
[18,21) 1 0 0 2 3
[21,24) 0 4 1 0 5
[24,27) 1 0 0 0 1
[27,31) 0 1 0 1 2
Totale 2 5 1 3 11

c) Indichiamo l’età del cliente con X e la presenza con Y. Utilizzando le somme fornite dal testo, si ottiene:

251 27
x= = 22.8182 y= = 2.4545
11 11
612 - (11)(22.8182)(2.4545) -4.0800
s XY = = = -0.4080
10 10

19

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Il valore negativo della covarianza informa che esiste un’associazione negativa tra le due variabili. Per
valutarne l’intensità occorrerebbe calcolare il coefficiente di correlazione.

ESERCIZIO D23
La seguente tabella riporta le votazioni ottenute da 100 studenti della facoltà di Chimica nell’esame di
Matematica generale:

Classi [18,21) [21,24) [24,27) [27,30)


Frequenza 20 60 15 5

a) Rappresentare graficamente la variabile voto.


b) Calcolare la percentuale di studenti che hanno ottenuto un voto inferiore a 27.

Soluzione
a) Costruiamo un istogramma; di sotto la tabella delle frequenze e delle densità di frequenza relative utili
per costruire le altezze dei rettangoli che costituiscono l’istogramma. Poiché le classi sono di uguale
ampiezza è accettabile anche la soluzione che pone le frequenze come altezze.

Estremi inferiori Estremi superiori Frequenze Frequenze


Densità
delle classi delle classi assolute relative
18 21 20 0.2 0.06667
21 24 60 0.6 0.2
24 27 15 0.15 0.05
27 30 5 0.05 0.01667

0.2

0.15
Densità

0.1

0.05

0
18 21 24 27 30
Studenti chimica

b) E’ necessario sommare le frequenze delle prime tre classi e rapportarla al totale di studenti: si ottiene
20 + 60 + 15
100 % = 95% .
100

ESERCIZIO D24
Da un’indagine condotta su 200 clienti dell’Agenzia “New Travel” riguardante la meta delle vacanze
natalizie si sono ottenuti i seguenti risultati:

20

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Y = destinazione Mare Italia/Estero Montagna Italia/Estero Città d’arte


X = durata della vacanza
3 18 30 30
7 10 50 17
10 20 15 10

a) Valutare la simmetria o asimmetria della variabile X confrontando media e mediana.


b) Tra coloro che si sono recati in montagna quanti hanno fatto al massimo 7 giorni di vacanza?
c) Mediamente hanno fatto più giorni di vacanza coloro che si sono recati al mare o quelli che si sono
recati in montagna?

Soluzione
a) Prima di tutto riportiamo la distribuzione marginale della variabile X:

X = Durata Freq. assolute Freq. relative Freq. percentuali Freq. perc. cumulate
3 78 0.390 39.0% 39.0%
7 77 0.385 38.5% 77.5%
10 45 0.225 22.5% 100%
Totali 200 1 100%

Come si evince chiaramente osservando le percentuali cumulate, la mediana è pari a 7, in quanto si tratta
del più piccolo valore che raggiunge/supero il 50% della frequenza cumulata percentuale; per la media è
invece necessario ricorrere al seguente calcolo:

(3)(78) + (7)(77) + (10)(45) 1223


x= = = 6.115
200 200

Il fatto che la media sia inferiore alla mediana, indica che la distribuzione è obliqua a sinistra.

b) E’ necessario sommare le prime due frequenze della seconda colonna e rapportarle al totale della
30 + 50
colonna stessa: = 0.8421; la percentuale richiesta è l’84.21%.
95
c) Calcoliamo la media aritmetica (in versione ponderata) usando separatamente le frequenze della prima e
della seconda colonna:

(3)(18) + (7)(10) + (10)(20) 324


xMARE = = = 6.75
48 48
(3)(30) + (7)(50) + (10)(15) 590
xMONT . = = = 6.2105
95 95

Si nota un valore leggermente superiore per coloro che si sono recati al mare.

ESERCIZIO D25
In un’indagine statistica condotta in una regione italiana, su un campione casuale di 12 società finanziarie di
prestito al consumo, per finanziamenti di 10000 Euro sono stati raccolti i dati riportati in tabella. Il
significato delle variabili è il seguente:

FINANZIARIA: identificativo della società


RATA: ammontare minimo delle rate, in Euro
NUMERO RATE: numero minimo di rate richieste per estinguere il finanziamento
TAEG: TAEG minimo dichiarato dalla finanziaria per l’operazione

21

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

FINANZIARIA RATA (xi) NUMERO RATE TAEG (xi - x )2


A 150 110 6.50 596.1752
B 120 140 7.24 2961.177
C 245 70 7.32 4982.002
D 130 145 7.87 1972.843
E 189 95 7.74 212.6726
F 182 88 6.83 57.5064
G 188 85 5.00 184.506
H 186 95 6.50 134.1728
I 180 84 5.10 31.1732
L 190 95 6.64 242.8392
M 199 90 8.00 604.3386
N 134 140 8.21 1633.51
Somma 2093 1237 82.95 13612.92

a) Dopo aver definito la tipologia del carattere NUMERO RATE, descriverlo con il grafico opportuno
riclassificando i dati nelle classi [60,90), [90,120) e [120,150).
b) Determinare i cinque numeri di sintesi per il carattere RATA.
c) Verificare se esistono outlier per il carattere RATA. Dal confronto successivo della mediana con la
media, quali informazioni si possono ottenere sulla forma della distribuzione?

Soluzione
a) Il carattere NUMERO RATE è quantitativo discreto. La distribuzione di frequenze in tre classi di
uguale ampiezze e la relativa rappresentazione grafica sono le seguenti:

Estremi Estremi
Frequenze Frequenze
inferiori superiori Densità
assolute relative
delle classi delle classi
60 90 4 0.3333 0.0111
90 120 5 0.4167 0.0139
120 150 3 0.2500 0.0083

0.014
0.012
.

0.01
0.008
Densità

0.006
0.004
0.002
0
60 90 120 150

NUMERO RATE

b) Si consideri il carattere RATA. Le osservazioni ordinate in modo non decrescente sono:

120, 130, 134, 150, 180, 182, 186, 188, 189, 190, 199, 245.

Il primo quartile si trova nella posizione 0.25(n + 1) = 0.25*13 = 3.25 è Q1 = 134


Il secondo quartile (mediana) si trova nella posizione = 0.5(n + 1) = 0.5*13 = 6.5 è Q2 = 184
Il terzo quartile si trova nella posizione = 0.75(n + 1) = 0.75*13 = 9.75 è Q3 = 190

I cinque numeri di sintesi sono pertanto: Min = 120, Q1 = 134, Q2 = 184, Q3 = 190, Max = 245.

c) Il range interquartile IQR = 190 – 134 = 56. Poiché Q1 – 1.5 *IQR = 50 e Q3 + 1,5 * IQR = 274 si
conclude che non vi sono outlier, non essendoci alcun valore inferiore a 50 o superiore a 274.

22

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Dal confronto fra la media (pari a 174.4167) e la mediana (pari a 184) risulta che la distribuzione del
carattere è asimmetrica; in particolar modo, essendo la media inferiore al valore della mediana, la
distribuzione risulta obliqua a sinistra.

ESERCIZIO D26
In un campione casuale di 10 fondi di investimento azionari quotati sul mercato italiano si sono rilevati i dati
riportati in tabella. Il significato delle variabili è il seguente:

FONDO: denominazione del fondo


QUOTA: valore della quota, in Euro, alla chiusura del mercato del giorno precedente
QUOTA1: valore della quota, in Euro, a un anno dalla data di riferimento
PERC: incremento percentuale subito dalla quota nel corso degli ultimi tre mesi
SPECIALIZZAZIONE.: mercato prevalente degli investimenti del fondo

FONDO QUOTA (xi) QUOTA1 (yi) PERC (wi) SPECIALIZZAZIONE (xi - yi)
A 9.73 10.10 -2.8 Asia/Pac. -0.37
B 11.80 11.89 -1.8 Europa -0.09
C 4.77 5.06 -0.9 Asia/Pac. -0.29
D 4.59 4.67 -1.9 Europa -0.08
E 14.39 13.51 2.8 Am. Latina 0.88
F 10.83 9.46 4.1 Asia/Pac. 1.37
G 14.16 14.34 -5.2 Europa -0.18
H 11.88 11.57 -1.3 Europa 0.31
I 6.89 5.33 9.7 Am. Latina 1.56
L 15.82 11.34 9.5 Am. Latina 4.48
Somma 104.86 97.27 12.2 7.59
10 10 10

å ( yi - y ) = 113.166, å (wi - w ) = 238.336, å ( yi - y )(wi - w ) = -35.3428


2 2

i =1 i =1 i =1

a) Determinare la distribuzione di frequenze del carattere QUOTA, utilizzando le classi [4;8), [8;12),
[12;16) e rappresentarla graficamente. Calcolare la media e la deviazione standard sui dati riclassificati.
b) Calcolare la media di PERC nelle sottopopolazioni derivanti dalla SPECIALIZZAZIONE. Che cosa si
può concludere?
c) Determinare un indice di tendenza centrale per il carattere SPECIALIZZAZIONE.

Soluzione
a) La distribuzione di frequenze in tre classi equiampie del carattere QUOTA e la relativa rappresentazione
grafica sono le seguenti:

Estremi inferiori Estremi superiori Frequenze Frequenze


Densità
delle classi delle classi assolute relative
4 8 3 0.3 0.075
8 12 4 0.4 0.1
12 16 3 0.3 0.075

23

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

0.1

0.08
.
0.06
Densità

0.04

0.02

0
4 8 12 16
QUOTA

6 ´ 3 + 10 ´ 4 + 14 ´ 3
x= = 10 ;
10
(6 - 10) 2 ´ 3 + (10 - 10) 2 ´ 4 + (14 - 10) 2 ´ 3
s x2 = = 10.6667; s x = 3.266
9
2.8 + 9.7 + 9.5
b) Media (PERC|SPECIALIZZ.= America Latina) = = 7.3333
3
- 2.8 - 0.9 + 4.1
Media (PERC|SPECIALIZZ.= Asia/Pacifico) = = 0.1333
3
- 1.8 - 1.9 - 5.2 - 1.3
Media (PERC|SPECIALIZZ.= Europa) = = -2.55
4
Poiché le medie condizionate sono diverse tra loro,si può concludere che il carattere PERC dipende in
media da SPECIALIZZAZIONE.

c) Il carattere SPECIALIZZAZIONE è qualitativo nominale e l’unico indice di tendenza centrale che si


può determinare è la moda è moda = EUROPA.

ESERCIZIO D27
I dati che seguono sono i valori di una versione dell’Indice HDI di sviluppo umano, costruito a partire da
informazioni relative all’aspettativa di vita, livello di istruzione, e reddito procapite (valori bassi
corrispondono a sviluppo elevato) per alcuni Paesi del mondo:

0.87 0.45 0.66 0.74 0.49 0.89 0.90 0.88 0.47 0.65 0.49 0.32 0.74 0.51

a) Si calcolino la media e la varianza dei dati riportati.


b) Si costruisca la distribuzione di frequenze relative dei dati, dopo averli classificati nelle classi [0;0.5),
[0.5;0.7), [0.7;1.0]. Si produca un’appropriata rappresentazione grafica della distribuzione.
c) Si calcolino, a partire dai dati classificati in b), la media e la varianza della variabile. Si confrontino i
risultati con quanto ottenuto in a), e si commentino i risultati.

Soluzione
1 1
a) x = åx = 0.6471, s 2 = ( x - x ) 2 =0.0377
å
n n -1
b) La distribuzione di frequenza adeguata per il problema è esplicitata come segue e l’idonea
rappresentazine grafica è l’istogramma.

Intervallo Freq.assoluta Ampiezza Freq.relativa Densità Punto medio Punto medio*Freq


[0,0.5) 5 0.5 0.3571 0.7142 0.25 1.25
[0.5,0.7) 3 0.2 0.2143 1.0715 0.6 1.8

24

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

[0.7,1] 6 0.3 0.4286 1.4287 0.85 5.1


14 8.15

ISTOGRAMMA 3
1.4
1.2
Densità

1
0.8
0.6
0.4
0.2
0
0 0.5 0.7 1
Variabile X

c) La media e la varianza della variabile, calcolate, a partire dai dati classificati in c), utilizzando i valori
centrali degli intervalli, sono:

x = 8.15 / 14 = 0.5821
1
s2 =
13
[
5(0.25 - 0.5821) 2 0.0703 + 3(0.6 - 0.5821) 2 + 6(0.85 - 0.5821) 2 . ]
I valori sono diversi da quelli ottenuti in a), in quanto nella riclassificazione sono state perse
informazioni sui dati effettivi.

ESERCIZIO D28
La tabella che segue riporta i valori per il Prodotto Interno Lordo (pro capite, in migliaia di dollari) ed il
valore di una versione dell’Indice HDI di sviluppo umano, costruito a partire da informazioni relative
all’aspettativa di vita, livello di istruzione, e reddito procapite (valori bassi corrispondono a sviluppo elevato)
per un campione di Paesi del mondo. Le medie delle due variabili sono indicate con i simboli x HDI e x PIL.

NAZIONE HDI PIL (HDI- x HDI)2 (PIL- x PIL)2 (HDI- x HDI)*(PIL- x PIL)
Algeria 0.8651 1.6 0.0369 3.8678 -0.3777
Argentina 0.4472 4 0.0510 0.1878 -0.0979
Brazil 0.6602 2.6 0.0002 0.9344 0.0124
China 0.7401 1.3 0.0045 5.1378 -0.152
Egypt 0.8944 0.5 0.0490 9.4044 -0.679
India 0.8979 0.3 0.0506 10.6711 -0.7346
Iraq 0.8764 0.7 0.0414 8.2178 -0.5831
Israel 0.4729 13.6 0.0401 100.6678 -2.0082
Malaysia 0.6514 2.5 0.0005 1.1378 0.0231
Mexico 0.6117 3.1 0.0038 0.2178 0.0286
Nigeria 0.8727 0.2 0.0399 11.3344 -0.6722
Pakistan 0.7799 0.4 0.0114 10.0278 -0.3385
Philippines 0.4949 0.7 0.0317 8.2178 0.5106
Russia 0.3162 8.6 0.1273 25.3344 -1.7959
Spain 0.5144 13.4 0.0252 96.6944 -1.5601
SOMMA 10.0954 53.5 0.5133 292.0533 -8.4244

25

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

a) Si costruisca il boxplot per la variabile PIL e lo si utilizzi per descrivere la forma della distribuzione e
per verificare l’eventuale esistenza di outlier.
b) Si confronti la variabilità delle due variabili HDI e PIL.
c) Si calcoli il coefficiente di correlazione lineare tra HDI e PIL e si commenti il risultato ottenuto.
d) Si calcoli la retta dei minimi quadrati per la retta interpolante di HDI su PIL.

Soluzione
a)
Five-number Summary
Minimum 0.2
First Quartile 0.5
Median 16
Third Quartile 40
Maximum 136

16

14

12
Minimo
10
1° Quartile
8
Mediana
6 3° Quartile

4 Outlier

0
Variabile X

Il box plot indica chiaramente che la distribuzione è obliqua a destra (“baffo” destro maggiore di quello
sinistro e “scatola” divisa dalla mediana in due parti di cui quella destra è maggiore). Inoltre sono
presenti outliers (a destra) in quanto il “baffo” destro ha lunghezza 13.6 – 4 = 9.6 > 1.5*IQR = 1.5*(4 -
0.5) = 5.25.

b) Per confrontare la variabilità, utilizziamo i coefficienti di variazione. Si ha:

s HDI 0.1914 s 4.5673


CV HDI = = = 0.2845 ; CV PIL = PIL = = 1.2806
x HDI 0.6730 x PIL 3.5667

Quindi è maggiormente variabile il PIL.

c) r ( HDI , PIL) =
å (HDI - x ) × (PIL - x )
HDI PIL
=
- 8.4244
= -0.6884 .
å (HDI - x ) å ×(PIL - x )
HDI
2
PIL
2
0.5133 × 292.0533

Tale valore indica associazione lineare negativa di medio-alta entità.

d) La retta dei minimi quadrati di HDI su PIL ha coefficiente angolare

26

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

b1 =
å (HDI - x HDI ) × (PIL - x PIL ) = - 8.4244 = -0.0288
å (PIL - x PIL )2 292.0533

e intercetta

b0 = x HDI - b1 x PIL = 0.6730 + 0.0288 × 3.5667 = 0.7757.

ESERCIZIO D29
Si consideri la seguente rappresentazione grafica della distribuzione di frequenze per la variabile “Età” dei
20 partecipanti ad un corso di cucina.

0,25

0,2

0,15
Densità

0,1

0,05

0
20 21 26 34 35

Eta'

a) Indicare la classe modale della variabile rappresentata.


b) Ricavare, a partire dall’istogramma, la distribuzione di frequenze assolute per la variabile Età.
c) Calcolare la mediana per la variabile Età.
d) Calcolare la percentuale di partecipanti con età compresa tra 21 anni e 31 anni. Quale nome si
attribuisce alla differenza 31 - 21 anni e cosa misura?

Soluzione
a) La classe modale della distribuzione rappresentata è [20; 21), in quanto presenta la densità di frequenza
più elevata.
b) La distribuzione di frequenze assolute per la variabile Età si ottiene a partire dalle densità attraverso le
operazioni riassunte in tabella.
(Si ricordi che 𝑐" = 𝑝" /𝑤" e 𝑝" = 𝑓" /𝑛 da cui 𝑝" = 𝑐" ∗ 𝑤" e 𝑓" = 𝑝" ∗ 𝑛 rispettivamente.)

Frequenze Frequenze
Densità (𝒄𝒊 ) Ampiezza (𝒘𝒊 ) Relative (𝒑𝒊 ) Assolute (𝒇𝒊 )
20|-21 0.25 1 0.25*1 = 0.25 20*0.25 = 5
21|-26 0.05 5 0.25 5
26|-34 0.05 8 0.40 8
34|-35 0.10 1 0.10 2
1 20

c) Dalla seguente tabella, si nota come Mediana = 26, in quanto l’estremo superiore della seconda classe
permette di cumulare esattamente una frequenza pari a 0.50.

27

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Frequenze Assolute Frequenze Relative Frequenze Cumulate


20|-21 5 0.25 0.25
21|-26 5 0.25 0.50
26|-34 8 0.40 0.90
34|-35 2 0.10 1
20 1

Più in generale, se in nessun estremo si cumulasse esattamente una frequenza pari a 0.50 – si
identificherebbe innanzitutto
1) la classe mediana: 21|-26 (in questo caso)
2) si determinerebbe la mediana – internamente a tale classe – come

0.5 − 0.25
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 21 + = 26
0.05

d) Calcolare la percentuale di partecipanti con età compresa tra 21 anni e 31 anni. Quale nome si attribuisce
alla differenza 31 - 21 anni e cosa misura?

𝐹𝑟(21 < 𝐸𝑡à < 31) = 0.05 ∗ (31 − 21) = 0.50

poiché la densità di frequenza è costante sull’intervallo (21, 31).


Il 50% dei partecipanti ha un’età compresa tra i 21 e i 31 anni.
Essendo 𝑄F = 21 e 𝑄G = 31, la differenza 31 - 21 = 10 è la differenza interquartile IQR = Q3 - Q1 , la
quale misura la variabilità del 50% centrale dei dati.

ESERCIZIO D30
Si consideri la seguente curva delle frequenze relative cumulate del prezzo di 30 articoli venduti in un
determinato negozio.

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 10 20 30 40 50 60

a) Ricavare, a partire dal grafico, la distribuzione di frequenze assolute per la variabile prezzo.
b) Quale è la percentuale di articoli con prezzo di almeno 20 euro?

28

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Soluzione
a) Ricavare, a partire dal grafico, la distribuzione di frequenze assolute per la variabile prezzo.

Frequenze Frequenze
Classe Frequenze Relative
Cumulate Assolute
0-|10 0,1 0,1 3
10-|20 0,5 0,4 12
20-|30 0,8 0,3 9
30-|50 1 0,2 6
1 30

b) Il 50% degli articoli ha un prezzo di almeno 20 euro, infatti dalla curva delle frequenze cumulate

𝐹𝑟(𝑃𝑟𝑒𝑧𝑧𝑜 < 20) = 0.5 ⇨ 𝐹𝑟(𝑃𝑟𝑒𝑧𝑧𝑜 ≥ 20) = 1 − 𝐹𝑟(𝑃𝑟𝑒𝑧𝑧𝑜 < 20) = 0.5

ESERCIZIO D31
L’istogramma seguente rappresenta la distribuzione, per classi d’età (in anni), degli alunni di un istituto
privato che offre lezioni a tutti i livelli di istruzione (dalle elementari ai corsi post-diploma). Uno dei
rettangoli è stato cancellato.

a) Completare il grafico, specificando la densità di frequenza della terza classe.


b) Calcolare la percentuale di alunni tra 7 e 13 anni.
c) Calcolare l’età media e l’età mediana.

Soluzione
a) A partire dalle densità possiamo determinare la frequenza relativa associata a ciascuna classe (come
Densità*Ampiezza, ovvero 𝑝" = 𝑐" ∗ 𝑤" ) e, per differenza, la frequenza relativa della terza classe; dalla
frequenza relativa possiamo calcolare la densità richiesta:

Classi Punto medio (mi) Densità (ci) Ampiezza Freq. relative (pi) Freq. rel. Cum.
(wi) (Fi)
[5; 11) 8 0.0800 6 0.48 0.48
[11; 13) 12 0.1000 2 0.20 0.68
[13; 19) 16 0.0267 6 0.16 0.84
[19; 23] 21 0.0400 4 0.16 1
1

La densità richiesta vale c3 = 0.16/6 = 0.0267.

29

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

b) Sia X la variabile che descrive l’età in anni degli alunni; allora

𝐹𝑟(7 < 𝐸𝑡à < 13) = 𝐹𝑟(7 < 𝐸𝑡à < 11) + 𝐹𝑟(11 < 𝐸𝑡à < 13) = 0.08 ∗ (11 − 7) + 0.20 = 𝟎. 𝟓𝟐

Quindi il 52% degli alunni ha un’età compresa fra 7 e 13 anni.


k
c) µ = å mi × pi Þ µ = 8 × 0.48 + 12 × 0.2 + 16 × 0.16 + 21× 0.16 = 12.16
i =1
La classe mediana è la classe [11, 13), poiché è la prima classe a cui corrisponde un valore superiore a
0.5 della frequenza relativa cumulata.
Impostando l’equazione per determinare l’età mediana, m:

0.5 = 0.48 + (𝑚 − 11) ∗ 0.1 ⇒ 𝑚 = 11 + 0.2 = 𝟏𝟏. 𝟐

ESERCIZIO D32
La seguente tabella riguarda un campione di strutture destinate ad accogliere bambini da 0 a 2 anni. Vengono
rilevate l’area geografica di appartenenza (Area A, B, C) e il tipo di struttura.

Tipo struttura

Area Asili nido Baby parking Nidi familiari


A 16 5 9
B 13 10 1
C 8 8 11

a) Determinare la percentuale di asili nido tra le strutture presenti in ciascuna area.


b) Rappresentare graficamente la distribuzione della variabile “Tipo struttura”.

Soluzione
a)
𝐹𝑟(𝑇𝑖𝑝𝑜 𝑠𝑡𝑟𝑢𝑡𝑡𝑢𝑟𝑎 = Asili nido| 𝐴𝑟𝑒𝑎 = "𝐴") = 16/30 = 𝟎. 𝟓𝟑𝟑𝟑

𝐹𝑟(𝑇𝑖𝑝𝑜 𝑠𝑡𝑟𝑢𝑡𝑡𝑢𝑟𝑎 = Asili nido| 𝐴𝑟𝑒𝑎 = "𝐵") = 13/24 = 𝟎. 𝟓𝟒𝟏𝟕

𝐹𝑟(𝑇𝑖𝑝𝑜 𝑠𝑡𝑟𝑢𝑡𝑡𝑢𝑟𝑎 = Asili nido| 𝐴𝑟𝑒𝑎 = "𝐶") = 8/27 = 𝟎. 𝟐𝟗𝟔𝟑

b) Consideriamo la distribuzione delle frequenze per il carattere “Tipo struttura” ed il diagramma a torta ad
essa associato:
Freq.
Freq. %
Tipo struttura assolute
Asili nido 37 45.68% 21
Baby parking 23 28.39% 25.93%
Nidi familiari 21 25.93%
37 Asili nido
Totale 81 100% 45.48% Baby parking
Nidi familiari

23
28.39%

ESERCIZIO D33
I seguenti valori (ordinati) rappresentano, per la popolazione dei 19 dipendenti dell’azienda A, le distanze, in
Km, dal luogo di lavoro.
30

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

2.3 3.3 3.7 3.9 4.0 4.3 4.8 5.4 6.1 6.3 6.6 7.0 7.6 8.1 8.3 8.5 8.8 9.1 9.8

a) Determinare i 5 numeri di sintesi e rappresentare il box plot.


b) Qual è la forma della distribuzione? Ci sono outlier? Motivare entrambe le risposte.
c) L’azienda B ha 14 dipendenti, per i quali la media delle distanze dal luogo di lavoro è pari a 7.58 Km,
con deviazione standard pari a 2.41 Km. Si stabilisca per quale delle due aziende la distanza presenta la
maggiore variabilità. (Sia X = “Distanza dal luogo di lavoro dei dipendenti dell’azienda A”, valgono
19 19
allora: åx
i =1
i = 117.9; åx i =1
2
i = 822.03 ).

Soluzione
Box Plot

Numeri di sintesi Valori


Min 2.3
Q1 4
Distanza
Mediana 6.3
Q3 8.3
Max 9.8
0 2 4 6 8 10
a)

b) La distribuzione è leggermente obliqua a sinistra poiché Q3 - Q2 = 2 < Q2 - Q1 = 2.3 ed inoltre


Max - Q3 = 1.5 < Q1 - Min = 1.7. Non ci sono osservazioni inferiori a Q1 -1.5 × (Q3 - Q1 ) = -2.45 o
superiori a Q3 + 1.5 × (Q3 - Q1 ) = 14.75 e pertanto non ci sono outlier.

c) Sia Y = “Distanza dal luogo di lavoro per i dipendenti della ditta B”; per valutare la variabilità delle due
variabili calcoliamo i relativi coefficienti di variazione, CVX =
sX s
´100% e CVY = Y ´100% ,
| µX | | µY |
19

åx i
117.9
con µY = 7.58, s Y = 2.41, µ X = i =1
= = 6.2053 e
19 19
19

åx i
2
822.03
sX = i =1
- x2 = - 6.20532 = 2.1815.
19 19
2.1815 2.41
è CVX = ´100% = 35.16% e CVY = ´100% = 31.79%. Poiché CVX > CVY, X è
| 6.2053 | | 7.58 |
leggermente più variabile.

ESERCIZIO D34
Un’associazione di consumatori vuole valutare se il fatto di acquistare medicinali di automedicazione di
preferenza nelle farmacie o nelle parafarmacie dipenda o meno dall’età. Attraverso un’indagine effettuata su
un campione di 80 individui, suddivisi in classi di età, sono stati raccolti i seguenti dati:

Età
Tipologia Giovani Adulti Anziani
Farmacie 13 10 34
Parafarmacie 11 9 3

31

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

a) Tra le persone non giovani, qual è la percentuale di coloro che prediligono le parafarmacie?
b) Si può ritenere che ogni fascia d’età abbia una diversa preferenza per la tipologia di negozio?
Rispondere calcolando opportune frequenze relative e rappresentandole graficamente.

Soluzione
a) La frequenza richiesta è
9+3
( ½ = "Adulti, Anziani" =
Fr Tipologia = "Parafarmacie"Età ) 9 + 3 + 10 + 34
= 0.2143

b) Calcolando le frequenze subordinate in base alla fascia di età si ottiene la seguente tabella:

Età
Tipologia Giovani Adulti Anziani
Farmacie 0.5417 0.5263 0.9189
Parafarmacie 0.4583 0.4737 0.0811

Anche dal grafico (possibili le barre sovrapposte) si nota che ogni fascia di età ha una diversa
preferenza per la tipologia di negozio (evidente soprattutto negli anziani).

1
0.9
0.8
0.7
0.6
0.5 Farmacie
0.4 Parafarmacie
0.3
0.2
0.1
0
Giovani Adulti Anziani

ESERCIZIO D35
In un campione casuale di 12 utenti del servizio di Internet mobile si sono rilevate le attività svolte durante
l’ultima connessione e la relativa durata ottenendo:

Tipo di attività Durata (minuti)


News 4
Social Networking 19
Download App 5
Altro 2
Download App 5
News 3
Altro 3
Altro 3
News 5
Social Networking 8
Social Networking 8
Social Networking 7
32

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Si rappresenti graficamente la variabile “Tipo di attività” e se ne fornisca un opportuno indice di sintesi.

Soluzione
Si tratta di una variabile categorica rappresentabile con un grafico a barre o a torta, l’indice di sintesi più
opportuno è la moda = ”Social Networking” (frequenza maggiore)

Social
Networki
ng, 4
News, 3 Altro, 3
Downloa
d App, 2

Altro News
3 3
25% 25%

Download Social
App Networking
2 4
17% 33%

ESERCIZIO D36
Un gestore di telefonia mobile vuole sapere se il numero di indirizzi IP di cui dispone è sufficiente a
soddisfare la domanda al servizio di Internet mobile. A tale scopo registra il numero di connessioni in ogni
fascia oraria a Milano e a Roma. I seguenti box plot rappresentano, nelle due città campione, il numero di
connessioni (in migliaia) registrato nelle 24 fasce orarie della giornata-tipo.

Traffico Internet

Milano

Roma

20 30 35 40 50 60 70 80 90 100 110 120 125 130 140 150 160

Numero di connessioni per fascia oraria (migliaia )

33

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

a) Quali sono gli indici di variabilità calcolabili a partire dalla rappresentazione grafica fornita? Si riportino
i valori di tali indici per la città di Milano.
b) Qual è la forma delle due distribuzioni illustrate graficamente? Esistono degli outlier?
c) Poiché ogni connessione richiede un indirizzo, per quante fasce orarie della giornata-tipo, a Milano, sono
utilizzati al massimo 80000 indirizzi? E a Roma?

Soluzione
a) Indici di variabilità calcolabili Range e Range interquartile, per Milano:
Range = Max - Min = 150 – 30 = 120 e Range Interquartile = Q3 - Q1 = 125 – 40 = 85
b) Il traffico in internet relativo a Milano presenta una distribuzione quasi simmetrica (lievemente obliqua a
destra: (Q3 – Q2) = 125 – 80 = 45 > (Q3 – Q2) = 80 – 40 = 40) mentre per la città di Roma la distribuzione
è obliqua a destra: (Q3 – Q2) = 80 – 60 = 20 > (Q3 – Q2) = 60 – 50 = 10, il baffo superiore, inoltre, è
molto più ampio.
Verifichiamo la presenza di outlier (superiori) per la città di Roma: Range interquartile = 80 – 50 = 30
80 + 1.5·30 = 125 à sono presenti outlier superiori per la città di Roma
c) Milano per 12 fasce orarie (50%), in quanto 80000 corrisponde al valore mediano;
Roma per 18 fasce orarie (75%), in quanto 80000 corrisponde al terzo quartile.

ESERCIZIO D37
In un aeroporto internazionale, da un’indagine campionaria su 12 passeggeri che hanno effettuato un
acquisto prima di imbarcarsi, si sono rilevate le seguenti informazioni:

Spesa in Euro Durata prevista del volo (in ore)


Genere Tipologia acquisto
(X) (Y)
F Profumeria 75 9
F Profumeria 120 2
F Libri 25 2
M Tabacchi/Alcolici 45 9
M Tabacchi/Alcolici 28 9
M Profumeria 35 8
F Libri 20 6
F Tabacchi/Alcolici 17 2
F Profumeria 50 3
F Libri 34 6
M Elettronica 120 8
M Libri 35 8

12 12 12 12 12

å xi = 604,
i =1
å yi = 72,
i =1
å xi2 = 44654,
i =1
å yi2 = 528,
i =1
åx
i =1
i × y i = 3650

a) Si determini la tabella di contingenza delle variabili “Genere” e “Tipologia acquisto”, precisando le


frequenze relative congiunte. Qual è la percentuale di passeggeri che sono donne e che hanno effettuato
acquisti in profumeria e quella, tra gli uomini, di coloro che hanno acquistato tabacchi/alcolici?
b) Sono più variabili le spese delle donne o quelle degli uomini?

Soluzione
a)
Tipologia
Genere Totale
Elettronica Libri Profumeria Tabacchi/Alcolici
F 0 0.25 0.25 0.0833 0.5833
M 0.0833 0.0833 0.0834 0.1667 0.4167
Totale 0.0833 0.3333 0.3334 0.25 1

La percentuale di passeggeri che sono donne e che hanno effettuato acquisti in profumeria è pari al 25%.
34

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

La percentuale di passeggeri, tra gli uomini, di coloro che hanno acquistato tabacchi/alcolici è pari a
0.1667/0.4167 = 0.4000 = 40%

b) Si devono calcolare i coefficienti di variazione delle spese degli uomini e di quelle delle donne.
341 24995 7
xF = = 48.7143; s X2 F = ( - 48.7143 2 ) × = 1397.2365; s X F = 37.3796
7 7 6
37.3796
CV X F = × 100% = 76.73%
48.7143
263 19659 5
xM = = 52.6; s X2 M = ( - 52.6 2 ) × = 1456.3; s X M = 38.1615
5 5 4
38.1615
CV X M = × 100% = 72.5504%
52.6
Risultano quindi più variabili le spese delle donne.

ESERCIZIO D38
Il seguente istogramma evidenzia, per un campione di 400 passeggeri di voli intercontinentali, il tempo di
attesa al check-in (in minuti). (Sulle ordinate sono riportate le densità di frequenza.)

0.050

0.045
a) Si determini la percentuale di coloro che attendono tra 5 e 27 minuti.
b) Si calcolino, per i passeggeri considerati, la media e la mediana del tempo di attesa.

Soluzione
0.040
a) Fr(5 < X < 27) = [(10 - 5)·0.050 + 10·0.035 + (27 - 20)·0.010]= 67%.
b) x = 6 × 0.4 + 15 × 0.35 + 25 × 0.10 + 45 × 0.15 = 16.9.
La mediana, Me (o secondo quartile), è il valore che lascia alla sua sinistra il 50% della distribuzione, cioè
0.035
Me è tale che Fr ( X £ Me) = 0.50 Þ Me Î [10,20).
Nel caso di dati rag grup pati, il suo valore si determina r i s o lvendo l' eq uazione
0.50 = 0.40 + ( Me - 10) × 0.035, dalla quale si ricava Me = 12.8571.

0.030 35

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

ESERCIZIO D39
E’ stato chiesto a un campione casuale di 100 italiani se conoscono un brand di abbigliamento. La tabella
mostra la tabella a doppia entrata tra la conoscenza del brand e il sesso dell’intervistato:

Conoscenza brand
Sesso Sì No Totale
M 26 24 50
F 36 14 50
Totale 62 38 100

Si costruisca un opportuno diagramma a barre accostate per evidenziare se la conoscenza del brand di
abbigliamento dipende dal sesso dell’intervistato.

Soluzione
Determiniamo le distribuzioni subordinate:

Conoscenza brand
Sesso Sì No Totale
M 52% 48% 100%
F 72% 28% 100%

Il diagramma a barre accostate delle frequenze ora calcolate è dato da

80.00%

60.00%

40.00% No

20.00% Si

0.00%
F M

Poiché le distribuzioni di frequenze della conoscenza del brand sono diverse per i maschi e le femmine, si
conclude che nel campione considerato la conoscenza del brand e il sesso dell’intervistato sono dipendenti.

ESERCIZIO D40
La Direzione di un supermercato conduce un’indagine statistica per valutare l’utilizzo dei servizi accessori
forniti alla clientela (farmacia, bar, libreria, sviluppo foto, ecc.). La seguente tabella riguarda un campione di
8 clienti, per i quali si rilevano le variabili:
TIPO tipo di servizio accessorio utilizzato prevalentemente
SPESA ultima spesa sostenuta presso un servizio accessorio (Euro)
SUP ultima spesa sostenuta presso il supermercato (esclusi i servizi accessori, Euro)

TIPO SPESA SUP SPESA 2 SUP 2 SPESA · SUP


farmacia 10.20 56.20 104.04 3158.44 573.24
bar 6.20 20.30 38.44 412.09 125.86

36

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

farmacia 11.40 44.10 129.96 1944.81 502.74


bar 4.50 35.80 20.25 1281.64 161.10
libreria 17.70 15.00 313.29 225.00 265.50
bar 2.50 15.40 6.25 237.16 38.50
bar 3.90 15.80 15.21 249.64 61.62
libreria 15.60 35.80 243.36 1281.64 558.48
Totali 72.00 238.40 870.80 8790.42 2287.04

a) Si determini la distribuzione di frequenze della variabile TIPO e la si rappresenti graficamente.


b) Si determini l’80-mo percentile della variabile SPESA.
c) Si calcoli il coefficiente di correlazione lineare tra le variabili SPESA e SUP. In base al valore calcolato,
quale tipo di relazione si può dedurre tra le variabili?

Soluzione
a)
Tipo Freq.ass. Freq.rel Freq.ass.
Bar 4 0.5 50%
Libreria 2 0.25 25%
Farmacia 2 0.25 25%
8 1 100%

25%

Bar
50% Libreria
Farmacia

25%

b) Posizione 80-mo percentile = 0.8(n + 1) = 0.8(8 + 1) = 7.2


L’ 80-mo percentile è il 7° valore nella sequenza delle osservazioni ordinata in modo non decrescente:

posizione 1 2 3 4 5 6 7 8
spesa 2.50 3.90 4.50 6.20 10.20 11.40 15.60 17.70

da cui 80-mo percentile = 15.60

c) Dette X e Y rispettivamente SPESA e SUP

37

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Cov (X, Y )
r=
sXsY
æ n ö
n ç
ç
åx y i i
÷
÷ 8 æ 2287.04 72.00 238.40 ö
Cov (X, Y ) = ç i =1
- xy ÷ = ç - ÷ = 20.2057
n -1 ç n ÷ 7è 8 8 8 ø
ç ÷
è ø

æ ö
å
n
n ç x i2 ÷ 8 æç 870.80 æ 72.00 ö
2 ö
sX = ç
i =1
-x ÷ = 2
-ç ÷ ÷ = 31.8286 = 5.6417
n -1 ç n ÷ 7 çè 8 è 8 ø ÷
ø
è ø

æ ö
å
n
n ç y i2 ÷ 8 æç 8790.42 æ 238.40 ö
2 ö
sY = ç
i =1
- y2 ÷ = -ç ÷ ÷ = 240.8714 = 15.5200
n -1 ç n ÷ 7 çè 8 è 8 ø ÷
ø
è ø

Cov (X, Y ) 20.2057


r= = = 0.2308
sXsY 5.6417 ×15.5200

Il coefficiente di correlazione lineare denota una debole associazione lineare positiva tra le due variabili.

ESERCIZIO D41
Ad un campione di 200 clienti abituali di un supermercato è stato chiesto di dichiarare il numero di utilizzi,
nello scorso mese, del servizio di farmacia annesso al magazzino. I dati sono sintetizzati in tabella:
n. utilizzi n. clienti
0 98
1 44
2 44
3 11
5 3

a) Si specifichi la tipologia della variabile “numero di utilizzi”.


b) Si calcoli la media aritmetica del numero di utilizzi.
c) Si calcoli la varianza del numero di utilizzi.

Soluzione
a) Variabile numerica discreta
0 × 98 + 1× 44 + 2 × 44 + 3 ×11 + 5 × 3 180
b) x = = = 0.9
200 200
c) s 2 =
(0 - 0.9)2 × 98 + (1 - 0.9)2 × 44 + (2 - 0.9)2 × 44 + (3 - 0.9)2 ×11 + (5 - 0.9)2 × 3 = 232 = 1.1658
200 - 1 199
oppure
2 02 × 98 + 12 × 44 + 22 × 44 + 32 ×11 + 52 × 3 - 200 × 0.92 394 - 162 232
s = = = = 1.1658
199 199 199

ESERCIZIO D42
La seguente tabella di contingenza riguarda un campione di 380 clienti di un supermercato, classificati
secondo il tipo di servizio accessorio utilizzato prevalentemente e la fascia d’età (giovane/adulto/anziano):

38

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

ETA’ giovane adulto anziano


TIPO
farmacia 15 20 50
bar 12 80 33
sviluppo foto 60 28 7
libreria 33 32 10
a) Si costruisca un opportuno diagramma a barre accostate in modo da evidenziare una possibile
dipendenza tra le variabili considerate. Quali informazioni se ne traggono?
b) Qual è la percentuale di giovani nell’intero campione? E tra gli utilizzatori del servizio di sviluppo foto?

Soluzione
a) Le tre sottopopolazioni (giovani, adulti, anziani) hanno differenti numerosità. E’ quindi opportuno
determinare le distribuzioni subordinate di TIPO data ETA’ e determinare le frequenze condizionate
relative.

ETA’ giovane adulto anziano


TIPO
farmacia 0.125 0.125 0.5
bar 0.1 0.5 0.33
sviluppo foto 0.5 0.175 0.07
libreria 0.275 0.2 0.1
totale 1 1 1

0.6

0.5

0.4
farmacia

0.3 bar
sviluppo foto
0.2
libreria

0.1

0
giovane adulto anziano

Le frequenze relative subordinate sono diverse nelle fasce di età: il tipo di servizio accessorio
prevalentemente utilizzato dipende dalla fascia d’età.

b) Percentuale di giovani nell’intero campione = (120/380)·100 = 31.5789%


Percentuale di giovani tra gli utilizzatori del servizio di sviluppo foto = (60/95)·100 = 63.1579%

39

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

ESERCIZIO D43
Di seguito viene riportata la rappresentazione grafica della variabile “ultima spesa nel reparto panetteria
(Euro)” rilevata su un campione di 290 clienti di un supermercato:

Quali sono il numero e la percentuale di clienti che spendono tra 3 e 8 Euro nel reparto panetteria?

Soluzione
Numero di clienti che spendono tra 3 e 8 Euro = 80 + (20 · 4) = 160
Percentuale di clienti che spendono tra 3 e 8 Euro = (160/290) · 290 = 55.1724%

ESERCIZIO D44
Una compagnia di telefonia mobile che opera su tutto il territorio nazionale ha condotto un’indagine sui
propri clienti. La seguente tabella riporta i dati di un campione casuale di 9 clienti, titolari di un contratto
prepagato, per i quali sono state rilevate le seguenti variabili:
MINUTI : minuti di conversazione al cellulare nell’ultima settimana
RICARICA: taglio dell’ultima ricarica effettuata (euro)
SPESA: spesa sostenuta per l’acquisto del cellulare (euro)
I dati sono riassunti nella tabella che segue:
MINUTI RICARICA SPESA MINUTI 2 SPESA 2 MINUTI · SPESA
38 50 102 1444 10404 3876
15 25 156 225 24336 2340
45 80 599 2025 358801 26955
18 25 299 324 89401 5382
22 25 365 484 133225 8030
26 50 178 676 31684 4628
20 50 214 400 45796 4280
42 80 188 1764 35344 7896
40 50 376 1600 141376 15040
Totale 266 435 2477 8942 870367 78427
a) Si determini la distribuzione di frequenze della variabile MINUTI utilizzando 3 classi di uguale
ampiezza.
b) Si determini la mediana della variabile RICARICA.
c) Si determini il coefficiente di variazione della variabile SPESA.

40

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

d) Considerando MINUTI come variabile dipendente e SPESA come variabile indipendente , si calcolino i
parametri della retta di regressione.

Soluzione
a) Il minimo e il massimo valore osservato sono rispettivamente 15 e 45. Poiché il numero delle classi è 3,
45 - 15
l’ampiezza di ciascuna di esse è w = = 10
3
Frequenze
Classi
assolute
[15, 25) 4
[25, 35) 1
[35, 45] 4
9

b) Posizione mediana = 0.5(n + 1) = 0.5(9 + 1) = 5


La mediana è il 5° valore nella sequenza delle osservazioni ordinata in modo non decrescente, per cui
Mediana = 50

Detti X e Y rispettivamente SPESA e MINUTI


n n

x = 275.2222 y = 29.5556
å i =1
x i yi
= 8714.1111
å x2
i =1 i
= 96707.4444
n n
c)
æ ö
å
n
n ç x2 ÷
i =1 i 2
ç -x ÷ 9
æs ö
n -1ç
è
n ÷
ø 8
(
96707.4444 - 275.2222 2
153.5585
)
CVX = ç X ÷ × 100 = × 100 = × 100 = × 100 = 55.7944 %
ç x ÷ x 275.2222 275.2222
è ø

d) La retta dei minimi quadrati, basata sui dati è ŷ = b 0 + b1x , dove


æ ö
å
n
n ç x i yi ÷
ç
i =1
- xy ÷ 9
n -1ç n ÷ [8714.1111 - (275.2222 × 29.5556)] 652.2231
b1 =
cov(X, Y )
= è ø= 8 = = 0.0277
æ ö
s 2X
å
9
n ç
n
x i2 ÷ 96707 .(4444 - 275. 2222 2 23580.2082
)
ç
i =1
- x2 ÷ 8
n -1ç n ÷
è ø
b 0 = y - b1x = 29.5556 - 0.0277 × 275.2222 = 21.9319

ESERCIZIO D45
Un campione casuale di 180 clienti, classificati secondo il numero di richieste di informazioni al call-center
nell’ultimo mese e secondo la tipologia di contratto sottoscritto, ha fornito la seguente tabella a doppia
entrata:
TIPOLOGIA abbonamento prepagato
RICHIESTE
1 14 30
2 12 24
4 20 34
5 34 12
a) Si costruisca un opportuno diagramma a barre sovrapposte in modo da evidenziare una possibile
dipendenza tra le variabili considerate. Quali informazioni si traggono da tale diagramma?

41

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

b) Qual è la differenza tra la media del numero di richieste al call-center da parte dei clienti con
abbonamento e quella da parte dei clienti con contratto prepagato?

Soluzione
a) Dall’analisi di un diagramma a barre sovrapposte emerge come il numero di richieste di informazioni al
call-center sia legato alla diversa tipologia di abbonamento sottoscritto. Infatti le frequenze percentuali
subordinate del numero di richieste di informazioni al call-center sono diverse se condizioniamo rispetto
alla diversa tipologia di abbonamento. Per una opportuna e corretta rappresentazione del dato sono state
calcolate le frequenze percentuali del numero di richieste di informazioni al call-center
condizionatamente alla tipologia di abbonamento.

TIPOLOGIA abbonamento prepagato


RICHIESTE
1 17.5% 30%
2 15% 24%
4 25% 34%
5 42,5% 12%
totale 100% 100%

100%#

80%#
5#
60%#
4#
40%#
2#
20%# 1#

0%#
abbonamento# prepagato#

Le frequenze percentuali subordinate sono diverse nelle due tipologie di abbonamento: il numero di
richieste di informazioni dipende dalla tipologia di abbonamento.

b)
1 × 14 + 2 × 12 + 4 × 20 + 5 × 34
Media (RICHIESTE ABBONAMENTO ) = = 3.6
80

1 × 30 + 2 × 24 + 4 × 34 + 5 × 12
Media (RICHIESTE PREPAGATO) = = 2.74
100
Differenza = Media(RICHIESTEABBONAMENTO) - Media(RICHIESTEPREPAGATO) = 3.6 - 2.74 = 0.86

ESERCIZIO D46
Di un campione casuale di 3000 sms è stata rilevata la lunghezza (numero di caratteri), che ha dato luogo al
seguente box plot:

42

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

200
180
160
140
120
100
80
60
40
20
0

Si determinino il numero e la percentuale di sms con più di 20 caratteri.


Soluzione
20 caratteri è il primo quartile della distribuzione, perciò 2250 sms, ovvero il 75%, hanno più di 20 caratteri.

ESERCIZIO D47
Un imprenditore sta valutando l’opportunità di aprire un nuovo negozio di ottica nella propria città. Per avere
ulteriori elementi di decisione, l’imprenditore seleziona un campione di 9 negozi di ottica già presenti in città
e li classifica secondo le seguenti variabili:
INC incasso giornaliero (migliaia di Euro)
DIST distanza dal centro città (km)
DIPEND numero di dipendenti
INC DIST DIPEND INC 2 DIST 2 INC · DIST
2.7 1.1 3 7.29 1.21 2.97
6.3 0.7 4 39.69 0.49 4.41
1.4 3.6 1 1.96 12.96 5.04
0.8 1.7 1 0.64 2.89 1.36
12.6 0.3 6 158.76 0.09 3.78
5.8 0.7 4 33.64 0.49 4.06
4.2 1.2 3 17.64 1.44 5.04
2.3 2.4 3 5.29 5.76 5.52
1.7 2.7 2 2.89 7.29 4.59
Totali 37.8 14.4 27 267.8 32.62 36.77
a) Si calcoli il 63-mo percentile del numero di dipendenti (DIPEND).
b) Si calcoli lo scarto quadratico medio dell’incasso giornaliero (INC).
c) Si fornisca il valore di un indice per misurare l’associazione lineare tra l’incasso giornaliero (INC) e la
distanza dal centro città (DIST).

Soluzione
a) Al fine di calcolare il 63-mo percentile, è necessario prima ordinare la serie dei dati in ordine non
decrescente che è composta da 1, 1, 2, 3, 3, 3, 4, 4, 6. Dopo avere fatto ciò, si procede all’individuazione
della posizione che pari a 0.63(n+1)=0.63(9+1)=0.63(10)=6.3 che si approssima alla posizione numero 6.
L’osservazione che occupa la posizione numero sei che equivale al sessantatreesimo percentile è quindi
3.
b) Si definisca con X la variabile incasso giornaliero (INC). Usando la formula ridotta possiamo calcolare lo
scarto quadratico medio come segue:

43

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

åx
i =1
2
i - nx 2
sx = =
n -1
7.29 + 36.69 + 1.96 + 0.64 + 158.76 + 33.64 + 17.64 + 5.29 + 2.89 - 9 × (4.2) 2
=
8
267.8 - 9 × (17.64) 267.8 - 158.76
= = = 13.63 = 3.6919
8 8
c) L’indice appropriato per misurare l’associazione lineare fra le variabili INC che chiameremo X e
DIPEND che chiameremo Y è il coefficiente di correlazione lineare campionario:
n

s xy åx y
i =1
i i - nx y
36.77 - 9 × 4.2 × 1.6
rxy = = = =
sx × s y n n
267.8 - 9 × (4.2) 2 × 32.62 - 9 × (1.6) 2
åx
i =1
2
i - nx 2 × åy
i =1
2
i - ny 2

36.77 - 60.48 - 23.71 - 23.71


= = = -0.7336
267.8 - 158.76 × 32.62 - 23.04 109.04 × 9.58 10.4422 × 3.0952

ESERCIZIO D48
Un’azienda che produce montature per occhiali è intenzionata a valutare se esista una diversa
predisposizione dei due sessi verso il numero di occhiali posseduti. A tale fine, viene dunque selezionato un
campione di 225 individui, dei quali si rileva il sesso e il numero di occhiali posseduti e attualmente in uso:
SESSO Maschio Femmina
NUM. OCCHIALI
0 24 6
1 43 25
2 29 45
3 15 20
4 14 4

a) Si può ritenere che ogni sesso tenda a possedere un diverso numero di occhiali? Si risponda
calcolando opportune frequenze percentuali e rappresentandole su un adeguato grafico.
b) Qual è la percentuale di maschi tra coloro che non possiedono occhiali? Qual è la percentuale di
maschi nell’intero campione?
c) Si calcoli il numero medio di occhiali posseduti dagli individui di sesso femminile.

Soluzione
a) Dall’analisi di un diagramma a barre sovrapposte emerge come il sesso sia legato ad un diverso numero
di occhiali. Infatti le frequenze subordinate del numero di occhiali sono diverse se condiziono rispetto ai
diversi generi. E’ accettabile anche un diagramma a barre accostate. Per una opportuna e corretta
rappresentazione del dato sono state calcolate le frequenze percentuali cumulate del numero di occhiali
condizionatamente al sesso.

44

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

4.00%
100% 11.20%
90% 12.00% 20.00%
80% 4
70% 23.20%
3
60% 45.00%
2
50%
34.40% 1
40%
30% 0
25.00%
20% 19.20%
10% 6.00%
0%
Maschi Femmine

N.
Occhiali Fr(N.Occhiali|Maschi) Fr(N.Occhiali|Femmine)
0 19.20% 6.00%
1 34.40% 25.00%
2 23.20% 45.00%
3 12.00% 20.00%
4 11.20% 4.00%

b) La percentuale di maschi tra coloro che non possiedono occhiali è pari a


24 4
Fr ( Maschi | N .Occhiali = 0) = = = 80%
30 5
125
Nell’intero campione la percentuale è pari a Fr ( Maschi ) = = 55.5556%
225
c) Il numero medio di occhiali posseduti dagli individui di sesso femminile è calcolata nel seguente modo:
4
x Femm. = å N .occhialii × Fri ( N .occhiali | Femm.) = 0 × 0.06 + 1 × 0.25 + 2 × 0.45 + 3 × 0.2 + 4 × 0.04 = 1.91
i =0

ESERCIZIO D49
Il seguente grafico di dispersione riguarda un campione di montature per occhiali di diverse marche. Viene
rilevato il prezzo della montatura (variabile Y, in ordinata) e il peso della montatura (variabile X, in ascissa).

45

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Considerando le seguenti rette di regressione


yˆ = 250 - 2 x yˆ = -2 x yˆ = 250 + 2 x yˆ = 250 - 0.02 x ,
quale delle quattro rette si ritiene plausibile per il grafico riportato? Si risponda motivando brevemente la
risposta.

Soluzione
La retta più plausibile ha pendenza negativa e non passa per l’origine. Questo porta ad escludere la seconda e
la terza retta proposte. Se guardiamo gli assi, che nella rappresentazione non sono monometrici, ed
immaginiamo la retta interpolante come l’ipotenusa di un triangolo rettangolo troviamo che il rapporto fra il
cateto verticale e il cateto orizzontale è chiaramente maggiore di 1 in modulo. Pertanto l’unica retta
plausibile è yˆ = 250 - 2 x .

46

Scaricato da lulu bottasi (carola.capodieci@gmail.com)