Sei sulla pagina 1di 13

CORSO DI STATISTICA PER L’INGEGNERIA DI PROCESSO – UNIVERSITA’ DEGLI STUDI DI SALERNO

PROF. MASSIMILIANO DE IULIIS

Scheda esercitativa n.1


Corso di Statistica per l’ingegneria di processo – prof. Massimiliano De Iuliis
Corso di laurea in Ingegneria Chimica, Ingegneria Gestionale e Ingegneria Meccanica
Università degli studi di Salerno

Esercizio 1:

I valori che seguono sono le percentuali di ceneri residue per 12 campioni di carbone trovati in uno
stesso sito.

9.2, 14.1, 9.8, 12.4, 16.0, 12.6, 22.7, 18.9, 21.0, 14.5, 20.4, 16.9

Lo studente:
(a) calcoli media campionaria e mediana di tali percentuali;
(b) calcoli la deviazione standard campionaria di tali percentuali;
(c) calcoli il valore che dovrebbe assumere l’ultimo dato affinché il valore della deviazione
standard campionaria diventi il 90% di quello ottenuto.

Svolgimento:

Il calcolo della media campionaria si esegue semplicemente sommando i 12 valori del campione e
dividendo per la loro numerosità:

1 1
= = 9.2 + 14.1 + 9.8 + 12.4 + 16.0 + 12.6 + 22.7 + 18.9 + 21.0 + 14.5 + 20.4 + 16.9
12 12
1
= ∙ 188.5 = .
12

Per il calcolo della mediana è necessario ordinare i valori dal minore al maggiore:

9.2, 9.8, 12.4, 12.6, 14.1, 14.5, 16.0, 16.9, 18.9, 20.4, 21.0, 22.7

Essendo il numero di valori pari, si individua la coppia mediana e si svolge la media aritmetica dei
due valori che la compongono:

14.5 + 16.0
= = .
2

Per svolgere l’ultimo punto del problema, iniziamo a calcolare la varianza campionaria relativa ai
dati originali, in particolare valutiamo la media del quadrato della variabile, come:

1
CORSO DI STATISTICA PER L’INGEGNERIA DI PROCESSO – UNIVERSITA’ DEGLI STUDI DI SALERNO
PROF. MASSIMILIANO DE IULIIS

1 1
= = 9.2 + 14.1 + 9.8 + 12.4 + 16.0 + 12.6 + 22.7 + 18.9 + 21.0 + 14.5
12 12
+ 20.4 + 16.9
1
= 84.64 + 198.81 + 96.04 + 153.76 + 256.00 + 158.76 + 515.29 + 357.21
12
1
+ 441.00 + 210.25 + 416.16 + 285.61 = ∙ 3173.53 = 264.461
12

La varianza campionaria si calcolerà così come:

12 12
= ∙ − = ∙ 264.461 − 15.708 = ∙ 17.709 = 19.319
−1 11 11

e di conseguenza la deviazione standard campionaria:

= = √19.319 = 4.395

Il 90% di tale valore risulterà pari a:

′ = 0.9 ∙ = 0.9 ∙ 4.395 = 3.9558

Per calcolare quanto deve variare l’ultimo affinché il valore della deviazione standard si riduca al
valore succitato, utilizziamo la definizione di varianza campionaria, lasciando come incognito l’ultimo
valore campionario:

1 1 1 1
′ = ∙ − = ∙ − = −
−1 −1 −1 −1

In tale relazione l’unica incognita è l’ultimo valore campionario che è necessario ricalcolare, e che
indicheremo con . Riscriviamo la relazione in modo da evidenziare l’incognita:

1 1
3.9558 = + − +
11 11 132

Si ottiene, come è facile verificare, una equazione di secondo grado. Risolviamola sostituendo le
quantità note:

1 1
15.6484 = ∙ 2887.92 + − 171.6 +
11 11 132

1
15.6484 = 262.538 + − 29446.56 + 343.2 ∙ +
11 132

0.08333 ∙ − 2.6 ∙ + 23.8096 = 0

2
CORSO DI STATISTICA PER L’INGEGNERIA DI PROCESSO – UNIVERSITA’ DEGLI STUDI DI SALERNO
PROF. MASSIMILIANO DE IULIIS

Questa equazione presenta un discriminante minore di zero, il che evidenzia come non sia possibile
modificando solo l’ultimo dato diminuire la deviazione standard campionaria del 10%.
Lo studente rifletta su come sia possibile calcolare la massima diminuzione di deviazione standard
campionaria nel caso specifico.

Esercizio 2:

I dati seguenti rappresentano i tempi di vita (in ore) di un campione di 40 transistor:

Lo studente:
(a) calcoli media, mediana e moda campionarie;
(b) tracci la funzione di distribuzione relativa a tali dati;

Svolgimento:

Il calcolo della media campionaria si esegue semplicemente sommando i 40 valori del campione e
dividendo per la loro numerosità:

1 1
= = ∙ 5097 = .
40 40

Poiché il problema chiede la funzione di distribuzione ha senso organizzare i dati in tabella,


nonostante i valori siano numerosi e, di conseguenza, le frequenze assolute basse. Nella pagina
successiva è riportata la tabella con i valori di frequenza assoluta, relativa, percentuale e cumulata
per ogni singola realizzazione della variabile statistica .
Si osserva che in tale tabella nella colonna delle frequenze cumulate è presente il valore di 0.500, in
tal caso la mediana si valuterà effettuando la media aritmetica tra il valore corrispondente a tale
cumulata e il successivo (tali due valori sono infatti quelli che si troverebbero in posizione centrale
ordinando il campione):

127 + 128
= = .
2

Per quanto riguarda la moda, invece, la distribuzione è chiaramente plurimodale, essendo il valore
massimo di frequenza assoluta pari a due, ed essendoci diversi valori della variabile che assumono

= 108, 118, 121, 126, 130, 132, 134, 136, 140


tale frequenza:

3
CORSO DI STATISTICA PER L’INGEGNERIA DI PROCESSO – UNIVERSITA’ DEGLI STUDI DI SALERNO
PROF. MASSIMILIANO DE IULIIS

X (carattere) n (frequenze ass.) f (frequenze rel.) p (frequenze per.) F (frequenze cum.)


104 1 0.025 2.5% 0.025
108 2 0.050 5.0% 0.075
110 1 0.025 2.5% 0.100
112 1 0.025 2.5% 0.125
113 1 0.025 2.5% 0.150
116 1 0.025 2.5% 0.175
117 1 0.025 2.5% 0.200
118 2 0.050 5.0% 0.250
119 1 0.025 2.5% 0.275
120 1 0.025 2.5% 0.300
121 2 0.050 5.0% 0.350
122 1 0.025 2.5% 0.375
124 1 0.025 2.5% 0.400
125 1 0.025 2.5% 0.425
126 2 0.050 5.0% 0.475
127 1 0.025 2.5% 0.500
128 1 0.025 2.5% 0.525
130 2 0.050 5.0% 0.575
131 1 0.025 2.5% 0.600
132 2 0.050 5.0% 0.650
133 1 0.025 2.5% 0.675
134 2 0.050 5.0% 0.725
135 1 0.025 2.5% 0.750
136 2 0.050 5.0% 0.800
137 1 0.025 2.5% 0.825
140 2 0.050 5.0% 0.875
141 1 0.025 2.5% 0.900
143 1 0.025 2.5% 0.925
147 1 0.025 2.5% 0.950
151 1 0.025 2.5% 0.975
152 1 0.025 2.5% 1.000
totali = %

Si passa così a rappresentare la funzione di distribuzione, ovvero al grafico delle frequenze cumulate,
che presenterà, essendo la variabile discreta, un andamento a gradini, con un numero di tratti
orizzontali pari al numero di realizzazioni della variabile statistica.

4
CORSO DI STATISTICA PER L’INGEGNERIA DI PROCESSO – UNIVERSITA’ DEGLI STUDI DI SALERNO
PROF. MASSIMILIANO DE IULIIS

Rappresentazione grafica della funzione di distribuzione

Esercizio 3:

Un esperimento volto a misurare la percentuale di restringimento tramite essiccazione di 50 campioni


di argilla ha dato i seguenti valori:

Lo studente:
(a) calcoli media, mediana e moda campionarie;
(b) determini la varianza campionaria
(c) raggruppi i dati in intervalli di classe di larghezza pari ad un punto percentuale, iniziando
dal 13.0%, e tracci l’istogramma corrispondente;
(d) utilizzando le frequenze delle classi ottenute al punto (c), e supponendo che i dati
all’interno di ogni intervalli siano uniformemente distribuiti, calcoli nuovamente media e
varianza campionarie e tracci il diagramma della funzione di distribuzione;

5
CORSO DI STATISTICA PER L’INGEGNERIA DI PROCESSO – UNIVERSITA’ DEGLI STUDI DI SALERNO
PROF. MASSIMILIANO DE IULIIS

(e) utilizzando le frequenze originarie si calcoli la percentuali di dati che cade all’interno
dell’intervallo ± 2 e si verifichi per tale intervallo la validità della disuguaglianza di
Chebyshev;
(f) utilizzando le frequenze originarie si calcoli il percentile al 20% della distribuzione, la
distanza interquartile e si tracci il grafico box-plot.

Svolgimento:

Il calcolo della media campionaria si esegue semplicemente sommando i 50 valori del campione e
dividendo per la loro numerosità:

1 1
= = ∙ 948.9 = .
50 50

Per la mediana, in questo caso, non conviene costruire la tabella con i valori, ma piuttosto conviene
ordinarli e cercare la coppia mediana, costituita dal 25° e dal 26° valore del carattere, per poi svolgere
la media aritmetica di tali due valori. Tale operazione fornisce il seguente risultato:

19.3 + 19.3
= = .
2

Per quanto attiene invece alla moda, la distribuzione in oggetto è unimodale, essendoci un unico
valore che si presenta un numero di volte maggiore rispetto a tutti gli altri (4 volte). Tale valore
risulta essere:

= .

Passando al secondo punto del problema, per calcolare la varianza campionaria, iniziamo a valutare
la media del quadrato della variabile statistica, come:

1 1
= = ∙ 18314.6 = 366.292
50 50

La varianza campionaria si calcolerà così come:

50 50
= ∙ − = ∙ 366.292 − 18.978 = ∙ 6.1277 = .
−1 49 49

da cui la deviazione standard che ci servirà in seguito:

= = √6.2528 = 2.500

Passando al punto successivo i valori rilevati vanno da 13.4 a 24, organizzando classi aventi come
ampiezza un punto percentuale, si ottiene la tabella di presso riportata con le relative frequenze per

6
CORSO DI STATISTICA PER L’INGEGNERIA DI PROCESSO – UNIVERSITA’ DEGLI STUDI DI SALERNO
PROF. MASSIMILIANO DE IULIIS

ogni classe. Dovendosi assumere l’ipotesi di uniforme distribuzione delle frequenze all’interno di ogni
classe, si indicherà anche il valore rappresentativo della classe, utile al calcolo degli indici statistici.

Classi (valore n (frequenze f (frequenze p (frequenze F (frequenze

[ , [
rappresentativo) assolute) relative) percentuali) cumulate)

[ , [
13.5 2 0.04 4% 0.04

[ , [
14.5 2 0.04 4% 0.08

[ , [
15.5 3 0.06 6% 0.14

[ , [
16.5 3 0.06 6% 0.20

[ , [
17.5 6 0.12 12% 0.32
14%
[ , [
18.5 7 0.14 0.46
14%
[ , [
19.5 7 0.14 0.60

[ , [
20.5 10 0.20 20% 0.80

[ , [
21.5 5 0.10 10% 0.90
2%
[ , ]
22.5 1 0.02 0.92
23.5 4 0.08 8% 1.00
totali = %

La traccia del problema chiede la rappresentazione attraverso istogramma di tale distribuzione per
classi. Si riporta di seguito tale grafico in opportuna scala.

Istogramma delle frequenze relative

7
CORSO DI STATISTICA PER L’INGEGNERIA DI PROCESSO – UNIVERSITA’ DEGLI STUDI DI SALERNO
PROF. MASSIMILIANO DE IULIIS

Passiamo ora al calcolo della media aritmetica della distribuzione per classi:

′= , ∙

= 13.5 ∙ 0.04 + 14.5 ∙ 0.04 + 15.5 ∙ 0.06 + 16.5 ∙ 0.06 + 17.5 ∙ 0.12 + 18.5 ∙ 0.14 + 19.5
∙ 0.14 + 20.5 ∙ 0.20 + 21.5 ∙ 0.10 + 22.5 ∙ 0.02 + 23.5 ∙ 0.08 =
= 0.54 + 0.58 + 0.93 + 0.99 + 2.10 + 2.59 + 2.73 + 4.10 + 2.15 + 0.45 + 1.88
= .

e della varianza campionaria:

′ = , ∙

= 182.25 ∙ 0.04 + 210.25 ∙ 0.04 + 240.25 ∙ 0.06 + 272.25 ∙ 0.06 + 306.25 ∙ 0.12
+ 342.25 ∙ 0.14 + 380.25 ∙ 0.14 + 420.25 ∙ 0.20 + 462.25 ∙ 0.10 + 506.25 ∙ 0.02
+ 552.25 ∙ 0.08 =
= 7.29 + 8.41 + 14.41 + 16.34 + 36.75 + 47.91 + 53.23 + 84.05 + 46.22 + 10.12
+ 44.18 = 368.93

50 50
= ∙ ′ − ′ = ∙ 368.93 − 19.04 = ∙ 6.4084 = .
−1 49 49

Si osservi che, come ovvio, i valori ottenuti sono diversi da quelli calcolati utilizzando i dati originari,
questo perché nell’ultimo calcolo si è fatta l’ipotesi che le frequenze siano uniformemente distribuite
nelle singole classi, ipotesi non valida con riferimento ai dati reali della variabile .
Passiamo al grafico della funzione di distribuzione, che, sempre con riferimento alla distribuzione per
classi e alla ipotesi di uniforme distribuzione delle frequenze, risulta essere una spezzata, così come
di presso rappresentata.

Funzione di distribuzione dei dati per classi


8
CORSO DI STATISTICA PER L’INGEGNERIA DI PROCESSO – UNIVERSITA’ DEGLI STUDI DI SALERNO
PROF. MASSIMILIANO DE IULIIS

Torniamo adesso alla distribuzione originaria, con i dati singoli. La traccia chiede di individuare le
frequenze contenute all’interno dell’intervallo ± 2 , tale intervallo corrisponde a:

18.978 − 2 ∙ 2.500 ≤ ≤ 18.978 + 2 ∙ 2.500

13.978 ≤ ≤ 23.978

All’esterno di tale intervallo ci sono solo 3 dati, il che equivale a dire che rientra in tale intervallo
una frequenza complessiva pari a:

47
= = .
50

La disuguaglianza di Chebyschev nel caso specifico, per = 2, asserisce che che:

1 1
>1− → 0.94 > 1 − = 0.75
4

Come è possibile verificare tale disuguaglianza risulta essere verificata nel caso in oggetto.
Possiamo passare all’ultimo punto che riguarda il calcolo del percentile al 20% e della distanza
interquartile.
Il percentile al 20% è il primo valore la cui cumulata risulta essere maggiore di 0.2, oppure nel caso
di cumulata perfettamente uguale a 0.2, la media geometrica tra il valore in cui si trova tale cumulata
e il successivo. Nel caso in esame, avendo 50 valori, una volta che si sono ordinati, la cumulata 0.2
esatta corrisponderà al valore della variabile a cui corrisponde il 10° valore ordinale. Per calcolare il
percentile al 20%, allora, bisognerà effettuare la media aritmetica tra il 10° e l’11° valore ordinale,

16.6 + 17.0
ovvero:

. = = .
2

Per calcolare la distanza interquartile, invece, si dovranno trovare il primo e il terzo quartile,
corrispondenti ai frattili al 25% e al 75%. Stavolta nella distribuzione non ci saranno valori a cui
corrisponde esattamente una cumulata di 0.25 e di 0.75, ma, essendo i valori 50, al 13° valore ordinale
corrisponderà un frattile di 0.26 e al 38° valore ordinale corrisponderà un frattile pari a 0.76. Essendo
tali valori i primi della cumulata maggiori rispettivamente di 0.25 e 0.75, i dati che occupano la 13a
posizione e la 38a posizione dell’ordinamento risultano essere i due quartili cercati. In particolare:

= . = 17.5
= . = 20.6

La distanza interquartile risulterà allora:

= − = 20.6 − 17.5 = .

Ultima richiesta del problema è la rappresentazione box-plot dei dati. La prima cosa da verificare è
se ci sono outliers, ovvero valori anomali all’interno della distribuzione perché o minori di =
− 1.5 ∙ oppure maggiori di = + 1.5 ∙ . Procediamo al calcolo di tali due valori:
9
CORSO DI STATISTICA PER L’INGEGNERIA DI PROCESSO – UNIVERSITA’ DEGLI STUDI DI SALERNO
PROF. MASSIMILIANO DE IULIIS

= 17.5 − 1.5 ∙ 3.1 = 17.5 − 4.65 = 12.85


= 20.6 + 1.5 ∙ 3.1 = 20.6 + 4.65 = 25.25

E’ immediato verificare che nessun valore della distribuzione è esterno a tali due limiti, per cui i baffi
della distribuzione box-plot arriveranno fino agli effettivi valori minimo e massimo.

Box-plot relativo alla distribuzione per singoli valori

Esercizio 4:

Con riferimento ai dati contenuti in tabella 1 relativi alla mediana dei salari di persone in possesso
del titolo di dottore di ricerca per tipologia di titolo e settore disciplinare, lo studente:
(a) disegni il grafico a dispersione relativo ai salari nei settori “government” e “other
educational”;
(b) calcoli i coefficienti di correlazione campionaria nel caso una tipologia di titolo sia fissa:
“government”, e l’altra cambi (i coefficienti di correlazione da calcolare sono dunque 4,
uno per ogni coppia di tipologia);
(c) individuate le due tipologie di titolo per le quali il coefficiente di correlazione risulta essere
massimo, calcolare per esse la retta di regressione dei minimi quadrati e rappresentare
graficamente il grafico di dispersione con sovrapposto l’andamento di tale retta.

10
CORSO DI STATISTICA PER L’INGEGNERIA DI PROCESSO – UNIVERSITA’ DEGLI STUDI DI SALERNO
PROF. MASSIMILIANO DE IULIIS

Tabella 1: mediana dei salari di persone in possesso del titolo di dottore di ricerca per tipologia di
titolo e settore disciplinare

Svolgimento:

Per rappresentare il grafico a dispersione relativo alle colonne “government” e “other educational” si
considerano solo i dati di tali due colonne, che diventano le coordinate di 6 punti distinti, uno per
ogni settore disciplinare. Il posizionamento di tali sei punti in un piano cartesiano fornisce il grafico
a dispersione di presso rappresentato.

Grafico a dispersione stipendi dei gruppi “Government – Other educational”

La traccia chiede ora il calcolo dei coefficienti di correlazione campionaria tenendo fissi i valori relativi
alla voce “government” e cambiando volta per volta la seconda coordinata dei punti prendendola da

11
CORSO DI STATISTICA PER L’INGEGNERIA DI PROCESSO – UNIVERSITA’ DEGLI STUDI DI SALERNO
PROF. MASSIMILIANO DE IULIIS

tutti gli altri gruppi. Si osservi che nel caso della colonna “post-doc” invece dei canonici 6 punti ne
avremo solamente 5.
Il primo passo da effettuare è il calcolo delle medie dei valori per ogni colonna, ovvero per ogni
tipologia di titolo:

1 1
= ∙ = ∙ 82000 + 70000 + 61000 + 60500 + 53000 + 64000 = 65083.33
6 ,
6
1 1
= ∙ = ∙ 66000 + 65000 + 48000 + 55200 + 52400 + 58000 = 57433.33
6 ,
6
1 1
= ∙ = ∙ 53000 + 56300 + 42500 + 39500 + 40000 + 39400 = 45116.67
6 ,
6
1 1
= ∙ = ∙ 38000 + 28000 + 40000 + 30500 + 32700 = 33840
5 ,
5
1 1
= ∙ = ∙ 60000 + 55000 + 36000 + 38000 + 35000 + 39000 = 43833.33
6 ,
6

Possiamo così calcolare i coefficienti di correlazione richiesti:

∑ , − , − 291083333.3
= = = .
352047497.2
∑ , − ∙∑ , −

∑ , − , − 211896666.7
= = = .
266823608.4
∑ , − ∙∑ , −

∑ , − , − 88976000
= = = .
128509614
∑ , − ∙∑ , −

∑ , − , − 351633333.3
= = = .
381926224.7
∑ , − ∙∑ , −

Le tipologie che meglio correlano sono proprio quelle scelte inizialmente “government” e “other
educational”, che mostrano un forte legame di tipo lineare positivo.
Calcoliamo i coefficienti della retta di regressione: = + ∙

∑ , − , − 351633333.3
= = = 1.045
∑ − 250273333
,

= − ∙ = 43833.33 − 1.045 ∙ 57433.33 = −36860.3

12
CORSO DI STATISTICA PER L’INGEGNERIA DI PROCESSO – UNIVERSITA’ DEGLI STUDI DI SALERNO
PROF. MASSIMILIANO DE IULIIS

La retta di regressione ha dunque equazione:

= −36860.3 + 1.045 ∙

Il confronto tra il grafico di dispersione e la posizione della retta di regressione è rappresentato nella
seguente figura.

Retta di regressione - grafico a dispersione “Government – Other educational”

13

Potrebbero piacerti anche