Sei sulla pagina 1di 39

Università degli Studi La Sapienza di Roma

Facoltà di Ingegneria
Corso di Laurea in Ingegneria Elettronica

Programma didattico del corso di


“Calcolo delle Probabilità” (5CFU-MAT/06)
(Docente: Antonelli Angela – antonelli@dmmm.uniroma1.it)

- Valutazioni di probabilità in casi particolari


- Probabilità non valutabili con i criteri usuali
- Incertezza. Eventi. Operazioni sugli eventi
- La probabilità come “grado di fiducia”
- Additività della probabilità
- Distribuzioni di probabilità
- La valutazione combinatoria
- I numeri aleatori semplici
- La previsione (o valor medio) come generalizzazione della probabilità. La varianza
- Covarianza e coefficiente di correlazione
- La valutazione frequentista
- Eventi condizionati e probabilità condizionata
- Indipendenza stocastica
- Distribuzioni binomiale e ipergeometrica
- Numeri aleatori discreti
- Distribuzione di Poisson
- Distribuzione geometrica
- Il teorema di Bayes e i test di ipotesi
- Numeri aleatori continui
- Distribuzione uniforme
- Distribuzione esponenziale
- Distribuzione beta
- Distribuzione normale
- Il teorema centrale
- Funzione di ripartizione
- Teoria dell'affidabilità
- Vettori aleatori e distribuzioni marginali
- Funzioni di vettore aleatorio
- Rette di regressione
- Indipendenza di numeri aleatori
- Funzione caratteristica di una distribuzione. Convoluzione
- Il problema dell'inferenza statistica
- Campionamento. Stima di parametri e intervalli di confidenza

Testo di riferimento:
R.SCOZZAFAVA - Incertezza e Probabilita', Ed. Zanichelli, 2008 (esclusi i paragrafi
contrassegnati con asterisco e il Capitolo 4)
Università degli Studi La Sapienza di Roma
Facoltà di Ingegneria A. A. 2009 - 2010
Corso di Laurea in Ingegneria Elettronica

Programma didattico del corso di


“Calcolo delle Probabilità” (6CFU-MAT/06)
(Docente: Antonelli Angela – antonelli@dmmm.uniroma1.it)

- Valutazioni di probabilità in casi particolari


- Probabilità non valutabili con i criteri usuali
- Incertezza. Eventi. Operazioni sugli eventi
- La probabilità come “grado di fiducia”
- Additività della probabilità
- Distribuzioni di probabilità
- La valutazione combinatoria
- I numeri aleatori semplici
- La previsione (o valor medio) come generalizzazione della probabilità. La varianza
- Covarianza e coefficiente di correlazione
- La valutazione frequentista
- Eventi condizionati e probabilità condizionata
- Indipendenza stocastica
- Distribuzioni binomiale e ipergeometrica
- Numeri aleatori discreti
- Distribuzione di Poisson
- Distribuzione geometrica
- Il teorema di Bayes e i test di ipotesi
- Numeri aleatori continui
- Distribuzione uniforme
- Distribuzione esponenziale
- Distribuzione beta
- Distribuzione normale
- Il teorema centrale
- Funzione di ripartizione
- Teoria dell'affidabilità
- Vettori aleatori e distribuzioni marginali
- Funzioni di vettore aleatorio
- Rette di regressione
- Indipendenza di numeri aleatori
- Funzione caratteristica di una distribuzione. Convoluzione
- Il problema dell'inferenza statistica
- Campionamento. Stima di parametri e intervalli di confidenza
- Cenni di statistica descrittiva

Testo di riferimento:
R.SCOZZAFAVA - Incertezza e Probabilita', Ed. Zanichelli, 2008 (esclusi i paragrafi
contrassegnati con asterisco e il Capitolo 4)
Distribuzione di un carattere
Dopo le fasi di acquisizione e di registrazione dei dati, si passa al
loro controllo e quindi alle loro elaborazione.
Si definisce distribuzione unitaria semplice di un carattere
l’elencazione delle modalità osservate, unità per unità, nel
collettivo preso in esame.
Si definisce frequenza assoluta di una modalità di un carattere il
numero di volte che questa viene osservata sul collettivo.
Quando il collettivo in esame è numeroso una maggiore sintesi si
ottiene considerando la distribuzione di frequenza semplice
che associa alle modalità che può assumere un carattere X le
corrispondenti frequenze assolute.

scuola di provenienza frequenza assoluta


liceo scientifico 88
liceo classico 23
istituto tecnico 50
istituto professionale 3
Altre 18
TOT 182
Distribuzione di frequenza del carattere “scuola di provenienza”

Dato che le frequenze assolute dipendono dalla numerosità del


collettivo, quando si vogliono confrontare due o più collettivi
rispetto ad un carattere diventa significativo considerare le
frequenze relative.
Date N unità statistiche di cui nj presentano la j-esima modalità,
nj
si definisce frequenza relativa j-esima il rapporto f j = e
n
frequenza percentuale p j = f j ⋅ 100 .
La somma di tutte le frequenze relative è uguale a 1, mentre la
somma delle frequenze percentuali è uguale a 100.

31
quale tipo di prodotto pubblicizzato ti viene in mente per primo

frequenza Frequenza
categorie assoluta relativa frequenza %
auto 12 0,066 7%
abbigliamento 11 0,060 6%
prodotti alimentari 55 0,302 30%
telefonia-teconologia informatica 35 0,192 19%
detersivi 10 0,054 5%
prodotto per l'igiene e cosmetici 17 0,093 9%
elettrodomestici 2 0,010 1%
altro 8 0,043 4%
non hanno risposto 32 0,176 18%
TOT 182 1 100%

Nel caso in cui il carattere in esame è qualitativo ordinato o


quantitativo, può essere interessante considerare la frequenza con
cui si presentano modalità di ordine inferiore o uguale ad una
certa modalità.
Dato un carattere X con Kmodalità ordinate in senso crescente, si
indica con N j = n1 + n 2 + ..... + n j la frequenza assoluta

cumulata, con F j = f 1 + f 2 + ..... + f j la frequenza relativa

cumulata e con Pj = p1 + p 2 + ..... + p j la frequenza

percentuale cumulata.

Quando si misura un fenomeno nel tempo, registrandolo in


determinati istanti si ottiene una rappresentazione tabellare che
prende il nome di serie storica.

32
Nel caso di un carattere geografico, le cui modalità
rappresentano nazioni, regioni, ripartizioni geografiche, città,.. la
distribuzione viene detta serie territoriale.

Rappresentazione grafica
I dati raccolti in tabelle possono risultare poco chiari e di difficile
interpretazione se le tabelle sono di grandi dimensioni e se i
caratteri considerati hanno un numero molto alto di modalità. Per
avere un’idea immediata e sintetica, anche se approssimata,
dell’andamento del carattere del fenomeno in esame risultano
indispensabili le rappresentazioni grafiche che può essere
effettuata utilizzando i grafici a nastri e a barre, istogrammi,
grafici a torta, grafici a radar, diagrammi cartesiani,
pictogrammi, cartogrammi.

Grafico a nastri
In questi grafici ogni frequenza viene rappresentata da un nastro
così da ottenere una successione di rettangoli aventi la stessa
altezza e le basi proporzionali alle frequenze. Questo tipo di
grafico è in genere utilizzato per rappresentare la distribuzione di
frequenza dei caratteri qualitativi sconnessi o ordinali.

acquisto di prodotti su suggerimentodi un messaggio


pubblicitario
si, mess internet

si, mess.giornali

si, mess. Tv-radio

no

0% 10% 20% 30% 40% 50%


frequenze %

33
grafico della distribuzione di frequenza del carattere
"scuola di provenienza"

provenienza altre 5%

istituto professionale 1%
scuola di

istituto tecnico 27%

altro liceo 4%

liceo classico 13%

liceo scientif ico 48%

0% 10% 20% 30% 40% 50% 60%

frequenza %

Grafico a barre
In questi grafici ogni frequenza viene rappresentata da un nastro
così da ottenere una successione di rettangoli aventi la stessa
base e le altezze proporzionali alle frequenze. I grafici a barre
sono particolarmente adatti a rappresentare caratteri qualitativi
ordinati e quantitativi discreti in quanto le barre poste sull’asse
orizzontale consentono di cogliere meglio l’ordinamento delle
modalità.

Titolo di studio più elevato tra i genitori

60% 53%
50%
frequenza %

40% 32%
30%

20% 14%

10%
1%
0%
nessun titolo o licenza media diploma scuola laurea
elementare superiore
titoli di s tudio

34
titolo di studio più elevato tra i genitori

60% 53%
50%
frequenza %

40%
32%
30%
20% 14%
10%
1%
0%
nessun tit olo o licenza media diploma scuola laurea
elementare superiore

titolo di studio

Se per uno stesso carattere si possono osservare due o più


distribuzioni semplici, allora è preferibile utilizzare i grafici a
barre multipli che permettono di rappresentare
contemporaneamente più distribuzioni semplici mettendo a
confronto per ciascuna modalità le diverse frequenze.

v alutazione dell'affollame nto pubblicitario


70%
60%
frequenza %

50%
40%
30%
1 bas s o
20%
2
10% 3
0% 4
TV radio giornali internet
5
ambiti valutati 6 alto

Grafico a torta
I grafici a torta sono particolarmente utili quando si vuole

35
rappresentare la distribuzione di frequenza di un carattere
qualitativo con poche modalità. La generica fetta è
completamente definita dall’angolo al centro corrispondente
pj gj
dalla seguente proporzione: = con p j la percentuale
100 360
relativa alla j-esima modalità e gj i gradi dell’angolo

corrispondente.

dove ascoltano la radio dove ascoltano la radio


in casa
48%
altro
6% in auto
46%

in casa
altro 48%
6%

in auto
46%

In alcuni grafici si possono aggiungere la tridimensionalità e la


prospettiva. I grafici relativi a distribuzioni di frequenza
semplici tuttavia rimangono sostanzialmente bidimensionali,
giacchè la terza dimensione non aggiunge alcuna informazione al
grafico ma è solo un elemento estetico.

presenza in casa di un PC
no
7%

si
93%

36
Istogrammi
Se la distribuzione di frequenza riguarda un carattere
quantitativo specialmente se suddiviso in classi si può ottenere
una efficace rappresentazione mediante gli istogrammi.
L’istogramma è un grafico costituito da barre non distanziate
dove ogni barra possiede un’area proporzionale alla
corrispondente frequenza.

grafico della distribuzione di


frequenza relativa

70%

60%
frequenza relativa

50%

40%

30%
20%

10%

0%
1971 1973 1975 1977 1979 1981 1983 1985
Anno

37
ore in cui in media si utilizza Internet
70%
60%

frequenza %
50%
40%
30%
20%
10%
0%
meno di 1 ora da 1 a 2 ore più di 2 ore
ore

Grafico radar
I grafici radar sono molto utili quando il carattere è ciclico (mesi
dell’anno, giorni della settimana,..). Caratteri come vendite di un
prodotto per mese possono trovare un’adeguata rappresentazione
attraverso tali grafici.

pezzi venduti nell'anno 2004

gennaio
60
dicembre febbraio
40
novembre marzo
20
ottobre 0 aprile

settembre maggio

agosto giugno
luglio

38
libri venduti nella settimana
lunedi
50
40
domenica 30 martedì

20
10
0

sabato mercoledì

venerdì giovedì

Diagrammi cartesiani
I diagrammi cartesiani sono in genere utilizzati per le serie
temporali cioè per fenomeni che variano con continuità in
funzione del tempo.
Il grafico è costituito da una successione di punti, uniti da una
spezzata, individuati su un piano cartesiano.

8
7
6
tassi di interesse

5
4
3
2
1
0
1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
anno

39
Pictogrammi
I pictogrammi sono grafici il cui scopo è di tipo essenzialmente
divulgativo. In essi si utilizzano figure, simboli, disegni, attinenti
al carattere considerato di dimensione o numero proporzionale
alle frequenze della distribuzione. Questi grafici, in genere, non
permettono una precisa valutazione del fenomeno ma si limitano
a rendere evidente qualche sua caratteristica.

vini più venduti

barbera
nero d'avola
lambrusco
chianti

Come appare dal grafico la dimensione delle bollicine ci da una


immediata ma non troppo chiara visione delle bottiglie di vino
più vendute in un certo anno. Dal grafico si capisce che sono
state più vendute bottiglie di chianti e nero d’Avola ma non si
possono trarre ulteriormente informazioni.

Analisi della distribuzione di un carattere


Come si è visto in precedenza, per descrivere l’andamento di un
carattere su un collettivo possiamo analizzare la distribuzione di

40
frequenza o una sua opportuna rappresentazione grafica; in
alcuni casi, tuttavia, può essere sintetizzata da alcuni indici che
ne evidenziano le caratteristiche essenziali. Gli indici per la
descrizione sintetica di una distribuzione statistica rispondono a
diversi scopi e si usano per fornire informazioni approssimative
su “intorno a dove” si addensi la distribuzione, “in quale misura”
questo accada e se siano presenti asimmetrie.
Di seguito si prenderanno in esame le medie analitiche e le
medie di posizione che sintetizzano con un solo valore o una
sola modalità la distribuzione.

Medie analitiche
Nel caso in cui il carattere sia quantitativo, le medie più
frequentemente utilizzate sono la media aritmetica e la media
geometrica.
La media aritmetica di un insieme di n valori x1 , x 2 , x3 ,........, x n
di un carattere X è pari alla somma dei valori divisi per il loro
numero.
1 1 n
Ma = ( x1 + x 2 + ....... + x n ) = ∑ xi
n n i =1
Se il carattere X è quantitativo discreto e conosciamo la sua
distribuzione di frequenza allora possiamo calcolare più
velocemente la media aritmetica come segue:
k
Ma = ∑ f jxj
j =1

L'idea di base della media aritmetica è quella di equiripartire fra


le unità statistiche l'ammontare totale del carattere. Per questo ha
senso calcolare una media aritmetica se il carattere e' additivo.

41
In alcuni casi, nel calcolo della media aritmetica si vuole dare
diversa importanza alle modalità del carattere attribuendo a
ognuna di esse uno specifico peso, cioè un valore che ne esalti o
ne diminuisca l’importanza.
La media aritmetica ponderata di un carattere quantitativi X
con K modalità x1, x2, x3, ……. xk, alle quali sono stati attribuiti i
pesi p1, p2, p3, ……., pk è data da:
k

x p + x 2 p 2 + ...... + x n p k ∑x j pj
Ma = 1 1 = i =1

p1 + p 2 + ........ + p k k

∑p
i =1
j

Esempio: calcolare la media di 1; 2; 3; 4; 5; 6; 7.


1+ 2 + 3 + 4 + 5 + 6 + 7
Ma = =4
7
Esempio: Calcolare la media della distribuzione del numero di
auto possedute per famiglia.
N. auto 1 2 3 4 5 6 TOT
Frequenza assoluta 29 52 8 2 1 2 94

Il numero di auto complessivo e':


1 x 29 + 2 x 52 + 3 x 8 + 4 x 2+ 5 x 1 + 6 x 2 = 182
che ripartito fra i 94 nuclei famigliari dà Ma = 182/94 = 1,93
auto per famiglia
Esempio: Un collettivo di famiglie e' classificato secondo il
numero di figli. Trovare la media aritmetica della distribuzione
N. figli N. famiglie Frequenza relativa
0 10 0,125
1 40 0,500
2 30 0,375

42
0 ⋅ 10 + 1 ⋅ 40 + 2 ⋅ 30 10 2 30
Ma = = 0 ⋅ + 1⋅ + 2 ⋅ =
80 80 80 80
= 0 ⋅ 0,125 + 1 ⋅ 0,5 + 2 ⋅ 0,375 = 1,25
proprietà:
1) la somma dei valori x1 , x 2 , x3 ,........, x n assunti da un insieme
di n unità statistiche è uguale al valor medio moltiplicato per il
n
numero di unità: ∑x
i =1
i = nM a

2) la somma delle differenze tra i valori delle xi e la loro media


n
aritmetica è uguale a zero: ∑ (x
i =1
i − Ma) = 0

3) la somma degli scarti al quadrato dei valori xi da una costante


n
c è minima quando c è uguale alla media aritmetica. ∑ (x
i =1
i − c) 2

è minimo per c = M a
4) se un collettivo di n unità statistiche viene suddiviso in L
sottoinsiemi di numerosità n1, n2, n3, ……. nL, tali che la loro
somma sia n, allora la media aritmetica generale è una media
ponderata delle medie dei sottoinsiemi con pesi uguali alla loro
numerosità.
5) Indicate con xm, e con xM, rispettivamente la più piccola e la
più grande modalità della distribuzione, allora: x m ≤ M a ≤ x M

6) data la distribuzione di un carattere X con media M a se


moltiplichiamo ogni modalità per una costante a e aggiungiamo
una costante b, la media della distribuzione diventerà: aM a + b

Un altro tipo di media analitica è la media geometrica,


utilizzabile nel caso in cui l’insieme delle modalità è costituito
da rapporti.

43
La media geometrica di un insieme di n valori
x1 , x 2 , x3 ,........, x n di un carattere X è pari alla radice n-esima del

prodotto dei singoli valori: M g = n x1 ⋅ x 2 ⋅ ⋅ ⋅ ⋅ ⋅ x3

Se si dispone della distribuzione di frequenza del carattere X,


allora possiamo calcolare più velocemente la media geometrica
come segue: M g = x1f1 ⋅ x 2f 2 ⋅ ⋅ ⋅ ⋅ ⋅ xkf k

Proprietà:
[ ]
1) x1 ⋅ x2 ⋅ ⋅ ⋅ ⋅ x n = M g
n

1 n
2) log M g = ∑ log xi
n i =1
3) se si trasformano i valori della X attraverso l’espressione
Y = aX b con a>0 allora M g (Y ) = a ( M g ( X )) b

4) La media geometrica dei reciproci è uguale al reciproco della


media geometrica:

1 1 1 1  1 1 1
Mg  = n  ⋅ ⋅ ⋅ ⋅ ⋅  = n = =
 x  x1 x 2 xn  x1 ⋅ x 2 ⋅ ⋅ ⋅ ⋅x n n x1 ⋅ x 2 ⋅ ⋅ ⋅ ⋅x n M g ( x)

5) Dati due insiemi di misure: x1 , x 2 , x3 ,........, x n e

y1 , y 2 , y 3 ,........, y n la media geometrica dei rapporti

x1 x 2 x
, ,............ n è uguale al rapporto fra le medie geometriche
y1 y 2 yn
delle misure:
M g = n x1 ⋅ x 2 ⋅ ⋅ ⋅ ⋅ ⋅ x n , M g = n y1 ⋅ y 2 ⋅ ⋅ ⋅ ⋅ ⋅ y n

x x x x n x1 ⋅ x 2 ⋅ ⋅ ⋅ ⋅ ⋅ x n M g ( x)
M g ( ) = n 1 ⋅ 2 ⋅⋅⋅⋅⋅ n = =
y y1 y 2 yn n y1 ⋅ y 2 ⋅ ⋅ ⋅ ⋅ ⋅ y n M g ( y)

Analoga proprietà vale, ovviamente, per il prodotto.

44
OSS. La media aritmetica e la media geometrica sono indici
troppo sensibili ai valori estremi, un modo per diminuire l’effetto
di questi valori estremi è quello di effettuare il calcolo della
media solo sui valori centrali. La media così ottenuta viene detta
trimmed mean.
Ad esempio la trimmed mean al 50% di un carattere quantitativo
è la media aritmetica del 50% dei valori più centrali di un
insieme di modalità. Cioè nel calcolo della media aritmetica non
vengono considerati il 25% dei valori più piccoli e il 25% dei
valori più grandi.

Medie di posizione
Le medie analitiche si possono calcolare solo su carattere
quantitativi e sono sensibili ai valori estremi, una media più
“robusta” che può essere calcolata anche sui caratteri qualitativi
ordinabili è la mediana.
La mediana M e di un insieme di valori ordinate è la modalità
presentata dall’unità centrale, dove per unità centrale si intende
quell’unità che divide il collettivo in due parti di uguale
numerosità: una parte formata dalle unità che presentano una
modalità precedente o uguale a quella dell’unità centrale e una
parte formata dalle unità che presentano una modalità successiva
o uguale a quella dell’unità centrale.
Per calcolare la mediana è necessario procedere nel seguente
modo:
si ordinano gli n valori in senso crescente,
se n è dispari la mediana è: M e = x n+1 ;
2

45
1 
se n è pari la mediana è: M e =  xn + xn  .

2 2 +1 
2 

Proprietà:
n

∑ xi − c è minima per c = M e
2
1)
i =1
La mediana è quel valore che divide in due parti uguali l’insieme
dei valori ordinate per grandezza, se invece dividiamo la
distribuzione in cento parti, ognuna delle quali contiene lo stesso
numero di valori, chiamiamo i valori di suddivisione percentili.
Pertanto possiamo definire la mediana come il 50-esimo
percentile detto secondo quartine,; i percentili di uso più comune
sono il 25-esimo e il 75-esimo percentile detti primo (Q1) e
terzo quartine (Q3) che insieme alla mediana dividono la
distribuzione in quattro parti uguali
1 1
Q1 = (x n + xn ) e Q3 = ( x 3 n + x 3n )
2 4 +1 2 4 +1
4 4

Un’altra media di posizione è la moda che può essere calcolata


per qualsiasi tipo di carattere quantitativi e qualitativi.
La moda è la modalità della distribuzione che si presenta con la
massima frequenza.

46
Variabilità
La statistica si occupa di analizzare quei fenomeni che tendono a
presentare diverse modalità, pertanto si pone il problema di
misurare la variabilità di un fenomeno in corrispondenza di un
determinato collettivo osservato. La variabilità di una
distribuzione esprime la tendenza delle unità di un collettivo ad
assumere diverse modalità del carattere.
Un indice di variabilità deve soddisfare almeno due requisiti:
deve assumere il suo valore minimo se e solo se tutte le unità
della distribuzione presentano uguale modalità del carattere;
deve incrementare il suo valore all’aumentare della dispersione
di una modalità attorno a un valore caratteristico della
distribuzione. Tra gli indici di variabilità per caratteri quantitativi
che mettano a confronto le modalità con un valore caratteristico
della distribuzione, molto usati sono quelli che considerano le
diversità dalla media aritmetica.
La varianza di un insieme di valori x1 , x 2 , x3 ,........, x n di una
variabile X con media Ma è un indice usato per misurare la
dispersione, cioè l’addensamento maggiore (poca dispersione) o
minore (molta dispersione), dei valori attorno alla media
aritmetica ed è definito come segue:
1 n
σ2 = ∑ ( x i − M a )2
n i =1

se è nota la distribuzione di frequenza di una variabile X con k


modalità, la varianza si calcola come segue:
1 k k
σ2 = ∑ (xi − M a )2 n j = ∑ ( x j − M a )2 f j
n j =1 j =1

OSS. Nella varianza la differenza (xi - Ma) tra una modalità e la


media aritmetica viene elevata al quadrato perché così tutte le

47
differenze diventano positive e inoltre le differenze più grandi
sono messe in maggior risalto.
Proprietà
1) la varianza è nulla solo quando tutte le differenze (xi - Ma)
sono nulle e quindi quando tutte le modalità sono uguali al
valore medio
2) una formula equivalente per calcolare la varianza è:
1 n
σ 2 = ∑ xi2 − M a 2
n i =1
2) la varianza di un carattere Y ottenuto attraverso la
trasformazione Y = αX + β di un carattere X di media Ma e

varianza σ2 è: Var (Y ) = α 2σ 2
Osserviamo che un cambiamento della scala delle misure che
trasforma xj in kxj trasforma σ2 in k 2σ2; pertanto la varianza non è
un indice omogeneo. Data l’opportunità di utilizzare indici di
dispersione omogenei si fa quindi uso della radice quadrata della
varianza, detto deviazione standard o scarto quadratico

media: σ = σ2
Utilizzando lo scarto standard ci si riconduce ad un indice di
variabilità espresso nella stessa unità di misura della variabile
considerata. Come per la varianza, maggiore è la variabilità dei
valori di un insieme di dati e maggiore è la deviazione standard,
la quale assume valore nullo solo nel caso in cui tutti i valori
siano uguali.
La deviazione standard risente oltre che dell’unità di misura
anche dell’ordine di grandezza dei dati, pertanto essa non
consente di eseguire confronti tra la variabilità di fenomeni che
presentano unità di misura diverse e che possiedono valori medi
molto diversi come la distribuzione del peso di un collettivo di
bambini con quella di un collettivo di adulti. Questi

48
inconvenienti vengono superati se si utilizza il coefficiente di
varianza:
σ
CV = 100
Ma
Altre misure di variabilità sono gli scarti semplici medi che si
ottengono come media aritmetica delle differenze, in valore
assoluto, tra i valori osservati x1 , x 2 , x3 ,........, x n di una variabile
X e una media. A seconda della media scelta si può ottenere uno
specifico scarto semplice medio. Per esempio, se come media
scegliamo la media aritmetica Ma, si ha lo scarto semplice
medio dalla media aritmetica:
1 n
SMa = ∑ xi − M a
n i =1
Come la deviazione standard, anche questo indice di dispersione
è omogeneo e si annulla solo quando tutte le unità presentano la
stessa modalità.
Se consideriamo le differenze dalla mediana Me otteniamo lo
scarto semplice medio dalla mediana:
1 n
∑ xi − M e
SMe =
n i =1
Risulta che scarto semplice medio dalla media aritmetica è
sempre minore o uguale allo scarto semplice medio dalla
mediana; inoltre scarto semplice medio dalla media aritmetica è
minore o uguale dalla deviazione standard.
A volte si applica una trasformazione lineare ai dati originari
x1 , x 2 , x3 ,........, x n , detta standardizzazione che produce nuovi

xi − M a
dati y1 , y 2 , y 3 ,........, y n con yi = che hanno valore
σ
medio nullo e varianza unitaria.

49
Fino a questo punto ci siamo occupati di distribuzioni di
frequenza noti e si sono cercati gli indici che sintetizzassero tale
distribuzioni, ma potrebbe accadere che non si conosca la
distribuzione di frequenza e invece siano noti la media e la
deviazione standard di tale distribuzione, allora ci si chiede quali
informazioni forniscono congiuntamente tali indici. A questo
scopo ci viene in soccorso il teorema di Chebyshev.
Data una distribuzione di valori x1 , x 2 , x3 ,........, x n dei quali si

conoscono la media Ma e la deviazione standard σ e dato un

valore reale positivo k, risulta: f ( xi − x ≥ kσ ) ≤


1
k2
Questo teorema afferma che, dato un carattere di cui si
conoscono solamente la media aritmetica e la deviazione
standard, la frequenza relativa delle unità che presentano valori
esterni a un intervallo simmetrico rispetto alla media non può
essere superiori a una certa quantità
Altri indici di variabilità sono indici che si basano sul confronto
di due valori caratteristici della distribuzione come il campo di
variazione e la differenza interquartile.
Dato un insieme di n valori x1 , x 2 , x3 ,........, x n ordinati in senso
crescente, si definisce campo di variazione la differenza tra il
più grande e il più piccolo di tali valori: R = x n − x1
Può accadere che i valori estremi siano dei valori anomali
ottenendo una variabilità poco attendibile.
Si definisce differenza interquartile la differenza tra il terzo e il
primo quartine: W = Q3 − Q1
Di seguito riporto le tabelle della distribuzione di frequenze e
delle medie e degli indici di variabilità relative alle variabili

50
quantitativa discrete “ numero di TV presenti in casa” e “ore di
lavoro a settimana”

N. di TV presenti in casa

Percentuale Percentuale
Frequenza Percentuale valida cumulata
Validi 1 14 6,4 7,9 7,9
2 41 18,8 23,0 30,9
3 54 24,8 30,3 61,2
4 53 24,3 29,8 91,0
5 11 5,0 6,2 97,2
6 5 2,3 2,8 100,0
Totale 178 81,7 100,0
Mancanti 0 2 ,9
Mancante di sistema 38 17,4
Totale 40 18,3
Totale 218 100,0

tabella della distribuzione di frequenze del carattere “ numero di TV


presenti in casa”

Statistiche

N. di TV presenti in casa
N Validi 178
Mancanti 40
Media 3,12
Mediana 3,00
Moda 3
Deviazione std. 1,156
Varianza 1,336
Intervallo 5
Minimo 1
Massimo 6
Percentili 25 2,00
50 3,00
75 4,00

tabella degli indici relativi alla variabile quantitativa discreta “ numero di


TV presenti in casa”

51
ore di lavoro a settimana

Percentuale Percentuale
Frequenza Percentuale valida cumulata
Validi 1 3 1,4 7,0 7,0
2 1 ,5 2,3 9,3
3 2 ,9 4,7 14,0
4 7 3,2 16,3 30,2
5 2 ,9 4,7 34,9
6 4 1,8 9,3 44,2
8 5 2,3 11,6 55,8
10 3 1,4 7,0 62,8
12 1 ,5 2,3 65,1
14 1 ,5 2,3 67,4
17 1 ,5 2,3 69,8
20 2 ,9 4,7 74,4
24 2 ,9 4,7 79,1
25 1 ,5 2,3 81,4
30 2 ,9 4,7 86,0
37 2 ,9 4,7 90,7
40 2 ,9 4,7 95,3
42 1 ,5 2,3 97,7
45 1 ,5 2,3 100,0
Totale 43 19,7 100,0
Mancanti 0 49 22,5
Mancante di sistema 126 57,8
Totale 175 80,3
Totale 218 100,0

tabella della distribuzione di frequenza del carattere “ ore di lavoro a


settimana”

Statistiche

ore di lavoro a settimana


N Validi 43
Mancanti 175
Media 13,95
Mediana 8,00
Moda 4
Deviazione std. 13,194
Varianza 174,093
Intervallo 44
Minimo 1
Massimo 45
Percentili 25 4,00
50 8,00
75 24,00

tabella degli indici relativi alla variabile quantitativa discreta “ ore di lavoro
a settimana”

52
Ottenute le medie e gli indici di variabilità, esiste un grafico
detto box plot che rappresenta la distribuzione avvalendosi di tali
misure.
Il box plot di una distribuzione è un grafico caratterizzato da tre
elementi principali:
a) una linea che indica la posizione della media della
distribuzione;
b) un rettangolo la cui altezza indica la variabilità dei valori
prossimi alla media
c) due segmenti che partono dai lati maggiori del rettangolo
e i cui estremi sono determinati in base ai valori estremi
della distribuzione.
Un box plot molto utilizzato è quello che ha come media la
mediana, come altezza del rettangolo la distanza interquartile e
come estremi dei sementi il valore minimo e massimo della
distribuzione.

Max=6, Min=1, Q1=2, Q3=4, Mediana=3

53
Box plot relativa alla distribuzione di frequenza del carattere
quantitativo discreto “ numero di TV presenti in casa”

40
ore di lavoro a settimana

30

20

10

Max=45, min=1, Q1=4, Q3=24, Mediana=8


Box plot relativa alla distribuzione di frequenza del carattere
quantitativo discreto “ ore di lavoro a settimana”

54
Statistica descrittiva

1. Da un collettivo di 20 individui si è rilevata la seguente distribuzione relativa ai caratteri


“età”, “sesso”, “numero di automibili possedute”:
unità 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Età 35 37 59 54 44 38 62 71 56 60 33 46 41 53 38 55 50 63 35 51

Sesso M M F M F M F F M M M F F M F M M M F M

N. 1 2 1 0 2 1 1 0 3 2 2 4 3 1 1 2 3 0 1 2
auto
- si costruiscano le distribuzioni di frequenza semplici per i caratteri “sesso”e “N. auto”
- si consideri il carattere “età” suddiviso nelle seguenti classi: [30, 39]; [40, 49]; [50, 59];
[60+] , e si costruiscano le corrispondenti distribuzioni di frequenza assolute, relative e
percentuali.
- Rappresentare mediante i grafici ritenuti più idonei le distribuzioni di frequenze del
sesso, del numero di automobili e dell’età suddivisa in classi.

Soluzione

Sesso Freq. assoluta freq. relativa Freq.percentuale


M 12 0,6 60%
F 8 0,4 40%
tot 20 1 100%

N.auto Freq. assoluta freq. Relativa Freq.percentuale


0 3 0,15 15%
1 7 0,35 35%
2 6 0,3 30%
3 3 0,15 15%
4 1 0,05 5%
tot 20 1 100%

età Freq. assoluta freq. Relativa Freq.percentuale


30-39 6 0,3 30%
40-49 3 0,15 15%
50-59 7 0,35 35%
60+ 4 0,2 20%
tot 20 1 100%
Sesso

F
40%

M
60%

0
N.auto 35%
30%
25%
20%15%
15%
4 10% 1 35%

5%
5%
0%

15%

3 30%
2

Età
40%
35%
35%
30%
30%
25%
20%
20%
15%
15%
10%
5%
0%
30-39 40-49 50-59 60+
2. La seguente tabella riporta le votazioni ottenute da una classe alla fine di un corso
universitario
Voto 18 19 20 21 22 23 24 25 26 27 28 29 30 totale
N. studenti 7 2 5 1 3 2 12 1 8 4 6 1 5 57
- Calcolare la distribuzione delle frequenze cumulate relative del “voto”.
- Calcolare la distribuzione delle frequenze cumulate relative avendo suddiviso il
carattere nelle seguenti classi: 18-22, 23-24, 25-26, 27-28, 29-30.
- Disegnare i grafici della distribuzione di frequenza percentuale.
- Quanti sono gli studenti che hanno ottenuto un voto inferiore o uguale a 26?
- Quanti sono gli studenti che hanno ottenuto un voto non superiore a 24?

Voto freq.assoluta freq.relativafreq.percentualefreq. cumulata


18 7 0,12 12% 7
19 2 0,04 4% 9
20 5 0,09 9% 14
21 1 0,02 2% 15
22 3 0,05 5% 18
23 2 0,04 4% 20
24 12 0,21 21% 32
25 1 0,02 2% 33
26 8 0,14 14% 41
27 4 0,07 7% 45
28 6 0,11 11% 51
29 1 0,02 2% 52
30 5 0,09 9% 57
57 1 100%

voto freq.assoluta freq.cumulata


18-22 18 18
23-24 14 32
25-26 9 41
27-28 10 51
29-30 6 57
tot 57

Gli studenti che hanno ottenuto un voto inferiore o uguale a 26 sono 41.
Gli studenti che hanno ottenuto un voto non superiore a 24 sono 32.
Voto
30
29
28
27
26
25
24
23
22
21
20
19
18
0% 5% 10% 15% 20% 25%

3. Per i primi 15 giorni di un mese viene rilevato il ritardo (espresso in minuti) accumulato da
un determinato treno rispetto all’orario previsto di arrivo. Di seguito sono riportati i dati
rilevati, che presentano segno negativo nel caso di anticipo sull’orario di arrivo:

giorno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
ritardo 10 15 -2 0 50 20 0 9 -5 8 10 20 6 10 -10

- Calcolare la moda, la mediana, la media aritmetica, la varianza e lo scarto quadratico


medio della distribuzione.
- Dopo aver raggruppato le osservazioni relative ai primi 15 giorni del mese nelle classi: [-
10, 0]; ]0, 10]; ]10, 60] calcolare media e varianza in questa nuova situazione.

Soluzione

media 9,4
mediana 9
moda 10
varianza 187,3
scarto quadratico medio 13,7

La media risente dei valori estremi, nel nostro caso è condizionata dal valore 50.

scarto
quadratico
ritardo media mediana varianza medio
[-10, 0] -3,4 -2 14,2 3,8
]0, 10] 8,8 9,5 2,1 1,5
]10, 60] 26,3 20 192,2 13,9
4. Per otto famiglie viene rilevato il risparmio medio annuo (espresso in migliaia di euro) come
segue:

Famiglia A B C D E F G H
risparmio 0.5 5 2.6 0 9.2 3 5.4 6.3

- Determinare la media, la varianza, e la mediana.


- Supponendo che la variabile “risparmio” assuma valori nell’intervallo [0, 10];
sintetizzare la serie osservata in una distribuzione con quattro classi di frequenza, tutte
della stessa ampiezza e con estremo superiore incluso, e determinare i valori assunti in
questo caso dalla media e dalla varianza delle otto osservazioni.
- Supponendo che si rendano disponibili le informazioni per altre due famiglie, rispetto
alle quali il carattere considerato presenta media pari a 5 e devianza pari a 2, determinare
la media e devianza del carattere per il complesso delle 8+2=10 famiglie. (Si definisce
n
devianza il numero ∑ (x
i =1
i − x)2 )

5. La distribuzione di 40 individui secondo il numero di battiti cardiaci al minuto (variabile X)


è la seguente
intrvalli 44-54 54-58 58-62 62-66 totale
Frequenza assoluta ni 8 10 14 8 40

- Determinare media aritmetica e varianza della distribuzione.


- Sapendo che tra i 40 individui vi sono 10 sportivi e che per questi si registrano mediamente
51 battiti al minuto, con varianza pari a 16.1, determinare media e varianza del carattere X
per i rimanenti 30 individui.

6. Consideriamo le “Importazioni” e le “Esportazioni” (in migliaia di milioni di dollari) dei


paesi partecipanti all’Organizzazione per la Cooperazione e lo Sviluppo Economico (OCSE)
avvenute nel 1986:
Paese Importazioni Esportazioni
Danimarca 22,8 21,2
Irlanda 11,6 12,6
Inghilterra 126,2 107
Olanda 75,4 80,6
Belgio 68,5 68,6
Germania 189,7 242,4
Francia 128,8 119,3
Italia 100 97,5
Spagna 34,9 27,1
Portogallo 9.4 7,2
Grecia 11,3 5,6
Islanda 1,1 1,1
Norvegia 20,3 18,2
Svezia 32,5 37,2
Finlandia 15,3 16,3
Svizzera 40,9 37,3
D
D

USA
an
an im Austria

Canada
Turchia

0
50
100
150
200
250
300
350
400
a

-
-
-
im

0
50
100
150
200
250
300
a

Giappone
I rc
I rc In rlan a
gh d
In rlan a
gh d ilt a
il a
370
O erra
11,1
26,7

81,3
O terr la 127,7
la a nd
nd G Be a
G e a B er lg
er lg m io
m io Fr ani
Fr ani an a
an a ci
ci
a
7,4

Ita a
Calcolare il baricentro
86,7
22,4

S l
210,8
217,3

Sp Ital Po pag ia
P o a g ia rto na
rto na
g g
G allo G allo
re re
Is cia Is cia
N lan N lan
or d a or d a
ve ve
S v gi a S v gi a
Importazioni

Esportazioni
Fi e z Fi e z
n ia n ia
Sv land Sv land
iz ia iz ia
z z
Au era Au era
Tu stri Tu stri
rc a rc a
hi
hi
a a
U C S U
C S
G ana A G ana A
ia d ia d
pp a pp a
on on
e e
Costruire la retta di regressione delle “Importazioni” rispetto alle “Esportazioni”
Costruire il grafico di dispersione delle variabili “Importazioni” rispetto “Esportazioni”
Importazione-Esportazione

350
y = 0,759x + 14,665
300 2
R = 0,7736
250
esportazioni

200
150
100
50
0
0 100 200 300 400
importazioni

7. Consideriamo il “peso” (in kg) e l “altezza” (in cm) di 10 individui riportati nella seguente
tabella
Peso 56 66 84 61 73 90 70 61 75 82
altezza 161 165 186 162 172 191 181 164 179 184
- Costruire il grafico di dispersione per i due caratteri.
- Determinare la retta di regressione che pone l’”altezza” in funzione del “peso”.

8. In un’indagine statistica è stato chiesto a 29 madri, occupate come libere professioniste, di


indicare il “N. di figli” e il “N. di ore di lavoro casalingo” svolto giornalmente:

Madre N. figli N. ore di lavoro


casalingo
1 1 1
2 1 2
3 1 3
4 1 5
5 2 3
6 2 1
7 3 5
8 3 1
9 4 6
10 4 3
11 5 7
12 5 4
13 1 4
14 1 2
15 1 1
16 2 4
17 2 5
18 3 5
19 3 4
20 3 4
21 4 5
22 5 5
23 5 5
24 4 2
25 4 2
26 2 4
27 1 5
28 2 1
29 3 2
- Costruire il grafico di dispersione per i due caratteri.
- Stimare la retta di regressione che considera il “N. di ore di lavoro casalingo”in funzione
del “N. di figli”.
- riportare la retta di regressione sul grafico.
- commentare la relazione tra i due caratteri in base ai risultati precedenti.
Distribuzione Binomiale
Distribuzione Esponenziale
Distribuzione Normale Standard
Distribuzione Normale
Distribuzione Beta