Sei sulla pagina 1di 52

Statistica Corso Base

Corso di Laurea in Economia e Finanza


aa. 2022/23

Andrea Tancredi

Lezioni 5-7: Le medie


Le medie

• Le medie rappresentano in modo sintetico un insieme di dati e


misurano il centro intorno a cui i dati tendono a collocarsi
• Le medie si distinguono in medie analitiche (ottenute effettuando
operazioni algebriche sui dati) e medie di posizione (corrispondenti
a determinati elementi della graduatoria non decrescente delle
osservazioni)
• Al primo gruppo appartengono: media aritmetica, media
geometrica, media armonica., ... . Possono essere calcolate solo su
dati quantitativi
• Al secondo gruppo appartangeono: mediana, quartili, .... Possono
essere calcolate sia su dati quantitativi sia su dati ordinali
Media aritmetica

La media aritmetica di una serie di n osservazioni x1 , . . . , xn è definita


come la somma delle osservazioni divisa per il loro numero
n
x1 + x2 + · · · + xn 1X
µ= = xi
n n
i=1

Esempio:
x1 = 2, x2 = 3, x3 = 3, x4 = 4, x5 = 5
La media aritmetica è
2+3+3+4+5 17
µ= = = 3.4
5 5
Proprietà della media aritmetica

• Internalità: La media aritmetica è maggiore o oguale


all’osservazione più piccola e minore o uguale all’osservazione più
grande

Dimostrazione alla lavagna


• Invarianza: La media aritmetica è quel valore che sostituito a tutte
le osservazioni xi per i = 1, . . . , n lascia invariata la loro somma

Dimostrazione alla lavagna


• La somma degli scarti dalla media xi − µ è nulla
n
X
(xi − µ) = 0
i=1

Dimostrazione alla lavagna


• La somma degli scarti al quadrato da una costante c è minima
quando c è uguale alla media aritmetica
n
X n
X
(xi − µ)2 = min (xi − c)2
c
i=1 i=1

Dimostrazione alla lavagna


• Linearità. Date le osservazioni x1 , . . . , xn aventi media µ, la media
delle osservazioni yi = a + bxi per i = 1, . . . , n è
n
1X
yI = a + bµ
n
i=1

Dimostrazione alla lavagna


• Proprietà associativa . Supponiamo di dividere le osservazioni
x1 , . . . , xn in L gruppi disgiunti aventi numerosità n(1) , n(2) , . . . , n(L)
e medie µ(1) , µ(2) , . . . , µ(L) , allora la media µ delle n osservazioni è
data da
n(1) µ(1) + n(2) µ(2) + · · · + n(L) µ(L)
µ=
n(1) + n(2) + · · · + n(L)
Media armonica
• Esempio: la velocità è data dal rapporto tra lo spazio percorso s e il
tempo impiegato t
s
v=
t
• Supponiamo che un’automobile percorrra un tragitto di 50 km alla
velocità di 80 km/h e il tragitto inverso alla velocità di 40 km/h.
Qual è la sua velocità media?
s s
• Visto che v = il tempo è dato dalla relazione t = e quindi i
t v
tempo impiegati per percorrere i due tratti sono
50 50
t1 = = 0.625 ore t2 = = 1.25 ore
80 40

• La velocità media per percorrere entrambi i tratti è quindi


50 + 50 2 80 + 40
50 50 = 1 1 = 53.3 6= 60 =
80 + 40 80 + 40
2
La media armonica di una serie di osservazioni x1 , . . . , xn che si
assumono tutte diverse da 0 è data dal rapporto tra n e la somma dei
reciproci delle osservazioni
n n 1
µa = = n = n
1 1 1 X 1 1 1
+ + ···
X
x1 x2 xn xi n xi
i=1 i=1

ovvero il reciproco della media aritmetica dei reciproci delle osservazioni


• La media armonica è maggiore o uguale all’osservaziomne più
piccola x(1) e minore o uguale all’osservazione più grande x(n)
• La media aritmetica è quel numero che sostituito a ciascuna delle
osservazioni lascia invariata la somma dei reciproci
n
n X 1
=
µa xi
i=1

• Se la media armonica di x1 , . . . , xn è µa e yi = axi i = 1, . . . , n con


a 6= 0 la media armonica delle osservazioni y1 , . . . , yn è aµa
• Esempio X è il tempo impiegato per risolvere un esercizio (in
minuti)
x1 = 4, x2 = 4.5, x3 = 5, x4 = 5.2, x5 = 6
5
µa = = 4.85
1 1 1 1 1
+ + + +
4 4.5 5 5.2 6
minuti esercizi
osservazioni = produttività =
esercizio minuti
Se le osservazioni fossero tutte uguali alla media armonica la somma
delle produttività dei 5 studenti sarebbe sempre sarebbe uguale alla
somma delle produttività osservate, ovvero
5 1 1 1 1 1
= + + + +
4.85 4 4.5 5 5.2 6

La media aritmetica in questo caso vale µ = 4.94


Media geometrica
La media geometrica di una serie di n osservazioni x1 ldots, xn , tutte
maggiori di 0 è data dalla radice n−esima del prodotto delle osservzaione
v
u n
√ uY
µg = n x1 · x2 · · · · · xn = t
n
xi
i=1
• Soddisfa l’internalità
• Invariante rispetto all’operazione prodotto
• Se a > 0 e yi = a · xi la media geometrica delle yi è la media
geometrica delle xi moltiplicata per a
Media quadratica e media di potenza
Medie analitiche per distribuzioni di frequenza

Data la distribuzione di frequenza

Modalità Frequenza
x1 n1
x2 n2
.. ..
. .
xk nk
Totale n

la media aritmetica è
k k k
x1 · n1 + x2 · n2 + · · · + xk · nk 1X X ni X
µ= = xi · ni = xi = xi fi
n n n
i=1 i=1 i=1
Esempio: numero di esami sostenuti

Modalità frequenza
0 1
1 3
2 8
3 15
4 19
5 21
6 20
Totale 87

0 · 1 + 1 · 3 + 2 · 18 + 3 · 15 + 4 · 19 + 5 · 21 + 6 · 20 365
µ= = ≈ 4.195
87 87
Medie per distribuzioni di frequenza in classi
Consideriamo ora una distribuzioni in classi

Classe Frequenza
c0 − c1 n1
c1 − c2 n2
.. ..
. .
ck−1 − ck nk
Totale n
• Se si conoscessero le medie µ1 , µ2 ,. . . µk delle osservazioni
all’interno delle varie classi si potrebbe calcolare esattamente la
media della distribuzione come
Pk
µi ni
µ = Pi=1 k
i=1 ni

• La media µi delle ni osservzioni all’interno della classe ci−1 − ci


viene detta media della classe. La somma delle osservazioni
all’interno della classe è l’ammontare della classe ed è pari a ni µi
• Nel caso in cui le medie di classe µi non sono note, esse vengono
approssimate con il valore centrale della classe, per cui
ci−1 + ci
µi ≈ x̄i =
2

• Utilizzando la tabella

Classe Frequenza Valore centrale


c0 − c1 n1 x̄1
c1 − c2 n2 x̄2
.. .. ..
. . .
ck−1 − ck nk x̄k
Totale n

la media aritmetica viene calcolata approsimativamente tramite


k
1X
µ= x̄i ni
n
i=1
• Se le unità sono uniformenete distribuite all’interno della classe il
valore centrale corrisponde proprio alla media della classe
• In alcuni casi, l’ammontare totale della classe potrebbe essere noto
solo per determinate classi (in particolare quelle estreme)
Medie ponderate

• Dati i valori xP 1 , x2 , . . . , xk e un insieme di pesi w1 , w2 , . . . , wk aventi


k
somma W = i=1 wi , la media aritmetica ponderata di
x1 , x2 , . . . , xk è data da
k
x1 · w 1 + x2 · w 2 + · · · + xk · w k 1 X
= xi w i
w1 + w2 + · · · wk W
i=1

• Esempio. I voti di uno studenti in cinque esami sono 25, 26, 28, 28,
30. I crediti degli esami sono 5, 5, 10, 5, 12. La media dei voti
ponderata con i crediti è quindi
25 · 5 + 26 · 5 + 28 · 10 + 25 · 5 + 30 · 12
= 27.97
5 + 5 + 10 + 5 + 12
Mediana

• La mediana, come le medie già viste, indica il centro intorno a cui i


dati tendono a collocarsi.

Data la serie di n osservazioni x1 , x2 , . . . , xn sia x(1) , x(2) , . . . , x(n) la


corrispondente serie non decrescente dove x(1) ≤ x(2( ≤ · · · ≤ x(n)
• Se n è dispari la mediana è il valore che occupa la posizione
centrale, (n + 1)/2 di tale sequenza.
• Se n è pari, la mediana è definita come la media aritmetica dei
termini che occupano le due posizioni centrali n/2 e n/2 + 1
ovvero 
 x( n+1
2 )
n dispari
m=
 1 x( n ) + x( n +1)
h i
n pari
2 2 2
Esempio: Sia X il numero di posti in 7 aule di una facoltà universitaria

x1 = 212, x2 = 320, x3 = 180, x4 = 410, x5= 374, x6 = 215, x(7) = 538

n = 7 è dispari quindi la mediana è l’osservazione che occupa il posto


(n + 1)/2 = (7 + 1)/2 = 4 nella serie ordinata,

x(1) = 180, x(2) = 212, x(3) = 215, x(4) = 320, x(5) = 374, x(6) = 410, x(7) = 538

ovvero
m = x(4) = 320
Osserviamo che la mediana divide in due la serie ordinata

180, 212, 215, 320, 374, 410, 538


Supponiamo ora di avere un’altra osservazione x8 = 290. La serie
ordinata diventa

180, 212, 215, 290, 320, 374, 410, 538


In questo caso n = 8, n/2 = 8/2 = 4 e n/2 + 1 = 4 + 1 = 5 e quindi la
mediana corrisponde alla media aritmetica dellle osservazioni che
occupano il quarto e quinto posto nella serie ordinata, ovvero
1  290 + 320
m= x(4) + x(5) = = 305
2 2
Proprietà della mediana
• Internalità
• La somma degli scarti in valore asoluto da una costante c è minima
quando c è uguale alla mediana
n
X n
X
|xi − m| = min |xi − c|
c
i=1 i=1
Quartili e quantili
Data la serie di n osservazioni x1 , x2 , . . . , xn sia x(1) , x(2) , . . . , x(n) la
corrispondente serie non decrescente dove x(1) ≤ x(2) ≤ · · · ≤ x(n) . Sia h
il numero intero tale che 1
n
h−1≤ <h
4
Si definisce primo quartile la quantità

 x(h) n/4 > h − 1
q1 =
 1 x(h−1) + x(h) n/4 = h − 1
 
2

• quando n è multiplo di 4 il primo quartile ha 1/4 di osservazioni


minori o uguali di esso e 3/4 di osservazioni maggiori o uguali di esso
• quando n non è multiplo di 4 il primo quartile ha almeno 1/4 di
osservazioni più piccole di esso

1
h è l’intero più piccolo maggiore di n/4
• Esempio. Consideriamo le seguenti n = 8 osservazioni

7, 9, 3, 6, 13, 12, 16, 18

La serie ordinata è

3, 6, 7, 9, 12, 13, 16, 18

n/4 = 8/4 = 2, h = 3 è il primo intero maggiore di 2,


h − 1 = 2 = n/4 e quindi
x(2) + x(3) 6+7
q1 = = = 6.5
2 2
• Esempio. Consideriamo le seguenti n = 8 osservazioni.

13.0, 12.8, 13.4, 13.5, 13.4, 14.1, 13.8, 13.7, 13.6, 13.6

La serie ordinata è

12.8, 13.0, 13.4, 13.4, 13.5, 13.6, 13.6, 13.7 13.8, 14.1

n/4 = 10/4 = 2.5, h = 3 , n/4 = 2.5 > 2 = h − 1 e quindi

q1 = x(3) = 13.4
Data la serie di n osservazioni x1 , x2 , . . . , xn sia x(1) , x(2) , . . . , x(n) la
corrispondente serie non decrescente dove x(1) ≤ x(2) ≤ · · · ≤ x(n) . Per
` = 1, 2, 3, sia h il numero intero tale che
`
h−1≤n· <h
4
Si definisce `-esimo quartile, la quantità

 x(h) n · (`/4) > h − 1
q1 =
 1 x(h−1) + x(h) n · (`/4) = h − 1
 
2

• Il secondo quartile è la mediana


• decili e pecentili
Mediana e quartili per distribuzioni di frequenze

Data la distribuzione di frequenza

Modalità Frequenza assoluta Frequenza cumulata


x1 n1 N1
x2 n2 N2
.. .. ..
. . .
xk nk Nk
Totale n

sia h il numero intero tale che N(h−1) ≤ n/2 < Nh ( xh è quindi la prima
modalità con frequenza cumulata maggiore di n/2). La mediana è

 x(h) se n/2 > Nh−1
m=
 1 x(h−1) + x(h)
 
se n/2 = Nh
2
Esempio: numero di esami sostenuti

Modalità ni Ni
0 1 1
1 3 4
2 8 12
3 15 27
4 19 46
5 21 67
6 20 87
Totale 87

La mediana è 4
Per trovare l’ellesimo quartile bisogna trovare la prima modalità xh con
frequenza cumulata maggiore di n`/4. L’ellesimo quartile è

 x(h) se n`/4 > Nh−1
q` =
 1 x(h−1) + x(h)
 
se n`/4 = Nh
2
q1 = 1.5 q2 = 2 q3 = 3
• La mediana e i quartili possono essere determinati anche tramite le
Ni
frequenze relative cumulate Fi =
N
• La condizione per trovare q` per ` = 1, 2, 3
N` `
Nh−1 ≤ < Nh è equivalente a Fh−1 ≤ < Fh
4 4
ovvero h è la prima modalità con frequenza relativa cumulata
maggiore di `/4
• Inoltre 
 x(h) se `/4 > Fh−1
q` =
 1 x(h−1) + x(h)
 
se `/4 = Fh
2
Mediana e quartili per distribuzioni in classi

• Per le distribuzioni in classi si determina prima la classe in cui cade


la mediana o il quartile, ovvero la prima classe la cui frequenza cu-
mulata è maggiore di n/2 (mediana) o di `n/4 con ` = 1, 2, 3
(quartili)
• La classe in cui cade la mediana viene detta classe mediana
• Per determinare le classi in cui cadono mediana e quartili si possono
utilizzare anche le frequenze cumulate relative Fi
• Indicando con h la classe mediana e ipotizzando l’uniforme distribu-
zione all’interno della classe, la mediana sarà quel valore x tale che
la frequenza relativa cumulativa (funzione di ripartizione) in x è 0.5
• Indicando con ch(inf ) e ch(sup) gli estremi della classe mediana si
tratta di trovare il valore x tale che
fh
0.5 = Fh−1 + (x − ch(inf ) )
dh
la mediana è quindi
0.5 − Fh−1
m = ch(inf ) + dh
fh
e può essere anche scritta come

n/2 − Nh−1
m = ch(inf ) + (ch(sup) − ch(inf ) )
Nh − Nh−1
• Per i quartili vale un ragionamento analogo. Trovata la classe h
dove cade il quartile q` abbiamo che, per ` = 1, 2, 3

`/4 − Fh−1 n`/4 − Nh−1


q` = ch(inf ) + dh = ch(inf ) + (ch(sup) − ch(inf ) )
fh Nh − Nh−1
Esempio: peso alla nascita

q1 = 3071.66 q2 = m = 3372.84 q3 = 3682.45


calcoli alla lavagna

µ ≈ 3662 chiusura ultima classe a 7000


• Istogramma e funzione di ripartizione per il peso alla nascita (le
linee tratteggiate rappresentano i quartili, nell’istogramma la linea
continua rappresenta la media e si sovrappone alla mediana)

Funzione di ripartizione

1.0
8e−04

0.8
6e−04

0.6
Fn(x)
4e−04

0.4
2e−04

0.2
0e+00

0.0

1000 2000 3000 4000 5000 6000 1000 2000 3000 4000 5000 6000
• Istogramma per il reddito di 10822 italiani (dati Banca d’Italia,
2020) (le linee tratteggiate rappresentano i quartili, la linea continua
rappresenta la media )
3.0e−05
2.5e−05
2.0e−05
1.5e−05
Density

1.0e−05
5.0e−06
0.0e+00

0 50000 100000 150000 200000


• Valore centrale
x(1) + x(2)
µc =
2
• Moda: modalità che presenza frequenza maggiore
I Possibilità di distribuzioni bimodali o multimodali
I Classe modale: classe con densità di frequenza maggiore
• Robustezza della mediana rispetto alla presenza di dati anomali
Esempio: consideriamo le seguenti 11 osservazioni

3, 4, 4, 5, 7, 8, 8, 10, 11, 11 1000

I La media aritmetica è pari a 97.4 e risente molto del valore


anomalo 10000
I la mediana e i quartili sono q1 = 4, m = 8, q3 = 11 e non
risentono del valore anomalo

Potrebbero piacerti anche