Sei sulla pagina 1di 21

LA STATISTICA (Trilussa)

Sai ched la statistica? E na cosa che serve pe fa un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che sposa Ma pe me la statistica curiosa dove centra la percentuale, pe via che l la media sempre eguale puro co la persona bisognosa. Me spiego: da li conti che se fanno seconno le statistiche dadesso risurta che te tocca un pollo allanno: E se nun entra ne le spese tue

VARIABILIT

Statistica I a.a. 2009/2010 Prof.ssa R. Paroli


Statistica I-a.a.2009/2010 - Prof. R. Paroli

tentra ne la statistica lo stesso perch ce un antro che ne magnia due!!!


165

VARIABILITA
Gli indici di posizione sono indici sintetici che sostituiscono alle diverse modalit del carattere ununica modalit che possa ritenersi rappresentativa di tutte le altre . Due distribuzioni Da solo lindice di posizione - appare tuttavia insufficiente - sintesi perdita di informazioni

Attitudine del carattere ad assumere modalit modalit differenti

con la stessa media non detto che presentino un medesimo comportamento

- caratteri qualitativi mutabilit


- caratteri quantitativi variabilit o

- interessano anche indicatori della diversit (molteplicit) dei valori di un carattere

dispersione

POSIZIONE + VARIABILIT
Statistica I-a.a.2009/2010 - Prof. R. Paroli

167

Statistica I-a.a.2009/2010 - Prof. R. Paroli

168

VARIABILIT PER CARATTERI QUALITATIVI


Per capire: Indici di mutabilit o eterogeneit

X ={x1,,x6} Y ={y1,,y6}

esempio: colore dei capelli di 3 gruppi (distribuzioni %) Colore nero castano biondo altro
G1 0.10 0.25 0.60 0.05 1 G2 0.30 0.30 0.30 0.10 1 G3 0.70 0.20 0.05 0.05 1

pi variabile (disperso) X oppure Y ??

in quale gruppo c pi mutabilit?


Statistica I-a.a.2009/2010 - Prof. R. Paroli

169

Statistica I-a.a.2009/2010 - Prof. R. Paroli

170

INDICE DI ETEROGENEIT DI GINI Basato sulle frequenze relative della distribuzione di frequenza:
k k
esempio: colore dei capelli di 3 gruppi Colore nero castano biondo altro
G1 0.10 0.25 0.60 0.05 1 G2 0.30 0.30 0.30 0.10 1 G3 0.70 0.20 0.05 0.05 1

E=

i=1

fi(1 fi) = 1 fi2


i=1

E = 1 (0.12 + 0.252 + 0.62+ 0.052) = 1 (0.435) = 0.565

(usato per lo studio della concentrazione industriale o di mercato)

E = 1 (0.32 + 0.32 + 0.32+ 0.102) = 1 (0.28) = 0.72 E = 1 (0.72 + 0.22 + 0.052+ 0.052) = 1 (0.535) = 0.465

Statistica I-a.a.2009/2010 - Prof. R. Paroli

171

Statistica I-a.a.2009/2010 - Prof. R. Paroli

172

situazioni estreme min mutabilit mutabilit: fi = 1, fj = 0 (ji)


esiste una sola modalit cui corrisponde tutta la frequenza, tutte le altre hanno freq. nulla

xi x1 xi xk
xi x1 xi xk

fi 0 1 0 1
fi 1/k 1/k 1/k 1

Per lindice di eterogeneit si dimostra che: nella situazione minima


Emin = 1 (f12 + + fk2) = 1 (1) = 0

max mutabilit mutabilit: f1 = = fk = 1/k


tutte le modalit hanno la stessa frequenza
Statistica I-a.a.2009/2010 - Prof. R. Paroli

nella situazione massima


Emax = 1 (1/k)2 = 1 k(1/k)2= 1 1/k

173

Statistica I-a.a.2009/2010 - Prof. R. Paroli

174

apriamo una parentesi .. (


Per rendere confrontabili tra di loro alcuni aspetti come la mutabilit (o variabilit) di caratteri diversi (pensate, ad esempio, al carattere colore degli occhi e colore dei capelli) necessario avere a disposizione indici particolari, che prendono il nome di INDICI NORMALIZZATI Si tratta di indici che consentono di fare confronti tra caratteri diversi o stessi caratteri ma misurati con unit di misura diverse (variabilit di un titolo azionario in Euro e uno in Dollaro).
Statistica I-a.a.2009/2010 - Prof. R. Paroli

Indici normalizzati Da utilizzare per fare confronti tra variabili con unit di misura differenti
se Imin I Imax I Imin Imax Imin

IN = per il quale

0 IN 1 in genere Imin = 0 IN =
175
Statistica I-a.a.2009/2010 - Prof. R. Paroli

per cui I Imax

chiusa la parentesi ) 176

Indice di GINI NORMALIZZATO


esempio: colore dei capelli di 3 gruppi

Per lindice di eterogeneit si ha che:


E 1 fi2 1 1/k

EN =

Emax

Colore nero castano biondo altro

G1 0.10 0.25 0.60 0.05 1

G2 0.30 0.30 0.30 0.10 1

G3 0.70 0.20 0.05 0.05 1

E = 1 (0.12 + 0.252 + 0.62+ 0.052) = 1 (0.435) = 0.565

0 EN 1 minima mutabilit
Statistica I-a.a.2009/2010 - Prof. R. Paroli

Emax = 1 1/4 = 0.75


da cui lindice normalizzato e:

massima mutabilit
177

EN = 0.565/0.75 = 0.753
Statistica I-a.a.2009/2010 - Prof. R. Paroli

alta variabilit
178

VARIABILIT PER CARATTERI QUANTITATIVI


per gli altri gruppi si ha: G2:
E = 1 (0.32 + 0.32 + 0.32+ 0.12) = 0.72 Emax = 1 1/4 = 0.75

EN = 0.72/0.75 = 0.96

La definizione di variabilit nel caso di caratteri quantitativi pu essere applicata alle modalit in modo analitico. Si posso cio calcolare tutte le differenze o distanze tra le varie modalit, su cui poi basare un indice che ne dia una misura sintetica. Esistono due impostazioni basate sul differente modo del calcolo di tali distanze: - le distanze di ogni modalit da tutte le altre - le distanze di ogni modalit da una particolare, scelta ad hoc
179
Statistica I-a.a.2009/2010 - Prof. R. Paroli

G3:
E = 1 (0.72 + 0.22 + 0.052+ 0.052) = 0.465 Emax = 1 1/4 = 0.75

EN = 0.465/0.75 = 0.62

Conclusioni: Conclusioni poich EN(G2)>EN(G1)>EN(G3) G2 presenta maggior mutabilit


Statistica I-a.a.2009/2010 - Prof. R. Paroli

180

x1

x2

x1

x2

due modi di misurare la variabilit - variabilit variabilit globale VG(X) - dispersione da centro D(X)

x3 x4 x3 x4

Distanze di ogni modalit da tutte le altre Indicatori globali


Statistica I-a.a.2009/2010 - Prof. R. Paroli

Distanze di ogni modalit da una particolare o rappresentativa di X Indicatori di dispersione


181

INDICI DI VARIABILIT VARIABILIT funzioni (medie potenziate!!!) delle distanze scelte

Statistica I-a.a.2009/2010 - Prof. R. Paroli

182

PROPRIETA GENERALI
VG(X) =VARIABILIT GLOBALE 1) non negativit VG(X) 0 D(X)=DISPERSIONE D(X) 0 D(X) = 0 se xi=cost

INDICI DI DISPERSIONE
Scostamenti medi assoluti di ordine r da un centro
1 Dr(c) = n

2) VG(X) = 0 se xi = xj 3) invarianza per traslazioni VG(X + b) = VG(X)

i=1

= |xi c|r ni |vi c|r n


i=1

1/r

1 k

1/r

D(X + b) = D(X)

4) monotonicit rispetto alle differenze elementari

c = centro =

percentile xp mediana media aritmetica


184

Statistica I-a.a.2009/2010 - Prof. R. Paroli

183

Statistica I-a.a.2009/2010 - Prof. R. Paroli

VARIANZA
r = 1 (dalla mediana) 1 D1(Me) = n
Il quadrato dello scarto quadratico medio definisce la VARIANZA

i=1

|xi Me| ni

r = 2 (dalla media)
1 D2() = n

i=1

(xi )2 ni

1/2

D2()2 = 2= Var(X) = 2(X) = 1 k 2 = (xi )2 ni = M (X - ) n i=1


media degli scarti dalla media al quadrato
185
Statistica I-a.a.2009/2010 - Prof. R. Paroli

chiamato anche scarto quadratico medio ()


Statistica I-a.a.2009/2010 - Prof. R. Paroli

186

esempio:
xi 2 4 6 8 10 ni 3 10 20 6 5 44 x i*n i 6 40 120 48 50 264 (x i- ) -4 -2 0 2 4 (x i- ) *n i 48 40 0 24 80 192
2

Passaggi per il calcolo della varianza con la formula di definizione

Formula operativa:

2= M(X2) - 2 = n xi2ni - 2
i=1

1 k

264 = =6 44 2= k 1 (x )2 n =192 =4.363636 i i n 44 i=1

Dim.

media dei quadrati

quadrato della media

2 2 2 2 = M (X - ) = M(X 2X + ) = = M(X2) 2 M(X) + 2 = M(X2) 22 + 2=

= M(X2) 2

N.B. Var(X) 0 !!!!


Statistica I-a.a.2009/2010 - Prof. R. Paroli

187

Statistica I-a.a.2009/2010 - Prof. R. Paroli

188

OPERATORE VARIANZA
esempio:
Passaggi per il calcolo della varianza con la formula operativa

xi 2 4 6 8 10

ni 3 10 20 6 5 44

xi ni 6 40 120 48 50 264

x i2 n i 12 160 720 384 500 1776

associa ad ogni variabile la sua VARIANZA propriet 1. Var(a) = 0 (varianza di una costante)

264 =6 44 1776 - 62= 4.363636 44

2. Var(aX) = a2 Var(X) 3. Var(aX + b) = a2 Var(X) (non linearit)

2= M(X2)- 2 =

4. Var(X+Y) = Var(X) + Var(Y) + termine 0


Dimostratele utilizzando loperatore media e le sue propriet

Il calcolo pi veloce
Statistica I-a.a.2009/2010 - Prof. R. Paroli

189

Statistica I-a.a.2009/2010 - Prof. R. Paroli

190

Ipotesi per il teorema della scomposizione della varianza


Passaggi principali delle dimostrazioni:
I dati elementari sono classificati in h sottogruppi. Per ciascuno dei sottogruppi si conosce la numerosit, la media e la varianza

1. Var(a)= M[(a-M(a))2] = M[(a-a)2]=0 2. Var(aX)=M[(aX-M(aX))2]= M[(a(X-M(X)))2]== =a2 Var(X) 3. Var(aX+b)= M[((aX+b)-M(aX+b))2]= =M[(aX+b-aM(X)-b)2]= = =M[(a(X-M(X)))2]= a2 Var(X) 4. Var(X+Y) = M[((X+Y)-M(X+Y))2]=
Statistica I-a.a.2009/2010 - Prof. R. Paroli

1 n1 1
2 1

2 n2 2
2 2


ni

h nh h h
2

- media gruppo i-esimo - varianza gruppo i-esimo

i =
2 i

j=1 ni

xij / ni
j=1

(xij i)2/ ni
192

191

Statistica I-a.a.2009/2010 - Prof. R. Paroli

Teorema della scomposizione della varianza (I versione)


La varianza totale 2 ottenibile come la somma della varianza entro i gruppi (varianza WITHIN=W ) e della varianza tra i gruppi (varianza BETWEEN=B) dove:
2 2

SCRIVIAMO PER ESTESO LA VARIANZA WITHIN E BETWEEN:

2 - W = varianza within (entro i gruppi) =

media delle varianze dei gruppi = M(i )


2 1 h 2 n W = n i i i=1 2 - B= varianza between (tra i gruppi) =

2i 21 2h

ni n1 nh n

W = M(i )

B = V(i)
2 2

varianza delle medie dei gruppi = V(i)


2 1 h ( )2 ni B= n i i=1

TESI:
Statistica I-a.a.2009/2010 - Prof. R. Paroli

2 = W + B
193

i 1 h

ni n1 nh n
194

Statistica I-a.a.2009/2010 - Prof. R. Paroli

DIMOSTRAZIONE
2 = Y n 1 h ni 1
consideriamo separatamente i 3 addendi: I addendo h ni 1 = n

varianza totale =

k=1

xk 2 n
2

i=1 j=1

xij n=
Aggiungo e tolgo le medie di gruppo

i=1 j=1 h ni i=1 j=1

ni

Moltiplico e divido per ni


2

xij i + i -

1 = n
2

[(xij i) + ( i - )] n = (faccio il quadrato)


ni
(xij i) + ( i - ) + 2(xij i)( i - ) n =

i=1 j=1

(xij i)

h n ni h n 2 2 1 i i = n (xij i) ni = i n i=1 j=1 i=1 = media delle var di gruppo = 2 W

i=1 j=1 =

II addendo
fattore che non dipende da j

ni

i=1 j=1

ni

(xij i)
h ni

h ni 1 2 1 ( - ) + + i n n i=1 j=1 1

h 1 ni h 2 1 2 2 ni ( i - ) n = n ( i - ) 1 = ( i - ) n = i=1 j=1 i=1 j=1 i=1

ni

+2

i=1 j=1
Statistica I-a.a.2009/2010 - Prof. R. Paroli

(xij i)( i - ) n =
195
Statistica I-a.a.2009/2010 - Prof. R. Paroli

= varianza delle medie di gruppo =

2 B

196

III addendo 2

Moltiplico e divido per ni


1

i=1 j=1 =2

ni

(xij i)( i - ) n =

Nel caso in cui non si conoscano i valori assunti da un carattere su tutte le unit statistiche, ma di ogni sottogruppo i in cui suddivisa la popolazione siano noti: - numerosit (ni) - media (i) - varianza (2i) possibile ricavare la media generale (tramite lapplicazione della propriet associativa) e la varianza (tramite il teorema di scomposizione della varianza).
197
Statistica I-a.a.2009/2010 - Prof. R. Paroli

h ni ni 1 ( i - ) n (xij i) ni = j=1 i=1

= 0 per la I propriet della media


=2
i ( i - ) (0) = 0 i n

2 2 2= W + B
Statistica I-a.a.2009/2010 - Prof. R. Paroli

cvd

198

Esempio
La tabella riporta media e scarto quadratico medio del voto di maturit degli studenti iscritti a 4 Facolt:
Lettere Economia Sc. Politiche Chimica media 88 82 86 85 s.q.m. 6.16 7.38 8.6 4.25

i 88 82 86 85

ni 60 125 75 40 300

Distribuzione delle medie dei gruppi

2 i*ni (i-) *ni 5280 693.60 10250 845.00 6450 147.00 3400 6.40 25380 1692.00

2 i *ni 464640 840500 554700 289000 2148840

Calcolo la varianza between = var. medie dei gruppi = 25380/300 = 84.60 2B=1692/300= (oppure, con la formula operativa) = = 2148840/300 (84.60)2 = 5.64
199
Statistica I-a.a.2009/2010 - Prof. R. Paroli

Sapendo che 60 studenti sono di Lettere, 125 di Economia, 75 di Scienze Politiche e 40 di Chimica, calcolare il voto medio di maturit e la varianza complessiva degli studenti di tutto lateneo.
Statistica I-a.a.2009/2010 - Prof. R. Paroli

200

MINIMA VARIABILITA
i 6.16 7.38 8.6 4.25 i 37.9456 54.4644 73.96 18.0625
2

ni 60 125 75 40 300

Distribuzione delle varianze dei gruppi

i *ni 2276.736 6808.05 5547 722.5 15354.29


2

la variabile statistica caratterizzata da una distribuzione degenere (costante): le modalit xi=xj=c ij, con i,j=1,,k.

Calcolo la varianza within = media delle var. dei gruppi

2W=15354.29/300= 51.18
varianza totale = var.B + var.W

Tutti gli indici assumono valore 0


anche la varianza VAR(X) = 0 Si ricordi la II propriet degli indici di variabilit
201
Statistica I-a.a.2009/2010 - Prof. R. Paroli

2 = 2B + 2W = 5.64 + 51.18 = 56.82


Statistica I-a.a.2009/2010 - Prof. R. Paroli

202

MASSIMA VARIABILITA Intuitivamente:


x2 x3 x4 x1 y2 y3 y4 y1

quindi ... bisogna spostare valori e frequenze verso gli estremi ... (o oltre)

.. y2=x2

y3=x3+ ..

Definizione nella distribuzione di max variabilit le unit statistiche si distribuiscono intorno ai valori estremi delle modalit della variabile in studio
203
Statistica I-a.a.2009/2010 - Prof. R. Paroli

con media fissa

la variabilit aumenta se aumentano le distanze tra modalit


Statistica I-a.a.2009/2010 - Prof. R. Paroli

204

TABELLA DI MAX VARIABILITA Ipotesi per la determinazione della situazione di massima variabilit - modalit non negative (xi 0)
xi a b ni na nb n oppure xi a b fi fa fb 1

si costruisce una tabella con k=2

- non deve variare la numerosit n - non deve variare la media aritmetica

resta fissato il totale T=ixini = n


Statistica I-a.a.2009/2010 - Prof. R. Paroli

205

Statistica I-a.a.2009/2010 - Prof. R. Paroli

206

- Scelta di a e b
Gli estremi sono soggetti a dei vincoli 0 a x1
a 0 x1 xk

- Calcolo alcolo di [n [na e nb] Bisogna trovare i valori delle frequenze na e nb nella distribuzione
xi a b ni na nb n

xk b T
b T

cio: -a compreso tra 0 ed il minimo dei dati osservati -b compreso tra il massimo dei dati osservati e T

tali da verificare le 2 seguenti condizioni - media aritmetica (o totale) costante - n costante


207
Statistica I-a.a.2009/2010 - Prof. R. Paroli

Statistica I-a.a.2009/2010 - Prof. R. Paroli

208

Si tratta di risolvere il seguente sistema per sostituzione


Cio:

xi ni = T= n ni = n

ana + bnb = T= n n a + nb = n

na = n

b b-a a b-a

nb = n - na = n

a(n - nb)+ bnb = n na = n - nb


b b-a

(b - a) nb = n(-a) n a = n - nb
a b-a
209
Statistica I-a.a.2009/2010 - Prof. R. Paroli

na = n

nb = n

Statistica I-a.a.2009/2010 - Prof. R. Paroli

210

Se si opera con le frequenze relative si ha:


Osservazione
Nel caso delle frequenze assolute a volte il risultato NON intero, si prende quindi

x i fi = fi = 1

a fa + b f b = f a + fb = 1

na = int n

e si ottengono

b b-a

nb = int n

a b-a

fa =

b b-a a b-a
211

diventa per (na + nb) = n - 1

fb = 1 - fa =
Statistica I-a.a.2009/2010 - Prof. R. Paroli

Statistica I-a.a.2009/2010 - Prof. R. Paroli

212

- occorre definire una terza modalit c con frequenza unitaria (nc= 1) tale che soddisfi al vincolo della media costante, cio xini = a na + c 1 + b nb = n da cui

- la distribuzione di massima variabilit diventa

c = n - a n a b nb

xi a c b

ni na 1 nb n

N.B. c deve essere un valore tra a e b !!!!!!

Un qualunque indice di variabilit calcolato su questa tabella ne rappresenter il massimo


213
Statistica I-a.a.2009/2010 - Prof. R. Paroli

Statistica I-a.a.2009/2010 - Prof. R. Paroli

214

esempio: costruzione tabella di massima variabilit in [xmin;xmax]


xi 2.5 7.5 12.5 17.5 ni 7 3 5 5 20 xi^2ni 43.75 168.75 781.25 1531.25 2525

n=20 = 9.5

a=2.5 b=17.5

xi 2.5 7.5 17.5

ni 10 1 9 20

In questa tabella si verifica che - n invariato (20) - la media invariata (9.5)

b 17.59.5 = 20 = 10.666 10 b-a 17.5-2.5 nb = n - na= 20 10.666= 9.333 9 na = n c=20 9.5-2.5 10 17.5 9 = 7.5
Statistica I-a.a.2009/2010 - Prof. R. Paroli

La varianza calcolata su questa tabella la varianza massima nella classe [2.5;17.5]

215

Statistica I-a.a.2009/2010 - Prof. R. Paroli

216

Indici di variabilit normalizzati


CASO PARTICOLARE a=0 b=T

sostituendo nelle formule di na e nb si ottiene: na = n-1 nb = 1


Tabella di massima variabilit variabilit tra [0,T]

Come per lindice di mutabilit, la situazione massima ci permette di definire gli indici di variabilit normalizzati (compresi tra 0 e 1): varianza normalizzata:
N =
2

xi 0 T
Statistica I-a.a.2009/2010 - Prof. R. Paroli

ni n-1 1 n

2
max

217

Statistica I-a.a.2009/2010 - Prof. R. Paroli

218

Formula della varianza massima in [a,b]


OPERATIVAMENTE:

Data la distribuzione di max variabilit in [a,b]:


xi a b fi (b-)/(b-a) (-a)/(b-a) 1
calcolo la varianza applicando la formula operativa: Var(X)=M(X2)-2

come si calcola un indice di variabilit normalizzato???? 1. si calcola lindice assoluto sui dati osservati 2. si costruisce la situazione di massima variabilit 3. si calcola lindice su tale distribuzione 4. si fa il rapporto tra i due

max = [ =

a2(b-) b2(-a) + ]-2= (b-a) (b-a)

a2b-a2+b2-ab2-b2+a2 = (b-a) ab(a-b)-(a2-b2)+2(ab) = (b-a)

??? non esistono formule esplicite ????


Statistica I-a.a.2009/2010 - Prof. R. Paroli

219

Statistica I-a.a.2009/2010 - Prof. R. Paroli

220

= (a-b)

ab-(a+b)+2 = - (ab-a- b+2) = (b-a)

Nel caso di massima variabilit tra [0,T] la formula esplicita diventa:


2 = (T) = (n - ) = (n1) 2 max

= -[a(b-)-(b-)] = -[(a- )(b-)] = (-a )(b-)

2 max = (b)(a)

VARIANZA NORMALIZZATA
2 2 = N (b)(a) in [a;b]

Questa formula pu essere applicata direttamente quando non si costruisce la situazione di massima variabilit
Statistica I-a.a.2009/2010 - Prof. R. Paroli

2 2 = N (n1) 2
221
Statistica I-a.a.2009/2010 - Prof. R. Paroli

in [0;T]
222

esempio:
xi 2 4 6 8 10 ni 3 10 20 6 5 44 x i* n i 6 40 120 48 50 264

a=2 T = 264 =6

b = 10 2 =

esempio: confronto della variabilit normalizzando in [0,T]


xi 2.5 7.5 12.5 17.5 ni 7 3 5 5 20

4.363636

=9.5

2=36

2(X) = 0.02099

Norm. in [a;b]
2 2 4.363636 = = = 0.272727 N (b)(a) (106)(62)
yi 15 25 35

Norm. in [0;T]
2 2 4.363636 = = = 0.002819 N (441) 36 (n 1) 2
Statistica I-a.a.2009/2010 - Prof. R. Paroli

ni 5 4 11 20

=28

2=71

2(Y) = 0.00477 X presenta maggior variabilit variabilit


224

2(X) > 2(Y)


223
Statistica I-a.a.2009/2010 - Prof. R. Paroli

COEFFICIENTE DI VARIAZIONE
esempio: confronto della variabilit

- utile per confronti ma non normalizzato (non compreso tra 0 e 1) - numero puro che non dipende dallunit di misura delle modalit CV= s.q.m./media = / N.B. il CV sempre 0!!!
Statistica I-a.a.2009/2010 - Prof. R. Paroli

xi 2.5 7.5 12.5 17.5

ni 7 3 5 5 20

=9.5 cv(X)= 0.6315

2=36

yi 15 25 35

ni 5 4 11 20

=28 cv(Y)= 0.3009

2=71

cv(X)>cv(Y)
225
Statistica I-a.a.2009/2010 - Prof. R. Paroli

X presenta maggior variabilit variabilit


226

Grafici BOXPLOT

(o BOX&WHISKERS)
500

GRAFICO RIASSUNTIVO DEI MAGGIORI INDICI DESCRITTIVI UNIVARIATI CHE CONSENTE CONFRONTI VISIVI TRA DIVERSE VARIABILI Per ogni variabile vengono rappresentate:
- mediana (Q2) - I e III quartile (Q1 e Q3) - Differenza interquartile H = Q3 Q1 - minimo e massimo

400

Il BOX la scatola rossa.


300

Q3

BOX

200

Q2
100

E delimitata da Q1 e Q3 mentre la linea nera al suo interno indica la mediana Q2. Tra Q3 e Q1 si trova il 50% delle unit statistiche.

Q1

-100
N= 406

Cilindrata in cc

Statistica I-a.a.2009/2010 - Prof. R. Paroli

227

Statistica I-a.a.2009/2010 - Prof. R. Paroli

228

300

xmax
500

W H I S K E R S

Q3 + 1.5(Q3Q1) o
400

xmax

200

124 9 20 103 7 8 32 102

Q3 + 1.5(Q3Q1)

300

Q3

Valori anomali
200

Q2
100

(outliers)

100

Q1

Q1 1.5(Q3Q1) o
406

xmin
0
N= 400

-100
N=

Potenza (CV)

Cilindrata in cc

Statistica I-a.a.2009/2010 - Prof. R. Paroli

229

Statistica I-a.a.2009/2010 - Prof. R. Paroli

230

ESEMPIO
La seguente tabella riporta la distribuzione delle et degli operai di 3 reparti di unazienda

Max = 58 = Valore anomalo

Box - plot a confronto


60

1 40 44 28 26 58 22 19 25 28 21 22

2 21 23 26 19 22 30 18 42 47 18 49

3 20 22 50 41 33 19 22 44 46 19 42

Q1 min Q2 max Q3 Q1-1.5(Q3-Q1) Q3+1.5(Q3-Q1)

1 22 19 26 58 34 4 52

2 20 18 23 49 36 -4 60

3 21 19 33 50 43 -12 76

Q3+1.5(Q3-Q1) = 52

50 40 30 20 10 0 1 2 3 Q1 min Q2 max Q3

Statistica I-a.a.2009/2010 - Prof. R. Paroli

231

Statistica I-a.a.2009/2010 - Prof. R. Paroli

232

MOMENTI DI UNA V.S.


Indici riassuntivi di una variabile statistica

FORMA DI UNA DISTRIBUZIONE DI FREQUENZA

MOMENTI CENTRALI (o DALLA MEDIA) DI ORDINE s1 (x )s f = M(X )s =


s

MOMENTI DALLORIGINE DI ORDINE s1 s = M(Xs) = xis fi

Statistica I a.a. 2009/2010


Statistica I-a.a.2009/2010 - Prof. R. Paroli

233

Statistica I-a.a.2009/2010 - Prof. R. Paroli

234

SIMMETRIA
Casi particolari s= 1 - 1 = M (X X)1 = 0 1 = M(X 1) = M(X) s= 2 - 2 = M (X X)2 2 = M(X ) s = 3 s = 4
Statistica I-a.a.2009/2010 - Prof. R. Paroli

Una v.s. simmetrica rispetto ad un centro c se:


(I propr. media) media aritmetica

- per ogni xi = c k - esiste un xj = c + k (simmetrico) con stessa frequenza: f(xi) = f(xj)


8

varianza

1 0
N= 23

235

Statistica I-a.a.2009/2010 - Prof. R. Paroli

236

PROPRIETA di una v.s. simmetrica unimodale MODA = MEDIA = MEDIANA = c I MOMENTI DALLA MEDIA DI ORDINE DISPARI SONO NULLI
infatti, per la simmetria, gli scarti dalla media (centro) sono a due a due uguali in valore ma opposti in segno e con stessa frequenza medie di ordine dispari sono nulle

ASIMMETRIA POSITIVA (a sinistra)

Me

curva obliqua a sinistra

Mo < Me <

Statistica I-a.a.2009/2010 - Prof. R. Paroli

237

Statistica I-a.a.2009/2010 - Prof. R. Paroli

238

Con il box-plot ASIMMETRIA NEGATIVA (a destra)

Me
1 0
N= 23

curva obliqua a destra


X

<Me < Mo

Statistica I-a.a.2009/2010 - Prof. R. Paroli

239

Statistica I-a.a.2009/2010 - Prof. R. Paroli

240

Con il box-plot
8

Indici di simmetria o asimmetria


Indice di FISHER o di SKEWNESS (pi comunemente usato)

1 =

M[(X )3] = 3 3 3
1 > 0 1 < 0 1 = 0

1 0
N= 23

se asimmetria sinistra se asimmetria destra se simmetria


X

NB
241

( = 0 ) solo sintomo di simmetria !!


242

Statistica I-a.a.2009/2010 - Prof. R. Paroli

Statistica I-a.a.2009/2010 - Prof. R. Paroli

esempio:
xi 5 10 15 20 25 ni 2 4 6 4 2 Ni 2 6 12 16 18 xi*ni 10 40 90 80 50 270 (xi) -10 -5 0 5 10 (xi) *ni (xi) *ni 200 -2000 100 -500 0 0 100 500 200 2000 600 0
2 3
8 6 4 2 0 0 5 10 15 x 20 25 30 ni

esempio:
xi 5 10 15 20 25 ni 2 10 8 6 5 Ni 2 12 20 26 31 xi*ni 10 100 120 120 125 475 (xi) -10.32258 -5.322581 -0.322581 4.677419 9.677419 (xi)2*ni 213.1113 283.2986 0.832466 131.2695 468.2622 1096.774 (xi)3*ni -2199.859 -1507.88 -0.268537 614.0026 4531.57 1437.565
12 10 8 6 4 2 0 0 5 10 15 x 20 25 30

Moda = 15

Mediana = 15

Moda = 10

Mediana = 15

= 2 =

15 33.333

3= 1=

0 0
243

= 15.323 2 = 35.38

3= 1=

46.37307 0.22036

Moda<Mediana<

ni

Statistica I-a.a.2009/2010 - Prof. R. Paroli

Statistica I-a.a.2009/2010 - Prof. R. Paroli

244

ECCO I BOX PLOT DEGLI ULTIMI 2 ESEMPI: TROVA LE DIFFERENZE


Box - plot a confronto
30 25 Q1 20 15 10 5 0 1
Statistica I-a.a.2009/2010 - Prof. R. Paroli

min Q2 media max Q3

245