Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
STATISTICA
Laurea magistrale in Matematica
Facolt di Scienze Matematiche, Fisiche e Naturali
Universit di Ferrara
Anno accademico 2010-11
PARTE PRIMA
Statistica Descrittiva
0.
Premessa
Umberto Magagnoli
Umberto Magagnoli
1.
Costruzioni di modelli
Indagini campionarie
Programmazione degli esperimenti
Inferenza sulle leggi di distribuzione
Stime parametriche e non parametriche
Verifica dipotesi e decisioni, ecc.
Umberto Magagnoli
Umberto Magagnoli
Umberto Magagnoli
10
Fenomeni ripetitivi
UNITA SPERIMENTALE
Supporto materiale
del fenomeno
CARATTERE
Propriet oggetto di
studio
RILEVAZIONE delle
MODALITA
Propriet oggetto di
studio
STATISTICA
SPOGLIO e ORGANIZZAZIONE
dei DATI
ELABORAZIONI
SINTESI DATI E GRAFICI
DESCIZIONI
MODELLO
INTERPRETAZIONE del FENOMENO
INFERENZA
STIMA e VERIFICA di IPOTESI
Umberto Magagnoli
11
2.
La Statistica Descrittiva
di
: popolazione
e la
dove
il valore assunto dal carattere
in concomitanza con la kma unit statistica e, analogamente,
, per il carattere , ecc..
Umberto Magagnoli
12
n
Valori rilevati del
carattere
Umberto Magagnoli
13
Qualitativo
Quantitativo
In relazione alla natura delle operazioni logico-matematiche eseguibili
su tali tipi di modalit dei caratteri si possono distinguere in:
Modalit qualitative sconnesse che sono misurate su scala
nominale.
Modalit qualitative ordinate che sono misurate su scala
ordinale.
Modalit quantitative misurate su scala di intervalli. Il valore
zero convenzionale, es.: nel caso di valori di temperature in
gradi centigradi. Per tali grandezze non ha senso valutare
incrementi in forma percentuale.
Modalit quantitative misurate su scala di rapporti. Il valore
zero oggettivo ed esprime la mancanza di entit, es.: il caso
di valori di lunghezze, pesi, velocit, ecc.. Le modalit sono
definite tutte positive o tutte negative. Per tali grandezze ha
senso valutare incrementi in forma percentuale.
Per quanto riguarda la cardinalit potenziale, i caratteri quantitativi
si distinguono in:
Discreti, costituiti da valori distinti numerabili finiti o da una
infinit numerabile.
Continui, costituiti da valori appartenenti a una classe con
potenza del continuo.
Umberto Magagnoli
14
Distanza. Se e
pu verificarsi che:
Se
Umberto Magagnoli
15
Esempio 1.
E
E
C
L
C
C
E
L
L
E
C
C
L
L
C
L
C
C
L
E
1
2
3
4
2
4
1
3
5
2
2
4
3
6
2
4
1
3
4
2
12
10
14
17
26
15
16
5
28
23
16
20
18
34
19
25
7
18
22
8
Umberto Magagnoli
16
Osservazioni
La matrice dei dati spesso costituita da colonne pi numerose,
rispetto a quelle dellesempio 1, in quanto i caratteri da tenere in
considerazione e comunque rilevati comprendono aspetti di cui si vuol
verificare linfluenza su quelli scelti specificatamente per lindagine
oggetto di interesse, questo avviene in particolare in inchieste e studi
demoscopici. Lanalisi dei dati si svolge, in un primo tempo,
studiando i dati relativi a ogni singolo carattere (per colonna) e, in
secondo luogo, esaminando le relazioni tra due caratteri per volta e poi
estendendo lo studio a pi caratteri considerati congiuntamente.
Nella presentazione degli argomenti dedicati alla statistica descrittiva
si seguir
una sequenza, presentando lanalisi dei caratteri
unidimensionali, indi lanalisi bidimensionale e terminando con
alcuni cenni allo studio multivariato.
3.
Esempio 2
Umberto Magagnoli
17
: numero
oppure
dove
loperatore di conteggio delle unit della popolazione
oggetto di studio che rispettano la condizione posta in argomento.
Umberto Magagnoli
18
Le numerosit
sono dette frequenze semplici assolute e sono
numeri interi non negativi tali che:
con
Esempio 3
Riprendendo i dati dellesempio 1, relativi, al carattere
: tipo di
appartamento, in cui le modalit distinte sono solo tre abbiamo la
tabella
Economico
Civile
Lusso
Umberto Magagnoli
5
8
7
20
0,25
0,40
0,35
1,00
19
Esempio 4
Per i dati dellesempio 1, relativi al carattere
: numero locali
dellappartamento con modalit quantitative di tipo discreto, si ottiene
una tabella analoga alla precedente ma dato lordinamento naturale
evidenzia il modo di distribuirsi dei dati ed detta tabella di
seriazione o di distribuzione. In situazioni analoghe utile introdurre
anche le frequenze cumulate assolute
e quelle relative , definite
come:
con
con
1
2
3
4
5
6
Umberto Magagnoli
3
6
4
5
1
1
20
0,15
0,30
0,20
0,25
0,05
0,05
1,00
3
9
13
18
19
20
0,15
0,45
0,65
0,90
0,95
1,00
20
Scelta di
con
Umberto Magagnoli
21
con
possibile definire
;
con
o Densit relative:
con
con
e
. Si osservi che
indica la
numerosit di osservazioni con valori inferiori o uguali
allestremo superiore dellintervallo .
o Frequenze cumulate relative
Umberto Magagnoli
22
con
Esempio 5
Come esempio si pu considerare il caso del carattere : consumo
energetico di metano nel trimestre scorso, in
, presentato
nellesempio 1. Scelti i valori di
, si ha:
0,20
10
0,4
0,020
0,20
10
0,50
10
1,0
0,050
14
0,70
15
0,25
10
0,5
0,015
19
0,95
25
0,05
10
0,1
0,005
20
1,00
35
20
1,00
23
Osservazioni
Per una variabile statistica , con modalit di tipo discreto, pu
convenire rappresentare la distribuzione dei dati in forma di seriazione
per classi di intervallo
invece che in termini delle modalit
discrete originarie. Si ricorre a ci quando il numero delle modalit
originarie molto grande. Si sceglie un numero nuovo di intervalli
, e si scelgono gli estremi degli intervalli
come
per i caratteri di tipo continuo:
x
d
Umberto Magagnoli
24
4.
Rappresentazioni grafiche
Umberto Magagnoli
25
a.
b.
d.
c.
e.
f.
26
Modello teorico
1,0
0,5
Umberto Magagnoli
27
5.
Umberto Magagnoli
28
, con
per
,
; oppure
, in
6.
Umberto Magagnoli
29
7.
Umberto Magagnoli
30
8.
Lindice di posizione
di una variabile statistica , dovendo
rappresentare i valori osservati, deve essere un numero compreso tra il
valore minimo e quello massimo, estremi inclusi:
dove
Umberto Magagnoli
, dove
31
tale
propriet
valida
si ha
allora
per
in cui largomento
costituito
da componenti scambiabili cio tali che hanno rilevanza solo i
valori osservati non lordine con cui si manifestano, in quanto la
permutazione degli stessi origina un identico valore per
9.
La media aritmetica
32
dove
indica le modalit distinte nella situazione di dati per valori
discreti o i valori centrali nella situazione mediante classi di intervallo.
Osservazioni
Spesso al posto del simbolo
vengono utilizzati: il simbolo ,
se lanalisi estesa allintero universo del fenomeno allo studio,
il simbolo , se lanalisi riguarda dati campionari.
Se tutte le osservazioni sono identiche come valore, allora la
variabile oggetto di interesse detta degenere, ne consegue
che tutti gli indici di posizione compresa la media aritmetica
coincidono con lunico valore in comune
Nella situazione in cui nel calcolo di un indice di posizione, in
particolare del calcolo della media aritmetica, si utilizzano i
valori centrali delle classi di intervallo si ottiene un valore
approssimato rispetto a quello direttamente ottenibile dalla
successione dei valori
o
.
In molti fenomeni fisici ed economici (es.: quantit di sostanze
inquinanti, reddito personale, costi di materiali, ecc.) la
grandezza complessiva del fenomeno, data dalla domma dei
valori osservati, ha un suo significato ed detta intensit totale
:
Umberto Magagnoli
33
da cui
, con
e quindi
Umberto Magagnoli
34
sono
,
entrambi i membri:
Umberto Magagnoli
35
loperatore lineare
si ha
da cui:
Umberto Magagnoli
36
9
8
7
6
5
4
3
2
1
da cui si ottiene
Umberto Magagnoli
37
La media aritmetica
risulta pari a
3
353/20
m , come indicato nella tabella seguente in cui
vengono evidenziati anche i valori degli scarti dalla media aritmetica
, la cui somma nulla. Ordinando in ordine crescente i
valori in tabella
vengono evidenziati il valor minimo
e il
valor massimo
potendosi verificare che
.
k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Umberto Magagnoli
12 -5,65
10 -7,65
14 -3,65
17 -0,65
26
8,35
15 -2,65
16 -1,65
5 -12,65
28 10,35
23
5,35
16 -1,65
20
2,35
18
0,35
34 16,35
19
1,35
5 -12,65
7 -10,65
8 -9,65
10 -7,65
12 -5,65
14 -3,65
15 -2,65
16 -1,65
16 -1,65
17 -0,65
18
0,35
18
0,35
19
1,35
20
2,35
22
4,35
38
16
17
18
19
20
25
7,35
7 -10,65
18
0,35
22
4,35
8 -9,65
353
0
23
25
26
28
34
353
5,35
7,35
8,35
10,35
16,35
0
Esempio 7
Per lo stesso fenomeno, considerato in precedenza, si esegua il calcolo
della media aritmetica sulla base dei dati raccolti in seriazione, come
riportato nellesempio 5.
Considerando le frequenze assolute
pari a
5
15
25
35
4
10
5
1
20
150
125
35
0,20
0,50
0,25
0,05
1
7,5
6,25
1,75
20
330
1,00
16,5
-11,5
-1,5
8,5
18,5
-2,3
-0,75
2,125
0,925
0
Esempio 8
Si consideri la tabella di seriazione riguardante il fenomeno, a caratteri
discreti, presentato nellesempio 4.
Umberto Magagnoli
39
1
2
3
4
5
6
3
6
4
5
1
1
20
0,15
0,30
0,20
0,25
0,05
0,05
1,00
3
12
12
20
5
6
58
0,15
0,60
0,60
1,00
0,25
0,30
2,90
40
Il logaritmo di
risulta definito come media aritmetica della
variabile
e quindi dei suoi valori:
Umberto Magagnoli
41
Esempio 9
Si riprendano i dati dellesempio 8 e si determinino la media
quadratica e geometrica oltre alla gi mota media aritmetica
.
0,15
0,15
0,0000
0,0000
0,15
0,30
0,60
0,6931
0,2079
1,20
0,20
0,60
1,0986
0,2197
1,80
0,25
1,00
1,3863
0,3466
16
4,00
0,05
0,25
1,6094
0,0805
25
1,25
0,05
0,30
1,7918
0,0896
36
1,80
2,90
0,9443
10,20
Umberto Magagnoli
42
Quindi
valori
la media aritmetica di
Essendo inoltre:
Umberto Magagnoli
43
Osservazione
Per variabili statistiche
viene costruita una classe di indici di
posizione analitici detti medie potenziate, ad esse appartengono le
medie analitiche considerate finora, definite nel modo seguente.
Media potenziata di ordine r
per
Si dimostra che:
Inoltre per
quadratica e per
la media
Umberto Magagnoli
44
Al variare di r, la funzione
monotona crescente tendendo
asintoticamente a
per
e a
per
, come
evidenziato dal grafico sottostante.
detta media
45
e con
nel
Osservazione
Il valore modale pu non essere unico, si hanno infatti variabili
statistiche: bimodali, trimodali, ecc. o amodali. Si vedano gli esempi
sotto riportati riguardanti variabili discrete, con frequenze assolute.
Umberto Magagnoli
46
Esempio 10
1
2
3
4
5
6
7
6
9
12
9
3
0
1
40
5
10
15
20
25
30
2
9
6
9
5
1
32
10
20
30
40
50
15
15
15
15
15
75
Umberto Magagnoli
47
1
2
3
4
2
4
5
1
12
Pur essendo
1
2
3
4
2
4
3
3
12
abbiamo
Umberto Magagnoli
, (dispari), allora
48
2 3
8 9
10
11
se
, (pari), allora esistono due unit centrali, con valori
differenti o coincidenti
e
e come
mediana pu considerarsi
2 3
7 8
10
Come spesso accade nei casi concreti nellanalisi dei dati statistici la
numerosit elevata e le osservazioni di
sono raccolte in una
tabella per classi di intervallo, pertanto opportuno determinare la
mediana come il valore che separa i dati in due gruppi successivi di
frequenza relativa pari a 0,5 (50%), determinando dal grafico delle
frequenze cumulate:
mediante la condizione:
Per tale motivo la mediana detta anche valore 50% e indicata con
.
Umberto Magagnoli
49
poi la mediana:
50
si ha
Si ha
essendo
osservati.
Umberto Magagnoli
51
La condizione di minimo di
si verifica per ogni valore
compreso tra
e
, estremi inclusi:
e il valore di minimo risulta pari a
.
Se
, si pu generalizzare il risultato precedente riordinando gli
scarti dellespressione:
Umberto Magagnoli
52
(k)
(1)
Se
(2)
(3)
(4)
(5)
(6)
(k)
(1)
(2)
(3)
(4)
(5)
(6)
(7)
Umberto Magagnoli
53
Umberto Magagnoli
54
Esempio 12
Si considerino i seguenti dati relativi agli stipendi mensili di 220
dipendenti di una azienda (in ) raccolti per classi di intervallo.
1
2
3
4
5
0 750
750 1000
1000 1300
1300 1500
1500 3000
50
75
60
20
15
220
50
125
185
205
220
0,2273
0,3409
0,2727
0,0909
0,0682
1,0000
0,2273
0,5682
0,8409
0,9318
1,0000
Valore mediano
Intervallo 90 percentile
90 percentile
55
per
da .
Umberto Magagnoli
e dove
lo scarto o scostamento di
56
e il valor medio:
in modo da minimizzare
Umberto Magagnoli
57
Considerando
si ha
- se
,
dipende da ;
- se
(con
valore dipendente da
Il valore che minimizza
quello che rende massima la
frequenza cio il valore modale , infatti:
2. Funzione lineare
Sia
Umberto Magagnoli
con
58
Per minimizzare
occorre minimizzare
la somma o la media dei valori assoluti degli scarti e questa una
tipica propriet della mediana della variabile X.
3. Funzione quadratica
Sia
con
Occorre
minimizzare
ovvero
minimizzare la media o la somma dei quadrati degli scarti e questa
Umberto Magagnoli
59
una propriet
variabile X.
della
Se
una funzione invertibile si ottiene la media obiettivo
come funzione dei valori
La funzione
ha la struttura di un indice di posizione e deve
rispettare la condizione propria di tali indici ossia la propriet di
Cauchy:
.
17. Principali tipi di medie obiettivo
Si distinguono due tipi di strutture di funzioni obiettivo, che rispettano
la scambiabilit tra i dati: a) di natura additiva; b) di natura
moltiplicativa.
Umberto Magagnoli
60
a) Struttura additiva
Sia
allora
Se, ad esempio,
Umberto Magagnoli
, con
e se
, allora
61
b) Struttura moltiplicativa
Sia
allora
e se
Se
allora
ne consegue che
Umberto Magagnoli
62
Umberto Magagnoli
63
da cui si ottiene
da cui si ottiene
Umberto Magagnoli
64
Umberto Magagnoli
65
identicamente nullo:
.
Umberto Magagnoli
66
disponendo di
si impiega o
) valori.
Umberto Magagnoli
67
sia
si
Umberto Magagnoli
68
.
, le cui propriet
.
-1,95
3,8025
22,815
15
18
-0,95
0,9025
8,1225
36
12
27
36
0,05
0,0025
0,0300
108
36
36
1,05
1,1025
9,9225
16
144
39
15
2,05
4,2025
12,6075
25
75
40
4,05
16,4025
16,4025
49
49
40
118
69,9000
418
oppure
Umberto Magagnoli
69
dove
il 1 quartile e
il 3 quartile della variabile
X, oggetto di studio.
in particolare pari a zero se la
degenere. In
, per definizione, contenuto il 50% dei
dati osservati pi centrali.
La differenza media assoluta di ordine
Umberto Magagnoli
70
10
12
19
11
11
10
11
15
12
23
90
si ottiene
Umberto Magagnoli
71
con
conseguentemente:
risultando
Umberto Magagnoli
72
Umberto Magagnoli
73
Esprimendo la variabile regressa Y come
che evidenzia le due componenti: strutturale e casuale, si ha
Umberto Magagnoli
74
Essendo
un operatore lineare e la funzione
continua e
derivabile rispetto ai parametri, la condizione di minimo soddisfatta
dalluguaglianza a zero delle derivate parziali di
rispetto ai
parametri
per
Gli elementi della matrice dei coefficienti e del vettore dei termini noti
fanno parte della classe dei momenti (dallorigine) della variabile
bidimensionale
, si veda per maggiori dettagli il Paragrafo 25.
Umberto Magagnoli
75
Per quanto riguarda la scelta del grado r del polinomio per motivi
legati alla parsimonia scientifica sar un valore possibilmente
piccolo e certamente
.
Il sistema lineare di equazioni simultanee (equazioni normali) si
presenta come:
valori
della
componente
accidentale
.
La media aritmetica di
zero:
.
76
Esempio 16
Si consideri,
Per
Si ha:
(valore costante)
Per
Umberto Magagnoli
77
Si ha:
(funzione rettilinea)
(funzione parabolica)
78
Esempio 17
Si considerino le seguenti 20 rilevazioni riguardanti lo studio
dellintensit di capo magnetico (Y) al variare della corrente elettrica
(X) in un solenoide, ottenute in un laboratorio. Si desideri determinare
il legame funzionale tra le due grandezze considerando modelli
polinomiali di grado
.
k
1
1,93
4,437
3,915
0,46
0,529
2,094
2,158
1,79
4,213
3,957
1,05
1,193 3,219
3,365
3,026
3,440
1,05
1,220 3,574
3,756
3,036
3,449
1,48
4,852 5,460
8,103
3,724
3,895
1,82
4,262
3,952
1,51
3,772
3,911
0,32
0,011 0,418
0,135
1,878
1,749
10
1,05
1,194 3,880
4,055
3,027
3,440
11
0,09
0,000 0,074
0,006
1,500
0,939
12
0,97
0,889 3,354
3,257
2,909
3,320
13
0,29
0,007 0,614
0,179
1,828
1,650
14
0,33
0,012 0,676
0,222
1,888
1,769
15
0,27
0,005 0,408
0,110
1,794
1,580
16
1,85
4,312
3,944
17
0,35
0,015 0,477
0,168
1,923
1,839
18
1,37
3,539 4,896
6,715
3,545
3,820
19
0,82
0,461 2,585
2,130
2,675
3,047
n=20
1,57
6,126 5,681
8,938
3,866
3,935
/n
0,044 1,152
3,595 3,631
Umberto Magagnoli
5,316
79
Per
Si ha:
Per
Per
Umberto Magagnoli
80
fa
dei valori
Umberto Magagnoli
81
Umberto Magagnoli
82
che
.
83
da cui si ottiene
(*)
e sostituendo nellespressione da minimizzare abbiamo
Umberto Magagnoli
84
Derivando
equazioni in
rispetto
incognite:
(**)
La matrice dei coefficienti data da medie di potenze degli scarti
di
e , ossia
Umberto Magagnoli
85
Gli elementi della matrice dei coefficienti e del vettore dei termini noti
fanno parte della classe dei momenti (centrali, cio calcolati rispetto
al valor medio) della variabile tridimensionale
. Si osservi
che loperatore covarianza assume valori positivi, nulli e negativi;
inoltre, si dimostra, ad esempio, che:
Umberto Magagnoli
86
e
, si ha
dove
dato da (**).
Umberto Magagnoli
87
Esercizio 18
Si voglia determinare un modello di regressione lineare che esprima la
grandezza prodotto interno lordo (PIL) degli USA (in milioni di $)
sulla base delle seguenti grandezze:
-
51
53
53
50
52
54
54
55
52
54
528
52,8
9
25
39
51
62
75
94
108
118
124
705
70,5
209
214
225
221
243
257
265
276
271
291
2472
247,2
2601
2809
2809
2500
2704
2916
2916
3025
2704
2916
27900
2790
2,16
81
625
1521
2601
3844
5625
8836
11664
13924
15376
64097
6409,7
1439,45
43681
45796
50625
48841
59049
66049
70225
76176
73441
84681
618564
61856,4
748,56
459
1325
2067
2550
3224
4050
5076
5940
6136
6696
37523
3752,3
29,90
10659
11342
11925
11050
12636
13878
14310
15180
14092
15714
130786
13078,6
26,44
1881
5350
8775
11271
15066
19275
24910
29808
31978
36084
184398
18439,8
1012,20
Umberto Magagnoli
88
;
.
, i cui parametri risultano sono la
25. I momenti di
bidimensionali
variabili
statistiche
unidimensionali
per
asse reale.
Umberto Magagnoli
89
90
Osservazioni
Se
(oppure,
si ottengono i momenti corrispondenti
della sola componente Y (oppure, X), quindi, ad es.,
,
.
I momenti con sia
sia
, denominati momenti misti,
sono quelli che evidenziano caratteristiche congiunte delle
variabili componenti e presentano un interesse specifico nello
studio multivariato.
Come per i momenti di variabili unidimensionali risultano pi
importanti o maggiormente rappresentativi del fenomeno
bivariato quelli di ordine complessivo
minori.
Per
Umberto Magagnoli
91
Per
Umberto Magagnoli
92
, dalla definizione
Umberto Magagnoli
93
con
essendo
media aritmetica.
Umberto Magagnoli
le
,
radici
94
da cui
Il rapporto
detto coefficiente di correlazione
di Bravais-Pearson e misura, in forma standardizzata il legame
lineare tra le due variabili X e Y, e viene indicato con
Umberto Magagnoli
95
presenta un
da cui
La covarianza
risulta:
Umberto Magagnoli
risulta:
96
Le rette di regressione
La covarianza e il coefficiente di correlazione lineare giocano un ruolo
importante nello studio del legame lineare dato dalle due rette di
regressione
e
, in cui i parametri
sono determinati mediante il criterio di accostamento dei minimi
quadrati.
Nel caso della prima retta, dal sistema di equazioni normali abbiamo
Umberto Magagnoli
97
Essendo
risulta
Umberto Magagnoli
98
valida la relazione:
Umberto Magagnoli
99
Umberto Magagnoli
100
Umberto Magagnoli
101
Riferimenti bibliografici
Di Ciaccio A., Borra S., (1996) Introduzione alla Statistica
Descrittiva, McGraw-Hill Italia, Milano.
Landenna G., (1994) Fondamenti di Statistica Descrittiva, il Mulino,
Bologna.
Leti G., (1983) Statistica Descrittiva, il Mulino, Bologna.
Umberto Magagnoli
102
descrittiva.
Una
Sommario
0.
Premessa ...................................................................................................... 1
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
Umberto Magagnoli
...................... 29
103
18.
19.
20.
21.
22.
26.
27.
Umberto Magagnoli
104