Sei sulla pagina 1di 141

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Luigi Bollani

Luca Bottacin

Appunti di
statistica
descrittiva
ad uso del Corso di Statistica

Marzo 2013

1
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

Contenuti

1.

Primi elementi ...............................4

1. Introduzione .........................................4
1. Il metodo statistico ................................4
2. Aree di interesse della statistica ..................4
3. Fasi dellindagine statistica .......................5
4. Fonti dei dati ......................................7
5. Serie e distribuzioni ...............................8
6. Rapporti statistici ................................10
7. Cenni storici sulla statistica .....................17
2. Caratteri, modalit e frequenze .....................20
8. Tipologie di carattere .............................20
9. Frequenze semplici .................................22
10. Frequenze cumulate ................................24
11. Grafici di distribuzioni di frequenza .............27
12. Frequenze congiunte ...............................33

2.

Misure di un carattere statistico ...........39

3. Misure di posizione .................................39


13. Media aritmetica ..................................39
14. Mediana e quantili ................................46
15. Moda (o norma) ....................................55
4. Misure di
16. Misure
17. Misure
18. Misure

variabilit ...............................57
di variabilit .............................58
di dispersione .............................61
di concentrazione ..........................66

5. Misure di forma .....................................71


19. Asimmetria ........................................71
20. Disuguaglianza di Thcebyceff ......................73

3.

Studio congiunto di due caratteri statistici 76

6. Metodi per la perequazione ..........................76


21. Retta dei minimi quadrati .........................81
22. Covarianza e correlazione .........................87
23. Parabola dei minimi quadrati ......................97
7. Studio della connessione ...........................103
24. Tabelle di contingenza ...........................106
25. Tabelle di tipo misto ............................114
26. Tabelle di correlazione ..........................118

4.

Analisi di una serie di tempo ............. 125


27.
28.

Movimenti di una serie di tempo ..................125


Tassi di incremento ..............................129
2

StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

29.

Appunti di statistica descrittiva

Analisi delle componenti di una serie di tempo ...130

3
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

1. Primi elementi

1.

Introduzione

1. Il metodo statistico
La statistica studia i fenomeni collettivi, fenomeni che
possono essere osservati o posseduti da una pluralit di
individui presso i quali si manifestano con differenti
modalit o intensit. La finalit di studio di un fenomeno
collettivo raggiunta osservando con metodo scientifico i
singoli individui che costituiscono la popolazione di
riferimento in cui il fenomeno si manifesta. I metodi di
analisi,
essenzialmente
di
tipo
quantitativo,
sono
impiegati per sintetizzare i dati rilevati, scoprire
regolarit statistiche e descrivere relazioni.
La statistica

descrittiva
quando si
rilevano
le
caratteristiche di un fenomeno collettivo desumendole
dallosservazione di tutte le unit della popolazione;
inferenziale quando si analizzano le caratteristiche di un
fenomeno collettivo osservando un campione di unit
selezionate allo scopo. Sulla base dei risultati di questa
analisi, mediante il calcolo delle probabilit si possono
formulare delle ipotesi sulle caratteristiche del fenomeno
nel suo complesso.
2. Aree di interesse della statistica
La statistica metodologica linsieme delle possibili
metodologie
utilizzate
nello
studio
dei
fenomeni
collettivi. La statistica applicata linsieme delle
applicazioni delle metodologie di analisi allo studio dei
diversi fenomeni sociali, economici e demografici oggetto
di indagine. Nellambito della statistica applicata sono
presenti numerosi campi di indagine:
Statistica sociale: si occupa della formulazione di metodi
statistici per le scienze del sociale, affrontando le
problematiche che riguardano ad esempio la progettazione e
la gestione dei sondaggi di opinione, la programmazione e
la valutazione dei servizi sociali e sanitari e, pi in
generale, lanalisi dei comportamenti della collettivit.

4
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

Statistica economica: si occupa di sviluppare analisi


quantitative legate a temi tipici della macroeconomia.
Sulla base dei dati forniti della contabilit nazionale e
dai maggiori istituti di ricerca pubblici privati, consente
di
formulare
previsioni
sullandamento
delleconomia,
verificando limpatto delle decisioni e, pi in generale,
delle scelte politiche del governo sul sistema economico.
Statistica aziendale: si occupa della realt aziendale,
fornendo analisi ottenute elaborando sia dati di fonte
interna
contabile
o
gestionale,
sia
dati
attinti
dallambiente sociale ed economico in cui lazienda opera.
I temi tipici di questa disciplina sono le ricerche di
mercato,
il
controllo
statistico
della
qualit
dei
prodotti, la statistica per il management, la statistica
per l'auditing1 e, in campo attuariale, la statistica per le
compagnie di assicurazione.
Statistica sanitaria: si occupa di formulare metodi
statistici legati alla sperimentazione clinica. L'ambiente
di riferimento naturalmente quello medico, ma le analisi
si estendono al contesto sociale e lavorativo per quanto
riguarda lo studio della prevenzione delle malattie, le
analisi sullo stato di salute della popolazione, la
verifica dei livelli di inquinamento e, pi in generale, la
tutela dell'ambiente.
Demografia: studia la popolazione umana al fine di metterne
in luce le caratteristiche strutturali e ne descrive la
distribuzione geografica e levoluzione nel corso del
tempo. La demografia impiega t specifiche per lo sviluppo
di statistiche sulla popolazione e questa peculiarit la
rende una disciplina fortemente autonoma e caratterizzata
da propri metodi di analisi.
3. Fasi dellindagine statistica
Lindagine statistica un processo che si articola nelle
fasi seguenti:
Definizione degli obiettivi della ricerca: si individuano i
soggetti dello studio, definendo quali informazioni si
intendono ottenere e con quali modalit tecniche. Le
indagini possono essere estese ad una collettivit di
individui, oppure concentrarsi su di un campione di dati.
Formulazione delle ipotesi: l'ipotesi
provvisoria su una certa caratteristica
1

una spiegazione
di un fenomeno

Funzioni interne allazienda preposte al controllo ispettivo.

5
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

statistico. Lipotesi sar confermata oppure rigettata in


conseguenza degli esiti dellindagine che si intende
compiere.
Elaborazione del piano di ricerca: in questa fase si decide
come studiare le variabili che descrivono il fenomeno,
estendendo eventualmente lanalisi alle relazioni con altri
fenomeni collegati ed oggetto di interesse.
Raccolta
dei
dati:
si
procede
operativamente
alla
rilevazione dei dati. Si distingue tra rilevazione diretta
se il fenomeno osservato l dove nasce oppure indiretta
se sia desunto dallosservazione di altri fenomeni ad
esso
collegati.
La
rilevazione
diretta
garantisce
certamente una migliore affidabilit rispetto a quella
indiretta, ma pu risultare pi difficile da realizzare. La
rilevazione pu inoltre essere occasionale se riferita a un
certo istante o a una certa data, oppure periodica se tende
a ricercare landamento del fenomeno nel corso del tempo.
Spoglio dei dati: in questa fase si procede alla
classificazione dei dati raccolti, che possono presentarsi
sotto forma di schede, questionari, moduli o altro
supporto. Il materiale raccolto va esaminati per mettere in
luce eventuali omissioni o incongruenze e in seguito
immesso in un file per le successive elaborazioni.
Elaborazione dei dati: il processo prosegue con la
trasformazione dei dati in altri pi espressivi del
fenomeno studiato. In questa fase si calcolano rapporti, si
tracciano grafici e si realizzano tabelle descrittive degli
aspetti pi significativi di quanto emerso nel corso delle
elaborazioni.
Analisi dei dati e verifica delle ipotesi: sulla base dei
risultati finali si traggono le considerazioni utili per
confermare
oppure
rigettare
le
ipotesi
inizialmente
formulate.
Si riporta uno schema riassuntivo del processo descritto,
che si conclude con la conferma oppure con la rimozione
dellipotesi di partenza.

6
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

Le fasi del processo di elaborazione dei dati

4. Fonti dei dati


La raccolta, lanalisi e la diffusione dei dati statistici
sono da tempo ritenuti un indice di democrazia per ogni
paese del mondo e il patrimonio informativo statistico
nazionale ovunque considerato un bene da regolamentare e
tutelare per legge. In Italia, la Costituzione riconosce il
valore
dei
dati
statistici
come
patrimonio
della
collettivit
e
riserva
allo
Stato
il
compito
di
coordinamento dellinformazione statistica relativa ai dati
dellamministrazione statale, regionale e locale.
Sono da tempo fissati a livello internazionale i requisiti
necessari
per
raggiungere
la
necessaria
qualit
dellinformazione statistica prodotta dagli Stati. I dati
statistici devono essere completi, affidabili e accurati.
Gli enti incaricati di elaborare dati statistici ufficiali
devono possedere il necessario rigore metodologico al fine
di fornire informazioni rilevanti, coerenti e tempestive
sui fenomeni di interesse sociale.
Le fonti dei dati statistici possono essere di tre tipi:
Dirette: i dati sono rilevati direttamente da chi conduce
lindagine;
Secondarie: si utilizzano dati provenienti da altre fonti
dirette oppure indirette;
Indirette: i dati provengono da raccolte e pubblicazioni di
enti ed istituzioni pubbliche e private che mettono a
disposizione dati ed altro materiale con finalit di
informazione statistica.
Gli enti e le istituzioni che si occupano di fornire
informazioni a carattere statistico si distinguono in:
Enti ufficiali: preposti a tale funzione dalla normativa
vigente;
7
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

Enti privati: istituti di ricerca, aziende e fondazioni che


producono
in
modo
organizzato
dati
e
informazioni
statistiche di vario tipo.
Tra gli enti ufficiali lIstat e, pi di recente, il Sistan
sono tra le istituzioni italiane incaricate di elaborare,
conservare e divulgare i dati statistici sulla popolazione
e sul territorio. Il Sistema Statistico Nazionale (Sistan)
nasce con il decreto legislativo 322 del 6 settembre 1989,
ed costituito da una rete di soggetti pubblici e privati
incaricati di fornire linformazione statistica ufficiale
nel nostro Paese. Ne fanno parte lIstituto nazionale di
statistica
(Istat),
gli
uffici
di
statistica
delle
amministrazioni centrali dello Stato, gli uffici di
statistica di Regioni, Province, Comuni, Aziende Sanitarie
locali e Camere di Commercio e, infine, gli uffici di
statistica di soggetti privati che svolgono funzioni di
interesse pubblico.
Il Sistan coordina lattivit di rilevazione, elaborazione,
analisi, diffusione e archiviazione dei dati statistici
garantendo luso razionale delle risorse e dei flussi di
informazione statistica a livello sia locale sia centrale.
Controlla
che
linformazione
statistica
sia
qualitativamente e quantitativamente rispondente ai bisogni
del
Paese
e
che
sia
in
linea
con
gli
standard
internazionali di settore.
LIstituto nazionale di statistica (Istat) un ente di
ricerca pubblico nato nel 1926. Ha il compito di produrre e
diffondere informazioni capaci di descrivere le condizioni
sociali, economiche e ambientali del Paese e i cambiamenti
che lo hanno riguardato nel corso del tempo. Un aspetto
particolarmente
rilevante
della
sua
attivit

la
realizzazione dei censimenti decennali generali della
popolazione
e
abitazioni,
industria
e
servizi
e
agricoltura.
Allinterno del Sistan, lIstat si occupa di coordinare
lattivit di tutti gli enti incaricati della raccolta e
della pubblicazione di dati statistici a livello nazionale
e locale. Le pubblicazioni dellIstat riguardano oggi una
molteplicit di settori. Tra quelle a carattere generale si
citano in particolare le seguenti: Noi Italia, Italia in
Cifre, il Rapporto Annuale, lAnnuario Statistico Italiano
e il Compendio Statistico Italiano.
5. Serie e distribuzioni
Serie
Le informazioni raccolte in fase di rilevazione dei dati
sono sistemate in tabelle, che rappresentano la base di
8
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

partenza per le successive analisi. Una tabella contiene la


serie statistica delle osservazioni compiute.
Serie statistica. Una serie statistica linsieme di
coppie i,ai che rappresentano il risultato del processo
di osservazione di un fenomeno collettivo: il primo
elemento individua loggetto di esame, il secondo registra
il risultato dellosservazione compiuta.
Con riferimento alla tipologia di carattere osservato, le
serie si distinguono in serie (in senso stretto) se
riferite ad un carattere qualitativo, sconnesso oppure
ordinato;
seriazioni
se
riferite
ad
un
carattere
quantitativo, discreto o continuo. E una serie la tabella
che contiene le modalit di un carattere e il numero dei
casi (frequenza assoluta) osservati per ciascuna modalit.
E detta serie dei dati individuali la registrazione dei
risultati dellosservazione del collettivo statistico, in
cui
la
prima
informazione
rappresenta
il
soggetto
esaminato, la seconda la modalit del carattere rilevata
sul soggetto. E una seriazione la tabella in cui la prima
informazione lintensit del carattere osservato e la
seconda informazione un valore associato alle unit
statistiche raccolte per ciascuna modalit. Le serie si
distinguono in:
Serie di tempo: riportano
corrispondenza del tempo;

le

intensit

Serie di spazio: riportano le intensit


relazione ad una partizione di un territorio;

osservate

in

osservate

in

Serie di fatto: tutti gli altri casi.


Distribuzione
A seguito delle operazioni di spoglio si ottengono tabelle
in cui la prima informazione della serie costituita dalle
possibili modalit del carattere, la seconda dal numero
(frequenza) dei casi per ciascuna modalit. Rispetto al
tipo di fenomeno osservato, si distinguono le
Le seriazioni pi comuni riguardano tabelle in cui sono
riportate la frequenza oppure lammontare del carattere dei
casi riferiti a ciascuna intensit del carattere osservato.
Le seriazioni di frequenza o di quantit sono dette
distribuzioni:
Distribuzione. La distribuzione di frequenza del carattere
la serie i, ni che rappresenta linsieme costituito dalle
9
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

modalit del carattere i


quantit di carattere.

Appunti di statistica descrittiva

e dalla frequenza oppure dalla

Si distingue tra distribuzione di frequenza se riporta il


numero di casi ni associati ad ogni modalit del carattere e
distribuzione di quantit se
riporta la quantit di
carattere associata ad ogni rispettiva modalit.
La distinzione tra i diversi tipi di serie non sempre
facile. Ad esempio, una tabella che contiene un elenco di
capitali con il numero di abitanti di ciascuna capitale, da
un punto di vista formale pu essere classificata sia come
una serie di spazio, sia come una distribuzione di
frequenza. In casi come questi per risolvere lambiguit si
deve tenere presente lintento della ricerca. Nellesempio
proposto, la tabella contiene una serie di spazio se
interessa mettere in luce limportanza di ogni capitale
(unit statistica) rispetto alle altre. E invece una
distribuzione di frequenza se interessa sapere come gli
abitanti (unit statistiche) si distribuiscono rispetto
alla citt di residenza (modalit del carattere).
6. Rapporti statistici
I rapporti statistici pongono a confronto due fenomeni, uno
almeno dei quali di tipo statistico. Sono strumenti di
indagine di grande utilit per lindagine statistica, oltre
che di grande diffusione.
I rapporti statistici possono essere
tipologie. Si citano quelle principali:

raggruppati

in

Rapporti di composizione
Si confronta la numerosit di un sottoinsieme di soggetti
con la numerosit del collettivo a cui il sottoinsieme
appartiene.
Se

un
sottoinsieme
di
individui
n
appartenenti ad un collettivo di N elementi, il rapporto di
composizione vale n N . Se moltiplicato per 100, il
rapporto indica il numero di soggetti del sottoinsieme per
100 soggetti del collettivo.
Sono esempi di rapporti di composizione la percentuale di
polveri sottili nellaria, lincidenza del numero di
dirigenti sul totale dei dipendenti di una grande industria
e la percentuale di anziani di una citt.
Rapporti di coesistenza
Si confronta la numerosit ni di un primo insieme i con la
numerosit nk
di un secondo insieme k , sapendo che
10
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

entrambi sottoinsiemi appartengono allo stesso collettivo


di riferimento: ni nk . Se moltiplicato per 100, il
rapporto esprime quanti soggetti dellinsieme i esistono
per 100 soggetti dellinsieme k .
Ad esempio lindice di mascolinit relativa, dato dal
rapporto tra il numero di maschi e il numero di femmine di
un collettivo ad una certa data un indice di coesistenza:
I 100 Nm Nf .
Rapporti di derivazione
Si confronta la numerosit di un fenomeno con quella di un
altro fenomeno che la premessa logica al primo. Se n un
insieme di soggetti che deriva in qualche modo da un
collettivo composto da
soggetti, il rapporto di
N
derivazione vale n N . La formula esattamente quella del
rapporto di composizione, ma la premessa in questo caso
diversa. I rapporti possono essere di derivazione generica
se il numeratore dipende in modo generico dal denominatore
oppure di derivazione specifica se il numeratore legato
in modo diretto al suo denominatore.
Ad esempio un indice di derivazione generica il quoziente
di fecondit, pari al rapporto tra il numero di nati e il
numero di donne della popolazione nella stessa classe di
et, moltiplicato in questo caso per 1.000.
Rapporti di frequenza
Si confronta la numerosit di un collettivo
dimensione del fenomeno che si intende analizzare.

con

una

Ne un esempio lindice di densit abitativa, pari al


rapporto tra la popolazione e la superficie del territorio.
Lindice esprime il numero di individui presenti per unit
di superficie.
Rapporto di durata
Il rapporto di durata pone a confronto lo stock (fondo)
medio di un fenomeno nel periodo di osservazione con il suo
flusso medio di rinnovamento:

R. di durata

Fondo medio
Flusso di sostituzio ne nel periodo

Quando si conoscono solo la consistenza iniziale e finale e


i flussi di entrata ed uscita, il rapporto di durata pu
essere stimato in via approssimata dalla formula:
11
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

C0 C1
C C1
2
R. di durata
0
E U
E U
2

dove la consistenza a numeratore del rapporto data dalla


semisomma delle consistenze iniziale C0 e finale C 1 e il
flusso medio a denominatore dato dalla semisomma del
totale dei flussi in entrata E e del totale flussi in
uscita U .
Il rapporto di durata indica per quanto
statistica permane in media nel collettivo.

tempo

ununit

Esempio. Se in un tubo vi sono 10 palline e il flusso di


sostituzione medio di 2 palline ogni ora, 10/2=5 indica
che la pallina permane mediamente 5 ore nel tubo:

C0
Ingresso

h1
h2
h3
h4

Uscita

h5

C1

Si osserva che il rapporto di durata quindi espresso


nella stessa unit di misura del flusso.
Esempio. Una piccola pensione dispone di 3 camere. Nel
corso del mese di giugno vengono registrati i seguenti
movimenti:

Ospite
A
B
C
D
E
F
G

Dal

Al

15/05
04/06
02/06
04/06
03/06
10/06
06/06
26/06
10/06
15/06
13/06
30/06
16/06 04/07
Giorni medi

GG
5
2
7
20
5
17
14

1
5
20

12,5

Stanze
2
2
5
14
7

3
7
17

Movim.
U
E/U
E/U
E/U
E/U
E/U
E

12

12
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

Si osservi che il cliente A, arrivato il 15 maggio e


partito il 4 giugno, conta per soli 5 giorni in giugno.
Allo stesso modo, il cliente G arrivato il 16 giugno ma
ha lasciato la pensione il 4 luglio e quindi i giorni di
permanenza in giugno sono solo 14.
Mediamente in giugno le stanze sono state occupate per
12,5 2 7 3 12 2
10 giorni
2 3 2

Per arrivare ad analogo risultato senza conoscere nel


dettaglio i movimenti in entrata e uscita della pensione,
si pu considerare che per 7 volte la pensione ha ospitato
qualcuno, facendo registrare 6 entrate e 6 uscite nel mese.
Di conseguenza, in prima approssimazione, gli ospiti si
sono fermati per
7
0,25 mesi
6 6

Considerando che in un mese ci sono 30 giorni, il risultato


equivale a 0,25 30 7,5 giorni medi. Si osservi che vi
differenza rispetto al risultato esatto (10 giorni) in
conseguenza dellapprossimazione adottata.
Numeri indice
I numeri indice sono utilizzati nellambito delle serie di
tempo e delle serie di spazio. Si distinguono in:
Numeri indice a base fissa: rapporto tra lintensit del
fenomeno Xt al tempo t e lintensit del fenomeno X0 al
X
tempo 0 scelto come periodo base: It 100 t . Lindice
X0
esprime la variazione del fenomeno nel periodo t rispetto a
quello del periodo scelto come base. Assume valori sopra
100 se il fenomeno cresciuto, sotto 100 se si ridotto.
La differenza % It 100 tra lindice e 100 pari alla
variazione percentuale del fenomeno rispetto al periodo
scelto come base.
Numeri indice a base mobile: rapporto tra lintensit del
fenomeno Xt al tempo t e lintensit del fenomeno nel
Xt
periodo precedente Xt 1 : It 100
. Lindice a base
Xt 1
mobile esprime la variazione del fenomeno nel periodo t
rispetto a quello del periodo t 1 . Assume valori sopra 100
se il fenomeno cresciuto, sotto 100 se si ridotto. La
13
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

differenza % It 100 tra lindice e 100 pari alla


variazione percentuale del fenomeno rispetto al periodo
precedente.
Cambiamento di base. Per passare dalla serie di indici a
base fissa con base X0 alla serie di indici con base fissa
X k X0 si deve moltiplicare la prima serie di indici per
X
il rapporto tra le due basi 1 . Lo schema il seguente:
Xk

ti

Xi

X0

X1

Xk

k 1

Xk 1

Base
X0 100

Base

X k 100
X
X
I0 0 100 100
I0 100 0
X0
Xk
X
X
X
I1 1 100
I1 1 I1 0
X0
Xk
Xk
Ik

X
k 100
X0

Ik

X k 1
100
X0

Ik 100
Ik 1

X k 1
100
Xk

Per passare dalla serie degli indici a base fissa alla


corrispondente serie degli indici a base mobile, si devono
dividere tra loro i due indici a base fissa che precedono e
moltiplicare il risultato per 100. Lo schema il seguente:

14
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Base
X0 100

ti Xi
0 X0 I0
1 X1

2 X2

Xk

Base
mobile

X0
100 100
X0

I1

I2

X1
100
X0
X2
100
X0

Ik

Xk
100
X0

n.d.

I1
I2

X1
100 I 1
X0
X2
100
X1

I2
100
I1

Xk
Ik
100
X k 1
Ik

100
I k 1

Per passare dalla serie degli indici a base mobile alla


corrispondente serie degli indici a base fissa X0 100 , si
deve moltiplicare ciascun indice a base mobile che lo
precede,
fino
allindice
a
base
mobile
che
ha
a
denominatore lintensit X0 del fenomeno osservato. Lo
schema il seguente:

15
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

ti Xi

Base
mobile

0 X0

n.d.

1 X1

3 X3

I1

I3

I0

X1
100
X0

X3
100
X2

Xk Ik

Base
X0 100

Xk
100
X k 1

I1

X0
100 100
X0

X1
100 I 1
X0

X3
100
X0
I
I1
I

2 3 100
100 100 100

X
I k k 100
X0
I3

I1
I
I
2 ... k 100
100 100
100

Esempio. Si calcolano i numeri indice a base mobile e a


base fissa 1978 della seguente tabella di prezzi di un bene
di largo consumo:

Anno

Prezzo

Numeri
indice
a base
mobile

1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990

113,00
151,00
162,00
112,00
111,00
200,00
223,00
234,00
200,00
291,00
300,00
330,00
339,00
390,00
475,00
580,00

133,628
107,285
69,136
99,107
180,180
111,500
104,933
85,470
145,500
103,093
110,000
102,727
115,044
121,795
122,105

Numeri
indice
a base
fissa
1978
100,893
134,821
144,643
100,000
99,107
178,571
199,107
208,929
178,571
259,821
267,857
294,643
302,679
348,214
424,107
517,857

Ad esempio, lindice a base mobile del 1982 pari al


rapporto tra il prezzo del 1982 ed il prezzo del 1981
moltiplicato 100. Lindice a base fissa del 1982 pari al

16
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

rapporto tra il prezzo del 1982 e il prezzo del 1978, anno


scelto come base, moltiplicato 1002.
Esempio. Si calcola lindice a base mobile del 1984 sulla
base degli indici a base fissa 1978. Per calcolare lindice
a base mobile del 1984, si moltiplica lindice a base fissa
del 1978 per il rapporto
P1984 P1978
P
100 1984
P1983 P1978
P1983
259,821
100
145,500
178,571

100

Esempio. Si calcola lindice a base fissa 1978 per il 1986


sulla base degli indici a base mobile.

P1986

P1978
P
P
P
P
100 1986 1985 ... 1980 1979
P1985 P1984
P1979 P1978
110,00 103,093
180,180 99,107
100

...

294,6
100
100
100
100

100

Esempio. Sulla base degli indici a base fissa e a base


mobile calcolati, quanto vale lincremento percentuale del
prezzo del 1990 rispetto al 1978 ? E rispetto al 1989?
Lindice a base fissa del 1990 con base 1978 (517,857)
indica che il prezzo del bene nel 1990 supera del 417,857%
il prezzo del bene nel 1978.
Lindice a base mobile del 1990 (122,105) indica che il
prezzo del bene nel 1990 supera del 22,105% il prezzo del
bene nel 1987.
7. Cenni storici sulla statistica
La nascita della statistica legata al bisogno, espresso
fin dalle prime organizzazioni sociali stanziali, di
conoscere il numero di uomini adatti alle armi, il numero
di capi di bestiame, quanti abitanti sono assoggettabili a
tributi
ed
altre
notizie
sul
territorio
e
sulla
popolazione. Tracce primordiali di enumerazione a fini
statistici sono stati scoperti nei nuraghi della Sardegna e
nei papiri dellantico Egitto, riferiti principalmente ai
movimenti della popolazione e delle merci. Gli antichi
2

Lindice a base mobile del 1975 non calcolabile perch non si conosce il prezzo del
bene nel 1974.

17
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

Egizi veneravano la dea Sefchet, protettrice dei libri e


dei conti.
Anche nellantica Roma il bisogno di dati statistici
divenne una necessit sempre pi evidente a seguito dello
sviluppo demografico e territoriale. Furono indetti i primi
censimenti tra la popolazione, tra i quali quello ricordato
dalla Bibbia e voluto dal re Davide allepoca della nascita
di Ges.
Durante tutto il Medio Evo le comunit religiose e il clero
in genere si incaricarono di enumerare e catalogare i beni
della Chiesa, le nascite, i battesimi e le sepolture.
Questa
importante
attivit
trova
la
sua
definitiva
collocazione nel 1545 con lintroduzione dei registri
parrocchiali per volont del Concilio di Trento.
Nella medesima epoca Francesco Sansovino (1521 1586) e
Giovanni Botero (1540 1617) danno vita alle prime
sistematiche raccolte di dati statistici e sono oggi
considerati dei precursori della nuova disciplina. In
Germania, a met del XVII secolo, Hermann Conring (1606
1681) tiene il primo corso universitario finalizzato a
analizzare le
cose notevoli
degli Stati.
Il suo
successore alla cattedra, Goffredo Achenwall (1719 1772),
chiama per primo statistik la nuova disciplina.
Il termine coniato dallAchenwall rimane tuttavia di
incerta etimologia per lungo tempo: secondo alcuni deriva
da status, stato in senso politico; altri gli attribuiscono
il significato di conditio rerum, stato delle cose,
situazione attuale. Questo duplice significato del termine
permea la statistica fino ad anni recenti: alle soglie del
XX secolo i suoi praticanti che oggi chiamiamo
statistici erano ancora definiti statisti.
NellInghilterra del XVII secolo John Graunt chiama
aritmetici politici gli studiosi delle leggi empiriche
che riguardano i fatti sociali. Sulla base delle prime
sistematiche rilevazioni censuarie, gli aritmetici politici
constatano leccedenza delle nascite maschili su quelle
femminili, la stagionalit dei delitti, la falsit di
alcune credenze popolari come quella che attribuiva
linsorgere di pestilenze al passaggio di meteoriti. La
loro opera mette in luce limportanza della statistica come
strumento di indagine, in cui taluni fatti sono posti in
relazione con altri dei quali possono essere causa oppure
conseguenza. Ne La peste di Londra, Daniel Defoe cita le
statistiche parrocchiali sul crescente numero di funerali
celebrati allinizio del 1665, come prova dal serpeggiare
del contagio nella popolazione londinese.
18
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

Nel 1838 il belga Adophe Quetelet (1796 1874),


considerato da molti il fondatore della statistica moderna,
pubblica il suo Essai de physique sociale, dove giunge ad
interessanti conclusioni sui fenomeni sociali e dove
descrive luomo medio, i cui caratteri corrispondono alla
media aritmetica dei caratteri posseduti da tutti gli
individui della popolazione. Queste idee lo spingono
tuttavia a descrivere le dinamiche sociali secondo una
concezione meccanica che oggi ritenuta del tutto
superata.
La progressiva sistemazione ed organizzazione della nuova
disciplina in differenti aree di studio porta a separare la
statistica metodologica, che si occupa del metodo per la
raccolta e lelaborazione matematico-probabilistica dei
dati, dalla statistica applicata, che a sua volta si divide
in molteplici aree di interesse tra cui la demografia, la
psicometria, lantropometria, e leconometria.
La storia del 900 caratterizzata da una pluralit di
contributi dei quali si fa un rapido cenno3: Karl Pearson
(1857 1936), Francis Galton (1822 - 1911) e Ronald Fisher
(1890 1964)
introducono nuovi metodi analitici di
indagine dei fenomeni sociali. In campo economico si
ricordano i contributi di F. Y. Edgeworth, A. L. Bowley e
Vilfredo Pareto. In Italia Roldolfo Benini (1862 1956) si
distingue per i suoi studi sulla popolazione. Importanti
figure della cosiddetta scuola italiana di statistica
sono Corrado Gini (1884 1965), M. Boldrini, L. Livi e A.
Niceforo.

Per approfondimenti consultare Theodore M. Porter, Le origini del moderno pensiero


statistico (1820-1900) a cura di Giorgio Alleva e Enzo Lombardo, La Nuova Italia
Editrice, Firenze, 1993.

19
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

2.

Appunti di statistica descrittiva

Caratteri, modalit e frequenze

8. Tipologie di carattere
Un fenomeno statistico si manifesta sotto forma di
propriet o carattere che si articola secondo le rispettive
modalit. I caratteri qualitativi hanno modalit descritte
mediante
qualit,
attributi
o
modi
di
essere.
Si
distinguono in sconnessi se le modalit sono prive di un
ordine naturale intrinseco, ordinati nei restanti casi. I
caratteri quantitativi hanno modalit (o per meglio dire
intensit) espresse da numeri. Si distinguono in discreti
se rappresentati da numeri interi, continui nei restanti
casi.

Sono caratteri qualitativi sconnessi il colore dei capelli,


il sesso (maschio o femmina) oppure la squadra di calcio
preferita. Sono caratteri qualitativi ordinati i gradi
dellesercito o il giudizio di preferenza (per nulla, poco,
abbastanza, molto, moltissimo) di un consumatore nei
confronti di un bene di largo consumo. Sono caratteri
quantitativi discreti il numero di esami sostenuti oppure
il numero di figli in famiglia. Infine, sono caratteri
quantitativi continui il numero di millimetri di pioggia
caduti in una certa giornata oppure la statura e il peso
degli individui.
Non si deve escludere la possibilit di considerare, a
seconda dei casi, un medesimo carattere come appartenente a
due diverse categorie. I colori sono certamente un naturale
esempio
di
carattere
qualitativo
sconnesso.
Tuttavia
nellindustria i colori si ottengono sulla base dei c.d.
colori semplici, luci costituite da una sola radiazione
elettromagnetica
con
differente
lunghezza
donda.
Combinando
opportunamente
le
differenti
fonti
elettromagnetiche si generano le diverse tonalit di colore
che si ritrovano nei vestiti, nelle automobili e negli
20
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

altri oggetti di uso comune. In questo specifico caso il


colore

del
tutto
assimilabile
ad
un
carattere
quantitativo continuo.
Talvolta
i
caratteri
possono
essere
trasformati
in
caratteri di altra categoria. I caratteri qualitativi
dicotomici, rappresentati da due sole modalit, possono
diventare caratteri quantitativi discreti attribuendo il
numero 1 ad una modalit e il numero 0 allaltra. Ad
esempio, se il carattere osservato il sesso di un
collettivo, si pu attribuire il numero 1 ai maschi e il
numero 0 alle femmine. Questa trasformazione conserva le
informazioni sulla distribuzione del carattere ed
particolarmente utile nel corso delle elaborazioni al
computer.
Definizione operativa del carattere
Per definire un carattere occorre innanzitutto stabilire in
che modo una determinata propriet dovr essere rilevata
nel soggetto esaminato. Ad esempio nel caso di caratteri
fisici (peso, altezza) la rilevazione del carattere
determinata dalla sua misurazione. In questo caso si deve
indicare quale strumento di misurazione adottare, con quale
unit di misura registrare le rilevazioni, a quale decimale
arrotondare i numeri ed altri aspetti analoghi. Se il
carattere da osservare invece lopinione di un collettivo
nei confronti di una iniziativa del Governo la rilevazione
pu avvenire mediante intervista o, nel caso di indagini
strutturate, mediante questionario. In entrambi i casi si
devono scegliere le domande da porre, il tipo di risposta
attesa (a risposta aperta oppure chiusa, da scegliere in
una lista di possibilit).
Per effettuare la registrazione del carattere osservato, il
ricercatore deve prevedere la lista degli stati possibili
(modalit)
che
rappresentano
il
carattere
nel
suo
complesso. Nel caso di caratteri qualitativi, ad esempio il
sesso degli individui, si tratta di stendere la lista delle
sue possibili manifestazioni. Nel caso di un carattere
quantitativo con infiniti stati possibili, ad esempio la
statura di un gruppo di individui, occorre prevedere delle
classi a cui attribuire le intensit osservate. Le modalit
sono scelte in funzione della conoscenza del fenomeno
studiato e degli interessi della ricerca; pu comunque
accadere che alcune di esse non siano presenti nel
collettivo osservato.
Infine, il ricercatore deve fissare le regole con cui
assegnare ogni unit statistica ad una e una sola modalit
o intensit. Ad esempio, nel caso della statura di un
gruppo di individui, occorre stabilire se un individuo con
21
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

statura rilevata di 180 cm esatti appartiene alla classe


170 180 oppure alla 180 190 successiva. Nel caso di
caratteri qualitativi, si pone ad esempio il problema di
classificare correttamente la risposta aperta fornita da un
intervistato.
Variabile e mutabile statistica
Il processo che conduce losservazione compiuta nel
collettivo ad una determinata di modalit del carattere
osservato detta variabile statistica:
Variabile statistica: assegnazione di
carattere ad ogni individuo osservato.

una

intensit

del

Una variabile statistica dunque una funzione in quanto


definita per lintero collettivo e funzionale, ovvero
nessun individuo pu possedere due diverse modalit del
carattere
osservato.
A
stretto
rigore
la
variabile
statistica attribuisce ad ogni unit statistica un numero.
Per analogia nel caso di caratteri qualitativi si definisce
la
Mutabile statistica: assegnazione di una modalit di un
carattere qualitativo ad ogni individuo osservato.
La variabile e la mutabile statistica identificano e
sintetizzano il processo in precedenza descritto. Le
elaborazioni statistiche conseguenti alla rilevazione del
carattere sono basate su queste due definizioni.
9. Frequenze semplici
Si consideri un generico collettivo composto da n unit
statistiche, per ognuna delle quali stata rilevata la
corrispondente modalit ai del carattere A :
Individui

1
2

Modalit
di A

a~1
a~2

~
a
n

Se una modalit posseduta da pi individui, lelenco


delle modalit rilevate contiene delle ripetizioni. Inoltre
vi possono essere modalit non rilevate in quanto non
possedute da alcun individuo osservato.

22
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Al fine di ottenere la
individui del collettivo
riportano in una nuova
carattere con accanto
ciascuna modalit:

distribuzione di frequenza degli


secondo il carattere esaminato si
tabella le singole modalit del
la frequenza di individui per

Modalit frequenza
di A
assoluta

a1
a2

n1
n2

a3

n3

ak

In questa nuova tabella le modalit sono riportate in modo


univoco. Non compaiono le modalit prive di individui ma,
nel caso di caratteri quantitativi, bene tenerne conto.
Per
questo
motivo

stato
aggiunta

a
titolo
esemplificativo la modalit a3 con frequenza pari a zero.
Nel nuovo schema proposto accanto alle modalit del
carattere compare la frequenza, ovvero il numero o la
percentuale di unit statistiche rispettivamente maschio e
femmina nel collettivo considerato.
Vale la definizione seguente:
La frequenza assoluta ni il numero di unit statistiche
che possiedono la modalit ai del carattere.
La frequenza relativa fi
la proporzione di unit
statistiche che possiedono la modalit ai del carattere. Pu
essere espressa in percentuale (%).
Lo schema di riferimento per i due casi il seguente:

23
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Modalit

a1
a2
a3

ak

Frequenza
Frequenza relativa
assoluta
f1 n1 n
n1
f2 n2 n
n2
f3 0
0

fk nk n
nk
1
n

Le frequenze non possono essere negative: ni 0 e fi 0 .


k

Il totale delle frequenze n

pari alla numerosit

i 1

del collettivo.
La somma delle frequenze relative vale 1:
k

fi

i 1

10.

i 1

ni
1

n
n

i 1

n
1
n

Frequenze cumulate

Caratteri
quantitativi
discreti.
Dato
un
carattere
quantitativo discreto A con intensit x1 , x2 , , xr , si
pongono a confronto le intensit osservate con un valore
reale x liberamente scelto. Si indica con nxi x il
numero di casi con intensit minore o uguale del valore
reale x .
La frequenza cumulata condizionata a x vale

nxi x n1 n2 ... ni .
La frequenza cumulata funzione del valore scelto x .
Infatti calcolabile per ogni x (relazione ovunque
definita). Inoltre, per ogni x si pu ottenere un solo
valore (relazione funzionale). In particolare quando x
inferiore alla minima intensit osservata nxi x pari a
zero. Quando
superiore alla massima intensit
x
osservata, la frequenza cumulata pari alla numerosit del
collettivo stesso.
Per quanto evidenziato si pu scrivere semplicemente

N x n1 n2 ... ni
dove N indica la sommatoria dei valori della frequenza che
soddisfano la condizione xi x .
24
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

La frequenza
relative.

pu

essere

calcolata

anche

per

frequenze

Funzione di ripartizione. La funzione di ripartizione la


somma

F xi x f1 f2 ... fi
Si osservi il disegno sottostante:

F x 5 1

F(X)

F x 4 f x 1 f x 2 f x 3 f x 4
F x 2 F x 3
f x 2
f x 3 0
F x 1 f x 1
f x 1
x2
x1
x3
La funzione pari 0
a 0 per x < x min
x min x 1

La funzione pari a 1 per x > x Max

f x 5
f x 4

x4

- F monotona non
decrescente (le
frequenze non
possono essere
negative);
- F ha dei punti di
discontinuit in
corrispondenza con i
valori di X.

x5
x Max x 5

La funzione di ripartizione di un carattere quantitativo


discreto X
indica la frequenza delle intensit del
carattere minori o uguali ad un qualunque valore in
ascissa.
Caratteri quantitativi continui. Nel caso di dati raccolti
in
classi
generalmente
non
si
conosce
lesatta
distribuzione dei dati allinterno di ciascuna classe. Si
ipotizza allora che le intensit osservate si dispongano in
modo uniforme al suo interno e la funzione di ripartizione
della classe assume laspetto di una spezzata crescente con
gradini regolari di altezza pari a 1 ni per una frequenza di
classe pari ad ni (grafico a). Se la frequenza di classe
non esigua, la funzione di ripartizione della classe pu
essere correttamente approssimata con una retta che
congiunge i valori della funzione di ripartizione tra i due
limiti della classe (grafico b). La distanza tra la retta e
i gradini, ovvero lerrore di approssimazione compiuto, non
pu superare la quantit 1 2ni .

25
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

grafico (a)

grafico (b)
F(X)

F(X)

La funzione di ripartizione per dati raccolti in classi


assume la forma di una spezzata crescente. Si esamini il
grafico seguente:

F x 5 1

F(X)
La funzione pari a 1 per x > x Max
- F monotona non
decrescente (le
frequenze non
possono essere
negative);
- F ha dei punti di
discontinuit in
corrispondenza con i
limiti di classe di X.

frequenza della
classe x 2 - x 3
La funzione pari
a 0 per x < x min

x2
x1
x3
x min x 1 ampiezza della

x4

x5
x Max x 5

classe x 2 - x 3

Propriet della funzione di ripartizione. La funzione di


ripartizione F x definita sullintero asse reale: F X
esiste per ogni x interno oppure esterno ai valori
xmin x xMax del carattere X osservato. In particolare, se

x x min la funzione di ripartizione vale zero e se x x Max


la funzione di ripartizione vale 1. La funzione
crescente: se x1 x allora F x1 F x , dove luguaglianza
vale nel caso particolare in cui f x 0 . La funzione F X
continua a destra in x xi : F X vale F xi , cos come in
x xi 0 si ha che F xi 0 F xi . E infine discontinua
x1, x2,..., xn : F X discontinua in
nei soli punti
corrispondenza delle intensit del carattere X osservato.
Nel punto di discontinuit x il limite da destra x x e
il limite da sinistra x x della funzione in quel punto
esistono ma non coincidono.
26
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

11.

Grafici di distribuzioni di frequenza

Un grafico utile a rappresentare le caratteristiche del


fenomeno studiato ed ha una notevole portata divulgativa.
Per questo deve essere sempre corredato da un titolo, da
indicazioni sul significato degli assi, dalle unit di
misura e dalle scale adottate.
Nel caso delle distribuzioni di frequenza, il grafico serve
a rappresentare le frequenze (assolute oppure relative)
legate alle modalit del carattere osservato.
Frequenze di caratteri qualitativi. Per rappresentare le
frequenze delle modalit di un carattere qualitativo
sconnesso si utilizza un diagramma a barre, indicando in
ascissa le modalit del carattere (ad esempio il sesso, M e
F) e in ordinata le frequenze assolute oppure relative
rilevate per le due modalit.
Quando si intende mettere in specifica evidenza la
ripartizione del collettivo rispetto alle modalit del
carattere osservato, si ricorre a un diagramma a settori
circolari (o a torta), in cui ciascun settore
proporzionale alle frequenze delle modalit rappresentate.
Nel caso di caratteri qualitativi ordinati si pu comunque
utilizzare il diagramma a barre.
Diagramma a barre

60%

40%

Diagramma a torta

F; 40%
M; 60%

27
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Ortogramma

35%

30%

30%
25%
20%

20%

20%

15%
10%

5%
0%
0

Frequenze di caratteri discreti. Nel caso di caratteri


quantitativi discreti si utilizza lortogramma, diagramma
caratterizzato da linee che partono dal valore della
modalit discreta posta in ascissa e che terminano con un
breve tratto orizzontale.
Frequenze per dati raccolti in classi. Si ricorre al
raccoglimento in classi allo scopo di ottenere delle
frequenze significative con cui descrivere il comportamento
complessivo di un fenomeno che, per sua natura, si
manifesta con intensit sempre differenti. Si pu ricorrere
al raccoglimento in classi delle intensit di un carattere
quantitativo discreto quando il numero di casi elevato.
E necessario effettuare il raccoglimento in classi nel
caso di caratteri quantitativi continui.
Nel raccoglimento in classi una intensit appartiene alla
classe se compresa tra i rispettivi limiti di classe. Se
una certa intensit esattamente pari ad uno dei due
limiti occorre stabilire in quale classe collocarla. Si
possono avere classi aperte a destra (simbolo xi xi 1 ) se
lintensit pari a xi appartiene alla classe e lintensit
pari a xi 1 appartiene alla classe successiva; oppure classi
aperte a sinistra (simbolo xi xi 1 ) se lintensit pari a xi
appartiene alla classe che precede e lintensit pari a xi 1
appartiene alla classe stessa.
Esempio. Si considerano le seguenti stature (espresse in
metri) riferite ad un gruppo di 10 individui:
1,75 1,80 1,68 1,58 1,90
1,82 1,73 1,75 1,92 1,65
Il carattere rilevato, quantitativo continuo, richiede il
raccoglimento in classi. Infatti tutte le intensit hanno
28
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

frequenza
unitaria
e
sarebbe
altrimenti
impossibile
descrivere landamento complessivo delle frequenze.
Considerando le seguenti classi di intensit:
1,50
1,60
1,70
1,80
1,90

1,60
1,70
1,80
1,90
2,00

Il raccoglimento in classi delle stature porta al seguente


risultato:
Classi
1,50 1,60
1,60 1,70
1,70 1,80
1,80 1,90
1,90 2,00

frequenze
1
2
3
2
2
10

Dopo il raccoglimento in classi possibile rilevare una


certa omogeneit delle frequenze rispetto a ciascuna classe
di altezza.
Istogramma. Le frequenze di caratteri quantitativi continui
raccolti in classi sono rappresentate mediante istogramma4,
grafico areale nel quale in ascissa compaiono le classi e
in ordinata le altezze dei rettangoli che rappresentano con
la loro area la frequenza di classe.
Per rappresentare listogramma di frequenza si disegnano in
ascissa
gli
intervalli
di
classe
scelti
per
il
raccoglimento in classi e, in corrispondenza a ciascun
intervallo, si traccia il perimetro di rettangolo la cui
area
deve
essere
proporzionale
alla
frequenza
dellintervallo. Laltezza del rettangolo calcolata per
rapporto:

Il termine fu coniato nel XIX secolo dallo statistico scozzese William Playfair, che
not la somiglianza del nuovo grafico con la sagoma dei telai meccanici in uso allora. In
Excel non sono presenti n lortogramma, che viene normalmente disegnato mediante un
grafico a barre, n listogramma, che pu essere rappresentato mediante un diagramma a
dispersione.

29
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

densit media
di frequenza

fi
x i 1 xi

hi

frequenza

intervalli
di classe
limite inferiore
di classe

limite superiore
di classe

Esempio. Si disegna listogramma


distribuzione seguente:
Da
0
40
60
80

A
40
60
80
100

di

frequenza

fr.
30,0
25,0
10,0
2,0

per

la

h
0,750
1,250
0,500
0,100

1,25
25

0,750
30

0,5
10

0,10
0

40

60

80

100

Le aree dei rettangoli disegnati corrispondono alle


frequenze fi delle classi. Nellesempio, le aree valgono
rispettivamente 30, 25, 10 e 2.
Densit media di frequenza. La densit media di frequenza
di classe data dal rapporto

hi

fi
xi 1 xi

dove h la frequenza media di casi presenti in un


qualsiasi punto interno allintervallo di classe ed anche
laltezza
dei
rettangoli
dellistogramma.
Se
la
30
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

distribuzione dellintensit del carattere fosse uniforme


allinterno
di
ogni
classe,
in
ciascun
punto
dellintervallo la frequenza dei casi sarebbe proprio pari
ad h .
La Regola di Sturges. La scelta del numero e dellampiezza
delle classi dipende dal numero e dalla natura del fenomeno
studiato. Negli anni 20 fu proposta una regola di natura
empirica, la c.d. regola di Sturges5, secondo cui per
calcolare il numero di classi in cui raccogliere un insieme
di n intensit di un carattere quantitativo continuo,
occorrono k 1 log2 n classi. Riscrivendo la formula con
il logaritmo in base 10 si ottiene
k 1

10
log10 n
3

In anni recenti questa regola empirica stata oggetto di


severe critiche a causa della sua scarsa fondatezza
teorica. E tuttavia ancora oggi spesso utilizzata.
Esempio. Calcolare le frequenze assolute e relative del
carattere seguente, ottenuto rispondendo alla domanda con
chi ha rapporti pi frequenti?:
genitori
amici
insegnanti
estranei insegnanti genitori
genitori
amici
amici
amici
estranei
amici
genitori
estranei
genitori
amici
estranei
estranei
Per fare il calcolo occorre
ottengono per ciascuna modalit:
modalit
estranei
amici
genitori
insegnanti

contare

fr.
assolute
5
6
5
2
18

quanti

casi

si

fr.
relative
0,278
0,333
0,278
0,111
1,000

Esempio. Data la seguente distribuzione di frequenza di X :

Xi

ni

fi

0,1

Sturges, H. (1926), The choice of a class-interval, J.A.S.A., 21, 65-66.

31
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

1
2
3
4

5
2
1
1
10

0,5
0,2
0,1
0,1
1,0

Si disegna il grafico della funzione di ripartizione:

10
9

8
7
6
5
4
3
2
1
0
-1

2,1

X
3

Il grafico ha la forma di una scalinata con gradini


proporzionali alle frequenze di X . I tratti verticali della
funzione
di
ripartizione
rappresentano
le
frequenze
unitarie ed i tratti orizzontali sono dovuti al fatto che
nulla la frequenza tra due modalit successive.
La funzione di ripartizione consente di individuare i
quantili di una distribuzione. Scelto ad esempio il valore
in ascissa X 2,1 , la funzione di ripartizione indica che
l80% delle unit statistiche possiede un carattere con
intensit minore o uguale al valore scelto.
Esempio. Si considera la distribuzione di frequenza della
statura degli iscritti alle liste di leva in Piemonte per
lanno di nascita 1979 (dati in centimetri). Alla tabella
stata aggiunta una colonna con le altezze dei rettangoli
che formano listogramma.

Xi
150
160
170
175
180
190
195

fi %
160
170
175
180
190
195
220

1,10
22,10
27,90
26,70
18,87
2,22
1,11
100,00

Fi %

hi

1,1 1,10/(160-150) = 0,11


23,2
2,21
51,1
5,58
77,8
5,34
96,7
1,89
98.9
0,44
100
0,04

32
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

26,70%

27,90%

Listogramma il seguente:

22,10%
18,87%
2,22%

1,10%
140

150

1,11%
170 175 180

160

190

200

210

X
230

220

La funzione di ripartizione la seguente:

100%

F(X)

75%

50%

25%

0%
140

12.

150

160

170

180

190

200

Frequenze congiunte

Si prende in esame il caso di due generici caratteri A e B


con modalit a1, a2,..., an e b1, b2,..., b m , presenti in un
collettivo di n individui. Si indica con nij il numero di
individui che possiedono la coppia di modalit ai e bj .
Linsieme di queste informazioni costituisce la tabella a
doppia entrata seguente:

33
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Modalit di A

Modalit
di B

Frequenze
congiunte a1

Totali

b1
b2

n11
n21

a2
n12
n22

b3

n31

n32

a3
n13
n23
n33

b4

n41

n42

n 43

n1.
n2.
n3.
n4.

n.1

n.2

n.3

Totali

Frequenze
marginali
di B

Totale
frequenze

Frequenze marginali di A

Il corpo della tabella raccoglie le frequenze congiunte nij


sopra descritte; lultima riga contiene la distribuzione
univariata (marginale) del carattere A ; la colonna a destra
contiene
la
distribuzione
univariata
(marginale)
del
carattere B .
Sulla base della tabella delle frequenze congiunte nij si
pu ottenere la tabella delle corrispondenti frequenze
relative dividendo per il totale delle frequenze n :
Modalit di A

Modalit
di B

Frequenze
congiunte a1

b1
b2

f11
f21

a2
f12
f22

b3

f31

f32

b4

f41

f42

f.1

f.2

Totali

a3
f13
f23
f33
f43
f.3

Totali

f1.
f2.
f3.
f4.
1

Frequenze
marginali
di B

Totale
frequenze

Frequenze marginali di A

Esempio. La seguente tabella riporta il numero di esercizi


ricettivi (alberghi, campeggi, villaggi turistici e altre
strutture ricettive) presenti nel 2001 nel Nord, Centro e
Sud Italia (fonte: Istat, LItalia in Cifre 2002):

Alberghi
Campeggi e villaggi
turistici
Alloggi agro turistici
Altri esercizi e alloggi
Totale

Nord
21.568

Centro
6.324

Sud
5.536

Italia
33.428

992

494

885

2.371

3.194
57.978
83.732

3.392
3.334
13.544

1.183
1.415
9.019

7.769
62.727
106.295
34

StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

La corrispondente tabella delle frequenze


seguente:

Alberghi
Campeggi e villaggi
turistici
Alloggi agro turistici
Altri esercizi e alloggi
Totale

relative la

Nord
20%

Centro
6%

Sud
5%

Italia
31%

1%

0%

1%

2%

3%
55%
79%

3%
3%
13%

1%
1%
8%

7%
59%
100%

Si osserva che la voce Altri esercizi e alloggi


predominante rispetto al totale ed la soluzione ricettiva
preferita nel Nord Italia. La voce ricomprende gli ostelli
per la giovent, le case per ferie, i rifugi alpini, le
camere e gli appartamenti iscritti al Registro esercenti il
commercio.
Profili di riga e profili di colonna
I profili di riga si ottengono dividendo la frequenza
congiunta per la frequenza marginale di riga; i profili di
colonna si ottengono dividendo la frequenza congiunta per
la frequenza marginale di colonna:
profili riga:

nij

profili colonna:

ni.

nij
n.j

nij
n

nij
n

f
n
ij
ni.
fi.

f
n
ij
n.j
f.j

Tabella dei profili riga

Modalit
di B

a1
b1
b2
b3

b4
Totali

n11 n1.
n21 n2.
n31 n3.
n41 n4.
n.1 n

Modalit di A
a3
a2
Totali
n12 n1. n13 n1.
1
n22 n2. n23 n2.
1
n32 n3. n33 n3.
1
n42 n4. n43 n4.
1
n.2 n
n.3 n
1

Tabella dei profili colonna

35
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Modalit
di B

a1
n11
n21
n31
n41

b1
b2
b3

b4
Totali

n.1
n.1
n.1
n.1
1

Modalit di A
a3
a2
Totali
n12 n.2 n13 n.3
n1. n
n22 n.2 n23 n.3
n2. n
n32 n.2 n33 n.3
n3. n
n42 n.2 n43 n.3
n4 n
1
1
1

Media dei profili


I marginali di riga sono la media ponderata dei profili
riga ponderati con le frequenze marginali di colonna. I
marginali di colonna sono la media ponderata dei profili
colonna ponderati con le frequenze marginali di riga:
fi.

f.j

fijfi.

i 1

i 1

fijf.j

j1

nij

n.i
n

n.j
n

i.

nij

j1

.j

Esempio. Con riferimento allesempio precedente, i profili


riga sono i seguenti:

Alberghi
Campeggi e villaggi
turistici
Alloggi agro turistici
Altri esercizi e alloggi
Totale

Nord
65%

Centro
19%

Sud
17%

Italia
100%

42%
41%
92%
79%

21%
44%
5%
13%

37%
15%
2%
8%

100%
100%
100%
100%

Nord
26%

Centro
47%

Sud
61%

Italia
31%

1%
4%
69%
100%

4%
25%
25%
100%

10%
13%
16%
100%

2%
7%
59%
100%

E i profili colonna i seguenti:

Alberghi
Campeggi e villaggi
turistici
Alloggi agro turistici
Altri esercizi e alloggi
Totale

Dallanalisi dei profili riga si osserva ad esempio che il


65% degli alberghi sono al Nord; consultando la tabella dei
profili colonna emerge invece ad esempio che gli alberghi
36
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

sono la struttura ricettiva pi presente al Centro e al Sud


rispetto alle restanti forme.
Si osserva infine che i profili marginali di riga sono
uguali alle frequenze marginali di riga nella tabella delle
frequenze congiunte; analogamente i profili marginali di
colonna sono uguali alle frequenze marginali di colonna
nella tabella delle frequenze congiunte.
Si verifica infine la propriet di media dei profili:

f.1 79% 65% 31% 42% 2% 41% 7% 92% 59%

f.2 13% 19% 31% 21% 2% 44% 7% 5% 59%


f.3 8% 17% 31% 37% 2% 15% 7% 2% 59%
Tipi di tabelle a doppia entrata. A seconda dei caratteri
osservati le tabelle a doppia entrata si distinguono in:
tabelle di contingenza.
qualitativi.
tabelle miste. I due
laltro qualitativo.

due

caratteri

caratteri

sono

uno

tabelle di correlazione. I due caratteri


quantitativi, discreti oppure continui.

sono

entrambi

quantitativo
sono

entrambi

Uno schema riassuntivo dei tre tipi di tabella a doppia


entrata il seguente:

Carattere
qualitativo
Carattere
quantitativo

Carattere
qualitativo
Tabelle di
contingenza
Tabelle
miste

Carattere
quantitativo
Tabelle
miste
Tabelle di
correlazione

Esempio. Numero di addetti delle imprese per settore di


attivit economica nel 1999 (fonte: Istat, LItalia in
cifre 2002):
1-19
addetti
Industria
Costruzioni
Servizi
Totale

1.961.847
1.140.135
5.488.238
8.590.220

20
addetti e
Totale
pi
3.006.293 4.968.140
271.703 1.411.838
2.439.421 7.927.659
5.717.417 14.307.637
37

StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

La tabella precedente una tabella mista che indica il


numero di addetti per settore e per classe dimensionale
delle imprese ove lavorano. Si osserva che le imprese sotto
i 20 addetti sono soprattutto imprese di servizi, mentre
quelle sopra i 20 addetti caratterizzano soprattutto il
settore industriale in senso stretto.

38
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

2. Misure di un carattere statistico


3.

Misure di posizione

Le misure di posizione o medie


sintesi di un fenomeno statistico.

rappresentano

la

prima

La tradizione statistica italiana distingue le medie in


ferme, in cui il valore dipende da tutti i dati, e in
lasche per i restanti casi. La media aritmetica un
esempio di media ferma perch calcolata su tutti i dati
disponibili e lingresso di un nuovo dato modifica il
risultato
precedentemente
ottenuto.
Altre
misure
di
tendenza centrale come la mediana e la moda sono lasche in
quanto pu accadere che lingresso di un nuovo dato non
modifichi affatto o modifichi in misura ridotta il loro
valore iniziale.
Media, mediana e moda esprimono la tendenza centrale del
fenomeno studiato. Sono misure di tendenza non centrale i
quantili, intensit che ripartiscono il collettivo in
ragione della frequenza cumulata.
13.

Media aritmetica

Media aritmetica semplice. La media aritmetica semplice di


n termini X 1, X 2,.., X n vale:

M1

X X2 ... X n
1
1

n
n

i 1

La media aritmetica ponderata di n termini X 1, X 2,.., X m con


frequenze n1, n2,..., nr data dallespressione:

M1

X1 n1 X2 n2 ... Xr nr
1

n
n

Xn

i i

i 1

i 1

La media aritmetica ponderata di m termini X 1, X 2,.., X m con


frequenze relative6 f1, f2,..., fr data dallespressione:

M 1 X1 f1 X2 f2 ... Xr fr

Xifi

i 1

i 1

O normalizzate.

39
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Accanto alla media ponderata con frequenze si pu definire


la generica media ponderata con pesi p1, p2,..., pr che
contempla come caso particolare la media con frequenza
sopra definita:
n

pi

i 1
n

M1

i 1

Nel caso di m
lespressione

pesi normalizzati

p1, p2,..., pr
r

Xi p1*

M 1 X1 p1* X2 p2* ... Xr pr*

i 1

si ottiene

i 1

Esempio. Si calcola la media aritmetica della distribuzione


di X :

Xi
ni

-1 0
5 6

1
3

2
5

Xn

i i

i 1
4

1 5 06 1 3 2 5
0,421053
5 6 3 5

i 1

La media calcolata un punto in ascissa nel grafico della


distribuzione di X :
6
5

-2

0 0,421053

-1

Media
di
rapporti.
Si
considerano
due
caratteri
quantitativi
e
riferiti
alle
medesime
unit
X
Y
statistiche i , per i quali sia utile calcolare il rapporto
t tra le rispettive intensit, come evidenziato nella
tabella seguente:
Unit
statistiche

ti X i Yi
40

StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

X1
X2

Y1
Y2

X2

Yn

t1 X 1 Y1
t2 X 2 Y2

tn X n Yn

Lultima colonna contiene la serie dei rapporti ti ottenuti


dividendo lintensit del carattere X per lintensit del
carattere Y .
Per calcolare il rapporto medio t riferito a tutte le unit
statistiche oggetto di indagine, appare naturale dividere
la somma delle intensit di X con la somma delle intensit
di Y :
n

i 1
n

i 1

Con un passaggio algebrico t risulta anche pari alla media


aritmetica ponderata dei singoli rapporti ti :
n

Xi

i 1
n

Y t

i i

i 1
n

i 1

i 1

Alternativamente si pu notare che il rapporto medio t


anche pari alla media armonica ponderata dei singoli
rapporti ti :
n

Xi

i 1
n

i 1

i 1
n

Xi

i 1

Esempio. Si calcola la media della seguente serie di


rapporti, riferiti allattivit settimanale di tre filiali
di un call-center:
N clienti contattati
N addetti
Rapporto

Fil. A
104
10
10,4

Fil. B
253
22
11,5

Fil. C Media
77
434
9
42
7,7 10,33

I
42
addetti
delle
tre
filiali
hanno
contattato
complessivamente 434 clienti con un rapporto medio di 10,33
clienti pro capite contattati. Per arrivare a questo
41
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

risultato utilizzando i rapporti riferiti a ogni filiale si


scrive:
t

434
10,33
104
253
77

10,4
11,5
7,7

Media per dati raccolti in classi. Nel caso di dati


raccolti in classi la media si calcola moltiplicando i
centri di classe (c.d.c.) per le rispettive frequenze.
Indicando i centri di classe con X i , la media ponderata con
pesi assoluti data dallespressione:

M1

1
n

ni

i 1

La media ponderata con pesi normalizzati la seguente:

M1

X f

i i

i 1

La media aritmetica calcolata utilizzando i valori centrali


di classe, implica lipotesi di uniforme distribuzione dei
dati individuali allinterno di ogni classe ed in
generale differente dalla media aritmetica calcolata sui
dati individuali. Questa differenza detta effetto di
raggruppamento.
Esempio. La media aritmetica semplice di 1,2 1,4 2,4 2,5
3,0 e 3,2 vale 2,283. Raggruppando i dati nelle classi 0
2 e 2 4 si ottiene:

Xi
0 - 2
2 - 4

c.d.c.
1
3

ni

Xini

4
2
6

4
6
10

La media vale 10/6 = 1,667.


Propriet
Si riportano alcune propriet della media aritmetica, di
seguito indicata con il simbolo M 1 .
Condizione di Cauchy. La media sempre compresa tra il
valore minimo e il valore massimo dei termini su cui
calcolata:

x min M 1 x Max .
42
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

La media dunque una misura interna ai dati.


Per dimostrarlo, si inizia con il constatare che ogni
valore di una variabile X compreso tra il suo minimo e il
suo massimo. Sommando questa doppia diseguaglianza per
tutti i valori di X si ottiene

X min

X 1 X Max X min X 2 X Max


... X min X n X Max
nX min

nX Max
n

Dividendo

per

si

ha

X min

i 1

x min M 1 x Max .

X Max

ovvero

Somma nulla. Lo scarto dalla media la differenza con


segno tra il valore X i e la media stessa. E nulla la somma
degli scarti
n

M1 0

i 1
n

X i

Si osserva che

M1

i 1

Xi

i 1
n

una costante si ha che

. Poich la media

i 1

nM 1 da cui

i 1

Luguaglianza

nM 1 0 .

i 1

nM 1 indica che lammontare complessivo

i 1
n

del carattere

presente nel collettivo pari a

i 1

volte la media aritmetica stessa.

1 n
X i a2 minima se il valore

n i 1
di a la media aritmetica dei dati. Per dimostrarlo si
parte dalla considerazione che, se f ha un punto di minimo
in a , in a la derivata prima nulla e la derivata seconda
positiva:
Minimo. La quantit f a

43
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

f
2 n
X i a 0
a
n i 1
n

X i na 0

i 1

i 1

a M1

f 2
2 0
a
Quindi per a M 1 f M 1 un minimo per f , da cui
lasserto. La quantit f M 1 la varianza della variabile
X.
Monotonia. Se Y e X sono due variabili per cui vale la
relazione X Y , allora anche per le rispettive medie vale
lanaloga relazione M X M Y .
Esempio. Date due variabili X e Y X 2 si ha che:
MX

X X2

X 1 X 2 ... X n
n

implica quindi che

MY

X 12 X 22 ... X n2
n

M X M X 2 . Si osservi che per

Y X 3 la propriet vera solo per valori positivi di X .


Linearit. La media di una combinazione lineare di
variabili pari alla combinazione lineare delle rispettive
medie M a bX a b M X . Per dimostrarlo occorre procedere
per passi successivi. Si parte dalla considerazione che se
i dati sono tutti costanti X c , allora la media pari
alla costante stessa:

M1

1
n

Xi

i 1

1
n

i 1

1
nc c
n

Inoltre la somma delle medie di due variabili pari alla


media della variabile somma, ovvero la media una misura
associativa dei dati:

M X Y M X M Y
Infine, la media di un insieme di dati tutti moltiplicati
per una costante pari a M aX a M X , ovvero la media
una misura omogenea dei dati:
44
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

M aX

aX i

i 1

Sulla base delle propriet


propriet seguente vera:
n

M a bX

aM X

citate,

si

conclude

che

la

bX i

i 1

i 1

na b X i
i 1

a b MX

Esempio. Date le variabili X con media M X 5 e Y con


media M Y 2, la media della variabile X 2Y
vale
M X 2M Y 5 4 1 .
Loperatore media E[.]. Le differenti formule per il
calcolo della media aritmetica possono essere riassunte
introducendo
il
concetto
di
operatore
media
E .
Loperatore serve a semplificare la simbologia quando non
importante riportare in modo esatto il calcolo effettuato.
Ad esempio la media di n dati individuali si scrive:
n

E X

i 1

Mediante loperatore E si possono riproporre le propriet


Ec c ;
EaX aEX ;
della
media
gi
incontrate:
Ec aX c aEX . Va inoltre osservato che EX 2 EX 2 .
Esempio. Si verifica che per la seguente distribuzione di X
nulla la somma dei dati:

Xi
ni

-1 0
5 6

1
3

2
5

La media vale 0,421053 e la somma degli scarti nulla:

1 0,421053 5 0 0,421053 6
1 0,421053 3 2 0,421053 5 0
Si osservi che il valore X 0 una modalit del carattere
che non va trascurata nel calcolo della media. Possono
invece essere trascurati quei valori (teorici) di X che
hanno frequenza nulla, in quanto non presenti nei dati.
Esempio. Si calcola la media aritmetica di X :
45
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

0
1
2
3
4
5
6
0,01 0,1 0,35 0,18 0,09 0,2 0,07

Xi
ni
X

Xf

i i

0 0,01 1 0,1 ... 5 0,2 6 0,07 3,12

i 1

Esempio. Si calcola la media aritmetica della variabile X :


X

ni

0 5 2
5 7 5
7 10 3

fi
0,2
0,5
0,3

Quando le intensit della variabile X sono raccolte in


classi, per il calcolo della media aritmetica si utilizzano
i centri di classe, semisomma dei limiti di classe. I
centri di classe sono rispettivamente 0 5 2 2,5 per la
prima classe, 6 per la seconda e 8,5 per la terza.
La media aritmetica con le frequenze assolute ni vale:
3

Xn

i i

i 1
3

2,5 2 6 5 8,5 3
6,05
10

i 1

Allo stesso risultato si giunge utilizzando le frequenze


relative fi :

Xf

i i

2,5 0,2 6 0,5 8,5 0,3 6,05

i 1

14.

Mediana e quantili

Nel linguaggio
comune
assumere una posizione o un
atteggiamento
mediano
significa
stare
nel
mezzo,
posizionarsi al centro. Nel giuoco del calcio il mediano
il giocatore che sta a centro campo, a met strada tra i
difensori e gli attaccanti.
Mediana
La mediana Me di un carattere quellintensit che divide
i dati in due gruppi ugualmente numerosi: il primo gruppo
comprende quelle intensit che non superano la mediana; il
46
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

secondo gruppo formato da quelle intensit che superano


il valore mediano.
Propriet. Posizionando i dati lungo una retta orientata la
mediana si colloca nella posizione di ordine centrale,
minimizzando la distanza lineare tra ogni punto e la
mediana stessa7:

f Me

Me min

i 1

La dimostrazione di questa propriet laboriosa ed


quindi omessa. Si propone invece una interpretazione a
carattere intuitivo. Dati due punti di ascissa x1 e xn
posti lungo una retta orientata, la loro mediana minimizza
la somma delle rispettive distanze e si colloca pertanto al
centro del segmento di retta compreso tra i due punti:
(A)

Xn

X1

Me

(B)

X1

X2

Me

X3

Xn

X2

Me

X3

Xn
X5

(C)

X1

X4

Se si aggiungono due nuovi punti x2 e x3 sulla retta, la


mediana dei quattro dati x1, x 2, x3, x n deve soddisfare
nuovamente la propriet di minimo e si sposta quindi in
posizione
centrale
allinterno
del
nuovo
intervallo
compreso tra x2 e x3 (figura B). Aggiungendo infine alla
retta altri due punti x4 e x5 , la mediana si sposta
nuovamente al centro dei nuovi punti (figura C) realizzando
nuovamente la condizione di minimo.

Si osservi la distinzione tra questa propriet e la propriet della media aritmetica di


rendere minima la somma del quadrato degli scarti dalla media stessa.

47
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

La mediana pu essere calcolata su caratteri qualitativi


ordinabili, su caratteri quantitativi discreti e su
caratteri quantitativi raccolti in classi.
Caratteri
qualitativi
ordinabili.
In
un
gruppo
di
determinazioni di un carattere qualitativo ordinabile la
mediana quellintensit che occupa il posto centrale tra
le determinazioni ordinate in modo crescente. Nel caso in
cui il numero di determinazioni pari, la mediana
rappresentata dalle due determinazioni che si trovano in
posizione centrale.
Caratteri quantitativi discreti. Per calcolare il valore
della mediana di un carattere quantitativo discreto occorre
distinguere il caso in cui i dati sono in numero pari dal
caso in cui i dati sono in numero dispari: nel primo caso
n
la mediana cade tra le intensit dei dati di posizione
e
2
n
1;
di
posizione
nel
secondo
corrisponde
Me
2
n 1
allintensit di posizione
.
2
Caratteri
quantitativi
raccolti
in
classi.
In
una
distribuzione di frequenza per dati raccolti in classi non
si conoscono le intensit effettive ma solo la loro
distribuzione nelle classi assegnate. Dopo aver individuato
la classe in cui cade la mediana, per stimare la posizione
della mediana Me si procede per interpolazione lineare:
Me X 1

N 2 N1
X 2 X 1
N2 N1

Nella formula, X 1 e X 2 sono i limiti della classe in cui


cade il valore mediano; N 1 la somma delle frequenze delle
classi che precedono la classe mediana e N 2 la somma
delle frequenze delle classi fino a quella in cui cade la
mediana; N 2 la met delle frequenze complessive.
Esempio. Si calcola
distribuzione:

la

mediana

della

ni

Ni

0 - 2
2 3
3 5

5
10
6

5
15
21

variabile

con

48
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

La met delle frequenze totali vale 21 2 10,5 e quindi la


mediana cade nella classe 2 3. Per interpolazione lineare
la mediana 2,55:

Me

10,5 5
3 2 2 2,55
15 5

Il grafico delle frequenze cumulate di X riporta


posizione della mediana e il corrispondente valore
ascissa:

la
in

F
21

15
14
10,5

10,5

7
5
X

0
0

2,55 3

Si osservi che nel grafico compare un primo triangolo di


base 3 2 ed altezza 15 5 e un secondo triangolo
inscritto nel primo di base Me 2 ed altezza 10,5 5 .
Per le regole della simmetria, la proporzione tra le basi e
le altezze dei due triangoli rispetta la relazione:

Me 2 : 3 2 10,5 5 : 15 5
da cui si ottiene la formula sopra riportata.
Quantili
Il quantile di ordine quel valore X che divide un
collettivo, ordinato in modo crescente per intensit del
carattere, in modo che la percentuale dei valori inferiori
a X sia : frX X . Scelta la frequenza , si
individua di conseguenza il quantile associato. I quantili
pi usati sono i quartili, i decili e i percentili ( o
centili).
Quartili. Il primo quartile Q1 lintensit preceduta dal
primo
25%
dei
dati
e
seguita
dal
restante
75%:
frX X 25% 25%. Il secondo quartile Q2 l intensit
preceduta dal primo 50% dei dati e seguita dal restante 50%
49
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

e
coincide
quindi
con
la
mediana
dei
termini:
frX X 50% 50% ; X 50% MeX . Il terzo quartile Q3
lintensit preceduta dal primo 75% dei dati di X e seguita
dal restante 25%: frX X 75% 75% .
Percentili. Il primo decile D1 l intensit preceduta dal
primo 10% dei dati di X e seguita dal restante 90%:
frX D1 10% . Il secondo decile lintensit preceduta
dal primo 20% dei dati di X e seguita dal restante 80%:
frX D2 20% . Il primo percentile C1 lintensit
preceduta dal primo 1% dei dati di X e seguita dal restante
99%: frX C 1 1%. Il secondo percentile lintensit
preceduta dal primo 2% dei dati di X e seguita dal restante
98%: frX C 1 2% .
Esempio. Per calcolare la mediana dei 10 giudizi seguenti:
Ottimo,
Sufficiente,
Buono,
Sufficiente,
Ottimo,
Sufficiente, Buono, Insufficiente, Buono, Sufficiente,
occorre
innanzitutto
ordinarli
in
modo
crescente
(Insufficiente,
Sufficiente,
Sufficiente,
Sufficiente,
Sufficiente, Buono, Buono, Buono, Ottimo, Ottimo). Poich i
primi 5 giudizi non superano Sufficiente e i restanti 5
sono almeno pari a Buono, le due mediane sono rappresentate
dalle modalit Sufficiente e Buono.
Esempio. La mediana della variabile X 1,7,3,1,2,0,1,3,7,2 2,
intensit di posizione centrale rispetto alla sequenza dei
dati posti in ordine crescente. Invece nel caso della
variabile X 4,4,0,3,4,7,5 la mediana 4.
Esempio. Si calcola la mediana della variabile discreta X
con distribuzione

Xi
ni

0
1

1
2

2
3

3
2

4
2

5
1

Si osserva che il totale delle frequenze pari a 9. Poich


9 2 4,5 si devono sommare progressivamente le frequenze
fino ad ottenere 4 in corrispondenza di X 2 e 6 in
corrispondenza di X 3. Quindi la mediana vale 3, primo
dato che supera la met delle frequenze.
Esempio. Si prende in esame la distribuzione di frequenza
della statura degli iscritti alle liste di leva in Piemonte
per lanno di nascita 1979 (dati in centimetri). Lultima
colonna riporta le altezze dei rettangoli necessarie per
disegnare listogramma.
50
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Xi
150
160
170
175
180
190
195

160
170
175
180
190
195
220

fi %

Fi %

hi

1,10
22,10
27,90
26,70
18,87
2,22
1,11
100,00

1,10
23,20
51,10
77,80
96,67
98.89
100,0

1,10/(160-150) = 0,11
2,21
5,58
5,34
1,89
0,44
0,04

La mediana vale
50% 23,20%
175 170 170 174,8029
51,1% 23,20%

Me

di

ripartizione

26,70%

centimetri. Listogramma e la funzione


della variabile osservata sono i seguenti:

26,8%

1,10%+22,10%+
26,8%=50%

22,10%
18,87%

Mediana
174,8029

2,22%

1,10%

140

100%

150

1,11%

160

170

180

190

200

210

X
220

230

F(X)

75%

50%

25%

174,8029
0%
140

X
150

160

170

180

190

200

210

220

230

51
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

La linea tratteggiata che passa per listogramma nel punto


di ascissa 174,8029 divide il rettangolo di area 27,90% in
due sub rettangoli: il primo ha altezza 5,58 e base
174,8029-170 = 4,8209; il secondo altezza 5,58 e base 175174,8029 = 0,1971. Larea 27,90% quindi divisa in due
4,8209 5,58 26,8%
aree
rispettivamente
pari
a
e
0,1971 5,58 1,1% .
Sommando
le
aree
dei
rettangoli
corrispondenti alle prime due classi di intensit pi il
sub rettangolo di area 26,8% si ottiene la met delle
frequenze complessive: 1,10% + 22,10% + 26,8% = 50%.
Si calcolano infine i quartili:
Q1 170

25 23,20
175 170 170,32258
51,10 23,20

Q 2 170

50 23,20
175 170 174,80287
51,10 23,20

Q 3 175

75 51,10
180 175 179,47566
77,80 51,10

Si osservi che lunit di misura dei quartili centimetri,


la stessa dei dati a cui fanno riferimento. Il secondo
quartile corrisponde alla mediana in precedenza calcolata.
Esempio. Considerando i numeri 4
2
7
3
9, il terzo
quartile 7, valore preceduto dal 75% dei dati e seguito
dal restante 25%.
Esempio. Si calcolano I quartili della seguente variabile X
e si disegna la funzione di ripartizione:
1

-1

-2

Si procede innanzitutto con lordinare i dati:


-2

-1

Il primo quartile della variabile la quantit Q1


preceduta dal primo 25% dei dati, il secondo quartile
coincide con la mediana e il terzo quartile la quantit
Q3 che precede il primo 75% dei dati. I quartili di X
corrispondono ai punti di ascissa con ordinate 25%, 50% e
75% della funzione di ripartizione:

52
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

0,75

0,5

0,25

0
-3

-1

0,5 1

Dal grafico si ottiene che Q1 1 , Q 2 Me 0,5 e Q3 3 .


Rispetto agli altri due quartili, la mediana calcolata
come media aritmetica dei valori 0 ed 1 entro cui si
colloca.
Esempio. Si calcolano i quartili della variabile X
disegna la funzione di ripartizione:

Xi
ni

0
1

1
2

2
3

3
2

4
2

e si

5
1

Per calcolare i quartili di X si procede al calcolo delle


frequenze cumulate N i ottenendo

Xi
ni
Ni

0
1
1

1
2
3

2
3
6

3
2
8

4 5
2 1
10 11

Il primo quartile corrisponde alla frequenza 11 4 2,75 e,


poich nelle frequenze cumulate il primo valore che supera
il 25% delle frequenze 1, Q1 1 . La mediana corrisponde
alla frequenza 11 2 5,5 e, poich nelle frequenze cumulate
il primo valore che supera la met delle frequenze 2,
Q2 Me 2 . Il terzo quartile corrisponde alla frequenza
11 3 4 8,25 e quindi si ottiene Q3 4 .
Nel grafico seguente, i quartili sono riportati in ascissa
in corrispondenza dei rispettivi valori di ordinata sopra
ottenuti:

53
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

10
8,25

5,5

2,75

0
0

Esempio. Si calcola il 45% percentile della


discreta X e si disegnano le frequenze cumulate:

Xi
ni

0
1

1
2

2
3

3
2

4
2

variabile

5
1

Anche in questo caso il percentile desunto dal grafico


delle frequenze cumulate della variabile: in corrispondenza
dellordinata 11 45% 4,95 si ottiene il 45 percentile,
pari a 2.
12

6
4,95
3

0
-1

Esempio. Si calcola l82 percentile della variabile


discreta X e si rappresenta la funzione di ripartizione:

Xi
-2 0
0 4
4 5
5 10
10 - 15

ni
3
4
6
5
2

54
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Per calcolare l82 percentile di X si aggiunge


tabella la colonna della funzione di ripartizione F :

Xi

ni N i

-2 0
0 4
4 5
5 10
10 - 15

alla

Fi

3 3 0,15
4 7 0,35
6 13 0,65
5 18 0,90
2 20 1,00

82%
0,75

0,5

0,25

0
-5

X
0

8,4 10

15

20

25

Il
percentile
richiesto

il
punto
in
ascissa
corrispondente allordinata 0,82 nel grafico e cade
nellintervallo 5-10. Procedendo per interpolazione lineare
si ottiene:
P0,82

15.

0,82 0,65
10 5 5 8,4
0,90 0,65

Moda (o norma)

Nel linguaggio comune si dice essere alla moda oppure andar


di moda per indicare un capo di abbigliamento in voga
oppure un atteggiamento o un costume sociale assai
frequente.
Moda. La Moda (o norma) Mo di un gruppo di dati la
modalit con frequenza maggiore.
Una distribuzione unimodale se ammette un solo valore
modale, bimodale se ne ammette due, trimodale se ne ha tre
e cos via. Nei grafici sottostanti sono disegnate delle
distribuzioni con una o pi mode:

55
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Plurimodale

Bimodale

Unimodale

Nellanalisi di un collettivo la presenza di pi


modali significativi pu segnalare la presenza
collettivi. Ad esempio, considerando la statura
insieme eterogeneo di individui adulti di ambo i
possono comparire due valori modali della statura
compresenza dei due sessi.

valori
di sub
di un
sessi,
per la

Propriet. Alla moda corrisponde la frequenza massima ed


dunque massimo il numero di scarti nulli da Mo . Inoltre il
reciproco della moda di un insieme di dati pari alla moda
del reciproco dei dati: infatti se X x1, x2,.., xn ha moda
x Mo , la variabile Y 1 X ha moda 1 x Mo .
Moda per dati raccolti in classi. Nel caso di dati raccolti
in classi di ampiezza (modulo) costante, la classe modale
quella caratterizzata dalla massima frequenza. Se le classi
hanno ampiezza variabile, la classe modale quella con la
maggior densit media di frequenza. In tal caso per stimare
il punto in cui cade Mo allinterno della classe modale si
ricorre al rapporto:

Mo l1 d

f2
f2 f1

dove l1 indica il limite inferiore della classe modale, f1


la frequenza della classe che precede la classe modale, f2
la frequenza della classe che segue la classe modale e d
lampiezza della classe modale. Se le frequenze delle due
classi che precedono e seguono quella modale sono uguali,
la moda cade al centro della classe modale. Negli altri
casi, la moda tende ad avvicinarsi alla classe con
frequenza maggiore8.
Esempio. Data la variabile X seguente:
0-10
0,15

Se le

10-25
0,30

classi sono ampie, la stima di

25-35
0,35

M0

35-50
0,20

meno precisa.

56
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

La classe modale 25 35 e la moda vale:


Mo 25 35 25

4.

0,20
29
0,30 0,20

Misure di variabilit

Un fenomeno variabile se pu assumere valori diversi.


Questo concetto ha tre possibili accezioni:
Variabilit (in senso stretto). Differenza media tra
intensit osservate. Il fenomeno si manifesta in modo
diseguale
perch
sussistono
cause
obiettive
che
ne
determinano il suo diverso valore. Un esempio quello dei
prezzi di un bene di consumo rilevati in differenti citt:
le
differenze
dipendono
dalle
differenti
strutture
distributive allingrosso e al dettaglio, dalla concreta
disponibilit del bene, dalla diversa vigilanza delle
Autorit sui prezzi e da altre molteplici cause. Il prezzo
medio risulta un dato di scarso significato e lattenzione
va posta sulle differenze tra i singoli prezzi rilevati. Le
differenze medie (semplice e con ripetizione) costituiscono
una tipica misura di variabilit di questo tipo.
Dispersione. Variabilit rispetto ad un valore medio di
riferimento. In questo caso il fenomeno si manifesta con
intensit
differenti
che
sono
considerate
delle
approssimazioni del suo reale valore. Un esempio quello
di una serie di misurazioni (laltezza di una montagna o la
profondit di un lago) che contengono degli errori dovuti
allimperfezione
tecnica
dello
strumento
di
misura
adottato, alla precisione posta nella registrazione del
dato, alle condizioni atmosferiche e ad altri fattori di
disturbo. La media delle misurazioni tende ad assorbire i
fattori di disturbo, approssimando il valore esatto. Le
misure principali di dispersione sono la varianza, lo
scarto quadratico medio e il coefficiente di variazione.
Concentrazione.
Taluni
fenomeni,
detti
trasferibili,
possono manifestarsi con intensit uguale in capo a tutte
le unit statistiche oppure essere concentrati su poche o
addirittura su una sola di queste. Ad esempio la ricchezza
di un territorio pu essere posseduta da molti oppure
concentrarsi nelle mani di pochi individui, mentre gli
altri la detengono in misura sostanzialmente minore oppure
ne sono completamente privi. Nel caso di fenomeni di questo
tipo lanalisi della variabilit riguarda il grado di
57
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

concentrazione del fenomeno rispetto alle unit statistiche


osservate.
16.

Misure di variabilit

Differenze medie
La differenza media semplice S la media del valore
assoluto di tutte le possibili differenze tra i dati, non
considerando la differenza tra ogni dato e se stesso. La
differenza media con ripetizione R la media del valore
assoluto di tutte le possibili differenze tra i dati,
considerando anche la differenza tra ogni dato e se stesso:
n

Xi X j

j1 i 1
ij

nn 1

Xi X j

j1 i 1

n2

Il
diverso
denominatore
nelle
due
formule
trova
giustificazione nel fatto che per n dati si possono
calcolare
differenze
reciproche,
delle
quali
n2
n
2
certamente nulle e n n nn 1 non nulle. Vale inoltre
la relazione n 1 S n R .
Esempio. Si calcolano le differenze medie semplice S e con
ripetizione R per i dati X 1,1,5,3. Per il calcolo si
costruisce la tabella9 seguente.

1
-1
5
3

1
0
2
4
2

-1
2
0
6
4

5
4
6
0
2

3
2
4
2
0

La somma delle differenze in tabella 40, da cui


S

40
3,333
43

40
2,5
42

Metodo delle distanze graduali. Il calcolo delle differenze


medie con il metodo sopra descritto impraticabile se il
numero di dati elevato e si ricorre allora al metodo
delle distanze graduali. A tal fine si consideri la
seguente tabella in cui i valori della variabile X sono
stati preventivamente posti in ordine crescente e, per
9

Non occorre ordinare preventivamente i dati.

58
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

ciascuna coppia, stata indicata la differenza con segno


limitatamente al settore triangolare inferiore10:
x 1
x 1

x 2

x 3

x 4

x 5

x 2 x 2 x 1

x 3 x 3 x 1 x 3 x 2

x 4 x 4 x 1 x 4 x 2 x 4 x 3

x 5 x 5 x 1 x 5 x 2 x 5 x 3 x 5 x 4

Tutte le differenze sono non negative e si intende


calcolarne la somma. Nella prima colonna della tabella, il
contributo di x 1 vale 4x 1 . Il contributo di x 2 vale x 2
(seconda riga) e 3x 2 (seconda colonna). Il contributo del
generico elemento x i con 1 i n dati vale

xi i 1 n i xi 2i n 1
con

2i n 1 i 1 n i
La somma
quindi

delle

differenze
n

nel

x 2i
i

settore

triangolare

vale

n 1

i 1

Il calcolo delle differenze media semplice S e con


R
ripetizione
pu
essere
scritto
nella
formula
equivalente:

x 2i
n

S 2

i 1

S 2

nn 1

x 2i
n

n 1

n 1

i 1

n2

Esempio. Si consideri ad esempio la seguente tabella per


X 1,4,7,8 si scrive:

10

Dalla

serie

dei

x1, x2,..., xn .

dati

Ad esempio

x1, x2,..., xn si ottiene la serie


dalla serie x1, x2,..., xn 7,8,1,4 si

serie ordinata x1, x2,..., xn

ordinata
ottiene la

1,4,7,8 .
59

StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

1
4
7
8

1
3
6
7

3
4

24

x i

1
4
7
8

xi 2i n 1

2i n 1
-3
-1
+1
+3

-3
-4
7
24
24

Il totale dellultima colonna corrisponde alla met del


numeratore delle differenze medie.
Variabilit delle serie di tempo
In una serie di tempo composta da n termini si possono
calcolare n 1 differenze in valore assoluto tra termini
consecutivi:
Serie di
tempo X

X1

Differenze
consecutive
-

X2

X 2 X1

Xn

Xn

X n 1

Lindice di oscillazione11 dato dalla media delle n 1


differenze cos ottenute:
n 1

OS

i 1

Xi 1 Xi
n 1

Esempio. Si calcola lindice


seguente serie di tempo:

di

oscillazione

per

la

1990 1991 1992 1993 1994 1995 1996 1997


50
65
60
59
48
52
66
72
11

Lindice di oscillazione dovuto a C. Gini. Consultare anche G. Mattini Conti,


Riassunti delle Lezioni di Statistica I - Ia parte, Giappichelli, Torino, 1979.

60
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

Le differenze consecutive in valore assoluto valgono


1990 1991 1992 1993 1994 1995 1996 1997
15
5
6
11
4
14
6
Da cui
OS

15 5 6 11 4 14 6
8,714286
7

Confronto con la differenza media semplice. Lindice O S


rappresenta un misura di variabilit della serie storica ed
espresso nella stessa unit di misura dei dati del
fenomeno a cui si riferisce. Per disporre di una misura di
variabilit relativa I , si osserva che le n 1 differenze
sono una parte di tutte le n n 1 possibili differenze
ottenute confrontando tra loro tutti i termini della serie.
Poich la loro media la differenza media semplice s ,
ponendo a rapporto la differenza media semplice s con
lindice di oscillazione OS si ottiene il rapporto:

s
Os

Se I 1 , allora i valori consecutivi della serie di tempo


presentano una certa solidariet intertemporale in quanto
la media delle oscillazioni consecutive inferiore alla
media di tutte le possibili oscillazioni complessive. Se
I 1 , allora tra le differenze successive esistono cause
che fanno divergere la media delle oscillazioni consecutive
rispetto alla media delle oscillazioni complessive.
17.

Misure di dispersione

Range e scarto semplice medio


Campo di escursione (o range). E la differenza tra il
valore minimo X min e il valore massimo X Max dei dati:
range X Max X min ;
maggiore
il
range,
maggiore
la
variabilit dei dati. Il suo valore tuttavia influenzato
in modo determinante dalla presenza di dati estremi, che
talvolta possono essere anomali o addirittura errati. Per
prevenire la possibile distorsione del range si pu
utilizzare lo scarto interquartile S Q3 Q1 , differenza
tra il terzo quartile Q3 e il primo quartile Q1 . Tra il
primo e il terzo quartile cade il 50% delle frequenze del
carattere osservato. Dallo scarto interquartile si possono
61
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

ottenere misure di variabilit derivate quali ad esempio la


seguente:
Q 3 Q1
Me

Scarto semplice medio. E la media delle distanze assolute


tra i valori della variabile e la loro media:
n

sX

Xi X

i 1

Lo scarto semplice medio espresso nella stessa unit di


misura dei dati su cui calcolato.
Esempio. Si calcola lo scarto semplice
seguente variabile X espressa in cm:

sX

ni

0 5
5 8
8 10

2
6
3

medio

per

la

2 2,5 6 6,5 3 9
6,454545 cm
11

2 2,5 6,454545 ... 3 9 6,454545


1,438cm
11

Varianza e scarto quadratico medio


La devianza D X la somma del quadrato degli scarti tra i
dati e la loro media aritmetica:

DX

X 2

i 1

Se i dati sono raccolti in classi, le X i sono i centri di


classe della distribuzione. Dividendo la devianza per il
totale delle frequenze si ottiene la varianza X2 :
n

X2

X 2

i 1

La varianza la media ponderata del quadrato degli scarti


della variabile rispetto alla media.
62
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

La varianza sempre positiva oppure nulla, nel caso di


dati tutti uguali.
Lo scarto quadratico medio (o deviazione standard) la
radice quadrata della varianza:

X2

Si ricorre allo scarto quadratico medio per disporre di una


misura di dispersione con la stessa unit di misura dei
dati su cui calcolata. Ad esempio se X una serie di
misure espresse in cm, la varianza espressa in cm 2 e lo
scarto quadratico medio invece espresso in cm.
Coefficiente di variazione. E pari al rapporto

CV

X
X

Il rapporto indica di quante volte lo scarto quadratico


medio multiplo della media dei dati ed un numero
adimensionale, utile per i confronti tra distribuzioni con
media e varianza differenti. Pu
essere espresso in
percentuale:

CV % 100

X
X

Esempio. La statura di due individui rispettivamente di


181 e 177 cm e lo scarto quadratico medio delle stature 2
cm.
Due
manufatti
industriali
hanno
lunghezza
rispettivamente 16 e 20 cm e lo scarto quadratico medio
delle loro lunghezze nuovamente 2 cm. Sembra quindi che
la variabilit sia la stessa nei due casi; invece il
coefficiente di variazione nel primo caso vale 1,1%, nel
secondo caso 11,1%, cio 10 volte maggiore nel secondo
rispetto al primo caso.
Scomposizione della varianza. Per calcolare la varianza si
pu utilizzare la scomposizione seguente:

X f x
2

X2

Infatti

X 2

2X X nX2

X
n

X2

63
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Esempio. Si calcola la varianza della variabile X raccolta


in classi con la seguente distribuzione

Xi

fi

0-50
50-100
100-150
150-200

0,25
0,35
0,16
0,24

X 25 0,25 75 0,35 75 0,35


125 0,16 175 0,24 94,5

2 252 0,25 752 0,35


... 1752 0,24 94,52 3044,75
Operatore varianza. Le formule per il calcolo della
varianza possono essere riassunte introducendo loperatore
varianza V X . Ad esempio, nel caso di un insieme di dati
individuali si scrive:

V X

X i

i 1

X
n

Utilizzando loperatore varianza si ritrova la propriet


della varianza V aX a2V X . Inoltre, se i valori di X sono
tutti positivi, indicando con M 1 la loro media aritmetica e
con M 2 la loro media quadratica si ha luguaglianza:

V X M 2 2 M 1 2 E X 2 EX 2

dove E X 2 la media aritmetica del quadrato dei dati e


EX 2 il quadrato della media aritmetica dei dati.
Esempio. La media dei numeri X 1;5;9;2;1 vale

1 5 9 2 1
3,2
5

X
La varianza vale

X2

12 52 92 22 12
5

3,22

112
3,22 12,16
5

Esempio. Si calcola la varianza della variabile X raccolta


in classi con la seguente distribuzione
64
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Xi
0-50
50-100
100-150
150-200

fi
0,25
0,35
0,16
0,24

X 25 0,25 75 0,35 ... 175 0,24 94,5

2 252 0,25 ... 1752 0,24 94,52 3044,75


Esempio. Si calcola la varianza delle seguenti lunghezze in
cm di un manufatto prodotto da una macchina utensile:
10,37 10,39 10,31 10,09
10,44 10,30 10,31 10,16
La media delle lunghezze vale 10,29625 cm. La varianza vale

X2

10,372 10,392 ... 10,162


10,296252 0,012048cm 2
8

Esempio. Si calcola la varianza della variabile X


seguente distribuzione

Xi
ni

-1 5
2 7

9
2
10 4

con la

1
2

1 2 5 7 9 10 2 4 1 2
5,32
2 7 10 4 2

12 2 ... 22 4 12 2
2 7 10 4 2

5,322 11,8976

Esempio. Si calcola la varianza della variabile X


seguente distribuzione

Xi
fi

con la

0
1
2
3
4
0,08 0,28 0,40 0,16 0,08

0 0,08 ... 3 0,16 4 0,08


1,88
0,08 0,28 0,40 0,16 0,08

65
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

02 0,08 ... 42 0,08


1,882 1,0656
0,08 0,28,040 0,16 0,08

Esempio. Si calcola la varianza della variabile X raccolta


in classi con la seguente distribuzione

Xi

fi

0-50
50-100
100-150
150-200

0,25
0,35
0,16
0,24

X 25 0,25 75 0,35 75 0,35


125 0,16 175 0,24 94,5

2 252 0,25 752 0,35


... 1752 0,24 94,52 3044,75
Esempio. Si calcola lo scarto quadratico
variabile dicotomica X con distribuzione

Xi

fi

0
1

0,40
0,60

medio

della

X 0 0,40 1 0,60 0,60


X

0,40 12 0,60 0,602

0,60 1 0,60 0,4898

Si osservi che media e varianza di X dipendono entrambe dal


parametro 0,60 , valore della frequenza per X 1 . In
generale per variabili dicotomiche si ha che

X
18.

Misure di concentrazione

Nel caso di fenomeni trasferibili la variabilit intesa


come grado di concentrazione del fenomeno in capo alle
unit statistiche osservate. Se il fenomeno concentrato
in poche unit statistiche la variabilit elevata; la
variabilit

invece
bassa
quando
il
fenomeno
si
distribuisce in modo equo.
66
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Rapporto di concentrazione
Quando
un
fenomeno

caratterizzato
da
elevata
concentrazione, la differenza media tra le intensit
rilevate tende a crescere. Se lintero fenomeno tutto
nelle
mani
di
una
sola
unit
statistica,
X1 X2 ... Xn 1 0 e X n 0 , allora la media aritmetica
X
vale X n e la differenza media pari a 2 volte la
n
media
aritmetica:
infatti
sono
nulle
le
differenze
calcolate tra i dati presi a due a due, ad eccezione delle
differenze tra ogni termine e X n :
S

n 1X n
n 1X n

2X n 2X
nn 1
nn 1

In considerazione di questo risultato,


concentrazione dato dal rapporto

S
2X

un

indice

di

0 R 1

Il rapporto tende a 0 quando il fenomeno equamente


distribuito nel collettivo e tende a 1 quando la
concentrazione elevata.
Esempio. Si considera la seguente variabile statistica:

Xi =

10

20

Si ha che X 9,8 e S 6,8. Il rapporto R vale quindi


R

6,8
0,347
2 9,8

Esempio. Per la seguente variabile statistica:

Xi =

30

Si ottiene X 7,8 e S 11,4. Il rapporto R vale quindi


R

11,4
0,73
2 7,8

Curva di Lorenz
Si considerano n unit statistiche e le loro intensit
poste in ordine crescente x1 x2 ... xn . Si determinano
67
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

le somme cumulate x1 , x1 x 2 , x1 x2 x3 ,. La percentuale


del carattere complessivamente posseduto dalle prime i
unit statistiche vale
x1 x2 ... xi
x1 x2 ... xn

qi

Questa percentuale pu essere posta a confronto con la


percentuale
di
unit
statistiche
con
ammontare
del
carattere minore uguale a xi :

p1

i
1
2
, p 2 , ..., pi
,
n
n
n

Se il fenomeno concentrato, pi qi e, al crescere della


pi qi ,
differenza
la
concentrazione
risulta
progressivamente maggiore. Infatti se q i minore di pi ,
una percentuale pi di popolazione possiede una quota q i
proporzionalmente
minore
del
fenomeno.
Riprendendo
lesempio della ricchezza, se il pi 80% della popolazione
q i 20% della ricchezza complessiva, il
detiene il
restante 80% della ricchezza nelle mani solo del 20%
pi qi allora il fenomeno
della popolazione. Se
equamente ripartito. Di conseguenza si pu utilizzare il
rapporto:
n 1

RC

i 1

qi

n 1

0 RC 1

i 1

come misura del grado di concentrazione: RC 0 nel caso di


RC 1
equa
distribuzione
e
nel
caso
di
massima
concentrazione.
Si possono rappresentare le coppie pi, qi in un grafico che
riporta in ascissa i valori pi e in ordinata i valori q i .
Congiungendo i punti con un tratto si ottiene la spezzata
di Lorenz12, che illustra come cresce la proporzione del
carattere posseduto al crescere della frazione di unit
statistiche considerate.
La rappresentazione la seguente:

12

M.O. Lorenz, Methods of Measuring the Concentration


Statistical Association, Vol. 9, No. 70 Jun-1905.

of

Wealth,

The

American

68
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

100

90
80
Retta di
equidistribuzione

70
60
50

Curva di
concentrazione

40
Area di
concentrazione

30
20
10

p
0
0

20

40

60

80

100

Al grafico si aggiunge una retta che congiunge i due


vertici (0;0) e (1;1), per indicare la situazione di
equidistribuzione teorica del carattere in cui pi qi .
Esempio. Si considerano
gruppo di 10 soggetti:
u.s.

1
10

xi

2
20

3
10

seguenti
4
30

5
20

dati
6
40

riferiti

7
20

8
80

9
20

un

10
10

Si ordinano i valori di X in modo crescente, ottenendo la


seguente distribuzione:

ni

xi

Ni

Xi

pi

qi

3
4
1
1
1
10

10
20
30
40
80
180

3
7
8
9
10

10
30
60
100
180

30%
70%
80%
90%
100%

6%
17%
33%
56%
100%

La rappresentazione grafica la seguente:

69
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Dal grafico si osserva, ad esempio, che il primo 70% del


della popolazione pi povera possiede il 17% dellammontare
complessivo del carattere.
Dati raccolti in classi. Nel caso di dati raccolti in
classi, occorre distinguere il caso in cui si conosce
lammontare del carattere in capo di ciascuna unit
statistica, da quello in cui si conosce solo lammontare
complessivo del carattere posseduto dalle unit presenti
nelle classi. Nel secondo caso si ipotizza che lammontare
di classe sia equamente distribuito tra gli individui
appartenenti alla medesima classe.
Esempio. Si costruisce la curva di Lorenz per la seguente
distribuzione:

Xi

ni

Ni

pi

0 5
5 10
10 15
15 - 20

30
45
22
13

30
75
97
110

27%
68%
88%
100%

Xi

ni

0 5
5 10
10 15
15 - 20

30
45
22
13

xini
Qi
2,5 30 75
75
7,5 45 337,5 412,5
12,5 22 275 687,5
17,5 13 227,5
915

qi
8%
45%
75%
100%

La curva di Lorenz la seguente:

70
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

5.

Misure di forma

19.

Asimmetria

Una distribuzione simmetrica se la media coincide con il


valore mediano, asimmetrica negli altri casi. Lasimmetria
positiva se la media maggiore della mediana, negativa
in caso contrario:

X Me

X Me

X Me

Asimmetria
negativa

Simmetria

Asimmetria
positiva

Una distribuzione con asimmetria negativa presenta una


frequenza di dati inferiori alla media in misura superiore
alla frequenza di dati superiori. Una distribuzione con
asimmetria positiva connotata dalla presenza di una
frequenza di dati superiori alla media, in misura superiore
alla frequenza di dati inferiori. Una distribuzione
simmetrica riporta frequenze equivalenti prima e dopo la
media, che in questo caso coincide con la mediana.
Lindice di skewness13 di Pearson si basa sul confronto tra
la media e la mediana:
13

Da skew, obliquo.

71
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Me

Sk

Lindice nullo nel caso di simmetria, positivo nel caso


di asimmetria positiva e negativo nel caso di asimmetria
negativa.
Lindice di Pearson non tuttavia sempre adeguato a
segnalare la presenza di asimmetria nei dati. Per questo si
ricorre a un indice di asimmetria basato sul concetto di
momento14 di una distribuzione:

m'3

' 32
2

I momenti utilizzati nella formula sono i seguenti:

m'2

X i

X 2 fi

m'3

i 1

Lindice

X 3 fi

i 1

ha la seguente interpretazione:

1 0

1 0

1 0

Asimmetria
negativa

Simmetria

Asimmetria
positiva

Esempio.

Si
calcola
lasimmetria
della
X 1;3;4;8 .
Il
momento
di
ordine
r 3
allorigine vale:
m3

13 33 43 83
4

variabile
rispetto

150,5

Il momento di ordine r 2 rispetto alla media vale


m'2

1 3,52 3 3,52 4 3,52 8 3,52


4

10,25

150,5
0
10,253 2

La distribuzione simmetrica, come risulta dalla posizione


coincidente di media m1 3,5
e mediana Me 3,5 nel
grafico che rappresenta la distribuzione di frequenza della
variabile X :

14

Il termine mutuato dalla Fisica.

72
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

0,25

3,50
3,5
0
-2

Esempio.

Si

-1

X
0

calcola

lasimmetria

di

X 1;5;6;7 .

Da

m'2 5,1875 e m'3 9,84375 si ottiene


1

9,84375
0,83315
5,18753 2

Lasimmetria negativa, come risulta dalla diversa


posizione di media m1 4,75 e mediana Me 5,5 nel grafico
che rappresenta la distribuzione di frequenza della
variabile X :
0,25

4,75

5,5

X
0

20.

Disuguaglianza di Thcebyceff

In molti casi pratici non si hanno informazioni sulla


distribuzione di una variabile X con media X e scarto
quadratico medio X . In tal caso si possono comunque trarre
delle considerazioni basandosi sulla dispersione dei dati.
A tal fine si costruisce un intervallo di raggio 0
simmetrico rispetto alla media, come nel disegno seguente:

73
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

dati esterni

dati esterni

dati interni

La distribuzione risulta divisa in due sottoinsiemi:

Numero
Condizione

Dati esterni
N
X X

Frequenza

FrX X

Varianza

1
N

Soglie

Dati interni
N N
X X

N
N

X 2

N 2

FrX X 1

12

1
N

12

N
N

X 2

N N 2

Le numerosit dei due insiemi dipende dalla variabilit dei


dati e, per tenere conto di questo aspetto, si esprime
lampiezza
dellintervallo
in
funzione
dello
scarto
quadratico medio: X . Dopo questa sostituzione i dati
esterni
allintervallo
soddisfano
la
condizione
X X X , ovvero la distanza massima dei dati dalla
media non pu essere inferiore ad X .
La
varianza
nei
caratteristiche:

due

sottoinsiemi

ha

le

seguenti

Insiemi Limiti della varianza


N
Dati
min 2 2 X2
esterni
N
N N 2 2
Dati
Max 12
X
interni
N
La varianza complessiva
minima varianza esterna:

N 2 2
X X2
N

X2

sicuramente maggiore della

ovvero

N
1
2
N

74

StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

Scelto un parametro 0 si conclude che la frequenza


esterna non pu superare 1 2 e, di conseguenza, la
frequenza dei dati interni allintervallo non pu essere
inferiore ad 1 1 2 . Questi risultati sono veri per ogni
tipo di distribuzione e sono noti come disuguaglianza di
Tchebycheff15.
Si osservi che, affinch le due disuguaglianze sopra
riportate abbiano significato, occorre che 1 . Infatti,
se si scegliesse un parametro inferiore ad 1 si otterrebbe
semplicemente che la frequenza deve essere maggiore di un
numero negativo.
Esempio. Un carattere X ha media X 47,18 e varianza
X2 617,26 . Per 1,5 , la minima frequenza interna
allintervallo 9,912 84,447 vale 1 1 2 0,75 . Se il
carattere osservato posseduto da 10.000 individui, ve ne
sono al massimo 2.500 con intensit del carattere inferiore
oppure superiore ai limiti indicati.

15

Matematico russo del ventesimo secolo.

75
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

3. Studio congiunto di due caratteri


statistici

6.

Metodi per la perequazione

I metodi per la perequazione sono utilizzati nello studio


della relazione tra variabili al fine di formulare un
modello matematico in grado di descrivere la relazione tra
una variabile dipendente Y ed una o pi altre variabili
indipendenti X i in termini matematici. Un altro importante
settore di studio e di applicazione riguarda lo studio
delle serie di tempo, in cui i metodi per la perequazione
sono impiegati al fine di formulare un modello descrittivo
del comportamento di fondo dei dati (trend).
La terminologia corrente assegna il nome perequazione alla
ricerca del modello teorico adatto a descrivere la
relazione tra variabili. Per motivi storici si parla anche
di regressione, segnatamente per il caso lineare. Con il
termine di interpolazione si indica lassegnazione di un
valore teorico corrispondente a un valore effettivo della
variabile indipendente interno ai dati iniziali del modello
e con estrapolazione lassegnazione di un nuovo valore
teorico in corrispondenza di un valore della variabile
indipendente esterno ai dati iniziali del modello.
Il metodo dei minimi quadrati. La perequazione pu essere
grafica, quando si rappresentano dei punti in un diagramma
cartesiano al fine di evidenziare il comportamento di fondo
dei dati. E questo un approccio di tipo intuitivo, adatto
a formulare delle prime indicazioni utili a guidare le
analisi successive. Un secondo metodo di perequazione
detto
meccanica
o
per
medie
mobili,
e
riguarda
essenzialmente lo studio delle serie di tempo.
Il metodo di perequazione di tipo analitico si basa
sullapplicazione del metodo dei minimi quadrati e consente
di stimare i parametri di un modello matematico con il
vincolo di minimizzare la distanza complessiva tra i dati
effettivi e quelli teorici. In generale un modello
perequativo
di
tipo
analitico
assume
lespressione
seguente:

Y f x1, x2,..., xn
76
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

dove Y indica la variabile dipendente e X 1, X 2,..., X n le n


variabili indipendenti che concorrono a determinare il
valore di Y , pi un fattore di errore . Il fattore
esprime lazione su Y di tutte le ulteriori variabili non
esplicitate
nel
modello
perch
non
facilmente
quantificabili
oppure
il
cui
contributo

ritenuto
marginale. Il
modello
adatto a rappresentare la
variabilit di Y
se
una componente di natura
residuale.
Il metodo dei minimi
condizione di minimo:

quadrati16

prevede

la

seguente

Minimi quadrati. La funzione utilizzata per la perequazione


deve rendere minima la somma delle differenze (al quadrato)
n

tra i dati effettivi e quelli teorici:

Yi

min

i 1

Secondo
il metodo dei
minimi
quadrati le
distanze
complessive tra ogni punto del piano e la funzione
interpolatrice sono globalmente minime. Ad esempio, nel
grafico sottostante, la curva stata disegnata in modo da
rendere minima la somma del quadrato delle distanze tra i
punti A, B e C e i corrispondenti punti sulla curva:
y = aX

+ bX + c
C

Rapporto di determinazione. In generale si possono proporre


pi funzioni perequatrici per spiegare landamento dei
dati. Al termine del processo di calcolo dei parametri
della funzione perequatrice, occorre valutare il grado di
adattamento del modello ai dati, verificando lentit degli
scostamenti tra i valori teorici e quelli effettivi. Il
metodo dei minimi quadrati richiede infatti che gli
scostamenti siano complessivamente minimi, senza precisare
16

Anche LSM, Least Squares Method.

77
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

una soglia di tolleranza. Inoltre, il metodo determina i


coefficienti del modello che tra tutti i modelli dello
stesso tipo minimizzano la somma del quadrato degli
scarti, senza indicare quale sarebbe il modello in assoluto
migliore.
Esempi di funzioni perequatici

Retta con
inclinazione
positiva

Retta con
inclinazione
negativa

Y = a+bX

b>0

Y = a+bX

b<0

Y = a+bX+cX

Parabola
convessa

Parabola
concava

a>0

a<0

Y =a +bX + cX

Y
Y

Y =1/(a+bX)

Esponenziale
negativa

Iperbole

y = ab X
b<1

Y= aX

y = ab X

Esponenziale
positiva

Potenza

78
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Esponenziale
negativa

y = ab X
b<1

Il problema di valutare lo scostamento complessivo tra dati


effettivi e dati perequati pu essere risolto dividendo lo
scostamento dalla media in due addendi:

Y Y Y Y Y Y
Il primo addendo la differenza tra il valore perequato e
la media dei valori di Y . Il secondo la differenza tra la
media Y e i dati effettivi. Passando al quadrato degli
scostamenti, si ottiene

Y
La sommatoria
Y

introdotto;

2
Y

la

2
Y

indica la devianza complessiva di

devianza

Y Y

Y Y

esprime

spiegata
al

dal

devianza

modello
residua

(non

spiegata).
A titolo di esempio, il grafico seguente evidenzia una
curva e lo scostamento tra il valore teorico Y0 YX X 0
e il valore effettivo Y0 in corrispondenza dellascissa
X X0 :

79
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Y0

differenza
residua
differenza
complessiva
differenza
spigata

^
Y0
_
Y

X0
Y = aX

+ bX + c

Nellipotesi in cui tutti i valori di Y si collocano sulla


funzione Y , la devianza spiegata coincide con quella
complessiva di Y e il modello descrive in modo perfetto
landamento di Y rispetto a X .
Per valutare se il modello perequativo adatto a
descrivere il comportamento di fondo della variabile Y , si
pu porre a rapporto la devianza spiegata con la devianza
complessiva della variabile Y .
Il rapporto di
equivalenti:
n

i 1

i 1

Yi Y

R2

determinazione

dato

dalle

formule

Yi Yi

i 1
n

0 R2 1

i 1

Limiti del rapporto. Il rapporto R


compreso tra 0 e 1:
2
se Yi Y allora R 0 , segno che la perequazione con il
modello utilizzato non soddisfacente; se Yi Yi allora
R 2 1 e il modello scelto in grado di approssimare in
modo perfetto i dati.
Andamento di R2 al crescere del grado del polinomio
utilizzato. Nel caso di perequazione con funzioni di tipo
polinomiale, al crescere del grado
del polinomio
n
utilizzato per linterpolazione cresce anche il valore di
R 2 . In altri termini, al crescere del grado del polinomio
si ottengono approssimazioni progressivamente migliori dei
dati.

80
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Esempio. Il seguente grafico riporta la retta, la parabola


e un polinomio di terzo grado, usati per descrivere la
relazione tra le seguenti variabili:

Xi
Yi

1
-20

4
5

6
1

7 11
60 33

Il grafico illustra landamento delle diverse funzioni


perequatrici utilizzate ed il rapporto di determinazione
nei tre casi:

Al crescere del grado del polinomio R 2 migliora passando da


0,5164 della retta a 0,7107 del polinomio di terzo grado,
segno che alla retta preferibile un polinomio di ordine
2, a cui preferibile un polinomio di ordine 3 e cos
proseguendo. Va tuttavia osservato che laccrescimento di
R 2 progressivamente minore (come dimostrato nel grafico
in piccolo) e cos il beneficio di utilizzare un polinomio
di grado elevato. Diviene inoltre pi complesso descrivere
landamento di fondo della relazione tra le due variabili.
21.

Retta dei minimi quadrati

Un importante caso di perequazione con il metodo dei minimi


quadrati, quello in cui la funzione perequatrice una
retta di equazione:

Y a bX
Il parametro a indica lintercetta della retta sullasse
delle ordinate, ovvero il valore che Y assume per X 0 .
81
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Il parametro b indica la pendenza della retta: nel caso di


una variazione di X pari ad 1, il valore teorico di Y
varia di b volte17. Il segno positivo di b indica che la
retta crescente al crescere di X .
Nellesempio seguente sono rappresentati le coppie di
valori di due variabili X e Y per un gruppo di soggetti.
Al grafico stata aggiunta una linea tratteggiata, che
indica la relazione complessiva tra le due variabili
rappresentate:
u.s.
a
b
c
d
e
f
g

X
0
1
2
3
4
5
6

Y
-2
3
6
4
7
9
5

Calcolo dei parametri della retta


Per ottenere i parametri a e b che rendono minima la somma
del quadrato degli scarti tra dati effettivi e dati teorici
occorre ricercare il minimo della funzione:

f a, b

Y a bX

Il punto di minimo si ottiene calcolando le derivate di


primo e secondo grado di f nelle incognite a e b .

17

Il parametro b la tangente trigonometrica dellangolo che la retta forma con il


verso positivo dellasse delle ascisse.

82
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Le derivate di primo grado sono le seguenti:

f
2 Y a bX
a

f
2 Y a bX X
b

Le derivate di secondo grado sono le seguenti:


2f
2n
a2

2f
2 X
ab

2f
2 X 2
2
b

Nel punto di minimo la derivata prima si annulla e la


derivata seconda positiva:

2f
2f 2f

b
a2 b 2

2f
2n 0
a2

4 n X 2

X
2

Ogni coppia di valori a e b che annulla contemporaneamente


le due derivate prime f a e f b , rende quindi minima la
funzione f a, b . Solo se tutte le X sono uguali la seconda
condizione nulla, ma in tal caso lintero processo
perequativo perde di significato.
Per calcolare i parametri a e b che determinano la
condizione di minimo per le due derivate parziali, occorre
risolvere il c.d. sistema delle equazioni normali nella
forma seguente:

f a

f b

Y a bX 0
Y a bX X 0

Riordinando i termini si passa al sistema seguente:

na b X Y

2
a X b X XY
Il sistema
valori18:

ammette

come

Y X
XY X
n
X
X X

unica

18

Il simbolo

...

soluzione

Y X
n X

la

coppia

di

X XY
X

utilizzato indica il determinante delle matrici ad argomento.

83
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

n
b

X
n

Y
XY
X
X

n XY
n X 2

X Y
X
2

Rispetto al grafico precedente, i parametri a e b cos


calcolati consentono di disegnare una retta che si
distanzia il meno possibile dalla globalit dei punti.
Dalla soluzione mediante determinanti si pu inoltre
osservare che la relazione lineare tra le due variabili X e
Y implica la variabilit di X . Infatti il determinante a
denominatore delle due soluzioni pu essere scritto come
n2 X2 : il processo perequativo ha senso solo se non
nulla la varianza X2 della variabile indipendente X .
Calcolo del determinante. Per calcolare le soluzioni a e b
del sistema di equazioni normali di una
retta, occorre
calcolare il determinante di matrici di rango 2. Per
ottenere il determinante si devono calcolare il prodotto
dei dati lungo la diagonale principale e sottrarre il
prodotto dei dati lungo la diagonale secondaria:

a c
ad cb
b d
12 6
,
Esempio. Data la matrice
27 14
12 6
12 14 27 6 6
27 14
Esempio. Si calcolano i parametri a e b della retta di
equazione Yi a bXi ed i valori perequati Yi per le coppie
di dati X,Y indicate.

Xi

Yi

1
2
3
4
5

8
12
18
28
40

Il sistema di equazioni normali da risolvere il seguente:

84
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

n
n

na

b
X

i i 1 Yi

i 1
n
n
n
a X i b X i2 X iYi
i 1
i 1
i 1

I coefficienti del sistema sono riepilogati nella seguente


tabella:

Xi

Yi

X i2

XiYi

1
2
3
4
5
15

8
12
18
28
40
106

1
4
9
16
25
55

8
24
54
112
200
398

Da cui:

5a 15b 106

15a 55b 398


Le soluzioni del sistema sono

106 15
106 55 398 15 140
det
398 55

5 15
5 55 15 15 50
det
15 55
5 106
5 398 15 106 400
det
15
398

106
det
398
a
5
det
15

15

55
15

55

5
det
15
b
5
det
15

106

398
15

55

140
2,8
50

400
8
50

Il modello lineare ha equazione Y 2,8 8X i . Il grafico a


dispersione seguente rappresenta i punti e la retta dei
minimi quadrati:
85
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

50

40
30

y = 8x - 2,8

20
10
0

X
0

I valori perequati sono i seguenti:

Xi

Yi

1
2
3
4
5

8
12
18
28
40
106

Yi
5,2
13,2
21,2
29,2
37,2
106

La somma dei dati effettivi pari alla somma dei dati


n

perequati:

i 1

Y .

Il valore teorico Y corrispondente

i 1

ad X 6 vale YX 6 2,8 8 6 45,2 .


Propriet
Si prendono in esame
minimi quadrati.

alcune

propriet

della

retta

dei

Posizione. La retta passa per il punto che ha come


coordinate i rispettivi valori medi delle due variabili:

Y a bX
Infatti, dalla prima equazione del sistema di equazioni
normali si ha che
n

na b X i
i 1

a b

Xi

i 1

da cui

i 1

i 1

ovvero a bX Y
86

StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Somma. La somma dei dati effettivi pari alla somma dei


dati perequati:
n

Yi

i 1

i 1

Infatti dalla prima delle due equazioni normali si nota che


n

na b Xi
i 1

Scarti. Gli
variabile X

Yi

Y .
i

i 1

i 1

scarti

yi Yi Yi
n

sono

incorrelati19

con

la

Xi 0

i 1

Dalla seconda equazione del sistema di equazioni normali si


ha infatti che

a bX i X i

i 1

X i 0 .

i 1

Si
osservi
che
i
residui
della
perequazione
sono
incorrelati con la variabile indipendente in quanto la
correlazione tra X e Y spiegata proprio dalla retta dei
minimi quadrati introdotta.
22.

Covarianza e correlazione

Covarianza. La covarianza data dalla formula:


n

XY

X Yi Y

i 1 j1

XY

XYf

i i i

X Y

i 1

Il numeratore detto codevianza di X e Y . La formula XY


pu essere letta come una generalizzazione del concetto di
varianza X2 estesa al caso di due differenti variabili; la
varianza X2 pu essere a sua volta interpretata come la
covarianza di una variabile su se stessa.
La covarianza mette in relazione gli scarti dai rispettivi
valori medi delle due variabili. Lammontare e il segno
della covarianza dipendono dalla combinazione di segni
degli scarti. La covarianza positiva se le due variabili
tendono a crescere o a decrescere luna in relazione
allaltra e prevalgono i prodotti di scarti dello stesso
19

In generale, due variabili

X e Y

non sono correlate se

XY

0.

87
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

segno (positivi oppure negativi); negativa se le due


variabili hanno comportamento discorde: al crescere di una
delle due, laltra decresce e viceversa. In questo caso
prevalgono i prodotti di scarti con segni di tipo
oppure . Se due variabili X ed Y sono indipendenti
allora XY 0 , ma la covarianza nulla anche se le due
variabili non sono indipendenti e i prodotti degli scarti
delle due variabili dalle rispettive medie si compensano
tra loro. Lindipendenza interpolativa dunque una
condizione pi debole della indipendenza causale tra due
variabili.
Limiti. La covarianza compresa tra 0 e XY Y X . Si
considerano infatti due variabili scarto x e y e la
funzione f k kx y 2 positiva o nulla per ogni valore
di
Sviluppando
il
quadrato
si
ottiene
t.
2
2
f k k x 2k xy
y . Poich f k positiva il
discriminante dellequazione minore o uguale a zero,
xy 2 x y 0 , ovvero xy 2 x y da cui si
ricava lassunto.

Correlazione. Il coefficiente di correlazione lineare r


pari al rapporto tra la covarianza e il prodotto dei due
scarti quadratici medi:

X
r

XY

X Y

X Yi Y
n

x y
i

XY

2
i

i i

2
i

n X Y

X i2 n X 2 Yi2 n Y 2

Cenni storici. Il coefficiente di correlazione fece la sua


comparsa in un lavoro di Karl Pearson del 1895 ma, per la
88
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

scuola francese, la paternit va condivisa con lastronomo


Auguste Bravais, che aveva scritto di una correlation tra
variabili fin dal 1846. Per questo anche noto come
coefficiente di Bravais-Pearson. Il simbolo r
divenne
ufficiale a partire dal 1920.
Coefficiente di correlazione per la retta: nel caso della
retta il quadrato del coefficiente di correlazione lineare
uguale al rapporto di determinazione:

R2

2
i

2
i

bX i a bX

xi yi



2
xi

2
i

2
i

xi yi

xi2 yi2

r2

Il rapporto di determinazione R 2 e il coefficiente di


correlazione r hanno significato diverso ma, nel caso della
retta, esprimono concetti simili: R 2 indica quanto la retta
si adatta bene ai dati; r indica in quale misura (e con
quale segno) la relazione tra le due variabili pu essere
interpretata come una relazione di tipo lineare.
Regressione: nel caso di regressione lineare con gli scarti
di X , Y Y bX X . Si pu esprimere b in funzione
del coefficiente di correlazione:

xY

i i

xiYi
2
i

n
xi2

XY

XY2
2
X
X

2
Y
2
Y

XY

Y r Y
X Y X
X

Y Y r Y X X .
X

Dalla relazione si nota che il segno della pendenza della


retta dato dal segno di r .
Quando le due variabili sono sullo stesso piano logico,
ovvero entrambe possono essere sia variabile dipendente sia
89
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

variabile indipendente20 si pu perequare sia X e Y , sia Y


su X . Le due equazioni di regressione sono:

Y Y bX X

X d Y Y
X

Si ha che

xY

i i

xY
x

i i
2
i

n
xi2

XY

X2

XY

X2

2
Y
2
Y

y X
y
i

XY

Y r Y
X Y X
X

y
i

2
i

Xi

n
y i2

XY

Y2

XY

Y2

2
X
2
X

XY

X r X
Y X Y
Y

Da cui

b d r

r Y r
Y
X

Vale quindi la propriet


r

b d

Il coefficiente di correlazione lineare r pari alla media


geometrica dei due coefficienti angolari. Il segno21
(positivo o negativo) di b e di d dato da r . Le due
pendenze b e d hanno quindi lo stesso segno e le
rispettive
rette
sono
entrambe
crescenti
oppure
decrescenti.
Analisi di r sul grafico a dispersione
Il coefficiente r

compreso nei limiti 1 r 1.

20

La statura di fratelli e sorelle un esempio di casi di questo tipo.

21

Per questo motivo nel caso di doppia perequazione, si attribuisce ad

il segno comune

d.
90

StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Infatti dai limiti della covarianza si ottiene

X Y XY X Y
r

XY
1
X Y

Si possono analizzare i valori soglia di r sulla base di un


grafico a dispersione per due variabili X e Y .
Se r = 1 la correlazione fra le due variabili positiva e
perfetta e i punti del grafico giacciono sulla retta di
regressione, che ha inclinazione positiva. Se 0 < r < 1 la
correlazione fra le due variabili positiva e i punti si
collocano vicino alla retta di regressione. Se r = 0 la
correlazione fra le due variabili si discosta notevolmente
da una relazione di tipo lineare: i punti giacciono sul
piano cartesiano in posizione vicina ad una retta parallela
allasse X ed segno di indipendenza correlativa tra le
due variabili. Pu per sussistere una correlazione di tipo
non lineare tra X e Y , ad esempio quando i punti tendono a
disporsi secondo una parabola. Se
-1 < r < 0
la
correlazione negativa e i punti si collocano vicino alla
retta di regressione che ha inclinazione negativa. Infine
se r = -1 la relazione lineare fra le due variabili
negativa e perfetta e i punti del grafico giacciono sulla
retta di regressione, che ha inclinazione negativa.

r=0,90

a)
elevata e
positiva

b)
perfetta
e
positiva

r=1

91
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

c)
elevata e
negativa

d)
perfetta
e
negativa

Appunti di statistica descrittiva

r=-0,90

r=-1

r=0,0

e) nulla

r=0,0

f) non
lineare

Esempio. Sulla base delle seguenti coppie di variabili si


calcola il coefficiente di correlazione lineare r ed il
rapporto di determinazione R 2 :

92
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Xi

Yi

1
2
3
4
5

8
12
18
28
40

Per calcolare il coefficiente di correlazione si utilizzano


i totali della seguente tabella:

Xi

Yi

X i2

XiYi

1
8
2 12
3 18
4 28
5 40
15 106

1
4
9
16
25
55

8
64
24 144
54 324
112 784
200 1600
398 2916

15
3
5

XY

i i

Yi2

106
21,2
5

nX Y

i 1

n 2
n

X i nX 2 Yi2 nY 2
i 1
i 1

398 5 3 21,2

55 5 32 2916 5 21,22
0,978232

Per calcolare il rapporto di determinazione R 2 si scrive:

Xi

Yi

1
8
2
12
3
18
4
28
5
40
15 106
2
Da cui R

Yi
1
4
9
16
25
55

Y
256
64
0
64
256
640
2

Yi

Y
174,24
84,64
10,24
46,24
353,44
668,8
2

640
0,957 .
668,8

Si verifica che R 2 r 2 : 0,957 0,9782322 .

93
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Esempio. Si calcola il coefficiente di correlazione r per


due variabili X ed Y :
-3
3

X
Y

-2
2

1
-1

0
1

1
1

2
-1

2
3

Devianze:
Dev X

22,8571

2
i

i 1

2
i

7X 2

2
i

7Y 2

i 1

23 7 0,14286

Dev Y

y i2 25,4286

i 1

i 1

26 7 0,28571

Scarti quadratici medi:


7

2
i

i 1

1,80702

2
i

i 1

1,90595

Codevianza e covarianza:
7

xy

Codev X,Y

21,2857

i 1

XY

i i

7X Y 21 7 0,14286 0,28571

i 1

Cov X,Y

yi

i 1

21.2857
3,0408
7

Cov X,Y
3,0408

0,88291
X Y
1,80702 1,90595

Esempio. Si considerano due caratteri X ed Y rilevati su 7


soggetti esaminati:

X
Y

-3
3

-2
2

1
-1

0
1

1
1

2
-1

2
3

Si calcolano i parametri a, b,c,d delle due equazioni


c dY e il coefficiente di correlazione
X
Y a bX e
lineare r .
I parametri della retta di equazione Y a bX si ottengono
dalla soluzione del sistema di equazioni normali:
94
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

na b X Y

2
a X b X XY
7

Yi 2

X i 1

i 1

i 1

X i2 23

i 1

X Y

i i

21

i 1

1
2

det
21 23
67

0,41875
160
7 1

det
1 23
2
7

det
1 21
149

b

0,93125
160
7 1

det
1 23

Y 0,41875 0,93125X
Analogamente, per calcolare i parametri della retta di
a bY occorre risolvere il seguente sistema
equazione X
di equazioni

nc d Y X

2
c Y d Y XY
7

Yi 2

X i 1

i 1

i 1

Yi2 26

i 1

X Y

i i

21

i 1

da cui si ottiene

2
1

det
68
21 26
a

0,38202
178
7 2

det
2 26
1
7

det
149
2 21
b

0,83708
178
7 2

det
2 26

X 0,38202 0,83708Y
95
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

0,93125 0,83708 0,88291 .

Esempio. Dati i seguenti valori di due variabili X ed Y :

X
-16
-8
11
8
3
16
30
7

Y
2
4
5
6
4
10
15
11

Si rappresentano i punti di
cartesiano aggiungendo le
calcolate mediante minimi
coefficiente r sulla base
rappresentate.

X
9
6
20
12
8
17
35
28

Y
12
13
9
15
12
20
21
15

ordinate X,Y e Y, X sul piano


rispettive rette interpolatici
quadrati. Infine, calcolare il
delle equazioni delle due rette

Dalla soluzione dei rispettivi sistemi di equazioni normali


si ottengono le due equazioni seguenti:

Y 7,0345 0,3304X

X 7,6939 1,7764Y

Per rappresentare sul medesimo grafico a dispersione i


punti di ordinate X,Y e Y, X occorre indicare, ad
esempio, sia il punto di coordinate X,Y 16;2 , sia il
punto di coordinate Y, X 2;16 .
Per aggiungere inoltre a tale grafico anche le due rette di
regressione calcolate, occorre scrivere la seconda come
funzione di X :
Y

7,6939
1
4,331175 0,56294X

X
1,7764
1,7764

96
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

50

Y
X= - 7,6939+1,7764Y

35
25
21

Y = + 7,0345+0,3304X

10,88

11,63

0
-25

11,63 21 25

X
35

50

-25

Le due rette si intersecano nel punto X;Y 11,625;11,957


che ha come coordinate i valori medi delle due variabili.
Per verificarlo, si deve mettere a sistema le equazioni
delle due rette di regressione calcolate. Il coefficiente
di correlazione lineare
r

0,3304 1,7764 0,76611

pari alla radice quadrata del prodotto


coefficienti angolari b e d calcolati.
23.

dei

due

Parabola dei minimi quadrati

Ricerca dei parametri


La parabola dei minimi quadrati

ha espressione

Y a bX cX 2
Per stimare i parametri incogniti a , b e c si ricorre al
metodo dei minimi quadrati. Ponendo a zero le derivate
parziali si scrive:

f
2 Yi a bXi cXi2 0
a

f
2 Yi a bX i cX i2 X i 0
b
97
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

f
2 Yi a bX i cX i2 X i2 0
b
Da cui si ottiene il seguente sistema di equazioni normali:
n
n
n

2
na

b
X

c
X

i i 1 i i 1 Yi

i 1
n
n
n
n

2
3
a X i b X i c X i X iYi
i 1
i 1
i 1
i n 1
n
n
n
a X 2 b X 3 c X 4
X i2Yi

i
i
i
i
1
i 1
i 1
i 1

Le soluzioni sono le seguenti:

X X
i

2
i

XY X

2
i

3
i

XY X

3
i

4
i

i i

2
i i

X X

2
i

X X

2
i

3
i

3
i

4
i

2
i

2
i

XY X

3
i

2
i

XY X

4
i

i i

2
i i

b
n

2
i

2
i

3
i

2
i

3
i

4
i

98
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

2
i

XY

2
i

3
i

XY

i i

2
i i

c
n

2
i

2
i

3
i

2
i

3
i

4
i

Calcolo del determinante. Per ottenere le soluzioni a , b e


c
del sistema di equazioni normali occorre calcolare il
determinante di matrici di rango 3 3 .
Per calcolare il determinante di una matrice di rango 3 3
si pu utilizzare la c.d. regola di Sarrus22, che ora verr
descritta a partire da una generica matrice A :

a11
a21

a12
a22

a31

a32

a13
a23
a33

Per ottenere il determinante di A si devono scrivere le


prime due colonne di A a destra di A , moltiplicando i
numeri lungo le diagonali principali () e secondarie (),
come nel disegno:

a11
a21

a12
a22

a31

a32

a13
a23
a33

a11
a21

a12
a22

a31

a32
+

Il determinante di A pari alla somma dei prodotti delle


diagonali principali, meno la somma dei prodotti delle
diagonali secondarie:

22

P.F. Sarrus (1798 1861), matematico francese.

99
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

detA a11 a22 a33 a12 a23 a32 a13 a22 a33
a13 a22 a31 a12 a23 a32 a13 a22 a33
Data la matrice dei coefficienti del sistema di equazioni
normali per una parabola, la matrice su cui calcolare il
determinante con la regola di Sarrus la seguente:

2
i

2
i

3
i

X X

3
i

4
i

2
i

2
i

X X

3
i

2
i

Eseguendo i prodotti sopra indicati si ottiene


3

X i2 n X i3 X i

2
i

2
i

4
i

3
i

2
i

4
i

3
i

Esempio. Si calcolano i parametri a , b e c della parabola


di equazione Y a bXi cXi2 :

Xi

Yi

1
2
3
4
5

8
12
18
28
40

Il sistema di equazioni normali il seguente:


n
n
n

2
na

b
X

c
X

Yi

i
i

i 1
i 1
i 1
n
n
n
n

2
3
a
X

b
X

c
X

i
i
i i 1 X iYi
i 1
i 1
i n 1
n
n
n
a X 2 b
3
4
X

c
X

X i2Yi

i
i
i

i 1
i 1
i 1
i 1

100
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

I termini noti del sistema sono ricavati dalla seguente


tabella:

Xi

Yi

1
8
2 12
3 18
4 28
5 40
15 106

X i2

X i3

X i4

1
1
1
4
8 16
9 27 81
16 64 256
25 125 625
55 225 979

XiYi

X i2Yi

8
8
24
48
54 162
112 448
200 1000
398 1666

Il sistema di equazioni normali il seguente:


5a 15b 55c 106

15a 55b 225c 398


55a 225b 979c 1666

Le soluzioni sono:
106 15 55

det 398 55 225


1666 225 979
5040

7,20
700
5 15 55

det 15 55 225
55 225 979

5 106 55

det 15 398 225


55 1666 979
400

0,5714286
700
5 15 55

det 15 55 225
55 225 979

5 15 106

det 15 55 398
55 225 1666
1000

1,42857
700
5 15 55

det 15 55 225
55 225 979

Lequazione della parabola quindi


Yi 7,20 0,5714286X i 1,42857X i2
101
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Ad esempio il valore perequato corrispondente ad X 6 vale


YX 6 1,4286 62 0,5714 6 7,2 55,2012.

I valori teorici Yi sono i seguenti:

Xi

Yi

1
2
3
4
5

8
12
18
28
40
106

Yi
8,057143
11,77143
18,34286
27,77143
40,05714
106

La somma dei dati effettivi uguale alla somma dei dati


perequati: 106

Y .

i 1

i 1

Rapporto di determinazione
Il rapporto R 2 consente di valutare se la parabola adatta
a perequare i dati. Nel caso della parabola il calcolo di
R 2 pu avvenire anche senza conoscere i valori perequati Yi
; vale infatti la seguente uguaglianza:
2

Yi Yi

i 1
n

i 1
n

2
i

i 1

a Yi b X iYi c X i2Yi
i 1

i 1

i 1

i 1

Esempio. Utilizzando i dati dellesempio precedente si ha


n

che:

Yi2 2916 e

i 1

Yi

668,8 .

i 1

Il rapporto di determinazione in questo caso vale

102
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

R2

7.

Appunti di statistica descrittiva

2916 106 7,20


398 0,5714286
1666 1,42857
1
0,9997
668,8

Studio della connessione

Nello studio congiunto di due caratteri qualitativi si


parla di connessione nel caso in cui le coppie di modalit
dei
caratteri
osservati
presentano
delle
frequenze
congiunte differenti da quelle che si otterrebbero in modo
proporzionale dalle frequenze marginali dei due caratteri
osservati separatamente.
Lo studio della connessione
pu riguardare
sia un
collettivo sia un campione di dati. Nel primo caso
lanalisi di tipo descrittivo, per riassumere le
caratteristiche della popolazione di riferimento. Nel
secondo caso lanalisi di tipo induttivo, in quanto le
osservazioni sul campione servono a dare indicazioni
sulluniverso dal quale il campione proviene.
E bene aggiungere che la connessione tra fenomeni
statistici non sempre riflette la loro reale relazione
funzionale. Questo limite non riduce tuttavia limportanza
dello studio della connessione, che sovente rappresenta un
primo passo verso la scoperta delle cause profonde che
legano i fenomeni tra loro.
Connessione oppure indipendenza? Un aspetto importante
nello studio della connessione tra caratteri riguarda la
possibilit di stabilire se essi sono indipendenti oppure
connessi.

103
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

Esempi
Esempio. Popolazione per sesso e condizione lavorativa
III trimestre 2010 (fonte: Istat, Bollettino mensile di
Statistica, marzo 2011).
migliaia di unit
Occupati
In cerca di occupazione
Con precedenti esperienze di
lavoro
Senza precedenti esperienze di
lavoro
Totale

Maschi
13.610
991

Femmine
9.179
873

Totale
22.789
1.864

754

620

1.374

237

254

491

15.592

10.926

26.518

Esempio. Dipendenti in Italia Settentrionale per classe di


et e per sesso (fonte: Istat, Bollettino mensile di
Statistica, marzo 2011).
migliaia di unit
15-24
25-29
30-39
40-49
50 e oltre
Totale

Maschi
321
463
1.460
1.539
1.012
4.794

Femmine
226
412
1.253
1.378
875
4.144

Totale
547
875
2.713
2.917
1.887
8.938

104
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Esempio. Temperature e umidit relativa % giornaliera


rilevate nella centralina di Torino Bric della Croce del
mese di dicembre 2009 (fonte: Istat, Bollettino mensile di
Statistica Marzo 2011).
temperatura
giorni

min

max

umidit relativa %
media

ore 7

ore 13

ore 19

media

8,6

3,8

6,2

90,0

78,0

40,0

69,3

7,0

4,4

5,7

34,0

65,0

64,0

54,3

6,0

0,2

3,1

61,0

63,0

66,0

63,3

6,8

0,0

3,4

100,0

99,0

69,0

89,3

7,6

4,6

6,1

38,0

64,0

68,0

56,7

7,2

4,9

6,1

78,0

77,0

69,0

74,7

8,4

4,0

6,2

68,0

66,0

82,0

72,0

10,0

2,8

6,4

95,0

90,0

38,0

74,3

12,2

6,6

9,4

30,0

24,0

22,0

25,3

10

11,0

6,2

8,6

23,0

40,0

40,0

34,3

11

11,0

6,0

8,5

28,0

29,0

28,0

28,3

12

8,4

1,8

5,1

36,0

41,0

63,0

46,7

13

2,4

-0,4

1,0

94,0

80,0

100,0

91,3

14

1,8

-0,8

0,5

73,0

84,0

87,0

81,3

15

-0,2

-3,4

-1,8

88,0

79,0

80,0

82,3

16

-0,6

-4,2

-2,4

67,0

69,0

91,0

75,7

17

-0,6

-5,6

-3,1

100,0

90,0

83,0

91,0

18

-3,0

-7,2

-5,1

85,0

100,0

100,0

95,0

19

-2,0

-8,2

-5,1

87,0

64,0

48,0

66,3

20

-2,0

-6,6

-4,3

38,0

43,0

32,0

37,7

21

-3,2

-8,0

-5,6

44,0

58,0

90,0

64,0

22

1,4

-7,2

-2,9

96,0

75,0

95,0

88,7

23

2,9

-1,0

1,0

87,0

84,0

94,0

88,3

24

3,0

-0,4

1,3

96,0

94,0

94,0

94,7

25

9,8

2,6

6,2

89,0

41,0

20,0

50,0

26

5,0

2,6

3,8

22,0

24,0

30,0

25,3

27

9,4

3,2

6,3

49,0

37,0

29,0

38,3

28

7,6

1,2

4,4

37,0

53,0

68,0

52,7

29

4,2

0,4

2,3

68,0

67,0

71,0

68,7

30

5,0

1,6

3,3

68,0

69,0

74,0

70,3

31

4,4

2,0

3,2

81,0

89,0

100,0

90,0

Strumenti di analisi. Gli esempi sopra riportati servono a


testimoniare che i termini connessione e indipendenza hanno
significato diverso a seconda dei caratteri esaminati.
In presenza di due caratteri qualitativi lanalisi della
connessione si concentra sulla distribuzione congiunta
delle frequenze e, in caso di indipendenza, si parla
propriamente di indipendenza distributiva.
105
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

Nel caso di un carattere qualitativo e di uno quantitativo,


rilevante il comportamento in media delle intensit del
carattere quantitativo rispetto alle modalit del carattere
qualitativo
e,
in
caso
di
indipendenza,
si
parla
propriamente di indipendenza in media.
Infine, quando si osservano congiuntamente due caratteri
quantitativi discreti oppure continui, lanalisi della
connessione si concentra sulla correlazione tra le due
variabili rappresentative dei caratteri e, in caso di
indipendenza, si parla di indipendenza correlativa.
Alle diverse situazioni descritte corrispondono strumenti
di analisi differenti.
Mediante lindice 2 , si ottiene una misura di sintesi
dello scostamento tra le frequenze congiunte e le frequenze
teoriche in ipotesi di indipendenza distributiva: maggiore
il valore di 2 , maggiore la connessione tra i due
caratteri.
Lindice
(eta) il rapporto tra la varianza delle
medie condizionate del carattere quantitativo rispetto al
carattere qualitativo, e la varianza complessiva del
carattere: se prossimo ad 1, la connessione tra i due
caratteri elevata.
Infine, r il coefficiente di correlazione lineare
calcolato tra le due variabili che rappresentano due
caratteri quantitativi discreti o continui.
Vale lo schema riassuntivo seguente:

Carattere
qualitativo

Carattere
qualitativo
connessione /
indipendenza
distributiva 2

Carattere
quantitativo
24.

Carattere
quantitativo
connessione /
indipendenza in
media
correlazione /
indipendenza
correlativa r

Tabelle di contingenza

La seguente tabella a doppia entrata di contingenza riporta


le frequenze congiunte assolute nij per le modalit di due
caratteri qualitativi A e B :

106
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

a1
n11
n21

a2 .. ac
n12 .. n1c
n22 .. n2c

n10
n20
B
.. .. .. .. ..
br nr1 nr 2 .. nrc n10
n01 n02 .. n0c
n

b1
b2

La frequenza nij indica il numero di casi osservati con


modalit i del carattere A e la modalit j del carattere
B . Per ottenere le frequenze relative si calcola il
rapporto tra ogni numerosit e il totale della tabella:
nij

fij

La frequenza congiunta fij indica la percentuale di casi che


presentano la modalit i del carattere A e la modalit j
del carattere B . La somma delle frequenze congiunte pari
a 1:
c

ij

j1 i 1

Frequenze condizionate. Le frequenze condizionate di riga


sono date dal rapporto tra ogni frequenza congiunta e il
suo totale di riga e indicano la percentuale di casi che
presentano la modalit i del carattere A , nellambito
delle unit statistiche con modalit j del carattere B :
fij i

nij
ni0

La tabella che riporta le frequenze condizionate di riga


la seguente:

107
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

a1

a2

n
n11
f12 1 12
n10
n10
n
n
b 2 f21 2 21 f22 2 22
n20
n20
B
..
..
..
nr1
n
fr 2 r r 2
br fr1 r
nr0
nr0
n
n
f01 01
f02 02
n
n

b1

ac

..

f11 1

..
..
..
..
..

n1c
n10
n
f2c 2 2c
n20
..
n
frc r rc
nr0
n
f0c 0c
n
f1c 1

1
1

1
1

Nellultima riga sono presenti le frequenze marginali di A


come rapporto tra i totali di colonna ed il totale
generale.
Le frequenze condizionate di colonna sono date dal rapporto
tra ogni frequenza congiunta e il suo totale di colonna e
indicano la percentuale di casi che presentano la modalit
j del carattere B , nellambito delle unit statistiche con
modalit i del carattere A .

fij j

nij
n0j

La
tabella
che
riporta
linsieme
condizionate di colonna la seguente:

delle

frequenze

a1
b1

b2
..
br

a2

..

ac

f11 1

n11
n01

n1c
n12
.. f1c c
n02
n0c

f10

n10
n

f21 1

n
n2c
n21 f22 2 22
n02 .. f2c c
n01
n0c

f20

n20
n

..

fr1 1
1

f12 2

..

..

..

nr1
n
n
n
fr 2 2 r 2
frc c rc fr0 r0
n02 ..
n0r
n01
n
1

..

Nellultima colonna sono state calcolate anche le frequenze


marginali di B come rapporto tra i totali di riga ed il
totale generale.
108
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

La somma delle frequenze marginali di riga e di colonna


pari a 1:
c

fij i 1

j1

i 1

ij j

La media dei profili riga, ponderata con le frequenze


marginali di colonna, pari alla frequenza marginale di
riga:
r

i 1

ij i

fi. f.j

La media dei profili colonna, ponderata con le frequenze


marginali di riga, pari alla frequenza marginale di
colonna:
c

j1

ij j

f.j fi.

Chi Quadrato
Indipendenza distributiva. Per stabilire lesistenza di una
connessione tra due caratteri qualitativi continui si
confrontano le frequenze rilevate con quelle, teoriche,
osservabili nel caso in cui i due caratteri sono
indipendentemente distribuiti sul collettivo in esame.
In ipotesi di indipendenza distributiva le frequenze
congiunte sono proporzionali a quelle marginali in quanto,
per ciascuna
coppia di
modalit osservate
dei due
caratteri, il numero di casi teorico proporzionale a
quello delle rispettive frequenze marginali.
Esempio. Nella seguente tabella
migliaia di unit
Occupati
In cerca di occupazione
Con precedenti esperienze di
lavoro
Senza precedenti esperienze di
lavoro
Totale

Maschi
13.610
991

Femmine
9.179
873

Totale
22.789
1.864

754

620

1.374

237

254

491

15.592

10.926

26.518

Le 873 donne in cerca di occupazione sono un numero


superiore a quello teorico osservabile in ipotesi di
indipendenza tra la condizione occupazionale e il sesso.

109
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Infatti nel collettivo sono presenti in 10.926 26.518 41%


di donne e il 1.864 26.518 7% di persone in cerca di
occupazione. Complessivamente il numero di donne in cerca
di occupazione dovrebbe essere quindi pari a:

ij
n

1.864 10.926

26.518 768 unit


26.518 26.518

Contingenze. Prendendo in esame la tabella delle frequenze


congiunte
A

a1
n11
n21

a2 .. ac
n12 .. n1c
n22 .. n2c

n10
n20
B
.. .. .. .. ..
br nr1 nr 2 .. nrc n10
n01 n02 .. n0c
n

b1
b2

La tabella delle corrispondenti frequenze teoriche si


ij data
determina osservando che la generica frequenza n
dal prodotto

ij
n

n0j
n

ni0
n
n
A

b1
b2

a1
11
n
n21

..

..

br

nr1
n01

.. ac
1c n10
.. n
2c n20
.. n
.. .. ..
rc n10
nr 2 .. n
n02 .. n0c
n

a2
n12
n22

Si osservi che i totali di riga e di colonna rimangono


invariati
rispetto
alla
tabella
della
distribuzione
congiunta effettiva.
E detta contingenza ij la differenza (con segno) tra ogni
frequenza effettiva e la rispettiva frequenza teorica in
ipotesi di indipendenza in distribuzione:
ij
cij nij n

110
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

In una tabella
possibili r c
contingenze:

composta da r righe e
contingenze. Vale zero
c

cij

j1 i 1

n
c

colonne sono
somma delle

ij
n

ij

j1 i 1

nij

j1 i 1

la

ij

n n 0

j1 i 1

Chi Quadrato. Lammontare delle contingenze rappresenta una


misura del grado di scostamento della tabella a doppia
entrata dalla condizione di indipendenza distributiva dei
due caratteri osservati. Poich la somma delle contingenze
nulla, si utilizza come misura di scostamento la somma
del quadrato delle contingenze:

n
c

ij

ij 2
n

j1 i 1

ij ,
nij n

Tale somma si annulla se


indipendenza distributiva.

ovvero

nel

caso

di

La
somma
del
quadrato
delle
contingenze
dipende
2

nij nij . Al fine di


dallammontare
degli
addendi
temperare linfluenza delle contingenze pi elevate, si
sceglie di attribuire a ciascun addendo un peso pari al
reciproco della numerosit teorica:

nij nij 2
1
2

nij nij
ij
ij
n
n
E detta Chi Quadrato (simbolo 2 ) la quantit

j1 i 1

ij

ij 2
n
ij
n

media ponderata degli scostamenti al quadrato tra le


numerosit effettive e quelle teoriche. 2 una misura di
connessione tra due caratteri qualitativi.
Limiti. Se tutte le fij fij ,
limite massimo
equivalente

del

si

2 0 . Per determinare il
osserva

che

dalla

formula

111
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

2 n

j1 i 1

il termine

j1 i 1

2
nij

i0

2
nij

i0

n0j

minore del numero di righe r e del

n0j

numero di colonne c , ovvero si ha contemporaneamente che

2 n

j1 i 1

2 n

Se si indica con m
ottiene

i0

j1 i 1

2
nij

n0j

2
nij

i0

n0j

1 nr 1

1 nc 1

il minimo tra r e c , m minr,c si


2 nm 1

Nel caso di massima connessione 2 nm 1 .


Indice quadratico medio di contingenza. Una misura del
grado di connessione tra i due caratteri osservati
rappresentato dallindice quadratico medio di contingenza:

Ic

2 n

dove n il totale della tabella. Il minimo dellindice


2
IC 0 : nel caso di indipendenza distributiva, 2 si
azzera e cos lIndice. Il massimo dellindice tende a 1 ma
il suo effettivo limite superiore dato da

Max 2IC

1
m

Dove m minr, c indica il minimo tra il numero di righe e


il numero di colonne della tabella a doppia entrata. Il
limite giustificato dal fatto che, in caso di massima
connessione, 2 nm 1 e in tale ipotesi
Max 2IC

nm 1

mn

m 1

1
m

Una misura relativa di connessione data dal rapporto di


2
I C con il suo massimo:
112
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Ic

1
1
m

Unaltra misura di connessione lindice V di Cramer:

2
n m

V sempre compreso tra 0 e 1: vale 0 quando i due


caratteri sono indipendentemente distribuiti; vale 1 se i
due caratteri sono connessi in modo univoco.
Esempio. Con riferimento alla seguente tabella:
migliaia di unit
Occupati
In cerca di occupazione
Con precedenti esperienze di
lavoro
Senza precedenti esperienze di
lavoro
Totale

Maschi
13.610
991

Femmine
9.179
873

Totale
22.789
1.864

754

620

1.374

237

254

491

15.592

10.926

26.518

Per calcolare il 2 si costruisce la seguente tabella in


ipotesi di indipendenza delle due distribuzioni:
migliaia di unit
Occupati
In cerca di occupazione
Con precedenti esperienze di
lavoro
Senza precedenti esperienze di
lavoro
Totale

Maschi
13.399
1.096

Femmine
9.390
768

Totale
22.789
1.864

808

566

1.374

289

202

491

15.592

10.926

26.518

Il 2 vale:

13610 133992

991 10962

754 8082

13399
1096
808
2
2
2
237 289
9179 9390
873 768

289
9390
768
620 5662
254 2022

63,63
566
202

Lindice quadratico medio di connessione vale:

113
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Ic

63,63
0,0489
63,63 26518

Il massimo dellindice vale in questo caso:


1

25.

1
0,707
2

Tabelle di tipo misto

Si prende in esame il caso di un tabella a doppia entrata


di tipo misto, situazione in cui compaiono un carattere
qualitativo e uno quantitativo (discreto oppure continuo).
In questi casi rilevante porre in luce la dipendenza in
media del carattere quantitativo rispetto al carattere
qualitativo.
Lanalisi viene condotta osservando landamento dei valori
medi calcolati rispetto alle differenti modalit del
carattere qualitativo: se i valori medi si discostano in
modo significativo dalla media complessiva del carattere
quantitativo, si in presenza di una dipendenza in media
tra i due caratteri.
Tabelle miste. La tabella seguente riporta le intensit del
carattere X , le modalit del carattere qualitativo A e le
frequenze congiunte:
A

.. ac
x1
.. f1c f10
x2
.. f2c f20
X .. .. .. .. ..
x r fr1 fr 2 .. frc f10
f01 f02 .. f0c
1

a1
f11
f21

a2
f12
f22

Al fine di valutare il grado di condizionamento delle


modalit del carattere qualitativo
sul carattere
A
quantitativo X , occorre determinare la media complessiva
X , la varianza complessiva X2 , le medie condizionate X aj
e le varianze condizionate X2 aj .
Medie condizionate

114
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Le medie X aj del carattere X condizionate alle rispettive


modalit del carattere A sono date dallespressione:

E X aj X aj

xf

x1f1j x2f2j ... xrfrj

i ji

i 1

Si possono calcolare tante medie condizionate quante sono


le modalit del carattere qualitativo. Nel caso di dati
raccolti in classi, il calcoli si effettuano considerando i
centri di classe.
Varianze condizionate
Le

varianze

carattere

condizionate

X2 a

di

alle

modalit

del

sono date dallespressione:

V X ai X2 aj

x
c

j 2fji

j1

Si possono calcolare tante varianze condizionate quante


sono le modalit del carattere qualitativo. Nel caso di
dati
raccolti
in classi, il
calcoli
si
effettuano
considerando i centri di classe.
Scomposizione della varianza. La media complessiva
carattere si ottiene ponderando le medie condizionate:
c

j1

X aj 0j

del

La varianza complessiva pari alla media ponderata delle


varianze pi la varianza calcolata tra le medie ponderate e
la media complessiva:

X2

j1

X aj

f0j

j1

2
X aj

f0j .

Esempio. Nella seguente tabella riferita ai dipendenti in


Italia Settentrionale per classe di et e per sesso:
migliaia di unit
15-24
25-29
30-39
40-49
50 e oltre
Totale

Maschi
321
463
1.460
1.539
1.012
4.794

Femmine
226
412
1.253
1.378
875
4.144

Totale
547
875
2.713
2.917
1.887
8.938
115

StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

Si calcolano le medie e le varianze e la scomposizione


della varianza complessiva. Nel calcolo si introducono i
centri di classe:
- Medie:

19,5 321 27 463 34,5 1.460


44,5 1.539 55 1.012
E X maschi
40,3
4.794
19,5 226 27 412 34,5 1.253
44,5 1.378 55 875
E X femmine
40,6
4.144
19,5 547 27 875 34,5 2.713
44,5 2.917 55 1.887
E X
40,4
8.938
- Varianze:

19,52 321 272 463 34,52 1.460


44,52 1.539 552 1.012
V X maschi
4.794

40,32 107,24

19,52 226 272 412 34,52 1.253


44,52 1.378 552 875
V X femmine
4.144

40,62 102,76

19,52 547 272 875 34,52 2.713


V X

44,52 2.917 552 1.887


8.938

40,42 105,18

- Scomposizione della varianza:

X2 105,18
4.794
4.144
40,6 40,42

8.938
8.938
4.794
4.144
107,24
102,76
0,0186 105,162
8.938
8.938
40,3 40,42

Dallesame delle medie


emerge
che let media dei
dipendenti maschi inferiore di circa 4 mesi rispetto a
quella delle donne. In ipotesi di indipendenza in media le
116
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

medie condizionate
generale.

dovrebbero

coincidere

con

la

media

Eta di Pearson
La varianza X2 di X condizionata da un carattere A
con
modalit aj
la somma della varianza delle medie
condizionate

j1

X aj

f0j

pi la media ponderata delle varianze condizionate


c

j1

2
X aj

f0j

La
quota della varianza complessiva X2
addendo

funzione
della
differenza
condizionate X aj e la media complessiva

dovuta al primo
tra
le
medie
X : maggiore la

sua incidenza rispetto alla varianza complessiva X2 ,


maggiore
linfluenza
esercitata
dalle
modalit
del
carattere qualitativo sui dati del carattere quantitativo e
quindi sulle medie condizionate.
Se invece bassa lincidenza di questa prima componente
sulla varianza complessiva, conseguentemente bassa la
connessione tra il carattere A e la variabile X .
Sulla base di queste considerazioni, una misura del grado
di scostamento delle medie condizionate rispetto alla media
complessiva X dato dal rapporto23 di Pearson:

j1

X aj

f0j

Al crescere di cresce lincidenza della quota di varianza


che dipende dalle medie condizionate. Si osservi che l di
Pearson la radice del rapporto di composizione calcolato
dividendo la varianza delle medie condizionate per la
varianza complessiva X2 . Il rapporto sotto radice pu
quindi essere letto come una percentuale.

23

Eta.

117
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Limiti. Il rapporto compreso tra i limiti 0 e


1 . Vale zero nel caso di indipendenza in media,
situazione in cui le medie condizionate sono tutte uguali
alla media generale; vale 1 in caso di perfetta dipendenza,
in cui ad ogni modalit ai di A corrisponde un solo valore
di X .
Esempio. Con riferimento allesempio precedente si ottiene

0,0186
0,000177
105,1811

0,000177 0,0133

Il valore ottenuto indica una bassa connessione tra et dei


dipendenti e sesso dellItalia Settentrionale.
26.

Tabelle di correlazione

Si prende in esame il caso di due caratteri quantitativi X


e Y discreti oppure continui. Uno schema generale di
tabella di correlazione tra i due caratteri il seguente:
Y

Y1
n11
n21

Y2 .. Yc
n12 .. n1c
n22 .. n2c

n10
n20
X .. .. .. .. ..
xr nr1 nr 2 .. nrc n10
n01 n02 .. n0c
n

x1
x2

Lesame congiunto dei due caratteri avviene dal punto di


vista della regressione e della correlazione tra le due
variabili X e Y .
Correlazione ponderata. Nel caso di una tabella di
correlazione nelle due variabili X e Y , si determinano la
covarianza e la correlazione secondo formule ponderate.
La covarianza assume lespressione seguente:
c

COV X,Y XY

X Yj Y nij

j1 i 1

E pu essere scomposta in due addendi:

118
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

XYn
i j

XY

ij

X Y

XYn
i j

j1 i 1

ij

j1 i 1

n X Y

Le varianze delle due variabili si ottengono mediante le


formule:
r

V X X2

Xi

X 2 ni0

V Y Y2

i 1

Y 2 n0j

j 1

Il coefficiente di correlazione lineare r il rapporto tra


la covarianza e la media geometrica delle varianze.
Semplificando il denominatore n, il coefficiente r pari
al rapporto tra la codevianza e la media geometrica delle
devianze:
c

XYn

i j ij

n X Y

j1 i 1


X i2ni0 n X2 Yi2n0j nY2
i 1
j1

1 r 1

Esempio. Con riferimento alla tabella concernente la


temperatura e lumidit relativa rilevata a Torino in
dicembre 2009, si costruisce la seguente tabella a doppia
entrata, in cui indicata la distribuzione del numero di
giorni per ciascuna classe di temperatura e umidit
relativa registrate:
Temperatura
media
giornaliera
da -7 a -3
da -3 a 0
da 0 a 3
da 3 a 7
da 7 a 10
Totale

umidit relativa %
da 25% da 50%
da 75%
Totale
a 50%
a 75%
a 100%
1
2
2
5
0
0
3
3
0
1
4
5
3
10
2
15
3
0
0
3
7
13
11
31

Nei calcoli si indica con X la temperatura e con Y


lumidit relativa. Introducendo i centri di classe, le
medie
delle
distribuzioni
marginali
valgono
rispettivamente:

X 2,53

y 65,73

Le devianze valgono rispettivamente:


119
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

X i2ni0 n X2 535,97
c

XYn
i j

ij

nY2 10.927,42

j1

i 1

La componente

2
i 0j

vale:

j1 i 1

c.d.c.
temperatura
-5
-1,5
1,5
5
8,5

c.d.c. umidit relativa


37,5
62,5
87,5
-187,5
0,0
0,0
562,5
956,3

-625,0
0,0
93,8
3.125,0
0,0

-875,0
-393,8
525,0
875,0
0,0
Totale: 4.056,25

Ad esempio, 187,5 5 37,5 1.


La codevianza vale
c

XYn

i j ij

X Y 4.056,25 31 2,53 65,73 1.103,23

j1 i 1

La codevianza d il segno al coefficiente r .


Il coefficiente r vale:
r

1.103,23
0,45587
535,97 10.927,42

Il valore di r indica una correlazione lineare negativa tra


le due variabili osservate.
Regressione su collettivi ponderati
Regressione di Y su X. Se la relazione tra le due variabili
di tipo lineare con X variabile indipendente e Y
variabile dipendente, occorre calcolare i parametri a e b
della retta di equazione:

Yi a bX i
Il sistema di equazioni normali nelle due incognite a e b
il seguente:
r
c
c r
a
n

b
X
n

ij
i i0 j1 Yjn0j

j1 i 1
i 1
r
r
c
r
a X ini0 b X i2ni0 X iYjnij

i 1
j1 i 1
i 1

120
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

I due parametri
seguenti:

si

i 1
r

XYn

i j ij

j1 i 1

2
i i0

i 1

Xn

i 1
r

Xn

i0

i 1

i0

j1

i0

2
i i0

i 1

Yjn0j

espressioni

Xn

j1
c
r

dalle

Yjn0j

ottengono

X i2ni0

i 1

X iYjnij

j1 i 1
r

n X n
i 1

Xn
i

i0

i 1

X i ni0
i 1

2
i i0

Y n

j 0j

j1
c
r

Xn
i

XYn

i0

i j ij

i 1

j1 i 1

Xn

Xn
i

i0

i 1

XYn

i j ij

j1 i 1

i 1
r

i0

2
i i0

i 1

X n Y n
i

i 1

j 0j

j1
2

r
r

n X i2ni0 X i ni0
i 1
i 1

Regressione di X su Y. Se la relazione tra le due variabili


di tipo lineare con Y variabile indipendente e
X
variabile dipendente, occorre calcolare i parametri c e d
della retta di equazione:

j c dYj
X
Il sistema di equazioni normali nelle due incognite c e d
il seguente:

121
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

c
r
c r
c
n

d
Y
n

j 0j i 1 Xini0
ij
j1 i 1
j1
c
c
c
r
c Yjn0j d Yj2n0j XiYjnij
j1
j1 i 1
j 1

I due parametri si ottengono dalle espressioni seguenti:


r

Xn

Y n

i i0

j 0j

i 1
c
r

j1
c

XYn

Y n

i j ij

j1 i 1

j1

Y n

j 0j

j1
c

Y n

Y n

j 0j

j1

2
j 0j

2
j 0j

j1

Yj2n0j

Xini0

j1

j1

XiYjnij

j1 i 1

n Y n
j1

Y n

j 0j

j1

Yjn0j
j1

2
j 0j

Xn

i i

i 1
c
r

Y n

j 0j

j1

XYn

i j ij

j1 i 1
c

Y n

j 0j

j1
c

Y n

j 0j

j1

Y n

2
j 0j

j1

XiYjnij

j1 i 1

Yjn0j

j1
c

n Y n
j1

2
j 0j

Xn

i i0

i 1
2

Yjn0j
j1

Esempio. Con riferimento ai dati dellesempio precedente,


si calcolano i parametri dei modelli Yi a bX i
e
j c dYj mediante il metodo dei minimi quadrati. In
X
questo caso consentito calcolare entrambe le rette di
122
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

equazione in quanto le due variabili osservate (temperatura


e umidit relativa) non stanno in relazione di antecedenteconseguente.
I parametri dei due modelli valgono rispettivamente:

Temperatura media giornaliera

Xi
da -7 a -3
da -3 a 0
da 0 a 3
da 3 a 7
da 7 a 10
Totale

c.d.c.

ni0

X ini0

X i2ni0

-5
-1,5
1,5
5
8,5

5
3
5
15
3
31

-25,0
-4,5
7,5
75,0
25,5
78,5

125,0
6,8
11,3
375,0
216,8
734,8

Umidit relativa %

Yj

c.d.c.

n0j

da 25% a 50%
da 50% a 75%
da 75% a 100%
Totale

37,5
62,5
87,5

7
13
11
31

I
parametri
rispettivamente:
a

del

modello

Yjn0j

Yj2n0j

262,5
9.843,8
812,5 50.781,3
962,5 84.218,8
2.037,5 144.843,8

Yi a bX i

valgono

2.037,5 734,8 4.056,25 78,5


70,94
31 734,8 78,52
31 4.056,25 78,5 2.037,5
2,058
31 734,8 78,52

Il primo modello vale Yi 70,94 2,058Xi . Allaumentare


della temperatura, tende a ridursi in media lumidit
relativa.
Per
il
modello
rispettivamente:
c

j c dYj
X

parametri

valgono

78,5 144.843,8 4.056,25 2.037,5


9,1679
31 144.843,8 2.037,52
123

StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

31 4.056,25 2.037,5 78,5


0,10096
31 144.843,8 2.037,52

j 9,1679 0,10096Yj .
Da
cui
risulta
X
dellumidit relativa, tende a ridursi
temperatura.

Allaumentare
in media la

Dallesame congiunto dei due modelli si ha dunque la


conferma che la due variabili sono negativamente correlate.
A corollario di questa conclusione, si osservi infine che
la media geometrica dei due coefficienti angolari calcolati
pari, a netto del segno, al coefficiente di correlazione
in precedenza calcolato:
b d

r 0,45587

2,058 0,10096 0,45587

Il seguente diagramma a dispersione riporta in ascissa la


temperatura e in ordinata lumidit registrate; accanto ad
ogni punto compare lindicazione del giorno di calendario
di dicembre 2009.
Dalla posizione dei punti nel grafico si percepisce
landamento negativo della relazione tra le due variabili:
umidit rel.

100,0

18

24
13
23

17
22
15

4
31

14
6

16
75,0
29

19
21

30

8
7
1

3
28

50,0

2
12

25
27

20

10
26

25,0

11

temperatura
0,0
-10,0

-5,0

0,0

5,0

10,0

15,0

124
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

4. Analisi di una serie di tempo


27.

Movimenti di una serie di tempo

Un caso particolare di serie


statistiche sono delle unit di
Yi
del
carattere
sono
le
corrispondenza ad ogni unit di

quello in cui le unit


tempo ti e le manifestazioni
osservazioni
rilevate
in
tempo.

Una serie di tempo una successione di rilevazioni di un


fenomeno statistico Y0,Y1,...,Yn
compiute agli istanti
t0,t1,..., tn .
Le serie di tempo sono stazionarie, quando i dati mostrano
una certa solidariet intertemporale per cui la serie si
sviluppa entro una banda di oscillazione di ampiezza
costante; oppure non stazionarie, quando i dati registrano
oscillazioni sempre pi marcate nel corso del tempo e la
serie si sviluppa entro una banda di oscillazione sempre
pi ampia.
Serie stazionaria

Serie evolutiva

In una serie di tempo si distinguono le componenti (o i


movimenti) seguenti:
Trend (T). E una tendenza generale allaccrescimento, alla
diminuzione
oppure
alla
stazionariet
dei
dati
che
influenza lintero arco di tempo.
Ciclo (C). Il ciclo influenza il fenomeno presentandosi con
cadenza regolare, prima in tendenziale accrescimento, poi
in riduzione fino a ritornare al livello iniziale prima di
un nuovo ciclo.
Stagionalit (S). E un fenomeno che si ripete con cadenza
regolare nel corso di un anno, senza alterare landamento
complessivo della serie di tempo.
125
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Oscillazione accidentale (A). E una manifestazione di


carattere oscillatorio e di natura residuale, la cui
intensit non modifica la serie storica.
Movimento occasionale
(O).
E
un evento
di natura
eccezionale come una calamit naturale oppure una crisi
finanziaria. E in grado di alterare in modo significativo
la
serie
storica
per
un
arco
di
tempo
limitato,
modificandola temporaneamente oppure permanentemente o
innescando variazioni cicliche.
I grafici seguenti rappresentano alcune situazioni tipo:
Trend (T)

Accidentale (A)

tempo

Ciclo (C)

tempo

Occasionale (O)

tempo

tempo

Stagionale (S)

tempo

Il grafico seguente riporta un esempio di serie di tempo in


cui sono messi in evidenza i movimenti fondamentali
presenti con il loro andamento durante il periodo di
osservazione. Si osservi che landamento della serie di
tempo rappresentato da una spezzata che congiunge i
valori del fenomeno osservati nel tempo. Nellintervallo
tra
due
successive
rilevazioni
si
presuppone
che
landamento del fenomeno sia stato sostanzialmente di tipo
lineare:

126
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

Trend
Movimento
Occasionale
Movimento
ciclico
Stagionalit

Movimento
accidentale

Tutti i movimenti descritti concorrono a formare la serie


di tempo osservata. Se si indica con Y la serie in esame,
laggregazione dei movimenti di tipo additivo se
Y T C S A O

oppure di tipo moltiplicativo se


Y T C S A O

Questultimo modello pu essere per


modello lineare passando ai logaritmi:

ricondotto

ad

un

ln Y ln T ln C ln S ln A ln O .

E inoltre possibile che laggregazione sia di tipo misto:


Y T C S A O

Esempi
Esempio. Popolazione residente in Piemonte ai censimenti
(fonte: Istat, Piemonte in Cifre 2003):

127
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

Esempio. Numero medio di figli per donna e et media della


madre al primo parto (fonte: rielaborazione da Istat,
Italia in Cifre, vari anni):

Esempio. Tasso di mortalit infantile anni 1954-1994, per


mille nati vivi (fonte: Istat, Italia in Cifre 1996):

1951-1960
1961-1970
1971-1975
1976-1980
1981-1985
1986
1987
1988
1989
1990
1991
192
1993
1994

Morti
nel 1 mese
26,7
22,1
18,8
13,2
9,7
8,0
7,7
7,3
6,8
6,4
6,3
5,9
5,4
5,0

Morti
nel 1 anno
52,7
35,6
25,2
17,1
12,3
10,2
9,8
9,3
8,7
8,1
8,1
7,9
7,3
6,6

Esempio. Conto economico delle risorse e degli impieghi a


prezzi correnti (fonte: Istat, Italia in Cifre 2002):
in milioni di euro
Pil
Importazioni
Totale risorse
Consumi nazionali
Investimenti fissi
Variazione scorte
Esportazioni
Totale impieghi

1998
1999
2000
2001
1.073.019 1.108.497 1.164.767 1.216.694
246.207
260.251
318.956
324.478
1.319.226 1.368.748 1.483.723 1.541.172
829.565
866.485
916.253
956.921
198.295
212.100
230.952
240.987
8.624
7.099
6.180
-717
282.742
283.064
330.357
343.975
1.319.226 1.368.748 1.483.722 1.541.172

128
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

28.

Tassi di incremento

I tassi di incremento servono ad esprimere il tasso medio


di accrescimento di un fenomeno nel corso del periodo di
osservazione. Si distingue tra tasso di interesse semplice
e tasso di interesse composto.
Tasso di interesse semplice. Si considerano n periodi e n
differenti tassi di interesse calcolati a partire da uno
stesso capitale iniziale X 0 . In regime di capitalizzazione
semplice, ogni montante pari alla somma del montante
precedente pi gli interessi calcolati al tasso di periodo
sul capitale iniziale, come nello schema seguente:
tempo Montante
X0
0
1

X1 X0 i1X0

X2 X0 i1X0 i2X0

X n X0 X0i1 X0i2 ... X0in

X0 1

i
j

Sostituendo ad ogni singolo tasso i la media aritmetica dei


tassi

i1 i2 ...in
n

Si ottiene che Xn X0 1 nr , ovvero

Xn

1
X

r 0
n
Il tasso di interesse semplice r la media aritmetica dei
tassi di interesse registrati nei periodi di osservazione.
Esempio. Si calcola il tasso di incremento medio semplice
per i seguenti fatturati di una ditta individuale:
2000
176.000

Dati in
Euro

Il numero
ottiene:

2001
180.000

2002
212.000

2003
198.000

2004
209.000

di periodi da considerare 4 e quindi si

129
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Xn

209.000

1
1
X
176.000
r 0
4,69%
n
4
Tasso di interesse composto. Si considerano un capitale
iniziale X 0 , n periodi e n differenti tassi di interesse.
In regime di capitalizzazione composta, ogni montante
pari alla somma del montante precedente pi gli interessi
calcolati al tasso del periodo sul montante precedente. La
sequenza dei montanti dunque la seguente:
Periodo Montante
X0
0
X1 X0 1 i1
1

X1 X0 1 i1 1 i2

X n X0 1 i1 1 i2 ...

X0

1 i
j

Sostituendo ad ogni fattore montante


geometrica dei fattori montante

1r

la

media

1 i1 1 i2 ...1 in

si ottiene Xn X0 1 r

ovvero r

interesse composto
fattori montante.

pari

1 i

alla

Xn
1 . Il tasso di
X0
media geometrica dei
n

La scelta del modello dipende dallandamento del fenomeno


nel corso del periodo di osservazione.
Esempio. Un capitale di 20.000 Euro dato a prestito al 3%
per 5 anni frutta un interesse composto di 3.185,48 Euro:

I C i3 20.000 3%5 3.185,48 Euro


29.

Analisi delle componenti di una serie di tempo

Nella scomposizione delle serie di tempo nei movimenti


elementari occorre distinguere il caso in cui si dispone di
130
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

una serie storica annuale, da quello in cui si dispone di


una serie di tempo che riporta i dati dei singoli mesi.
Dati annuali. Il movimento tendenziale e - in parte quello ciclico sono descritti dalla serie delle medie
mobili o dalla perequazione analitica dei minimi quadrati.
I residui rispetto al movimento tendenziale e al movimento
ciclico
sono
riconducibili
a
componenti
di
natura
oscillatoria e occasionale.
Dati mensili. Si calcola il movimento tendenziale e quello
ciclico mediante le medie mobili o la perequazione. I dati
depurati
del
movimento
tendenziale
sono
quindi
destagionalizzati al fine di ottenere il cosiddetto
movimento normale della serie di tempo che incorpora la
stagionalit della serie. Sottraendo dalla serie di tempo
anche il movimento normale si ottiene la componente
residuale.
Determinazione del trend
Per constatare lesistenza di un trend si verifica
innanzitutto se il grafico della serie di tempo presenta
delle regolarit nel tempo. Si procede quindi con la
perequazione mediante medie mobili oppure mediante il
metodo dei minimi quadrati per ottenere una funzione
perequatrice adatta a descrivere il comportamento di fondo
della serie di tempo.
Medie mobili. La perequazione mediante medie mobili anche
detta meccanica
per distinguerla da quella analitica
rappresentata dal metodo dei minimi quadrati. Le medie
mobili sono medie aritmetiche dei termini consecutivi della
serie di tempo:
mm1

x1 x2 ... xk
k

mm 2

x2 x3 ... xk 1
k

mm 3

x3 x4 ... xk 2
k

La media mobile pu essere calcolata per un ordine dispari


oppure pari di dati consecutivi.
Nel primo caso il risultato ottenuto il valore perequato
corrispondente al dato di posizione mediana n 1 2 nella
sequenza dei dati. Ad esempio per una media mobile di 5
131
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

termini, il risultato il valore perequato corrispondente


al terzo termine della sequenza.
Nel secondo caso la media mobile il valore teorico
corrispondente ai due dati di posizione mediana n 2 e
n 2 1 nella sequenza. Si risolve lincertezza considerando
n 1 termini e introducendo una ponderazione nel calcolo
della media mobile al fine di assegnare il risultato come
valore perequato corrispondente al termine di posizione
n 1 2 della serie.
Esempio. Nel caso dei seguenti dati Y 4,3,9,2,6 le medie
mobili di ordine tre valgono rispettivamente 5,333, 4,667 e
5,667. La media mobile di ordine 4 vale

4,75 0,5 4 3 9 2 0,5 6 4


Esempio. Per la seguente serie di tempo:
1990 1991 1992 1993 1994 1995 1996 1997
50
65
60
59
48
52
66
72
Si calcolano le medie mobili di ordine 3 e di ordine 4 per
il 1993. La media mobile di ordine n=3 per il 1993 vale
(60+59+48)/3 = 55,67. La differenza con il dato effettivo
59-55,67=3,33

pari
allerrore
compiuto
nella
perequazione. La media mobile di ordine n=4 per il 1993
vale (65*0,5+60+59+48+52*0,5)/4=56,38, con un errore pari a
50-56,38=2,62.
Movimenti occasionali. Le medie mobili di una serie di
tempo rappresentano il valore teorico della serie per
larco di tempo considerato. Se le medie mobili calcolate
vengono
rappresentate
in
un
grafico,
consentono
di
apprezzare il movimento tendenziale della serie esaminata,
influenzato solo in parte dalla presenza di movimenti
occasionali.
Esempio. Nel grafico seguente il 2001 caratterizzato da
un fenomeno occasionale, seguito da un riallineamento al
trend. Per stimare il dato del 1993, si ricorre ad una
perequazione per medie mobili di ordine 3. La serie delle
medie mobili di ordine 3 presenta nel 2001 un andamento pi
regolare di quello della serie di tempo:

132
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

1996 1997 1998 1999 2000 2001 2002 2003 2004

X
mm3

Previsione con le medie mobili. La media mobile dipende


dalle osservazioni precedenti e da quelle successive.
Quando si intende utilizzare le medie mobili per fare delle
previsioni di breve periodo, si introducono dei pesi
p1 ,
decrescenti
a
partire
dal
peso
attribuito
allosservazione pi vicina, sino al peso pk , attribuito
allosservazione pi lontana. Tra le diverse possibilit
per definire il sistema di pesi pi si privilegia quello
secondo il quale i pesi sono in successione geometrica:

; 1 ; 1 2 ;
La stima della serie di tempo
quindi la seguente:

al tempo t 1 diviene

X Xt 1 Xt 1 1 2 Xt 2 ...
che, semplificando i termini, si riduce a:

X Xt 1 Xt 1
In questo caso la media mobile ponderata detta
esponenziale e lintero processo di determinazione delle
medie
mobili

detto
di
lisciamento
esponenziale
(exponential
smoothing24).
Il
metodo
dellexponential
smoothing si applica alle serie di tempo che non presentano
un trend sistematico e prive di fattori stagionali25.

24
25

Vedere Luigi Vajani, Teoria statistica della previsione, Etas Kopass, Milano, 1967.
Il metodo stato successivamente generalizzato (modello di Holt e Winters) al caso di

serie di tempo che presentano trend e stagionalit.

133
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

Perequazione con il metodo dei minimi quadrati. Si utilizza


il metodo dei minimi quadrati per stimare i parametri di un
modello scelto con cui descrivere il trend della serie di
tempo. La variabile indipendente X del modello rappresenta
gli istanti di osservazione e la variabile dipendente Y le
singole intensit del fenomeno.
Nel caso della retta Y a bX il parametro b indica il
tasso di accrescimento medio atteso del fenomeno nel corso
del tempo. Se X espresso in anni,
b indica di quanto
cresce Y in un anno. Nel caso delle serie di tempo
tuttavia assai frequente chiedersi di quanto crescer Y
dopo n anni. Per rispondere conveniente esprimere X in
termini di scarto rispetto alla prima data di osservazione,
come nello schema seguente:

X
1990
1991
1992

0
1
2

Y
Y1
Y2
Y3

Lequazione della retta diviene in questo caso la seguente:


Y a bX 1990 . Questa traslazione ha il vantaggio di
semplificare i calcoli ma, a differenza della traslazione
dei valori di X nel punto medio X vista in precedenza, in
questo caso la somma degli scarti x non nulla.
Per valutare la bont di adattamento raggiunta con il
modello prescelto si calcola il rapporto di determinazione
R 2 . Non metodologicamente corretto ricorrere invece al
coefficiente di correlazione lineare r , non esistendo in
questo caso una condizione di interdipendenza tra le due
variabili X e Y .
Esempio. Si calcolano i parametri del modello di equazione
Y a bX 1990 per i seguenti dati:

X
Y

1990 1991
1992 1993 1994 1995
1.480 1.400 1.800 1.750 2.200 2.400

1996 1997
1998 1999 2000 2001
2.670 2.400 3.200 3.500 3.900 4.230

Indicando con x X 1990 la variabile scarto si ottiene

134
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

n 12

66

xY

30.930

506

206.500

Il sistema di equazioni normali il seguente:

12a 66b 30.930

66a 506b 206500


Mediante il metodo di Cramer si ottengono le soluzioni del
sistema che forniscono i parametri del modello indicato:

Y 1.178 254,44x
La rappresentazione grafica la seguente:
6.000

5.000
4.000
3.000
y = 254,44x + 1178,1
2.000
1.000
1990

1995

2000

Anni

Determinazione della componente stagionale


La stagionalit la componente che si manifesta con
oscillazioni di intensit pi o meno regolare che si
ripetono in modo stabile ogni anno, senza alterare
landamento complessivo della serie di tempo. La vendita di
dolciumi oppure la celebrazione di matrimoni sono fenomeni
che tipicamente presentano un andamento stagionale nel
corso dellanno.
Indice di stagionalit lorda. Il ciclo la componente di
medio periodo presente in fenomeni caratterizzati da un
processo di crescita, rallentamento e contrazione che si
svolge nel corso di pi anni. Quando la serie di tempo non
sufficientemente ampia, linfluenza del ciclo risulta
tuttavia
poco
evidente
e,
se
interessa
soprattutto
analizzare il comportamento nel breve periodo della serie
135
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

di tempo, si pu esaminare congiuntamente il trend e il


ciclo.
Se si dispone di dati mensili, per isolare linfluenza del
trend-ciclo si calcola la media mobile di 12 termini
centrata, eliminando cos la componente stagionale e le
oscillazioni occasionali. Prima di calcolare la media
mobile i dati mensili vanno normalizzati Per tenere conto
del differente numero di giorni in calendario di ciascun
mese, moltiplicando ciascun dato per il rapporto tra il
numero medio di giorni mensili dellanno (30,42 per gli
anni normali e 30,5 per gli anni bisestili) e il numero
effettivo di giorni di calendario del mese a cui si
riferisce il dato:
mm12

0,5 X1 X2 ... X12 0,5 X13


12

Il rapporto tra la serie storica e la media


calcolata detto indice di stagionalit lorda:

ISL

mobile

X
mm12

Coefficienti di stagionalit netti. Per identificare la


componente stagionale si prende in esame la distribuzione
degli indici di stagionalit lorda (ISL) allinterno di
ciascun mese. La media degli ISL di ciascun mese detta
Coefficiente di Stagionalit Netto (CSN).

CSN mese MediaISLmese


In questo passaggio si devono escludere gli eventuali ISL
anomali dal calcolo delle medie mensili. Un criterio per
stabilire se un ISL anomalo verificare se cade al di
fuori dellintervallo 2; 2 , dove la media e
lo scarto quadratico medio degli ISL di ogni mese.
Esempio. Si effettua la destagionalizzazione della serie di
tempo seguente:

136
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

gen
feb
mar
apr
mag
giu
lug
ago
set
ott
nov
dic

2001 2002 2003 2004


55
19 115 160
40
70
99
56
20 172
51
56
60 112 285 110
56 124
66 220
52 268 114 300
160 104 396 416
162 296
66 184
68
34 144
48
96
28
36 160
102 200 126 280
95
44 315 168

2005
160
100
165
95
385
300
210
220
110
75
121
165

Si procede con la normalizzazione dei mesi secondo i giorni


di calendario, ottenendo la seguente tabella:

gen
feb
mar
apr
mag
giu
lug
ago
set
ott
nov
dic

2001
54,0
43,5
19,6
60,8
55,0
52,7
157,0
159,0
69,0
94,2
103,4
93,2

2002
18,6
76,1
168,8
113,6
121,7
271,8
102,1
290,5
34,5
27,5
202,8
43,2

2003
112,8
107,6
50,0
289,0
64,8
115,6
388,6
64,8
146,0
35,3
127,8
309,1

2004
157,4
58,9
55,1
111,8
216,5
305,0
409,3
181,0
48,8
157,4
284,7
165,3

2005
157,0
108,6
161,9
96,3
377,8
304,2
206,1
215,9
111,5
73,6
122,7
161,9

Si calcolano quindi le medie mobili centrate di 12 termini,


ottenendo per rapporto i quozienti di stagionalit lorda.
Ad esempio

78,64

0,5 54 43,5 ... 93,2 0,5 18,6


12

Il rapporto tra i valori della serie di tempo X e le medie


mobili lindice di Stagionalit Lorda (ISL), differente
di mese in mese. Sulla base della distribuzione mensile
degli ISL si calcolano la media e lo scarto quadratico
medio verificando che non esistono dati anomali da
correggere.

137
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

Appunti di statistica descrittiva

L.Bollani e L.Bottacin

gen
feb
mar
apr
mag
giu
lug
ago
set
ott
nov
dic

media
0,69
0,59
0,72
1,06
1,18
1,60
1,91
1,41
0,57
0,57
1,22
0,99

sqm
0,31
0,16
0,41
0,65
0,57
0,49
0,66
0,73
0,32
0,35
0,26
0,60

lim inf
0,07
0,26
-0,10
-0,24
0,04
0,62
0,58
-0,05
-0,06
-0,12
0,71
-0,21

lim sup
1,32
0,91
1,55
2,35
2,33
2,58
3,24
2,88
1,21
1,26
1,73
2,19

Lanalisi degli ISL in questo caso non rivela la presenza


di dati anomali.
Le medie degli ISL (eventualmente corretti di dati anomali)
sono i coefficienti di stagionalit netta (CSN). Dividendo
ogni dato della serie di tempo per il CSN del mese, si
ottiene la serie di tempo destagionalizzata.
La distribuzione dei coefficienti di stagionalit netti CSN
la seguente:

Sulla base dei CSN si calcolano per rapporto i dati


destagionalizzati della serie di tempo. Ad esempio il dato
destagionalizzato di gennaio 2001 vale
54,0/0,69 = 78,07
Seguono
le
tabelle
con
il
calcolo
destagionalizzati per gli anni esaminati:

dei

valori
138

StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

gen
feb
mar
apr
mag
giu
lug
ago
set
ott
nov
dic

gen
feb
mar
apr
mag
giu
lug
ago
set
ott
nov
dic

Appunti di statistica descrittiva

2001
mm
ISL

X
54,0
43,5
19,6
60,8
55,0
52,7
157,0
159,0
69,0
94,2
103,4
93,2

78,64
78,53
86,10
94,51
99,49
111,40

2,00
2,02
0,80
1,00
1,04
0,84

CSN
0,69
0,59
0,72
1,06
1,18
1,60
1,91
1,41
0,57
0,57
1,22
0,99

X
18,6
76,1
168,8
113,6
121,7
271,8
102,1
290,5
34,5
27,5
202,8
43,2

2002
mm
ISL
118,23 0,16
121,42 0,63
125,46 1,35
121,25 0,94
122,61 0,99
124,66 2,18
126,50 0,81
131,74 2,20
128,11 0,27
130,47 0,21
135,41 1,50
126,53 0,34

CSN
0,69
0,59
0,72
1,06
1,18
1,60
1,91
1,41
0,57
0,57
1,22
0,99

Xdest
78,07
74,12
27,16
57,54
46,44
33,00
82,31
112,50
120,02
165,65
84,90
94,21

Xdest
26,97
129,72
233,58
107,40
102,84
170,07
53,50
205,56
60,01
48,32
166,46
43,63

139
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

gen
feb
mar
apr
mag
giu
lug
ago
set
ott
nov
dic

X
112,8
107,6
50,0
289,0
64,8
115,6
388,6
64,8
146,0
35,3
127,8
309,1

Appunti di statistica descrittiva

2003
mm
ISL
131,96 0,86
134,49 0,80
129,74 0,39
134,71 2,15
131,91 0,49
139,87 0,83
152,80 2,54
152,63 0,42
150,82 0,97
143,65 0,25
142,58 0,90
156,80 1,97

CSN
0,69
0,59
0,72
1,06
1,18
1,60
1,91
1,41
0,57
0,57
1,22
0,99

Xdest
163,24
183,45
69,26
273,31
54,74
72,34
203,73
45,84
254,17
62,12
104,87
312,37

CSN
0,69
0,59
0,72
1,06
1,18
1,60
1,91
1,41
0,57
0,57
1,22
0,99

Xdest
227,71
100,46
76,25
105,76
182,93
190,88
214,58
128,12
84,95
276,81
233,66
167,04

2004
gen
feb
mar
apr
mag
giu
lug
ago
set
ott
nov
dic

X
157,4
58,9
55,1
111,8
216,5
305,0
409,3
181,0
48,8
157,4
284,7
165,3

mm
165,55
171,26
172,05
173,09
184,71
185,26
179,25
181,30
187,83
191,63
197,71
204,40

ISL
0,95
0,34
0,32
0,65
1,17
1,65
2,28
1,00
0,26
0,82
1,44
0,81

140
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.

L.Bollani e L.Bottacin

Appunti di statistica descrittiva

2005
gen
feb
mar
apr
mag
giu
lug
ago
set
ott
nov
dic

X
157,0
108,6
161,9
96,3
377,8
304,2
206,1
215,9
111,5
73,6
122,7
161,9

mm
195,90
188,88
192,95
192,07
181,83
174,94

ISL
0,80
0,58
0,84
0,50
2,08
1,74

CSN
0,69
0,59
0,72
1,06
1,18
1,60
1,91
1,41
0,57
0,57
1,22
0,99

Xdest
227,12
185,31
224,07
91,10
319,29
190,37
108,04
152,78
194,16
129,42
100,71
163,62

141
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.