Volume Primo

COSIMO D.
VITALE

INTRODUZIONE ALLA STATISTICA
PER LE APPLICAZIONI ECONOMICHE

Volume primo
STATISTICA DESCRITTIVA

Edizioni Scientifiche Italiane

MANLIO ROSSI-DORIA
Collana a cura del Centro per la Formazione
in Economia e Politica dello Sviluppo Rurale
e del Dipartimento di Economia e Politica Agraria
dellUniversit di Napoli Federico II
4
N ella stessa collana:
1. Qualit e valoriz z az ione nel mercato dei prodotti agroalimentari tipici, a cura di
F. de Stefano, 2000.
2. L economia agrobiologica in Campania: un difficile percorso, a cura di F. de
Stefano, G. Cicia e T. del Giudice, 2000.
3. Istituz ioni, capitale umano e sviluppo del Mez z ogiorno, a cura di M.R. Carrillo
e A. Zazzaro, 2001.
4. Introduz ione alla statistica per le applicaz ioni economiche. V ol. I, S tatistica
descrittiva, C. Vitale 2002.
In preparaz ione:
O. W. MAIETTA, L analisi quantitativa dellefficienz a. T ecniche di base ed
estensioni recenti.
COSIMO VITALE
INTRODUZIONE
ALLA STATISTICA
PER LE APPLICAZIONI
ECONOMICHE
Volume primo
STATISTICA DESCRITTIVA
Edizioni Scientifiche Italiane
VITALE COSIMO
Introduzione alla statistica per le applicazioni economiche. Vol. I
Statistica descrittiva.
Collana: Manlio Rossi-Doria, a cura del Centro per la Formazione
in Economia e Politica dello Svilupppo Rurale e del Dipartimento di
Economia e Politica Agraria dellUniversit di Napoli Federico II, 4
Napoli: Edizioni Scientifiche Italiane, 2002
pp. X+ 210; cm 24
ISBN
2002 by Edizioni Scientifiche Italiane s.p.a.
80121 Napoli, via Chiatamone 7
00185 Roma, via dei Taurini 27
Internet: www.esispa.com
E-mail: info@esispa.com
I diritti di traduzione, riproduzione e adattamento totale o parziale e
con qualsiasi mezzo (compresi i microfilm e le copie fotostatiche)
sono riservati per tutti i Paesi.
INDICE
Premessa
CAPITOLO 1
Rilevazioni statistiche e distribuzioni di frequenza
1.1 I ntroduz ione 1
1.2 L a classificaz ione delle rilevaz ioni statistiche 2
R ilevaz ione di popolaz ioni
R ilevaz ione per campione
1.3 L e distribuz ioni di frequenz a semplici 7
1.4 L a rappresentaz ione grafica delle distribuz ioni di frequenz a 12
L e rappresentaz ioni ad aste
L e rappresentaz ioni con torte
L e rappresentaz ioni a nastri
Gli istogrammi di frequenz e
1.5 Frequenz e relative e frequenz e relative cumulate 18
L a funz ione di ripartiz ione
CAPITOLO 2
Indici statistici descrittivi
2.2 A lcuni indici di posiz ione o locaz ione 26
L a media aritmetica
L a media troncata
L a mediana
I quartili
L a moda
L a media geometrica
2.3 A lcuni indici di variabilit 57
L ' intervallo di variaz ione
L a varianz a
I momenti di ordine r
Indice VI
Il coefficiente di variaz ione
L o scostamento semplice medio
L o scostamento semplice mediano
L a differenz a tra quartili
L ' entropia di S hannon
L ' indice di mutabilit di Gini
2.4 A lcuni indici sulla forma 71
A lcuni indici di asimmetria
L ' indice di curtosi
CAPITOLO 3
La concentrazione
3.2 Il concetto di concentraz ione 84
Il caso discreto o discretiz z ato
Il caso per classi di modalit
3.3 A lcuni indici di concentraz ione 91
L ' indice di concentraz ione di Gini
Il rapporto di concentraz ione
L ' indice d del Gini
3.4 A lcune consideraz ioni sulla concentraz ione dei redditi 96
CAPITOLO 4
Le distribuzioni di frequenza doppie
4.2 D istribuz ioni semplici derivate da una doppia 105
L e marginali
L e condiz ionate
4.3 L ' indipendenz a fra caratteri 110
Indipendenz a assoluta
Indipendenz a in media
4.4 L a correlaz ione lineare 124
L a covarianz a
L a disuguaglianz a di Schwarz
Il coefficiente di correlaz ione
CAPITOLO 5
Introduzione all'analisi delle serie storiche
5.2 A lcune rappresentaz ioni grafiche delle serie storiche 141
R appresentaz ione sul tempo
R appresentaz ione gambo-foglie
Indice
VII
R appresentaz ione box -plot
5.3 A lcune trasformaz ioni delle serie storiche 147
L a serie degli indici
L a serie delle differenz e
5.4 Gli indici dei prez z i 165
Indici dei prez z i composti o ponderati
L a deflaz ione delle serie monetarie
CAPITOLO 6
Linterpolazione lineare
6.2 Il modello lineare semplice 177
6.3 L a stima dei parametri del modello 179
Misura della bont di adattamento
A nalisi dei residui
6.4 Modello non lineare 201
Modello non lineare nelle esplicative
Modello non lineare ma lineariz z abile
Modello non lineariz z abile
Bibliografia 205
Indice analitico 207

PREMESSA

Queste lezioni, dedicate agli allievi del secondo anno dei corsi di laurea
in Economia e Commercio e in Economia Aziendale, forniscono i primi rudi-
menti di quella disciplina che va sotto il nome di Statistica. Raccoglie, rielabora-
te e corrette, le lezioni tenute negli anni accademici 1990-98 presso la Facolt di
Economia dell'Universit di Salerno. In tal senso sono grato agli studenti che,
autonomamente, e con grande dispendio di energia, hanno seguito, registrato e
trascritto quelle lezioni.

Il corso si compone di tre parti:
(a) la prima immediatamente applicabile a fenomeni reali dedicata alla stati-
stica descrittiva e fornisce gli strumenti ed i metodi pi noti e semplici da
utilizzare in molte pratiche applicazioni. Questa parte composta dal pri-
mo dei due volumi;
(b) la seconda, di tipo essenzialmente strumentale nella economia generale del
corso, presenta alcuni elementi di calcolo delle probabilit e di variabili ca-
suali. A questa parte sono dedicati i capitoli del secondo volume;
(c) la terza riporta elementi di inferenza statistica (stime e test delle ipotesi) e
di regressione lineare ed coperta dai rimanenti capitoli del secondo volu-
me.

Ho cercato di esporre il tutto in modo semplice e discorsivo e di corre-
darlo con esempi riferiti a fenomeni di tipo socio-economico in modo da ren-
dere pi facile l'apprendimento e pi immediata l'applicabilit degli strumenti
presentati.

Fisciano, febbraio 2002 L'Autore

Capitolo 1

RILEVAZIONI STATISTICHE E DISTRIBUZIONI DI
FREQUENZA

1.1 Introduzione

La statistica studia non i singoli fenomeni in quanto tali, ma insiemi di
fenomeni, collettivi statistici, all'interno dei quali cerca di individuare eventuali re-
golarit. Inoltre, si interessa della raccolta e della catalogazione delle informazio-
ni e dell'analisi di tali informazioni tramite strumenti elaborati dalla statistica
stessa. La raccolta di informazioni con procedure elaborate dalla statistica per-
mette di ottenere le informazioni di base: le rilevazioni statistiche.

Una rilevazione statistica la raccolta di informazioni, su uno o pi feno-
meni, in un dato tempo ed in un dato luogo, con metodi forniti dalla statistica e
su cui possono essere usati, per la relativa analisi, strumenti statistici.

Da questo punto di vista la statistica una disciplina strumentale a tutte le altre.
In pratica, non vi campo dell'umano sapere in cui non si raccolgono ed elabo-
rano informazioni con gli strumenti forniti dalla statistica.
Le rilevazioni statistiche possono essere classificate in diverse categorie.
Naturalmente, esistono differenti modi di raggrupparle, qui di seguito verranno
proposte alcune classificazioni (fra le tante possibili) che tengano conto dei di-
versi strumenti analitici a cui rilevazioni appartenenti a classi diverse possono
essere diversamente sottoposte. In altri termini, dato che rilevazioni con carat-
teristiche qualitative diverse possono essere analizzate con strumenti statistici
differenti, si cercher di presentare una classificazione che tenga conto di questi
aspetti.

Capitolo 1 2

1.2 La classificazione delle rilevazioni statistiche

A seconda della estensione delle rilevazioni statistiche si pu distinguere
fra:

rilevazione di popolazioni
rilevazione di campioni

RILEVAZIONE DI POPOLAZIONI

Il fenomeno di interesse viene osservato sull'intera popolazione, ove

per popolazione si intende l'insieme, definito in un dato luogo ed in un determi-
nato tempo, di elementi qualsiasi (persone, animali, cose ecc.) che hanno in
comune una o pi caratteristiche prefissate.

Naturalmente, prima di effettuare una rilevazione di una popolazione bi-
sogna definire gli oggetti (persone, animali, cose ecc.) su cui vengono raccolte
le informazioni, questi oggetti prendono il nome di unit di rilevazione. Una volta
definita l'unit di rilevazione necessario definire gli aspetti, i caratteri, i feno-
meni dell'unit di rilevazione su cui si vuole raccogliere informazione ed una
scala di misura delle caratteristiche di interesse.
Di solito si suppone che i fenomeni che si analizzano siano indipendenti
dalla scala di misura utilizzata. Cos, se si interessati all'altezza di date persone
misurarla in metri o in centimetri, a meno di trascurabili problemi di arroton-
damento, dovrebbe fornire risultati simili. In realt, questa assunzione vera
solo per fenomeni regolari. Infatti, negli anni settanta si scoperto che esistono
molti fenomeni in natura per cui questa supposizione falsa. Cos se si misura
la lunghezza del sistema vascolare di dati individui si ottengono risultati molto
diversi a seconda che si utilizzi, come unit di misura, il millimetro o il micron
e questo dipende, essenzialmente, dal fatto che il carattere considerato molto
"irregolare" ha, in termini pi precisi, una struttura frattale. Nel seguito, per
semplicit di esposizione, non terremo conto di questa ulteriore complicazione
e supporremo che i fenomeni da noi analizzati siano invarianti rispetto alla sca-
la di misura utilizzata.

Rilevazioni statistiche e distribuzioni di frequenza 3

Esempio di popolazione. I vari punti rappresentano le unit di rilevazioni da cui costituita la popo-
lazione.

Da questo punto di vista una popolazione pu, anche, essere definita
come

l'insieme di tutte le unit di rilevazione in un determinato momento ed in un
dato luogo.

Si osservi che possono essere definite anche delle popolazioni fittizie,
ipotetiche.

Esempio 1
Tutti i possibili redditi che una data persona avrebbe potuto guadagnare in un
determinato anno.

Quando si rileva unintera popolazione si effettua quello che viene chiamato
censimento. Naturalmente, non possibile effettuare censimenti per popolazioni
ipotetiche o per popolazioni costituite da infinite unit di rilevazione.

RILEVAZIONE PER CAMPIONE

Le rilevazioni campionarie sono rilevazioni parziali, pi precisamente:

per campione si intende un sotto insieme di unit di rilevazione scelte, con un
definito criterio, da una data popolazione.

Le informazioni vengono, naturalmente, acquisite solo sulle unit della
popolazione che fanno parte del campione selezionato.
Esistono diversi modi per scegliere un campione da una popolazione ci
Capitolo 1 4
d luogo a differenti tipi di campioni, in particolare distinguiamo fra:

campione ragionato
campione casuale.

I campioni ragionati sono ottenuti fissando una ben definita regola e sce-
gliendo tutte le unit di rilevazione della popolazione che soddisfano quella re-
gola.

Naturalmente, in tal caso, ripetendo l'operazione di campionamento a
parit di condizioni (stessa regola ed identica popolazione), si ottiene sempre
un campione costituito esattamente dalle stesse unit di rilevazioni.

Esempio 2
Supponiamo di avere la popolazione costituita da tutte le famiglie (questa l'unit di
rilevazione) residenti in Campania al 31/12/1992. Come regola di estrazione fissiamo la
seguente: tutte le famiglie residenti in Campania al 31/12/1992 con pi di sei componenti.
Si ottiene in tal modo il campione (sotto insieme della popolazione data) costituito da tutte le
famiglie residenti al 31/12/1992 in comuni della Campania costituite da sette o pi com-
ponenti.
Come facile intuire, se si ripete l'estrazione dalla stessa popolazione utilizzando la
stessa regola si ottiene sempre lo stesso risultato.

Un aspetto negativo di questo tipo di campioni che i risultati ottenuti
non sono, in generale, estensibili all'intera popolazione e questo perch i cam-
pioni ragionati non sono di solito rappresentativi della popolazione da cui sono
stati estratti.

I campioni casuali sono ottenuti scegliendo dalla popolazione le unit di
rilevazione con un meccanismo casuale. Cio affidandosi ad un arbitro neutrale
quale la sorte, il caso di modo che ogni unit di rilevazione ha la stessa pro-
babilit di far parte del campione.

In queste condizioni, se si ripete l'operazione di campionamento non si
ottiene lo stesso risultato, in altre parole il risultato dell'estrazione incerto, so-
lo probabile. Ma proprio perch nella scelta delle unit di rilevazioni si utiliz-
zato un arbitro neutrale, quale il caso, i risultati ottenuti da questi campioni
possono essere estesi, entro certi limiti, all'intera popolazione.
Il numero delle unit di rilevazione che compongono il campione viene
detto numerosit campionaria.

Esempio 3
Assegniamo a ciascuna delle unit di rilevazione della popolazione definita nell'esem-
pio 2 un numero progressivo. Scriviamo detti numeri su dei foglietti che vengono immessi in
un'urna. Mescoliamo i biglietti nell'urna cos costituita e quindi scegliamo un bigliettino. Ri-
petiamo l'estrazione n volte. Si ottiene cos un campione casuale di n famiglie della popola-
zione data. Notiamo che se si ripete l'operazione di campionamento non c' certezza di otte-
nere le stesse famiglie.

Nel seguito, non verr trattato il delicato problema del piano di campio-
na-mento, cio di come costruire un campione che sia il meno costoso ma il pi
rappresentativo possibile della popolazione. Di queste problematiche se ne occu-
pa in modo sistematico una branca della statistica che va sotto il nome di Teoria
dei Campioni.
Fino ad ora abbiamo visto che le rilevazioni statistiche si classificano in
rilevazioni su popolazioni (i noti censimenti ne sono un esempio) e rilevazioni
su campioni. Ma le rilevazioni statistiche possono anche essere distinte in:

rilevazione semplice
rilevazione multipla.

Una rilevazione statistica detta semplice quando per ogni unit di rileva-
zione si assumono informazioni su un solo carattere.

Esempio 4
Se sulla popolazione (o sul campione) di cui abbiamo trattato negli esempi 2 e 3 rile-
viamo informazioni su un solo carattere, per esempio la professione o il titolo di studio del
capofamiglia, si ottiene una rilevazione semplice. La stessa cosa se della famiglia rileviamo il
numero dei componenti, o il reddito annuo familiare, o il luogo di residenza.

Una rilevazione statistica detta multipla quando per ogni unit di rileva-
zione si assumono informazioni simultaneamente su pi di un carattere.

Capitolo 1 6
Esempio 5
Se sulla popolazione (o sul campione), di cui abbiamo trattato negli esempi 2 e 3, ri-
leviamo contemporaneamente informazioni sulla professione del capofamiglia, il numero dei
componenti e il reddito annuo familiare si ottiene una rilevazione statistica tripla.

Nel seguito particolare rilievo, fra le rilevazioni multiple, verr dato a
quelle doppie, cio a quelle rilevazioni in cui le informazioni si raccolgono (su
popolazione o campione) su coppie di caratteri di ciascuna unit di rilevazione.
L'importanza delle rilevazioni multiple che queste, oltre a fornire informazio-
ni sui singoli caratteri, forniscono informazioni sui possibili legami esistenti fra i
diversi caratteri considerati e quindi permettono di capire se esistono e di che
natura ed entit sono le relazioni fra i diversi caratteri presi in considerazione.
Le rilevazioni statistiche (siano esse relative a popolazioni o a campioni)
possono essere anche classificate in rapporto al tipo di carattere che viene rile-
vato. Si hanno cos le rilevazioni che generano:

variabili
mutabili.

Una rilevazione statistica prende il nome di variabile se il carattere su cui
si raccolgono informazioni misurabile.

Si noti che i caratteri misurabili, cio le variabili, possono essere sempre
ordinati in modo "naturale" e che detti caratteri si riferiscono a delle quantit in
questo senso si parla anche di carattere quantitativo. Inoltre, le variabili posso-
no essere sia discrete che continue a seconda che il carattere pu assumere, teori-
camente, una infinit continua di valori o solo un numero finito o numerabile.

Una rilevazione statistica prende il nome di mutabile se il carattere su cui
si raccolgono informazioni non misurabile.

Si osservi che le mutabili si riferiscono a qualit del carattere preso in
considerazione. Si tenga conto che le mutabili, a differenza delle variabili, non
necessariamente ammettono un ordinamento naturale. Se una mutabile non
ammette un ordinamento naturale viene detta sconnessa.

Esempio 6
Nella rilevazione dell'esempio 4 i caratteri professione del capofamiglia e titolo di
studio del capofamiglia danno luogo a mutabili, la prima sconnessa, la seconda ordinabi-
le. Viceversa, i caratteri numero di componenti per famiglia e reddito annuo fami-
liare danno luogo a variabili la prima discreta e la seconda continua.

Le mutabili, a differenza delle variabili, sono sempre discrete. Esiste un
solo carattere qualitativo che misurabile, continuo e quindi ordinabile ed il
tempo. Lo schema della classificazione qui proposta riportato nella figura che
segue:

Una classificazione delle rilevazioni statistiche

Un diverso modo di classificare le rilevazioni statistiche tiene conto della
dinamicit nel tempo, nello spazio o nello spazio-tempo, o della staticit della
rilevazione. Nel seguito analizzeremo alcune rilevazioni statiche riportate sotto
forma di distribuzioni di frequenza e delle rilevazioni dinamiche di tipo quantitati-
ve che evolvono nel tempo dette anche serie storiche.

1.3 Le distribuzioni di frequenza semplici

In questa prima parte del corso consideriamo quelle rilevazioni statisti-
che che riguardano intere popolazioni per cui i risultati che si ottengono, a me-
no di errori di misurazione che considereremo trascurabili, sono certi. In altri
termini, in questa prima parte del corso supporremo di muoverci in un mondo
Capitolo 1 8
deterministico, un universo in cui tutto certo anche se incognito per nostra
ignoranza. Questo il mondo della Statistica descrittiva.
Data una rilevazione statistica riguardante un determinato carattere pos-
seduto dalle unit di rilevazione di una definita popolazione, le diverse deter-
minazioni (o modi) che il carattere assume nelle unit di rilevazione prendono
il nome di modalit del carattere. Il numero, di solito indicato con N, delle unit
di rilevazione della popolazione considerata prende il nome di numerosit della
popolazione.

Esempio 7
Nel caso dell'esempio 2 in cui la popolazione era costituita dalle famiglie residenti in
Campania al 31/12/1992, se il carattere preso in considerazione fosse la professione del
capofamiglia, le modalit sarebbero costituite dalle diverse posizioni professionali dei residenti
in Campania (esempio: contadino, artigiano, operaio, impiegato, professionista, ecc.); se il
carattere preso in considerazione fosse la numerosit della famiglia allora le modalit sarebbe-
ro costituite dalle diverse numerosit di quelle famiglie (esempio: 1, 2, 3, ...., k, ove k il
numero dei componenti della famiglia pi numerosa della popolazione); se il carattere fosse il
titolo di studio del capo famiglia allora le modalit sarebbero i diversi titoli di studio di quei
capifamiglia (esempio: senza titolo, licenza elementare, licenza media, licenza media superio-
re, laurea).

Esempio 8
Supponiamo che la nostra popolazione sia costituita da N=16 persone e che il carat-
tere dinteresse sia l'altezza di queste persone espressa in centimetri; inoltre, supponiamo che
le 16 misurazioni delle altezze abbiano dato luogo ai 16 numeri seguenti:

173 154 165 160 160 155 165 173
170 180 165 160 154 180 173 165

In tal caso le modalit del carattere altezza nella popolazione data sono costituite dai seguen-
ti sette numeri:

154 155 160 165 170 173 180

Se il carattere di interesse della nostra popolazione fosse il colore degli occhi e dalla no-
stra rilevazione risultasse:

N V M V V N V M
M M N V M V M M

ove si posto N=colore nero, M=colore marrone, V=colore chiaro, allora le modalit della
rilevazione sarebbero date dai seguenti tre simboli:

N, M, V.

Se contiamo quante volte si presenta, nella popolazione data, ciascuna
modalit a ognuna di queste viene associato un numero intero positivo detto
frequenza. In altri termini:

le modalit di una distribuzione di frequenze sono le diverse determinazioni che
il carattere di interesse assume nella popolazione, le frequenze sono il numero di
volte che si presentano le diverse modalit.

Nel seguito indicheremo con una delle ultime lettere maiuscole dell'alfabe-
to latino la generica rilevazione statistica quantitativa e con la corrispondente
lettera minuscola la generica modalit. Cos se indichiamo con X una rilevazio-
ne statistica quantitativa avremo che x
i
indicher la sua modalit i-esima. Se il
fenomeno una qualit utilizzeremo una delle prime lettere dell'alfabeto latino.
Cos se si indica con A la generica rilevazione qualitativa, la sua i-esima modali-
t sar indicata con a
i
. In ogni caso useremo il simbolo n
i
, i=1, 2, ..., k, per in-
dicare la frequenza associata alla i-esima modalit sia essa una quantit o una
qualit. Naturalmente sar sempre

N = n
1
+ n
2
+ ... + n
k
=
k
i
i
n
1

Se l'ordine con cui le osservazioni vengono acquisite irrilevante ai fini
dell'analisi che si vuole condurre si dice che vi scambiabilit fra le unit di rile-
vazione del fenomeno. In tal caso esiste una corrispondenza biunivoca fra rile-
vazione statistica e distribuzione di frequenza nel senso che tutte le informa-
zioni contenute nella prima sono conservate nella seconda e viceversa. La ge-
nerica distribuzione di frequenza quantitativa X assumer le modalit x
1
, x
2
, ..., x
k

con rispettive frequenze n
1
, n
2
, ..., n
k
, mentre la generica distribuzione di fre-
quenza qualitativa A assumer le modalit a
1
, a
2
, ..., a
k
con simili frequenze.
Entrambe possono essere indicate con una tabella composta da due colonne e
precisamente:

Capitolo 1 10
Variabile Mutabile
xi ni ai ni
x1 n1 a1 n1
x2 n2 a2 n2

xk nk ak nk
N N

ove si suppone che le x
i
siano state ordinate in modo crescente per cui risulta
x
1
< x
2
< ... < x
k
.

Esempio 9
Riprendendo i casi riportati nell'esempio 8, le relative distribuzioni di frequenza sono
date rispettivamente da:

xi ni ai ni
154 2 N 3
155 1 V 6
160 3 M 7
165 4 16
170 1
173 3
180 2
16

Nel primo caso il carattere una quantit e quindi ordinabile, nel secondo caso
una qualit sconnessa e quindi l'ordinamento presentato del tutto soggettivo.

Si osservi che la generica frequenza n
i
sempre un numero intero non
negativo visto che indica quante volte si presenta ciascuna modalit. Al contra-
rio, come gi detto, le modalit possono essere sia delle quantit, sia delle quali-
t. Quando le modalit del carattere sono delle qualit si dice che nella rileva-
zione del fenomeno si usata una scala nominale dato che le modalit sono nomi
o aggettivi. Ricordiamo che i caratteri quantitativi possono essere sia discreti
che continui anche se quando vengono effettivamente misurati la misurazione
avviene sempre nel discreto. I caratteri qualitativi possono essere sia non ordi-
nabili ( la maggior parte dei casi) che ordinabili.
Negli esempi 8 e 9 abbiamo derivato due distribuzioni di frequenza ot-
tenute da una popolazione molto piccola dato che era composta solo da 16 u-
nit di rilevazione. In molti fenomeni socioeconomici spesso si analizzano po-
polazioni composte da migliaia, se non da milioni, di unit di rilevazione e non
ha molto senso, da un punto di vista pratico, riportare la lista di tutte le modali-
t che il dato fenomeno assume. In questi casi, anche se sono noti i dati relativi
a tutte le modalit assunte nella popolazione, le modalit vengono raggruppate
con un qualche criterio di solito soggettivo per formare quelle che vengono
chiamate classi di modalit.

Esempio 10
Distribuzione di frequenza della popolazione residente (dati in migliaia di unit) in
Calabria al 31 dicembre 1981 per classi di et (fonte ISTAT)

Classi di et Residenti (in migliaia)
xi |xi+1
ni
0 |15
587
15 |25
350
25 |45
511
45 |65
390
>65 241
2079

Nella prima riga della tabella il simbolo 0|15 sta ad indicare che i residenti in
Calabria al 31/12/81 con una et, in anni compiuti, da 0 (escluso) a 15 anni (incluso)
erano 587.000, quelli che avevano una et da 15 (escluso) a 25 anni (incluso) erano
350.000 e cos via. Osserviamo che l'ultima classe, quella indicata con il simbolo >65,
una classe aperta superiormente cio una classe in cui non indicato l'estremo superiore.
In questo caso quell'ultima classe sta ad indicare che coloro che avevano pi di 65 anni di et
erano 241.000.

Le classi aperte si possono incontrare sia come classe finale, il caso del-
l'esempio riportato, che come classe iniziale o per entrambe. Osserviamo che il
simbolo x
i
| x
i+1
sta a significare che in quella classe le unit di rilevazione
che hanno un carattere minore o uguale ad x
i
sono escluse mentre sono incluse
immediatamente dopo x
i
fino ad x
i+1
compreso. In altri termini, l'estremo infe-
riore escluso mentre quello superiore incluso. Naturalmente, se avessi utilizzato la
scrittura x
i
|x
i+1
sarebbe stato incluso l'estremo inferiore della classe, mentre
Capitolo 1 12
sarebbe stato escluso quello superiore. Le classi di modalit vengono utilizzate
non solo per scrivere in modo pi compatto distribuzioni di frequenza con ca-
rattere continuo, ma anche quelle con carattere discreto come, per esempio, il
numero dei figli per famiglia, oppure il numero di aziende per addetti, o il nu-
mero di comuni per provincia.
Abbiamo gi sottolineato che quando una rilevazione statistica viene tra-
sformata in una distribuzione di frequenza si distrugge l'ordine in cui le osser-
vazioni vengono acquisite e questo fa, in generale, perdere informazioni a me-
no che le unit di rilevazione non siano scambiabili rispetto al problema in ana-
lisi. La trasformazione di una rilevazione statistica in una distribuzione di fre-
quenza per classi di modalit distrugge ancora di pi informazioni e la perdita
di informazioni tanto pi elevata quanto pi ampie sono le rispettive classi;
questo particolarmente vero se vi sono classi aperte. Infatti, non mai possi-
bile risalire dalla distribuzione di frequenza per classi di modalit a quella con
tutte le modalit distinte, mentre , ovviamente, sempre possibile fare il vice-
versa.

1.4 La rappresentazione grafica delle distribuzioni di frequenza

Le rappresentazioni grafiche, in generale e quelle delle rilevazioni stati-
stiche in particolare, servono solo a dare unidea sintetica e complessiva del fe-
nomeno. Fenomeni a volte anche molto complessi per numerosit di variabili o
di osservazioni o di entrambi possono essere efficacemente sintetizzati con una
adeguata rappresentazione grafica. Da questo punto di vista i grafici non dico-
no nulla di pi di ci che gi contenuto nelle osservazioni. Per quanto ci ri-
guarda, le varie rappresentazioni grafiche delle distribuzioni di frequenza fanno
solo cogliere aspetti globali del fenomeno anche se si perdono alcuni dettagli.
Da questo punto di vista se i grafici sono ben fatti sono un utile strumento di
sintesi dei fenomeni in studio.
Data la seguente distribuzione di frequenza:

xi ni
x1 n1
x2 n2

xk nk
N

in cui il carattere si supposto ordinabile per cui risulta x
1
< x
2
< ... < x
k
, esi-
stono vari modi per rappresentarla graficamente, qui di seguito ne presentere-
mo alcune di largo uso ma semplici da costruire.

LE RAPPRESENTAZIONI AD ASTE

In questo caso si considera un sistema di assi cartesiani e si riportano su
di esso le coppie di punti (x
i
, n
i
). Di solito la scala sui due assi diversa ed i
punti cos ottenuti spesso si uniscono con una spezzata. Si ottiene cos un gra-
fico come quello riportato nella figura che segue:

Esempio 11
Riprendiamo la prima distribuzione di frequenza riportata nell'esempio 9. Il relativo
grafico ad aste riportato nella figura seguente.

LE RAPPRESENTAZIONI CON TORTE

In questo caso la rappresentazione fatta su un cerchio che viene diviso
Capitolo 1 14
in tanti settori quante sono le modalit. L'ampiezza di ciascun settore propor-
zionale a ciascuna frequenza nel senso che a modalit con frequenza doppia
rispetto ad un'altra modalit sar attribuito un settore circolare doppio rispetto
all'altro e cos via. Nella figura che segue riportato un esempio generico di
una tale rappresentazione.

Esempio 12
Consideriamo la prima distribuzione di frequenza dell'esempio 9 la sua rappresenta-
zione a torta riportata nella figura

Nella figura che segue riportiamo la rappresentazione a torta della seconda distribuzione di
frequenza dell'esempio 9.


Dall'esempio precedente segue che le rappresentazioni a torte possono
essere utilizzate per qualsiasi tipo di distribuzioni di frequenza siano esse quan-
titative o qualitative, con modalit distinte o per classi di modalit. In altri ter-
mini, questo tipo di rappresentazione abbastanza generale da poterlo utilizza-
re per qualsiasi tipo di distribuzioni di frequenza.

LE RAPPRESENTAZIONI A NASTRI

Si tratta di una rappresentazione simile a quella ad aste con la differenza
che le barre vengono ordinate secondo l'ampiezza delle frequenze ci vuol dire
che questo tipo di rappresentazione pu essere utilizzato per qualsiasi tipo di
distribuzione di frequenza indipendentemente dal fatto che il carattere sia ordi-
nabile, misurabile, sconnesso.

Esempio 13
Consideriamo la seconda distribuzione riportata nell'esempio 9 il cui carattere, come
abbiamo sottolineato, una qualit non ordinabile, in tal caso la relativa rappresentazione a
nastri riportata nella figura

Come si pu notare da questa rappresentazione, la larghezza dei nastri la stessa per le tre
modalit, il loro ordinamento fatto sulla base dell'ammontare delle frequenze e l'unica cosa
che varia la lunghezza delle barre che funzione dell'ammontare delle frequenze.
Esempio 14
Consideriamo la seguente distribuzione di frequenze rappresentante i laureati in Ita-
Capitolo 1 16
lia nel 1990 distinti per gruppo disciplinare

Gruppo disciplinare laureati N
Scientifico 11.607
Medico 11.167
Ingegneria 11.740
Agrario 2.642
Economico 12.556
Politico-sociale 4.571
Giuridico 13.666
Letterario 17.862
Diplomi 3.670
Totale 89.481

La relativa rappresentazione a nastri riportata nella figura seguente

GLI ISTOGRAMMI DI FREQUENZA

Questo tipo di rappresentazione viene costruito nel caso in cui la distri-
buzione per classi di modalit. Infatti, nel caso in cui il carattere per classi di
modalit e si voglia tener conto nella rappresentazione grafica della diversa am-
piezza delle classi non pi possibile rappresentarle con barre come stato fat-
to nell'esempio 11. In una situazione del genere non si sa in quale punto della
classe va posizionata la relativa barra. Per superare questo inconveniente si so-
stituiscono le barre con dei rettangoli che hanno per base l'ampiezza di ciascu-
na classe e per area l'ammontare della relativa frequenza. Per calcolare l'altezza,
tenendo conto della formula delle aree dei rettangoli: A = b h, e ricordando
che nel nostro caso per il generico rettangolo relativo alla classe x
i
x
i+1
, risulta
A
i
= n
i
, b
i
= x
i+1
- x
i
, avremo che la relativa altezza, detta anche intensit della
classe,

h
i
=
n
i
b
i
.

In conclusione, gli istogrammi di frequenza si utilizzano per le distribu-
zioni il cui carattere per classi di modalit. Si costruiscono tanti rettangoli
quante sono le classi. Detti rettangoli hanno per base le ampiezze delle relative
classi, per area l'ammontare delle corrispondenti frequenze e per altezza il rap-
porto fra la frequenza della relativa classe e l'ampiezza della stessa classe. Quan-
to fino ad ora detto chiarito nell'esempio che segue.

Esempio 15
Supponiamo di avere la seguente distribuzione di frequenza il cui carattere per classi
di modalit:

x
i
|x
i+1
n
i
b
i
= x
i+1
- x
i
h
i
=n
i
/b
i

0 |2 3 2-0=2 3/2=1.500
2 |5 4 5-2=3 4/3=1.333
5 |10 5 10-5=5 5/5=1.000
10|20 3 20-10=10 3/10=0.300
Totale 15

i valori di b
i
ed h
i
sono riportati nella stessa tabella mentre il relativo istogramma riportato
nella figura che segue

Capitolo 1 18

1.5 Frequenze relative e frequenze relative cumulate

Data una generica distribuzione di frequenza, il numero n
i
di volte per
cui si verifica la i-esima modalit o classe di modalit detta anche frequenza as-
soluta
. Dalle frequenze assolute possibile derivare le

frequenze relative, indicate di solito con f
i
, definite come il rapporto fra ciascuna
frequenza assoluta e la somma di tutte le frequenze assolute:
f
i
=
n
i
N
.

Si osservi che mentre le frequenze assolute sono dei numeri interi posi-
tivi quelle relative sono delle percentuali: f
i
rappresenta la percentuale delle uni-
t di rilevazione che appartengono alla i-esima modalit o classe di modalit. E'
facile verificare che la somma delle frequenze relative pari ad uno, infatti:

f
1
+ f
2
+ ... + f
k
=
n
1
N
+
n
2
N
+ ... +
n
k
N
=
n
1
+n
2
+...+n
k
N
=
N
N
= 1.

Una caratteristica fondamentale delle frequenze relative di essere indi-
pendenti dalla numerosit del fenomeno (numero delle unit di rilevazione ap-
partenenti alla popolazione che si analizza) e quindi possono essere utili per
confrontare distribuzioni di frequenza con le stesse modalit o classi di modali-
t rilevate in luoghi o tempi diversi. Le frequenze relative di una distribuzione
di frequenza possono essere sempre calcolate indipendentemente dal carattere
che si analizza sia esso discreto o continuo, sia quantitativo o qualitativo. La
rappresentazione grafica di una distribuzione di frequenze relative ha lo stesso
andamento di quella in cui si utilizzano le frequenze assolute dato che nella de-
rivazione delle f
i
non si fatto altro che un cambiamento di scala (divisione per
una costante).
Nella tabella seguente riportata una tipica distribuzione di frequenza,
derivata da una qualche rilevazione statistica, in cui sono indicate sia le fre-
quenze assolute che quelle relative:

x
i
n
i
f
i

x
1
n
1

f
1
=
n
1
N

x
2
n
2

f
2
=
n
2
N

x
3
n
3
f
3
=
N
n
3

x
k
n
k

f
k
=
n
k
N

N 1

Dalle frequenze relative possibile derivare le frequenze relative cumulate.
Perch abbia senso derivare questo tipo di frequenze necessario ordinare preventi-
vamente le modalit del carattere della distribuzione di frequenza; questo implica
che tale frequenze ha senso calcolarle solo se il carattere ordinabile. In parti-
colare, nel caso di variabili l'ordinamento fatto in senso crescente.

Le frequenze relative cumulate, indicate di solito con F
i
, sono definite come
il rapporto fra la somma delle prime i frequenze assolute e la somma di tutte le
frequenze assolute:

F
i
=
N
n n n
i
+ + + ...
2 1
.

Si noti che sempre

F
k
= f
1
+ f
2
+ ... + f
k
= 1
e risulta
0 F
1
F
2
... F
k
= 1

in altri termini, le frequenze relative cumulate sono non decrescenti.
Capitolo 1 20
Supponiamo che il carattere considerato sia una variabile e che le relative
modalit siano state ordinate per cui risulta: x
1
< x
2
< ... < x
k
in tal caso F
i

rappresenta la percentuale del carattere posseduto fino alla modalit x
i
inclusa.
Nella tabella seguente riportata una tipica distribuzione di frequenze in
cui sono indicate le frequenze assolute, quelle relative e quelle relative cumula-
te:

x
i
n
i
f
i
F
i

x
1
n
1

f
1
=
n
1
N
F
1
= f
1
=
n
1
N

x
2
n
2

f
2
=
n
2
N
F
2
= f
1
+f
2
=
n
1
+n
2
N

x
3
n
3

f
3
=
n
3
N
F
3
= f
1
+f
2
+f
3
=
n
1
+n
2
+n
3
N

x
k
n
k

f
k
=
n
k
N
F
k
= f
1
+f
2
+...+f
k
=
n
1
+n
2
+...+n
k
n
=1
N 1

Esempio 16
Nella tabella seguente riportata la distribuzione di frequenza dei redditi lordi men-
sili di 20 soggetti, arrotondati al milioni di lire pi vicino, con le corrispondenti frequenze
relative e relative cumulate:

x
i
n
i
f
i
F
i

2 2
2
20
= 0.10 0.10
5 6
6
20
= 0.30 0.40
6 4
4
20
= 0.20 0.60
7 3
3
20
= 0.15 0.75
10 3
3
20
= 0.15 0.90
11 2
2
20
= 0.10 1
20 1

Se poniamo la nostra attenzione sulla terza modalit, cio su x
3
, risulta x
3
= 6 a cui corri-
sponde n
3
= 4 questo vuol dire che 4 delle 20 persone considerate guadagnano 6 milioni al
mese; f
3
= 0.2 questo vuol dire che il 20% del collettivo considerato (in questo caso composto
da 20 persone) guadagnano 6 milioni al mese; F
3
= 0.60 cio il 60% del collettivo guada-
gna fino a 6 milioni al mese.

Fra le frequenze relative e le frequenze relative cumulate esiste una corri-
spondenza biunivoca nel senso che note tutte le frequenze relative si possono de-
rivare tutte le frequenze relative cumulate e viceversa. In simboli questo si indi-
ca nel modo seguente:

{F
i
, i=1,...,k} {f
i
, i=1,...,k}

La dimostrazione di questa affermazione abbastanza semplice. Abbia-
mo gi visto che note le f
i
possibile derivare le F
i
tramite la seguente:

F
i
= f
1
+ f
2
+...+ f
i
, i=1,..,k;

viceversa, note le F
i
possibile derivare le f
i

f
i
= F
i
- F
i-1
= (f
1
+ f
2
+...+ f
i-1
+ f
i
) - (f
1
+ f
2
+...+ f
i-1
), i=1,...,k.

La rappresentazione grafica delle frequenze relative cumulate prende il
nome di funzione di ripartizione.

LA FUNZIONE DI RIPARTIZIONE

L'esempio che segue serve a chiarire come viene costruita una funzione
di ripartizione.

Esempio 17
La funzione di ripartizione relativa alla distribuzione di frequenze dell'esempio 16
riportata nella figura che segue

Capitolo 1 22

L'altezza di ciascun gradino corrisponde alla frequenza relativa delle rispettive modalit. Se
un gradino molto alto vuol dire che la corrispondente frequenza elevata e quindi la relativa
modalit molto frequente. In questo caso la frequenza pi elevata (corrispondente al gradino
pi alto) la seconda e cio x
2
= 5.

Se la distribuzione di frequenza per classi di modalit si pu ugualmen-
te costruire la funzione di ripartizione ponendo sull'asse delle ordinate le classi
di modalit. In questo caso per, il grafico non pu essere a gradini dato che
non possibile sapere in quali punti della classe le frequenze sono concentrate.
Per superare questo ostacolo si suppone che le frequenze appartenenti a cia-
scuna classe siano uniformemente ripartite all'interno di dette classi e quindi
che le frequenze cumulate crescano secondo delle spezzate che uniscono i pun-
ti con coordinate (x
i
, F
i-1
) ed (x
i+1
, F
i
). Naturalmente, l'interpretazione della
funzione di ripartizione che ne risulta rimane esattamente la stessa. Nell'esem-
pio seguente viene costruita la funzione di ripartizione quando il fenomeno
per classi di modalit.

Esempio 18
Supponiamo che la rilevazione dei redditi mensili (in milioni di lire) di 20 soggetti
abbia dato luogo alla seguente distribuzione di frequenze il cui carattere riportato per classi
di modalit:

x
i
|x
i+1
n
i
f
i
F
i

0 |1 2 0.1 0.1
1 |3 4 0.2 0.3
3 |5 8 0.4 0.7
5 |10 4 0.2 0.9
10 |20 2 0.1 1.0
20 1.0
La funzione di ripartizione di questa distribuzione di frequenze riportata nella figura se-
guente

Osserviamo che la funzione di ripartizione pu essere costruita cumu-
lando, al posto delle frequenze relative, le frequenze assolute. In tal caso la fun-
zione dipende da N dato che varier sempre fra 0 ed N e non pu essere utiliz-
zata per confrontare lo stesso fenomeno rilevato in tempi o luoghi diversi ma
con diversa numerosit.
Accanto alla funzione di ripartizione alcuni Autori definiscono quella di
contro ripartizione ottenuta ordinando le modalit o classi di modalit in senso
decrescente. Se indichiamo la funzione di contro ripartizione con F
-

i
facile veri-
ficare che sempre

F
-

i
= 1 - F
i
i=1,2,...,k.

Capitolo 2

INDICI STATISTICI DESCRITTIVI

2.1 Introduzione

Nel capitolo precedente abbiamo presentato alcune delle rappresenta-
zioni tipiche delle distribuzioni di frequenza, in questo verranno illustrati alcuni
degli indici pi utilizzati per la sintesi di una distribuzione. Sintetizzare un dato
fenomeno, in particolare una distribuzione di frequenza, in uno o pochi valori
utile per cogliere alcuni degli aspetti globali del fenomeno in studio e per po-
ter effettuare immediati confronti fra fenomeni diversi o lo stesso fenomeno
rilevato in posti o tempi diversi. Naturalmente, ogni qual volta si effettua una
sintesi di un dato fenomeno si perdono informazioni: possono assumere lo
stesso valore di sintesi distribuzioni molto diverse fra di loro. In tal senso, gli
indici che tratteremo non avranno la pretesa di rappresentare esattamente una
distribuzione, ma solo alcuni limitati aspetti di questa. Il problema, quindi, di
capire se tale perdita di informazioni irrilevante rispetto agli obiettivi che il
ricercatore si pone.
Di indici statistici descrittivi di una distribuzione di frequenza ne esiste
una casistica molto vasta, qui presenteremo quelli che sono di pi largo uso e di
facile interpretazione mettendone in evidenza le eventuali propriet che li carat-
terizzano. Osserviamo, infine, che la quasi totalit degli indici che tratteremo
sono utilizzabili solo per fenomeni il cui carattere una quantit cio misura-
bile. Inoltre, per comodit di esposizione distingueremo fra tre classi di indici
statistici descrittivi in funzione dell'aspetto della rilevazione che si vuole evi-
denziare:

(a) indici di posizione o locazione:
Servono per individuare il valore o la modalit del carattere pi rappresentativo
della distribuzione di frequenza;
(b) indici di variabilit:
Servono sia a valutare fino a che punto un dato indice di locazione rap-
Capitolo 2 26
presentativo della distribuzione, sia a misurare la variabilit, loscillazione del
fenomeno in studio;
(c) indici di forma:
Servono per fornire alcune informazioni su aspetti della forma grafica della
distribuzione di frequenza.

2.2 Alcuni indici di posizione o locazione

Abbiamo gi sottolineato che questi indici servono a localizzare una data
distribuzione di frequenza, cio ad individuare quel valore o modalit del carat-
tere che meglio rappresenta l'intera distribuzione ed in questo senso la sintetizza.
Di indici che soddisfano una tale esigenza ne esistono molti, quello pi
noto ed utilizzato la media aritmetica.

LA MEDIA ARITMETICA

Questo indice, detto pi semplicemente media, quello pi utilizzato nel-
le pratiche applicazioni sia per la sua semplicit di calcolo, sia per la sua imme-
diata interpretazione. La media aritmetica pu essere calcolata solo se il caratte-
re del fenomeno una variabile cio per fenomeni quantitativi. Vedremo che se
le modalit del carattere sono distinte allora questo indice viene calcolato in
modo esatto, se il carattere pur essendo una quantit riportato per classi di
modalit allora il calcolo dell'indice pu essere effettuato solo in via approssi-
mata.
La media aritmetica viene di solito indicata con uno dei seguenti simboli:

A : iniziale della parola Aritmetica
M : iniziale della parola Media
: equivalente della lettera m nella lingua greca
E(X) : iniziale della parola Expectation, mentre X indica la particolare di-
stribuzione che si analizza
x : indica la media aritmetica calcolata sul campione.

Nel seguito, per indicare la media aritmetica, useremo indifferentemente i sim-
boli ed E(X) per indicare la media calcolata su popolazioni e x per indicare
la media calcolata sul campione.
Data la generica distribuzione di frequenza X le cui modalit quantitative
sono tutte distinte:
Indici statistici descrittivi 27

xi ni
x1 n1
x2 n2

xk nk
N

la media aritmetica di X data da:
=
x
1
n
1
+x
2
n
2
+...+x
k
n
k
N
=

i=1
k
x
i
n
i

N
=
i=1
k
x
i
n
i
N

=
i=1
k
x
i
f
i

Nellespressione della media le quantit f
i
=
n
i
N
engono denominate pesi dato
che rappresentano, per l'appunto, il peso che ciascuna modalit x
i
ha sul calco-
lo di ; per questo motivo viene anche detta media aritmetica ponderata. Nel ca-
so particolare in cui tutte le N modalit x
i
sono distinte, per cui risulta n
1
= n
2
= ... = n
N
=1, l'espressione della media aritmetica si riduce alla seguente:

=
x
1
+x
2
+...+x
N
N
=
1
N

i=1
N
x
i

che viene anche chiamata media aritmetica semplice. Naturalmente, anche quando
le modalit non sono tutte distinte queste possono essere sempre enumerate
distintamente ed utilizzare questa formula per il calcolo della media. Mostriamo
ora con un esempio come si calcola concretamente la media aritmetica.

Esempio 1
Supponiamo di aver osservato una popolazione di 20 soggetti di cui si rilevato il
reddito lordo mensile espresso in milioni di lire e di aver ottenuto la seguente distribuzione di
frequenze:

Capitolo 2 28
xi ni
2 2
5 4
7 6
8 4
10 4
20

Per calcolare la media aritmetica basta aggiungere alla tabella della distribuzione di frequen-
ze una nuova colonna: quella dei prodotti, x
i
n
i
, fra ciascuna modalit e la rispettiva frequen-
za

xi ni x
i
n
i

2 2 4
5 4 20
7 6 42
8 4 32
10 4 40
20 138

che permette di ottenere immediatamente il calcolo della media

=
1
N

i=1
k
x
i
n
i
=
138
20
= 6.9

Le 20 osservazioni della distribuzione di frequenza, sopra riportate, possono essere indicate
distintamente ottenendo:

2 5 7 8 10
2 5 7 8 10
5 7 8 10
5 7 8 10
7
7

cio 20 valori x
i
alcuni dei quali si ripetono secondo la rispettiva frequenza. Naturalmente,
in questo caso il calcolo della media dato semplicemente dal rapporto fra la somma delle
modalit diviso il numero delle modalit:

=
x
1
+x
2
+...+x
N
N
=
1
N

i=1
N
x
i
=

=
2+2+5+5+5+5+7+7+7+7+7+7+8+8+8+8+10+10+10+10
20
=
=
1
20
138 = 6.9

La media aritmetica gode di alcune importanti propriet che la rendono,
in molti casi, particolarmente utile per effettuare sintesi di distribuzioni di fre-
quenze.

Propriet della media aritmetica:

1) La media aritmetica rappresenta, da un punto di vista fisico, il baricentro
delle distribuzioni di frequenze cio quel valore che lascia invariata l'in-
tensit totale
i=1
k
x
i
n
i
della distribuzione. Analiticamente questo vuole di-
re che sempre:

i=1
k
x
i
n
i
=
i=1
k
n
i

Infatti, dalla formula della media aritmetica e ricordando che N =
i=1
k
n
i

si ricava
i=1
k
x
i
n
i
= N =
i=1
k
n
i
=
i=1
k
n
i

che dimostra quanto affermato.

2) La media aritmetica sempre compresa fra la pi piccola e la pi grande
delle modalit del carattere. In altre parole, se x
1
x
2
... x
k
risulta
sempre:

Capitolo 2 30
x
1
x
k
x
1

1
N

i=1
k
x
i
n
i
x
k
.

Dimostriamo che sempre
1
N

i=1
k
x
i
n
i
x
1

che equivale a dimostrare

i=1
k
x
i
n
i
- x
1
N 0

Quest'ultima espressione si pu scrivere:

i=1
k
x
i
n
i
- x
1
N =
i=1
k
x
i
n
i
- x
1

i=1
k
n
i
=

i=1
k
x
i
n
i
-
i=1
k
x
1
n
i
=
i=1
k
(x
i
- x
1
) n
i
0

Dove l'ultima disuguaglianza deriva dal fatto che si posto x
1
x
2
...
x
k
. Una dimostrazione del tutto simile si ha per x
k
.

3) La somma degli scarti dalla media (ove per scarto dalla media s'intendo-
no le differenze x
i
- ) per le rispettive frequenze sempre nulla. In sim-
boli:

i=1
k
(x
i
- ) n
i
= 0
Infatti:

i=1
k
(x
i
- ) n
i
=
i=1
k
(x
i
n
i
- n
i
) =
i=1
k
x
i
n
i
-
i=1
k
n
i
=


i=1
k
x
i
n
i
-
i=1
k
n
i
=
i=1
k
x
i
n
i
- N =
=
i=1
k
x
i
n
i
-
1
N

i=1
k
x
i
n
i
N =
i=1
k
x
i
n
i
-
i=1
k
x
i
n
i
= 0

Tutto questo vuol dire che la somma degli scarti negativi e positivi dalla
media aritmetica si compensano e ci una ulteriore giustificazione del
fatto che la media aritmetica rappresenta il baricentro della distribuzione
di frequenze.

4) La media aritmetica l'unico valore che rende minima la somma dei qua-
drati degli scarti ponderati con le rispettive frequenze. In formule questa
affermazione diviene:

i=1
k
(x
i
- )
2
n
i

i=1
k
(x
i
- a)
2
n
i

qualsiasi sia la costante a.
Osserviamo che se poniamo
f(a) =
i=1
k
(x
i
- a)
2
n
i
per a = risulta
f() =
i=1
k
(x
i
- )
2
n
i

e la disuguaglianza che bisogna provare diviene f() f(a) per ogni a rea-
le. Da un punto di vista geometrico la f(a), vista come funzione di a, l'e-
quazione di una parabola con il vertice rivolto verso il basso ed il cui mi-
nimo, bisogna dimostrare, si raggiunge per a=.

Capitolo 2 32

Per provare quanto affermato basta mostrare che

i=1
k
(x
i
- )
2
n
i

i=1
k
(x
i
- a)
2
n
i

che equivalente a

i=1
k
(x
i
- a)
2
n
i
-
i=1
k
(x
i
- )
2
n
i
0.

Dato che risulta:

i=1
k
(x
i
- a)
2
n
i
-
i=1
k
(x
i
- )
2
n
i
=
i=1
k
[(x
i
- a)
2

- (x
i
- )
2
]n
i
=

=
i=1
k
[x
2
i
+ a
2
- 2ax
i
- x
2
i
-
2
+ 2x
i
] n
i
=
i=1
k
[ a
2
- 2ax
i
-
2
+ 2x
i
] n
i
=

= a
2
i=1
k

n
i
-
2
i=1
k

n
i
- 2a
i=1
k
x
i
n
i
+ 2
i=1
k
x
i
n
i
=

= a
2
N -
2
N - 2aN + 2
2
N = a
2
N +
2
N - 2aN = N(a - )
2
0

Ove si tenuto conto del fatto che dalla definizione di media :

i=1
k
x
i
n
i
= N.

In questo modo abbiamo dimostrato l'affermazione fatta. Una dimo-
strazione alternativa si pu ottenere utilizzando l'operatore derivata e ri-
cordando che una funzione f(a) raggiunge il minimo in un dato punto se
la sua derivata prima nulla in quel punto e la derivata seconda positi-
va:

f '(a) = 0 , f "(a) > 0 in a = .

Ricordando l'espressione di f(a) risulta immediatamente:

f '(a) = - 2
i=1
k
(x
i
- a) n
i
= 0

da cui si ricava

- 2
i=1
k
(x
i
- a) n
i
= 0
i=1
k
(x
i
- a) n
i
= 0
i=1
k
x
i
n
i
- aN = 0 a =

Inoltre, la derivata seconda, qualsiasi sia a, data da:

f "(a) = -2 (-1)
i=1
k
n
i
= 2N >0

e quindi effettivamente in a= la funzione f(a) raggiunge il suo minimo
assoluto.

5) La media della trasformazione lineare di una distribuzione di frequenza
uguale alla trasformazione lineare della media. Da un punto di vista anali-
tico questa affermazione vuole dire che data la distribuzione di frequenza
X con media aritmetica
x
se consideriamo la nuova distribuzione di
frequenza Y = a +bX ottenuta da X tramite una trasformazione lineare,
allora la media della nuova distribuzione di frequenza Y data da

y
= a + b
x

Notiamo che passare dalla distribuzione X alla Y significa sottoporre il
Capitolo 2 34
fenomeno X ad un cambiamento di unit di misura. Dato che la retta
una funzione monotona (sempre crescente o sempre decrescente)
sempre possibile ritornare dalla Y alla X, in altri termini tutte le informa-
zioni contenute nella X sono contenute nella Y e viceversa.

Distribuzione X Distribuzione Y
xi ni y
i
=a+bx
i
ni
x1 n1 y
1
=a+bx
1
n1
x2 n2 y
2
= a+bx
2
n2

xk nk y
k
=a+bx
k
nk
N N

Dimostriamo che la media di una trasformazione lineare uguale alla trasforma-
zione lineare delle medie. Ricordando che per definizione

x
=
1
N
i=1
k
x
i
n
i
N
x
=
i=1
k
x
i
n
i

avremo
y
=
1
N
i=1
k
y
i
n
i
=
1
N

i=1
k
(a+bx
i
) n
i
=

= a
1
N
i=1
k
n
i
+ b
1
N
i=1
k
x
i
n
i
= a + b
x

che dimostra quanto affermato.

Nelle pagine precedenti ho introdotto il concetto di media aritmetica ed
illustrato le propriet di cui gode questo indice di posizione e precisamente:

1) media aritmetica = baricentro della distribuzione di frequenza
2) min(x
i
) max(x
i
)
3)
i=1
k
(x
i
- ) n
i
= 0
4)
i=1
k
(x
i
- )
2
n
i

i=1
k
(x
i
- a)
2
n
i
per ogni a reale
5) se Y= a + bX allora
y
= a + b
x

Queste propriet insieme alla facilit di calcolo di questo indice lo ren-
dono uno dei pi noti ed usati. La media aritmetica ha per un difetto: for-
temente influenzata dall'esistenza di valori anomali (eccezionali o outliers) cio
modalit eccezionalmente grandi o eccezionalmente piccole rispetto alle restan-
ti modalit della distribuzione di frequenza. L'origine di questi valori ecceziona-
li pu essere la pi diversa: errori di trascrizione o di rilevazione, modalit ap-
partenenti a popolazioni diverse da quella che si vuole analizzare, ecc.

Esempio 2
Supponiamo di aver rilevato i redditi lordi mensili, espressi in milioni di lire, di 15
soggetti ottenendo i risultati riportati nella seguente distribuzione di frequenza:

xi ni
1 2
2 3
4 5
5 4
100 1
15

se calcoliamo la media aritmetica di questa distribuzione abbiamo

=
2+6+20+20+100
15
=
148
15
9.8

Otteniamo cos un valore medio che non rappresentativo n dei primi 14 individui che han-
no un reddito compreso fra un milione e cinque milioni, n del quindicesimo individuo che ha
un reddito di 100 milioni mensili. Questo effetto dovuto alla presenza di quest'ultimo sog-
getto che chiaramente eccezionale rispetto agli altri 14 presi in considerazione. Se dalla di-
stribuzione eliminiamo questo individuo ottenendo la nuova

xi ni
1 2
2 3
4 5
5 4
14

e calcoliamo la relativa media risulta
Capitolo 2 36

=
2+6+20+20
14
=
48
14
3.4

Come si nota dall'esempio sopra riportato, una volta individuati ed eli-
minati i relativi valori eccezionali la media aritmetica diviene effettivamente
rappresentativa della distribuzione di frequenza. In conclusione si pu afferma-
re che la media aritmetica ha un grave difetto: non un indice robusto.

Un indice si dice robusto se poco influenzato dall'esistenza di valori ec-
cezionalmente grandi o eccezionalmente piccoli nella rilevazione statistica presa
in considerazione.

Vediamo ora come si pu calcolare la media aritmetica se la distribuzio-
ne riportata per classi di modalit. Dato che non possibile, in tal caso, sape-
re a quali valori di ciascuna classe imputare le frequenze, il calcolo della media
pu essere ottenuto solo in via approssimata sostituendo a ciascuna classe un
valore che in qualche modo la rappresenti. Questa operazione implica necessa-
riamente unapprossimazione che tanto maggiore quanto pi le classi sono
ampie. Un modo molto semplice di ottenere valori rappresentativi delle classi
quello di sostituirle con i rispettivi:

valori centrali di ciascuna classe. Quello della generica classe x
i
| x
i+1
dato
da:

c
i
=
x
i
+ x
i+1
2
; i=1,...,k

In tal modo, la media aritmetica data approssimativamente da:

1
N

i=1
k
c
i
n
i.

Si noti che la media calcolata rispetto alle modalit fittizie c
i
ha tutte le
propriet ed i limiti che abbiamo illustrato.
Nel caso in cui la prima, l'ultima o entrambe le classi sono aperte, per
poter calcolare la media necessario chiudere queste classi. Nel caso in cui la
prima classe ad essere aperta questa, di solito, pu essere chiusa facilmente da-
to che per molti fenomeni esiste un limite naturale dato dallo zero come avvie-
ne per le et, i redditi, i consumi, gli investimenti ecc. Per fenomeni come peso
e altezza e nel caso in cui sia la classe superiore ad essere aperta un limite natu-
rale spesso non esiste e la scelta va fatta soggettivamente caso per caso. Una valida
e pi coerente alternativa alla procedura qui delineata consiste nel calcolo di
una media troncata.

LA MEDIA TRONCATA

La media troncata si ottiene eliminando le prime e le ultime classi della di-
stribuzione di frequenza, sotto il vincolo che le frequenze cancellate nelle prime
classi siano uguali a quelle cancellate nelle ultime, e calcolando la media aritme-
tica sulla distribuzione cos ridotta.

Cos, data la seguente distribuzione di frequenza la cui ultima classe aperta

x
i
| x
i+1
n
i
f
i

x
1
| x
2
n
1
f
1

x
2
| x
3
n
2
f
2

x
3
| x
4
n
3
f
3

x
k-1
| x
k
n
k-1
f
k-1

> x
k
n
k
f
k

N 1

se risulta f
1
f
k
allora possibile eliminare nel calcolo della media la prima clas-
se di modalit (x
1
| x
2
) e l'ultima (> x
k
) e calcolare la media aritmetica sulle
classi centrali evidenziate nella tabella precedente. Naturalmente, se risulta f
1
>
f
k
si elimina l'ultima classe, mentre la prima rimane ma con una frequenza pari
a f
1
- f
k
. Nel caso in cui sia f
k
> f
1
si elimina la prima e l'ultima classe ed inoltre
la frequenza della seconda classe si riduce a f
2
-(f
k
-f
1
) facendo attenzione che sia
f
2
-(f
k
-f
1
) 0; se risulta f
2
-(f
k
-f
1
) < 0 allora si eliminano le prime due classi e l'ul-
tima mentre la frequenza della terza classe si riduce a f
3
- (f
k
- f
1
- f
2
) facendo
attenzione che sia f
3
- (f
k
- f
1
- f
2
) 0, e cos via.
Si osservi che la media troncata pu essere calcolata, ovviamente, anche
Capitolo 2 38
per distribuzioni di frequenze il cui carattere quantitativo e non diviso in clas-
si. Inoltre, tale indice robusto dato che elimina per costruzione le modalit o
classi di modalit che si trovano agli estremi (piccole e grandi). Naturalmente,
come avviene per la media aritmetica, la media troncata non pu essere calcola-
ta per distribuzioni di frequenze il cui carattere una qualit anche se ordinabi-
le.

Esempio 3
Consideriamo il caso riportato nell'esempio 2 e calcoliamo la media troncata ponendo
come condizione l'eliminazione dell'ultima modalit. Visto che risulta f
k
= 1 < f
1
= 2 per
fare in modo che le frequenze eliminate siano bilanciate, la distribuzione troncata diviene

xi ni
1 1
2 3
4 5
5 4
13

e la relativa media troncata, che indichiamo con
T
risulta pari a

T
= ) ( 4 5 5 4 3 2 1 1
13
1
+ + + =
47
13
3.615

Un altro indice di posizione molto utilizzato nelle pratiche applicazioni
la mediana.

LA MEDIANA

A differenza della media aritmetica, che invariate rispetto all'ordina-
mento delle modalit o classi di modalit, per poter calcolare la mediana ne-
cessario ordinare in modo crescente le modalit o le classi di modalit del carat-
tere.

La mediana quella modalit che bipartisce la distribuzione di frequenza
il cui carattere stato ordinato in senso crescente. Cio quella modalit tale che
il 50% delle frequenze stanno al di sopra ed il 50% al di sotto.

Di solito la mediana si indica con i simboli M
e
oppure
e
. Nel seguito utilizze-
remo il primo di questi.

Esempio 4
Supponiamo che nella rilevazione del numero dei componenti di 15 famiglie si sia a-
vuto il risultato seguente:

1; 3; 5; 2; 4; 3; 2; 1; 4; 4; 3; 1; 5; 4; 2.

Per poter calcolare la mediana necessario ordinare il carattere, che in questo caso dato
dal numero dei componenti di ciascuna delle 15 famiglie, in senso non decrescente ottenendo:

1 1 1 2 2 2 3 3 3 4 4 4 4 5 5
Modalit che bipartisce la distribuzione

Come si pu notare, la modalit che bipartisce la distribuzione quella che stata
racchiusa in un cerchio dato che al di sotto ed al di sopra di tale valore cadono lo stesso nume-
ro di modalit. Questo vuol dire che in tal caso

M
e
= 3.

Le 15 osservazioni le possiamo riscrivere sotto forma di distribuzione di frequenza
ottenendo la tabella seguente ove nell'ultima colonna sono state riportate le frequenze cumulate
indicate con N
i

x
i
n
i
N
i

1 3 3
2 3 6
3 3 9
4 4 13
5 2 15
15

Osserviamo che la mediana, per definizione, quella modalit che stacca alla sua si-
nistra il 50% delle frequenze, cio
N
2
% . In questo caso si ha
N
2
=
15
2
= 7.5 e la me-
Prima frequenza cumulata
che supera 7.5
Capitolo 2 40
diana sar data dalla prima modalit x
i
la cui relativa frequenza cumulata supera 7.5. Nel
nostro esempio, come indicato dalla freccia, tale modalit pari a 3 per cui risulta

M
e
= 3.

Nel caso precedente il calcolo della mediana risultato piuttosto sempli-
ce dato che la numerosit N era dispari. Vediamo ora cosa succede se N pari.
Il tutto illustrato nell'esempio che segue.

Esempio 5
Supponiamo che le famiglie intervistate siano 14 e che i risultati ottenuti
sullampiezza del loro nucleo familiare siano i seguenti

1; 3; 5; 2; 4; 3; 2; 4; 4; 4; 1; 5; 4; 2

ordinando questi numeri si ottiene

Come si vede, le modalit centrali della distribuzione sono due: quella di posto
2
N
e quella
di posto
2
N
+1. In questo caso la modalit di posto
2
N
pari a 3 mentre quella di posto
2
N
+1 pari a 4 e la mediana, per convenzione, si pone pari alla media di queste due
modalit, cio:

M
e
=
3+4
2
= 3.5

In definitiva, data la generica distribuzione di frequenza

modalit centrali
della distribuzione
1 1 2 2 2 3 3 4 4 4 4 4 5 5
3 4
2
N
1
2
+
N


x
i
n
i
N
i

x
1
n
1
N
1
= n
1

x
2
n
2
N
2
=n
1
+n
2

x
3
n
2
N
3
=n
1
+n
2
+n
3

... ... ............
x
k
n
k
N
k
=N
N

si distinguono due casi:

1) N dispari:
in tale caso la mediana la prima modalit la cui frequenza cumulata su-
pera
N
2
; in altri termini la mediana quella modalit che, dopo averle ordi-
nate in senso non decrescente, occupa il posto
2
1 + N
-esimo. Osserviamo che
essendo N dispari, N+1 sempre divisibile per due;

2) N pari:
in tal caso per calcolare la mediana bisogna individuare la modalit che
occupa il posto
2
N
-esimo, la modalit successiva che occupa il posto
(
2
N
+1)-esimo ed ottenere la mediana come semi somma di questi due
valori:

M
e
=
x
i
+ x
i+1
2

In molti casi pu accadere che sia x
i
= x
i+1
e naturalmente risulta M
e
= x
i
.

Esempio 6
Supponiamo di avere osservato un qualche fenomeno che ha dato luogo alla seguente
distribuzione di frequenza ove nelle ultime due colonne sono state riportate, rispettivamente, le
frequenze cumulate e le frequenze relative cumulate

Capitolo 2 42

x
i
n
i
N
i
F
i

2 2 2 0.1
3 4 6 0.3
5 4 10 0.5
7 6 16 0.8
10 4 20 1.0
20

In questo caso, essendo

N
2
=
20
2
= 10,

le due modalit di riferimento sono x
i
= 5 individuato in corrispondenza di N
i
= 10 ed il
successivo x
i+1
= 7. Avremo cos

M
e
=
5+7
2
= 6.

Questo uno dei pochi casi in cui la mediana non coincide con una delle modalit del fenome-
no analizzato.
Se la distribuzione fosse stata la seguente

x
i
n
i
N
i
F
i

2 2 2 0.1
3 4 6 0.3
5 6 12 0.6
7 6 18 0.9
10 2 20 1.0
20

allora avremmo avuto x
i
= x
i+1
= 5 dato che la prima modalit che uguale o supera N/2
data proprio dal valore 5. Avremmo cos M
e
= 5.

Ovviamente, invece che le frequenze cumulate, possono essere prese
come mezzo per individuare la mediana le frequenze relative cumulate in tal
caso il termine di riferimento non pi N/2 ma 0.5. Osserviamo ancora che la
mediana un particolare caso di media troncata: si ottiene quando nel calcolo
della media troncata si eliminano il 50% dei valori piccoli ed il 50% dei valori
grandi.
La mediana, al contrario della media aritmetica, un indice robusto nel
senso che risente molto poco dell'esistenza di valori eccezionalmente grandi o
piccoli nella distribuzione. Tutto questo illustrato nell'esempio che segue.

Esempio 7
Riprendiamo la distribuzione dell'esempio 2

xi ni N
i

1 2 2
2 3 5
4 5 10
5 4 14
100 1 15
15

ed essendo N/2 = 15/2 = 7.5 segue immediatamente che M
e
= 4. Se dalla distribuzione
eliminiamo la modalit anomala x
5
= 100 otteniamo

xi ni N
i

1 2 2
2 3 5
4 5 10
5 4 14
15

e risulta ancora M
e
= 4 che dimostra la robustezza di questo indice. E' interessante osserva-
re che la media aritmetica di questa seconda distribuzione = 3.83 che vicino alla me-
diana ed alla media troncata calcolata nell'esempio 3.

Mostriamo ora come si calcola, anche se in via approssimata, la mediana
quando il carattere per classi di modalit. In tal caso necessario individuare in
primo luogo la classe mediana, cio quella classe che contiene il 50% delle fre-
quenze relative cumulate. Questa classe si individua facilmente. Infatti, basta
considerare la prima classe per cui la rispettiva frequenza relativa cumulata su-
pera o uguaglia 0.5. Se supponiamo che la prima classe per cui F
i
0.5 la (x
i
;
x
i+1
] evidente che la mediana cadr in questa classe

Capitolo 2 44

Questo vuole dire che la mediana uguale ad x
i
pi qualcosa. Se si formula l'ipo-
tesi semplificatrice che le frequenze della classe (x
i
; x
i+1
] si distribuiscono uni-
formemente in essa, possibile impostare la seguente proporzione

(M
e
- x
i
) : (x
i+1
- x
i
) = (0.5 - F
i-1
): (F
i
- F
i-1
)

ed ottenere un valore approssimato per la mediana

M
e
x
i
+(x
i+1
- x
i
)
0.5 - F
i-1
F
i
- F
i-1

Quanto detto pu essere illustrato graficamente nella figura che segue

Si osservi che nel caso particolare in cui F
i
= 0.5 allora risulta M
e
= x
i+1
co-
me si pu anche derivare dalla formula sopra presentata per il calcolo della me-
diana. Il calcolo della mediana pu anche essere fatto utilizzando al posto delle
frequenze relative cumulate F
i
le frequenze assolute cumulate N
i
utilizzando la
corrispondente formula

M
e
= x
i
+ (x
i+1
- x
i
)
1
2
N - N
i-1
N
i
- N
i-1

Si osservi che questa formula ottenuta dalla precedente moltiplicando il nu-
meratore ed il denominatore della frazione per N, notare che N
i
la prima fre-
quenza cumulata che supera
2
N
. Illustriamo quanto abbiamo detto con un e-
sempio.

Esempio 8
Consideriamo la seguente distribuzione di frequenza il cui carattere per classi di
modalit ed in cui abbiamo riportato le frequenze relative f
i
e le corrispondenti frequenze rela-
tive cumulate F
i
e le frequenze assolute cumulate N
i
:

x
i
| x
i+1
n
i
f
i
F
i
N
i

0 | 1 3 0.20 0.20 3
1 | 5 5 0.33 0.53 8
5 | 7 4 0.27 0.80 12
7 | 15 3 0.20 1.00 15
15 1

La prima frequenza relativa cumulata che supera 0.5 F
2
= 0.53 in corrispondenza della
quale vi la classe mediana 1 | 5 al cui interno si trover la mediana che, utilizzando la
formula sopra riportata e ricordando che in questo caso

x
i
= 1, x
i+1
= 5, F
i
= 0.53, F
i-1
= 0.2,

sar data approssimativamente da:

M
e
1 + (5 - 1)
0.5 - 0.2
0.53 - 0.2
= 4.6.

Utilizzando la seconda formula, tenuto conto che in questo caso risulta

N
2
= 7.5, N
i
= 8, N
i-1
= 3,

avremo ovviamente lo stesso risultato:

M
e
1 + (5 - 1)
7.5 - 3
8 - 3
= 4.6

Capitolo 2 46

Esempio 9
Supponiamo di avere rilevato un fenomeno X ottenendo la seguente distribuzione di
frequenza

x
i
n
i
f
i
F
i
N
i

2 2 0.1 0.1 2
3 4 0.2 0.3 6
5 4 0.2 0.5 10
7 6 0.3 0.8 16
10 4 0.2 1.0 20
20 1.0

Dato che N = 20 pari si ha immediatamente che la mediana compresa fra la 10 e la
11 posizione e quindi fra le modalit 5 e 7, per convenzione si pone

M
e
=
5 + 7
2
= 6.

La funzione di ripartizione di questa distribuzione di frequenza riportata nella figura se-
guente da cui emerge ancora che la mediana un valore indeterminato fra 5 e 7 che per con-
venzione pu essere posto pari alla media di queste due modalit.


Supponiamo ora di avere ottenuto la seguente distribuzione di frequenza

x
i
n
i
f
i
F
i
N
i

1 2 0.15 0.15 2
2 3 0.21 0.36 5
3 3 0.21 0.57 8
4 4 0.28 0.85 12
5 2 0.15 1.00 14
14 1.0

Anche in questo caso N=14 pari per cui la mediana compresa fra la 7 e la 8
posizione a cui corrisponde la stessa modalit 3, pertanto avremo

M
e
=
3 + 3
2
= 3.

Tutto questo si evince immediatamente dalla relativa funzione di ripartizione riporta-
ta qui di seguito.

Abbiamo visto che una propriet della mediana di essere robusta ri-
Capitolo 2 48
spetto alla presenza di valori eccezionali, un'altra propriet, che non dimostre-
remo, che la somma degli scarti in valore assoluto dalla mediana, ponderati
con le relative frequenze, un minimo rispetto a qualsiasi altro valore reale, in
simboli:

i=1
k
|x
i
- M
e
|n
i

i=1
k
|x
i
- a|n
i

per qualunque a reale.
Con la stessa logica con cui stata calcolata la mediana possibile calco-
lare altri indici che prendono il nome di quartili.

I QUARTILI

Il primo quartile, di solito indicato con Q
1
, quel valore al di sotto del
quale cade il 25% delle frequenze ed al di sopra il 75%;
il terzo quartile, di solito indicato con Q
3
, quel valore al di sotto del qua-
le cade il 75% delle frequenze ed al di sopra il 25%.

Per quanto detto la mediana, che sar sempre compresa fra Q
1
e Q
3
,
prende anche il nome di secondo quartile e viene anche indicata per similitudine
con Q
2
. I tre indici Q
1
, Q
2
, Q
3
, per come sono costruiti, dividono una distribu-
zione di frequenza in quattro parti uguali da cui il nome di quartili.
Un modo operativo per calcolare i quartili si basa sul fatto che la media-
na, M
e
= Q
2
, divide una distribuzione di frequenza in due sotto distribuzioni in
ciascuna delle quali ricade, per costruzione, lo stesso numero di unit di rileva-
zioni. Ebbene, Q
1
non altro che la mediana della prima sotto distribuzione
(da x
1
incluso a M
e
escluso) e Q
3
la mediana della seconda sotto distribuzione
(da M
e
escluso a x
n
incluso). Il calcolo pratico dei quartili si effettua con la stes-
sa tecnica usata per la mediana solo che per Q
1
il termine di riferimento
N
4
e
per Q
3

3N
4
. Naturalmente, se per il calcolo dei quartili si utilizzano le fre-
quenze relative cumulate i valori di confronto sono 0.25 per Q
1
e 0.75 per Q
3

cos come 0.50 lo per la mediana.
Una distribuzione di frequenza pu essere sintetizzata con cinque numeri
notevoli:

x
1
: minima modalit della distribuzione
Q
1
: primo quartile della distribuzione
Q
2
= M
e
: mediana della distribuzione
Q
3
: terzo quartile della distribuzione

x
k
: massima modalit della distribuzione.

Questi cinque numeri possono anche essere usati per costruire un parti-
colare grafico che prende il nome di box-plot (grafico a scatola)

come illustrato nella figura seguente

Il box-plot un modo alternativo per rappresentare e contemporanea-
mente sintetizzare, visto che si basa solo su cinque numeri caratteristici, una
distribuzione di frequenza e pu essere costruito se il carattere una quantit
sia esso riportato in classi di modalit o meno. Spesso il box-plot molto utile
per confrontare distribuzioni di frequenze relative allo stesso fenomeno rileva-
to in tempi o luoghi diversi. In tale caso i diversi box-plot vengono affiancati
per poterne dare una lettura d'insieme (box-plot paralleli).

Esempio 10
Calcoliamo i quartili della distribuzione di frequenza di cui all'esempio 5 e costruia-
mo il relativo box-plot.

x
i
n
i
N
i
F
i

2 2 2 0.10
3 4 6 0.30
5 5 11 0.55
7 5 16 0.80
10 4 20 1.00
20

Capitolo 2 50
Da questa distribuzione si ricavano immediatamente i cinque valori caratteristici:

x
1
= 2 Q
1
= 3 Q
2
= 5 Q
3
= 7 x
k
= 10

che permettono di ottenere il relativo box-plot riportato nella figura seguente.

Vediamo ora come possono essere utilizzati i quartili per individuare l'e-
sistenza di eventuali valori eccezionali presenti in una distribuzione di frequen-
za. A tale proposito definiamo i seguenti due valori cardine:

h
1
= Q
1
- 1.5(Q
3
- Q
1
); H
2
= Q
3
+ 1.5(Q
3
- Q
1
).

Tutte le modalit, se esistono, pi piccole di h
1
sono valori eccezionalmente
piccoli;
tutte le modalit, se esistono, pi grandi di H
2
sono valori eccezionalmente
grandi.

I cardini sono parte integrante del box-plot e vanno sempre calcolati ed
indicati se h
1
pi grande di x
1
ed H
2
pi piccolo di x
k
. Nella stessa figura
vanno indicati sempre gli eventuali valori eccezionali. L'esempio che segue mo-
stra come va costruito un box-plot.

Esempio 11
Supponiamo di avere la seguente distribuzione di frequenza

e quindi
2 3 5 7 18
2 4 6 6 2
x
i

n
i

x
1
= 2 Q
1
= 3 Q
2
= 5 Q
3
= 7 x
k
= 18

h
1
= 3-1.5(7-3) = -3 H
2
= 7+1.5(7-3) = 13

Come si poteva intuire, nella distribuzione data non vi sono valori eccezionalmente
piccoli, ma ve ne sono due eccezionalmente grandi con modalit pari a 18. Questo messo
chiaramente in luce nel relativo box-plot ove sono indicati i due valori eccezionali con due a-
sterischi. Notare che in questo caso si riportato solo il cardine superiore H
2
.

*

Un indice che pu essere calcolato per qualsiasi distribuzione di fre-
quenza indipendentemente dalle caratteristiche del carattere rilevato, cio sia
esso una variabile o una mutabile ordinabile o sconnessa, la moda.

LA MODA

Di solito tale indice viene indicato con il simbolo M
o
e pu essere defini-
to come segue:

la moda quella modalit del carattere a cui corrisponde la massima frequenza
della distribuzione:

M
o
= {x
i
: n
i
= max)

Naturalmente, dato che la moda un indice molto generale, le informa-
zioni che fornisce su una distribuzione di frequenza sono poche.

Esempio 12
Supponiamo che la rilevazione di un particolare carattere in una popolazione abbia
dato luogo alla seguente distribuzione di frequenza

Capitolo 2 52
x
i
n
i
x
i
n
i
N
i
F
i

7 3 21 3 0.143
8 5 40 8 0.380
15 4 60 12 0.570
18 7 126 19 0.905
21 2 42 21 1.000
21 289

La moda, la mediana e la media di questa distribuzione sono date rispettivamente da:

M
o
= 18; M
e
= 15; = 13.7619.

Come si pu notare, in questo caso, i tre indici sono abbastanza differenti fra di loro,
come d'altra parte era da attendersi dato che ciascuno di loro mette in rilievo particolari aspet-
ti della distribuzione in studio.

Se il carattere per classi di modalit bisogna porre l'attenzione non sul-
le frequenze n
i
ma sulle intensit di ciascuna classe h
i
(le altezze dei rettangoli
nell'istogramma della distribuzione) individuando cos la relativa classe modale
all'interno della quale cade la moda, questa verr ottenuta solo in via approssi-
mata.

La classe modale di una distribuzione, il cui carattere per classi di modali-
t, data da:
classe modale = { x
i
| x
i+1
: h
i
= max}.

dove h
i
l'intensit della classe e, come abbiamo visto, data da

h
i
=
n
i
b
i
=
n
i
x
i+1
- x
i

Se la classe modale individuata x
i
| x
i+1
risulter x
i
M
o
x
i+1
. Un
metodo utilizzato per ottenere, anche se in via approssimata, un valore per la
moda di considerare il valore centrale della classe modale:

M
o

x
i
+ x
i+1
2

Questa approssimazione si basa sull'ipotesi che le frequenze si distribuiscano
uniformemente nella classe modale ed il suo valore centrale le rappresenta, in
media, molto bene.

Esempio 13
Supponiamo di avere rilevato un fenomeno il cui carattere, quantitativo, sia riportato
per classi di modalit ottenendo la seguente distribuzione di frequenza

x
i
| x
i+1
n
i
h
i

1 | 3 2 1.000
3 | 7 5 1.250
7 | 15 7 0.875
15 | 20 8 1.600
22

da cui si ha immediatamente che, essendo l'intensit massima del carattere pari a h
4
= 1.6,
la classe modale data da 15 | 20 e la moda sar approssimativamente pari a

M
o

15 + 20
2
= 17.5.

Supponiamo ora che la distribuzione sia data da

x
i
| x
i+1
n
i
h
i

1 | 3 2 1.000
3 | 7 5 1.250
7 | 15 7 0.875
15 | 22 8 1.143
22

Come si pu notare, questa nuova distribuzione molto simile alla precedente l'unica
differenza fra le due l'estremo superiore dell'ultima classe che nella prima era pari a 20 e
nella seconda 22. Questa lieve differenza implica per che la classe modale della seconda
distribuzione data da 3 | 7 per cui sar 3 < M
o
< 7 e la relativa moda sar data,
approssimativamente, da

M
o

3 + 7
2
= 5.

che un valore molto diverso dal precedente. Questo esempio ci mostra come la moda sia un
Capitolo 2 54
indice poco robusto e sensibile al modo in cui le classi di modalit vengono costruite.

Un ultimo indice di locazione che tratteremo in questo corso, ma di in-
dici di locazione ne esiste una larga schiera spesso dimenticati ed inutilizzati,
la media geometrica.

LA MEDIA GEOMETRICA

E' un indice che viene utilizzato, essenzialmente, quando il carattere del-
la distribuzione un tasso (tasso di interesse, di produzione, di sviluppo ecc.) e
viene indicato con
G
. Questo indice ha senso utilizzarlo solo se il fenomeno,
oltre ad essere una quantit, strettamente positivo per le ragioni che vedremo
pi innanzi. Data la generica distribuzione di frequenza X le cui modalit quan-
titative sono tutte distinte e strettamente positive:

xi ni
x1 n1
x2 n2

xk nk
N

la media geometrica della distribuzione di frequenza sopra riportata definita
nel modo seguente:

G
=
N
x
n
1
1
x
n
2
2
... x
n
k
k

La media geometrica pu essere anche scritta in termini di frequenze
relative, infatti

G
=
N
n
k
n n
k
x x x ...
2 1
2 1
= ( )
N
n
k
n n
k
x x x
/ 1
2 1
...
2 1
= x
1
1
f
x
2
2
f
... x
k
f
k
=

=
i=1
k
x
f
i
i

La media geometrica ha una serie di caratteristiche alcune delle quali so-
no qui di seguito illustrate:

1) se una delle modalit fosse pari a zero, la media geometrica sarebbe
sempre pari a zero indipendentemente dal valore assunto dalle altre mo-
dalit. Inoltre, se una delle modalit fosse negativa ed N dispari la radice
non esisterebbe nel campo dei numeri reali. Per questi motivi la media
geometrica viene utilizzata per caratteri misurabili positivi. Osserviamo
ancora che questa media, come gi visto per la media aritmetica e la mo-
da, indipendente dall'ordinamento delle modalit del carattere.

2) Mentre la media aritmetica pu essere definita come quel valore che so-
stituito a ciascuna modalit x
i
ne lascia immutata la somma, cio:

i=1
k
x
i
n
i
=
i=1
k
n
i
= N

la media geometrica quel valore che sostituito a ciascuna modalit x
i
ne
lascia immutato il prodotto, cio:

i=1
k
x
n
i
i
=
i=1
k

n
i
G
=
N
G

3) Si pu dimostrare che sempre
x
1

G
x
k
4) Si pu dimostrare che (caso particolare della disuguaglianza di Jensen)
G

con l'uguaglianza se e solo se risulta x
1
= x
2
= ... = x
k
= .
5) La media geometrica, cos come abbiamo visto per la media aritmetica,
non un indice robusto e quindi fortemente influenzata dalla presenza
di valori eccezionali.
6) Fra la media aritmetica e quella geometrica esiste un altro rilevante lega-
me:

il logaritmo della media geometrica uguale alla media aritmetica dei logaritmi:
log(
G
) =
i=1
k
f
i
log(x
i
)

Infatti, risulta immediatamente
Capitolo 2 56

log (
G
) = log
]
]
]
,
i
f
i
k
i
x
1
=
i=1
k
log ( )
i
f
i
x =
i=1
k
f
i
log(x
i
)

Come si pu notare, l'ultima espressione proprio la media aritmetica,
non degli x
i
, ma del loro logaritmo.

Quest'ultima propriet suggerisce di calcolare la media geometrica come l'espo-
nenziale della media aritmetica dei logaritmi:

G
=
)
i
x log(
i
f
k
i
e
1

Esempio 14
Supponiamo che nella rilevazione di un carattere di una popolazione di 14 unit sia
stata ottenuta la seguente distribuzione di frequenze:

x
i
n
i
N
i
x
i
n
i
log(x
i
) n
i
log(x
i
)
2 2 2 4 0.6931 1.3863
3 3 5 9 1.0986 3.2958
5 4 9 20 1.6094 6.4378
6 3 12 18 1.7917 5.3753
8 2 14 16 2.0794 4.1589
14 67 20.6541

da cui si ricava immediatamente

i=1
k
f
i
lg(x
i
) =
1
N

i=1
k
n
i
lg(x
i
) =
20.6541
14
= 1.4753

e quindi

G
= exp
(
(
,
\
,
,
(
j
) x lg( f
i i
k
i 1
= exp(1.4753) = 4.3723

Per gli altri indici di locazione si ottiene:

=
67
14
= 4.7857

M
e
= 5

M
o
= 5

Si osservi che, come previsto dalla teoria, risulta
G
< .
Se la distribuzione per classi di modalit, la media geometrica pu esse-
re calcolata in via approssimata sostituendo a ciascuna classe il suo valore cen-
trale, c
i
, e quindi utilizzando la formula:

G
exp
(
(
,
\
,
,
(
j
) c log( f
i i
k
i 1

2.3 Alcuni indici di variabilit

Abbiamo visto che gli indici di posizione individuano il valore o la mo-
dalit che pu essere considerata pi rappresentativa della data distribuzione di
frequenza. Una volta calcolato un indice di posizione necessario anche elabo-
rare un qualche indice che ci dia informazione sul grado di rappresentativit del-
l'indice di locazione considerato. Questo aspetto legato alla variabilit del fe-
nomeno preso in considerazione, ove:

la variabilit di una distribuzione di frequenza X la sua attitudine ad assumere
differenti modalit.

Data la generica distribuzione di frequenza X:

xi ni
x1 n1
x2 n2

xk nk
N

essa tanto pi variabile quanto pi diverse e distanti fra di loro sono le moda-
lit che assume. Da questo punto di vista gli indici di variabilit devono essere
tutti non negativi ed aumentare all'aumentare della variabilit del fenomeno. Il
massimo della variabilit si ha quando i caratteri sono polarizzati ai due estremi,
cio una parte delle unit di rilevazione assume la modalit pi piccola possibile
Capitolo 2 58
x
1
, e le restanti unit di rilevazione assumono la massima possibile x
k
. L'assenza
di variabilit si ottiene quando tutte le modalit del carattere sono uguali fra di
loro, cio se x
1
= x
2
= ... = x
k
= . Di indici che misurano la variabilit di un
carattere ne sono stati elaborati una larga classe, qui di seguito verranno pre-
sentati quelli pi noti ed usati nelle pratiche applicazioni.

L'INTERVALLO DI VARIAZIONE

E' il pi semplice e, per molti aspetti, grossolano indice di variabilit. Di
solito viene indicato con il simbolo IV, pi precisamente questo indice pu
essere definito nel modo seguente:

l'intervallo di variazione (range) dato dalla differenza fra la pi grande e la pi
piccola modalit del carattere:

IV = x
k
- x
1

E' sempre IV 0 ed nullo se e solo se x
1
= x
k
che equivale a dire che
tutte le modalit sono uguali fra di loro. Come abbiamo gi sottolineato, un
indice molto grossolano perch nel suo calcolo tiene conto solo delle due mo-
dalit estreme disinteressandosi di ci che avviene nel corpo della distribuzio-
ne. Per questo motivo distribuzioni anche molto diverse fra di loro possono
presentare lo stesso valore di IV come illustrato nella figura seguente. Da que-
sta si evince che le due distribuzioni, pur avendo un andamento molto diverso
e quindi una variabilit nettamente differente, hanno lo stesso valore di IV.

L'indice IV un indice assoluto, funzione dell'unit di misura utilizzata
per rilevare il fenomeno, e quindi non pu essere usato per confrontare la va-
riabilit di distribuzioni misurate con differente unit di misura. Un modo per
relativizzare tale indice, cio renderlo indipendente dall'unit di misura,

IV
r
=
x
k
- x
1
|x
1
|

Un secondo e pi usato indice di variabilit la varianza.

LA VARIANZA

Pi precisamente, questo indice viene indicato con uno dei seguenti
simboli
2
, var(X), E[(X-)
2
], S
2
, s
2
. Di solito, i simboli
2
, var(X), E[(X-)
2
]
vengono usati per indicare la varianza in una popolazione, mentre S
2
, s
2
sono
usati per indicare la varianza di campioni casuali.

La varianza di una distribuzione di frequenza X data:

2
= var(X) =
1
N

i=1
k
(x
i
- )
2
n
i

Come si pu notare, la varianza di X non altro che la media dei qua-
drati degli scarti, per questo motivo si ha che
2
0 e risulta
2
= 0 se e solo
se tutte le modalit sono uguali fra di loro e quindi coincidenti con la media: x
1

= x
2
= ... = x
k
= .
La varianza, non solo misura la variabilit del fenomeno, ma indica fino
a che punto rappresentativo della distribuzione data.
Per poter calcolare la varianza necessario in primo luogo calcolare la
media e, da un punto di vista pratico, pu essere utile costruire una tabella del
tipo:

x
i
n
i
x
i
n
i
(x
i
-)
2
(x
i
-)
2
n
i

x
1
n
1
x
1
n
1
(x
1
-)
2
(x
1
-)
2
n
1

x
2
n
2
x
2
n
2
(x
2
-)
2
(x
2
-)
2
n
2

... ... ... ... ...
x
k
n
k
x
k
n
k
(x
k
-)
2
(x
k
-)
2
n
k

N
x
i
n
i

(x
i
-)
2
n
i

Capitolo 2 60

ove la terza colonna permette di calcolare la media (dividendo la somma di tale
colonna per N) e l'ultima la varianza (dividendo la somma di tale colonna per
N).
La varianza pu essere espressa sotto una diversa forma:

2
=
1
N
(x
i
-)
2
n
i
=
1
N
(x
2
i
- 2x
i
+
2
) n
i
=

=
1
N
x
2
i
n
i
- 2
1
N
x
i
n
i
+
2

1
N
n
i
=

=
1
N
x
2
i
n
i
- 2
2
+
2
=
1
N
x
2
i
n
i
-
2

Se indichiamo
1
N
x
2
i
n
i
=
2

la varianza si pu anche ottenere come

2
= var(X) =
2
-
2

L'indice
2
detto momento secondo della distribuzione di frequenza ed la
media aritmetica dei quadrati delle modalit, esso anche indicato con E(X
2
).
In definitiva

varianza = media dei quadrati - quadrato della media =

=
2
-
2
= E(X
2
) - [E(X)]
2

Notiamo che, essendo per costruzione
2
0, si avr

2

2

la quantit
2
viene anche chiamata media quadratica ed utilizzata come uno
degli indici di posizione.
Da un punto di vista pratico la varianza di una distribuzione X pu an-
che essere calcolata utilizzando la formula
2
=
2
-
2
e quindi adottando lo
schema seguente:

x
i
n
i
x
i
n
i

x
2
i
n
i

x
1
n
1
x
1
n
1

x
2
1
n
1

x
2
n
2
x
2
n
2

x
2
2
n
2

... ... ... ...
x
k
n
k
x
k
n
k

x
2
k
n
k

N
x
i
n
i

x
2
i
n
i

ove la terza colonna permette di calcolare la media (somma della colonna divi-
so N) e l'ultima il momento secondo (somma della colonna diviso N).
Generalizzando il concetto di momento secondo possibile definire i
momenti di ordine r.

I MOMENTI DI ORDINE r

Il momento di ordine r, che di solito si indica con il simbolo
r
o con E(X
r
),
la media delle potenze r-esime delle modalit:

r
= E(X
r
) =
1
N

i=1
k
x
r
i
n
i
per r=1,2,....

Si osservi che se r=1 si ottiene la media aritmetica, se r=2 si ottiene il
momento secondo utile, come visto, per il calcolo della varianza. Da questo
punto di vista la media aritmetica viene detta anche momento primo.
Naturalmente, affinch la varianza possa essere calcolata necessario
che il carattere sia misurabile e quindi dia luogo ad una variabile. Se il carattere
per classi di modalit la varianza pu essere calcolata solo in via approssimata
sostituendo a ciascuna classe di modalit il suo valore centrale c
i
ed ottenendo:

2

1
N

i=1
k
(c
i
- )
2
n
i
.

Vediamo alcune caratteristiche della varianza:

Capitolo 2 62
1) Dato che la varianza definita come media degli scarti al quadrato, un
indice che dipende dall'unit di misura al quadrato. In altri termini, se
per esempio il fenomeno misurato in quintali la sua varianza espressa
in quintali al quadrato, se il fenomeno misurato in centimetri la sua va-
rianza misurata in centimetri quadri e cos via. Per evitare questo in-
conveniente come misura della variabilit si considera lo

scarto quadratico medio definito come la radice quadrata (positiva) della va-
rianza:

=
2
=
1
N

i=1
k
(x
i
- )
2
n
i
=
2
-
2

Questo indice espresso nella stessa unit di misura del fenomeno e
viene anche chiamato deviazione standard (standard deviation).
2) La varianza, come pure lo scarto quadratico medio, sono indici poco ro-
busti cio fortemente influenzati dall'esistenza di valori eccezionali esi-
stenti nella distribuzione.
3) Data la distribuzione X con media
x
e varianza
2
x
se costruiamo la
nuova distribuzione Y = a +bX si ha che

2
y
= b
2
2
x

Infatti, ricordando che in questo caso risulta
y
= a +b
x
, avremo

2
y
=
1
N
i=1
k
(y
i
-
y
)
2
n
i
=
1
N
i=1
k
(a+bx
i
- a - b
x
)
2
n
i
=

1
N

i=1
k
(bx
i
- b
x
)
2
n
i
= b
2
1
N

i=1
k
(x
i
-
x
)
2
n
i
= b
2
2
x

che dimostra quanto abbiamo affermato.

Da una distribuzione di frequenza X con media
x
e varianza
2
x

sempre possibile derivare una nuova distribuzione, chiamiamola Z, con media
zero e varianza pari ad uno.

Questa distribuzione prende il nome di standardizzata ed definita come
Z =
X -
x
x

Facciamo vedere che effettivamente Z ha sempre media zero e varianza
uno. Notiamo che Z si pu anche scrivere come

Z = -
x
+
1
x
X

Questo vuole dire che Z una particolare trasformazione lineare della X con le
costanti a e b date rispettivamente da

a = -
x
; b =
1
x

e quindi per quanto detto in precedenza risulta:

z
= a + b
x
= -
x
+
1
x

x
= 0

2
z
= b
2
2
x
=
1
2
x

2
x
= 1

Osserviamo che la distribuzione Z, per come stata costruita, indi-
pendente dall'unit di misura utilizzata per rilevarla ed proprio per questo che
viene chiamata standardizzata. Questo vuole dire che se vogliamo confrontare
due distribuzioni con differente unit di misura si pu ricorrere alle rispettive
standardizzate. Nell'esempio che segue mostriamo come da una distribuzione
data si ottiene la sua standardizzata.

Esempio 15

Deriviamo la distribuzione standardizzata dalla seguente

Capitolo 2 64

x
i
n
i
x
i
n
i

x
2
i
n
i

0 1 0 0
2 2 4 8
3 4 12 36
5 3 15 75
10 31 119

da cui

x
= 3.1

x
= 11.9 - 9.61 = 1.5133

E quindi la standardizzata della distribuzione considerata data da:

z
i
n
i

0-3.1
1.5133
= - 2.0485 1
2-3.1
1.5133
= - 0.7269 2
3-3.1
1.5133
= - 0.0661 4
5-3.1
1.5133
= 1.2555 5
10

Osserviamo che la media e la varianza di Z risultano rispettivamente pari a
z
= -0.0002
2
z
= 0.9999
invece che zero ed uno come atteso e questo per le inevitabili approssimazioni di calcolo che
bisogna in generale fare.

Se la distribuzione data per classi di modalit e si vuole derivare la rela-
tiva standardizzata, questa pu essere ricavata solo in via approssimata calco-
lando la media e lo scarto quadratico medio sostituendo a ciascuna classe il
proprio valore centrale e quindi standardizzando gli estremi di ciascuna classe.
Cos se
x
e
x
sono media e scarto quadratico medio ottenuti in modo ap-
prossimato come sopra detto, la generica classe x
i
| x
i+1
si trasformer nella
standardizzata z
i
| z
i+1
ove si semplicemente posto:

z
i
=
x
i
-
x
x
z
i+1
=
x
i+1
-
x
x

Questa operazione verr ripetuta per ciascuna delle k classi della distribuzione.

Esempio 16
Supponiamo di avere osservato un fenomeno X su una popolazione di 12 unit e de-
rivato la distribuzione, per classi di modalit, riportata qui di seguito.

x
i
| x
i+1
n
i
c
i
c
i
n
i

c
2
i
c
2
i
n
i

0 | 1 2 0.5 1.0 0.25 0.50
1 | 3 4 2.0 8.0 4.00 16.00
3 | 7 5 5.0 25.0 25.00 125.00
7 | 10 1 8.5 8.5 72.25 72.25
12 42.5 213.75

Da cui si ottiene immediatamente:

=
42.5
12
= 3.5417
2
=
213.75
12
= 17.8125

2
=
2
-
2
= 17.8125 - (3.5417)
2
= 5.2689

= 5.2689 = 2.2954

La relativa standardizzata sar ottenuta standardizzando gli estremi di ciascuna classe:

z
i
| z
i+1
n
i

-1.542 | -1.107 2
-1.107 | -0.236 4
-0.236 | 1.507 5
1.507 | 2.814 1
12

Osserviamo che in questo caso risulta
z
0.0054 e
2
z
0.9923 invece che gli attesi
valori di zero ed uno teorici e ci per le inevitabili approssimazioni che si costretti a fare nei
calcoli.
Capitolo 2 66

Abbiamo visto che sia la varianza che lo scarto quadratico medio sono
degli indici assoluti, cio dipendenti dall'unit di misura del fenomeno, e quindi
non possono essere utilizzati per confrontare la variabilit di distribuzioni con
differente unit di misura. Per ovviare a questo inconveniente si definisce il co-
efficiente di variazione.

IL COEFFICIENTE DI VARIAZIONE

Questo un indice di variabilit relativo, viene di solito indicato con CV
e definito nel modo seguente:

il coefficiente di variazione dato dal rapporto fra lo scarto quadratico medio ed il
valore assoluto della media:
CV =

Per come stato costruito, l'indice sempre non negativo ed indipen-
dente dall'unit di misura utilizzata per rilevare il fenomeno. Non per un in-
dice robusto dato che funzione di due indici che sono sensibili all'esistenza
dei valori eccezionali nella distribuzione. Inoltre, non definito se la media del
fenomeno zero e tende ad essere infinitamente grande se la media del feno-
meno tende ad essere molto piccola.

LO SCOSTAMENTO SEMPLICE MEDIO

Un differente indice di variabilit, poco usato nelle applicazioni, indicato
di solito con il simbolo S
,

lo scostamento semplice medio definito come la media degli scarti, in valore assolu-
to, dalla media:
S
=
1
N

i=1
k
|x
i
- |n
i

Questo indice espresso nella stessa unit di misura del fenomeno con-
siderato. Non un indice robusto ed funzione, come detto, dell'unit di mi-
sura del fenomeno. L'indice pu essere relativizzato nel modo seguente:

S
r
=
S
||

LO SCOSTAMENTO SEMPLICE MEDIANO

Anche questo indice poco usato nelle pratiche applicazioni, di solito
indicato con S
M
ed definito nel modo seguente:

lo scostamento semplice mediano la media degli scarti, in valore assoluto, dalla
mediana:
S
M
=
1
N

i=1
k
|x
i
- M
e
|n
i

E' un indice non robusto ed funzione dell'unit di misura del fenome-
no. L'indice pu essere relativizzato considerando

S
rM
=
S
M
|M
e
|

Inoltre, per quanto abbiamo detto sulla mediana, risulta sempre

S
M
S

LA DIFFERENZA TRA QUARTILI

Un indice di variabilit legato ai quartili di una distribuzione di frequen-
za, e quindi robusto rispetto all'esistenza di valori eccezionali, :

la differenza tra quartili definita da

DQ = Q
3
- Q
1

Questo indice espresso nella stessa unit di misura del fenomeno ed
Capitolo 2 68
dato dall'ampiezza del box nella rappresentazione box-plot. L'indice pu essere
facilmente relativizzato in modo da poter confrontare agevolmente la variabili-
t di distribuzioni rilevate con differente unit di misura:

DQ
r
=
Q
3
- Q
1
|Q
2
|

Naturalmente, l'indice DQ
r
robusto rispetto all'esistenza di valori eccezionali.

Esempio 17
Consideriamo la distribuzione di frequenza dell'esempio 11. Abbiamo gi visto che

Q
1
= 3 Q
2
= M
e
= 5 Q
3
= 7
inoltre

= 6.6
Si ottiene cos:
DQ = 7 - 3 = 4; DQ
r
=
7 - 3
5
= 0.8

Inoltre:

x
i
n
i
x
i
n
i

|x
i
- |n
i

|x
i
-M
e
|n
i

2 2 4 9.2 6
3 4 12 14.4 8
5 5 25 8.0 0
7 5 35 2.0 10
10 2 20 6.8 10
18 2 36 22.8 26
20 132 63.2 60

e risulta S
= 3.16 S
M
= 3.0

per cui S
r
= 0.479 S
rM
= 0.6.

Se il carattere della distribuzione una qualit gli indici sopra definiti
non possono essere utilizzati per misurare la variabilit esistente nel carattere.
In questi casi sono stati definiti una serie di indici che misurano la diversit delle
modalit del carattere prendendo in considerazione le frequenze della distribu-
zione e tenendo conto del fatto che un carattere tanto pi variabile quanto
pi numerose e diverse sono le modalit. Se il carattere si riduce ad una sola
modalit vuole dire che vi la minima diversit nella popolazione data rispetto
a quel carattere. La variabilit tanto pi elevata quanto pi numerose sono le
modalit. Gli indici cos definiti vengono di solito chiamati indici di mutabilit
perch applicabili a caratteri non quantitativi (le mutabili). Naturalmente, vo-
lendo, questi indici possono essere utilizzati per misurare la variabilit anche di
distribuzioni di frequenza il cui carattere una variabile.

L'ENTROPIA DI SHANNON

Questo indice misura il disordine, l'eterogeneit esistente in un sistema ed
stato ripreso da un concetto fisico legato al secondo principio della termodi-
namica.

L'indice di entropia di Shannon di una data distribuzione di frequenza X
definito da:
H = -
i=1
k
f
i
log(f
i
)

Come facile verificare, risulta H = 0 se tutte le modalit sono uguali;
infatti, in tal caso si ha che una sola frequenza relativa, diciamo per semplicit
la f
1
, pari ad uno mentre le altre k-1 sono pari a zero questo vuole dire che
l'indice, ricordando che log(1) = 0, diviene

H = - 1 log(1) = 0.

Viceversa, l'indice massimo se tutte le frequenze sono uguali fra loro: f
i

=
1
k
per i=1,2,...,k, e l'indice di Shannon diviene

H = - k
1
k
log
(
,
\
,
(
j
k
1
= log(k)

Questo ci permette di definire un indice di entropia relativo dato da

Capitolo 2 70
0 H
r
= -
) k log(
) f log( f
i i
k
1 i
1

Pi H
r
vicino a zero minore la disomogeneit del carattere, pi vicino ad
uno maggiore la disomogeneit del fenomeno.

L'INDICE DI MUTABILITA' DI GINI

Anche questo un indice che viene utilizzato per misurare la disomoge-
neit di un carattere qualitativo.

L'indice di mutabilit del Gini di una data distribuzione X dato da:

MG = 1-
i=1
k
f
2
i

Il valore minimo di questo indice vale zero e si ottiene se il carattere assume
una sola modalit per cui tutte le frequenze relative sono nulle eccetto quella
dell'unica modalit assunta che vale uno:

MG = 1 - 1
2
= 0.

Viceversa, l'indice massimo se le modalit assumono tutte le stesse
frequenze (caso di equipresenza delle diverse modalit): f
i
=
1
k
per i=1,2,...,k, e
l'indice di Gini diviene

MG = 1 - k
1
k
2
=
k-1
k

Questo ci permette di ottenere un indice di mutabilit relativa dato semplice-
mente da

0 MG
r
=
]
]
]
,
2
1
1
1
i
k
i
f
k
k
1
Pi MG
r
vicino a zero minore la disomogeneit del carattere, pi vicino ad
uno maggiore la disomogeneit del fenomeno.

Esempio 18
Supponiamo che la distribuzione di una popolazione di 25 adulti rispetto al titolo di
studio conseguito sia la seguente:

Titolo di studio n
i
f
i

Nessun titolo 1 0.04
Elementare 3 0.12
Media Inferiore 11 0.44
Media Superiore 6 0.24
Laurea 4 0.16
25 1.00

si ha immediatamente

H
r
= -
1
log(5)
[0.04 log(0.04) + 0.12 log(0.12) + 0.44 log(0.44) +
0.24 log(0.24) + 0.16 log(0.16)] =
1.38014
1.60944
= .8575
MG
r
=
5
4
[1- (0.04)
2
- (0.12)
2
- (0.44)
2
- (0.24)
2
- (0.16)
2
]
=
5
4
0.7072 = 0.884

2.4 Alcuni indici sulla forma

Nelle pagine precedenti abbiamo illustrato alcuni indici di posizione e di
variabilit, in questo paragrafo tratteremo di indici che forniscono informazioni
sintetiche su alcuni aspetti della forma di una distribuzione di frequenza. In
particolare, tratteremo della:

asimmetria di una distribuzione di frequenza rispetto al suo centro di gravit
che abbiamo visto coincidere con la media aritmetica;

curtosi di una distribuzione di frequenza, cio il suo maggiore o minore ap-
piattimento rispetto ad una distribuzione tipo detta normale.

Capitolo 2 72
ALCUNI INDICI DI ASIMMETRIA

E' noto che una generica funzione g(x) simmetrica rispetto ad un valo-
re se risulta:

g( - x) = g( + x)

per ogni x nell'insieme di definizione di g(x). Nel nostro caso, come abbiamo
sopra accennato, il parametro la media aritmetica. L'importanza di sapere
se una data distribuzione pi o meno vicina al caso di simmetria misurandola
con degli indici dovuto, fra l'altro, al fatto che se una distribuzione di fre-
quenza perfettamente simmetrica allora, come facile capire, risulta:

= M
e

cio media e mediana coincidono. Se la distribuzione, oltre ad essere perfetta-
mente simmetrica anche unimodale (cio possiede una sola moda) allora si ha

= M
e
= M
o

In altri termini, una distribuzione simmetrica una distribuzione molto regolare.
In pratica, per, difficile trovare distribuzioni che siano esattamente simme-
triche per cui diventa importante individuare indici che misurano quanto la di-
stribuzione data si discosta dal caso ideale di simmetria. Naturalmente esistono
diversi indici di asimmetria, qui di seguito ne presenteremo solo alcuni. C' da
dire che tutti gli indici qui presentati possono essere utilizzati solo se il carattere
del fenomeno una variabile.

Un primo indice di asimmetria :

la differenza interquartile data da

DI
r
=
(Q
3
- Q
2
) - (Q
2
- Q
1
)
(Q
3
- Q
2
) + (Q
2
- Q
1
)
.

E' un indice di facile calcolo, robusto, relativo cio indipendente
dall'unit di misura utilizzata per rilevare il fenomeno oggetto di studio.
Se DI
r
> 0 vuole dire che risulta (Q
3
- Q
2
) > (Q
2
- Q
1
) e quindi il box-
plot assume una forma tipo quella riportata nella figura seguente ed in tal caso
si dice che la distribuzione ha una asimmetria positiva: la coda di destra della di-
stribuzione pi lunga, marcata della coda di sinistra.

Il grafico della distribuzione di frequenza assumer allora una forma come
quella della figura che segue.

Se DI
r
< 0 vuole dire che (Q
3
- Q
2
) < (Q
2
- Q
1
) e quindi il box-plot ha
una struttura come quella qui di sotto riportata. In tal caso si dice che la distri-
buzione asimmetrica negativa: la coda di sinistra della distribuzione pi marcata
di quella di destra.

Il relativo grafico della distribuzione di frequenza assumer un aspetto simile a
quello riportato nella figura seguente.

Capitolo 2 74

Un secondo indice di asimmetria, di solito indicato con
1
,

il coefficiente di asimmetria dato da

1
=
1
N
3

i=1
k
(x
i
- )
3
n
i

Anche
1
un indice relativo, ma non robusto e misura di quanto la di-
stribuzione data lontana dal caso di simmetria. In particolare:
se
1
> 0 la distribuzione asimmetrica positiva,
se
1
< 0 la distribuzione asimmetrica negativa,
se la distribuzione simmetrica risulta
1
= 0, ma non vero il viceversa.

L'indice
1
pu essere espresso in termini dei primi tre momenti della
distribuzione:
1
=
1
3
N

i=1
k
(x
i
- )
3
n
i
=
1
3
N

i=1
k
[x
3
i

- 3x
2
i
+ 3x
i
2
-
3
]n
i

=
]
]
]
,
,
+

i
k
i
i i
k
i
i i
k
i
i i
k
i
n
N
n x
N
n x
N
n x
N
1
3
1
2 2
1
3
1
3
1 1
3
1
3
1 1

= [ ]
3 3
2 3
3
3 3
1

+ = [ ]
3
2 3
3
2 3
1

+

L'indice
1
pu essere calcolato anche nel caso in cui il carattere per classi di
modalit sostituendo a ciascuna classe il relativo valore centrale.
Se osserviamo che

3
i
3
i
3
3
i
z
x ) x (
(
,
\
,
(
j

risulta immediatamente

1
= ) x (
N
i
k
i
1
3
1
3
n
i
=
1
N

i=1
k
z
3
i
n
i
= E(Z
3
)

e quindi il coefficiente di asimmetria non altro che il momento terzo della di-
stribuzione standardizzata. Notiamo che se una distribuzione perfettamente
simmetrica allora tutti i momenti di ordine dispari della sua standardizzata sono
nulli. Il primo di questi momenti sempre nullo, qualsiasi sia la distribuzione di
partenza, per la propriet della media aritmetica che la somma degli scarti dalla
media sempre pari a zero. Questo vuol dire che per verificare se una distribu-
zione asimmetrica basta controllare cosa succede al momento terzo della
connessa standardizzata cio a
1
.
Un terzo modo per misurare l'asimmetria in una distribuzione si basa sul
fatto che mentre la media aritmetica fortemente influenzata dalla presenza di
valori molto grandi o molto piccoli (che cadono rispettivamente nella coda di
destra ed in quella di sinistra della distribuzione), la mediana poco sensibile
alla presenza dei valori eccezionali. Questo vuole dire che un indice di asimme-
tria relativo pu essere dato da:

AS
r
=
- M
e
|M
e
|

Infatti, se la distribuzione simmetrica allora si ha che =M
e
e quindi AS
r
ri-
sulta pari a zero; se la distribuzione asimmetrica positiva vuole dire che le
modalit grandi (sono nella coda di destra) hanno una preponderanza su quelle
piccole (che sono nella coda di sinistra) questo implica che attratta nella
coda di destra per cui tende ad essere > M
e
e l'indice AS
r
risulta essere posi-
tivo. Un risultato inverso si ottiene se la distribuzione asimmetrica negativa
cio AS
r
tende ad essere negativo.
L'INDICE DI CURTOSI

La curtosi un secondo aspetto caratterizzante la forma di una distribu-
Capitolo 2 76
zione di frequenza. Questo aspetto riguarda la pesantezza, lo spessimento o pi o
meno marcato delle code di una distribuzione rispetto ad una tipica detta nor-
male, o di Gauss, o degli errori accidentali. Di questa distribuzione tratteremo
pi approfonditamente nell'ambito della parte del corso che riguarda il Calcolo
delle Probabilit e l'Inferenza. Qui osserviamo che una distribuzione normale
assume tutti i valori della retta reale, perfettamente simmetrica ed unimodale
intorno al proprio centro di asimmetria che la sua media. Questo vuole dire
che per una normale risulta

= M
e
= M
o

Ha un unico asintoto che coincide con l'asse delle x e due flessi nei punti:

x
1
= - ; x
2
= +

La distribuzione normale ha un unico massimo per x = ed in tale punto la
distribuzione vale

1
2
2

Infine, nell'intervallo [-; +] cadono circa il 68% dei casi, nell'intervallo [-
2; +2] cadono circa il 95% dei casi, nell'intervallo [-3; +3] cadono
circa il 99% dei casi. Questo vuole dire che anche se teoricamente la distribu-
zione pu assumere valori nell'intervallo (-; +) in realt quasi tutti i casi ca-
dono nell'intervallo [-4; +4] e quasi nulla cade nelle code al di fuori di
questo intervallo. In altri termini, la distribuzione normale ha code molto sottili,
poco spesse. Naturalmente, dalla distribuzione normale si pu derivare la nor-
male standardizzata che, per costruzione ha media zero e varianza unitaria.
Nella figura che segue riportata la distribuzione di due normali: quella a sini-
stra la normale standardizzata (ha = 0 e = 1) quella a destra ha = 2 e
= 1. Dato che le due normali hanno la stessa varianza, hanno anche una forma
esattamente uguale l'unica differenza che la prima centrata sullo zero e la
seconda sul due.


Per stabilire il tipo di curtosi che una distribuzione osservata X possiede
si standardizza ottenendo la distribuzione osservata Z e si confronta il suo gra-
fico con quello della normale standardizzata. Pi precisamente:

la distribuzione X detta leptocurtica se la sua standardizzata Z ha code
pi spesse di quelle della normale standardizzata;
la distribuzione X detta platicurtica se la sua standardizzata ha code me-
no spesse di quelle della normale standardizzata;
la distribuzione X detta mesocurtica se la sua standardizzata ha code di
uguale spessore di quelle della normale standardizzata.

Nelle due figure che seguono sono riportati due casi tipici: rispettiva-
mente di distribuzione leptocurtica e platicurtica.

Capitolo 2 78

Una volta chiarito il concetto di curtosi, definiamo un indice che misuri
fino a che punto una distribuzione pi o meno lontana dal caso di normalit.

L'indice di curtosi di una distribuzione di frequenza X dato da

2
=
1
N
4
i=1
k
(x
i
- )
4
n
i
- 3.

L'indice
2
viene anche chiamato di disnormalit perch misura fino a che
punto una distribuzione osservata distante dal caso di normalit. La costante 3
figurante nella formula di
2
deriva dal fatto che per la normale si dimostra che
il momento quarto standardizzato vale esattamente 3.
L'indice
2
pu anche essere scritto come:

2
=
1
N
4

i=1
k
(x
i
- )
4
n
i
- 3 =
(
,
\
,
(
j
i
k
i
x
N
1
1
4
n
i
- 3 =

=
1
N

i=1
k
z
4
i
n
i
- 3 = E(Z
4
) - 3

Il coefficiente di curtosi non altro che il momento quarto della standardizzata
osservata meno la costante 3, che il momento quarto della normale standar-
dizzata; pertanto:

2
= momento quarto della standardizzata osservata -

momento quarto della normale standardizzata

L'interpretazione di questo indice la seguente:
se risulta
2
> 0 allora la distribuzione X leptocurtica,
se risulta
2
< 0 allora la distribuzione X platicurtica.
Se in una distribuzione osservata X si ha contemporaneamente
1
0,
2
0 allora X pu essere approssimata abbastanza bene da una distribuzione
normale con media e varianza pari a quella della distribuzione osservata.
L'indice di curtosi pu essere espresso anche in funzione dei primi quat-
tro momenti della distribuzione osservata X. Infatti, dato che

1
N

i=1
k
(x
i
- )
4
n
i
=
1
N

i=1
k
(x
4
i
- 4x
3
i
+ 6x
2
i
2
- 4x
i
3
+
4
) n
i
=

=
4
- 4
3
+ 6
2
2
- 4
4
+
4
=
4
- 4
3
+ 6
2
2
- 3
4

avremo:
2
=
1
4
[
4
- 4
3
+ 6
2
2
- 3
4
] - 3

L'indice
2
indipendente dall'unit di misura del fenomeno visto che basato
sulla distribuzione standardizzata, ma poco robusto. Se il carattere per classi
di modalit l'indice di curtosi pu essere calcolato solo in via approssimata so-
stituendo a ciascuna classe il relativo valore centrale.

Esempio 19
Mostriamo con un esempio come si calcolano i due indici
1
e
2
definiti in questo
paragrafo.

Capitolo 2 80

x
i
n
i
x
i
n
i

x
2
i
n
i
x
3
i
n
i
x
4
i
n
i

0 1 0 0 0 0
2 2 4 8 16 32
3 4 12 36 108 324
5 3 15 75 375 1875
10 31 119 499 2231

Nella tabella le ultime quattro colonne sono state ottenute a partire dalle prime due e permet-
tono di calcolare:

=
31
10
= 3.1 Q
1
=2 Q
2
=3 Q
3
=5

2
=
119
10
= 11.9
3
=
499
10
= 49.9
4
=
2231
10
= 223.1

da cui si ricava:

2
= 2.29 = 1.51327

AS
r
=
0.1
3
= 0.033 DI
r
=
2-1
2+1
= 0.333

1
=
1
3.465399
[49.9 - 110.67 + 59.582] = - 0.3428

come si pu notare i tre indici di asimmetria danno risultati contraddittori e questo dovuto
al fatto che la distribuzione vicina al caso di simmetria;

2
=
1
5.2441
[223.1 - 618.76 + 686.154 - 277.0563] - 3 = - 0.4375

che vuole dire che la distribuzione osservata leggermente platicurtica.

Se indichiamo con {
r
, r=1,2,...} tutti i momenti di una distribuzione X,
si pu dimostrare che fra X e {
r
, r=1,2,...} esiste, in generale, una corrispon-
denza biunivoca nel senso che, sotto condizioni molto generali, da {
r
,
r=1,2,...} si pu risalire ad X e viceversa. Questo vuol dire che se di X conside-
riamo solo i suoi primi quattro momenti non conosciamo tutto della struttura
di X, ma molte delle sue caratteristiche dato che avremo informazioni su: la sua
localizzazione tramite
1
, la sua variabilit tramite
2
, la sua asimmetria tramite
1
,
la sua curtosi tramite
2
. In genere, il vettore (
1
,
2
,
1
,
2
) viene chiamato vettore
caratteristico della distribuzione X.

Capitolo 3

LA CONCENTRAZIONE

3.1 Introduzione

Un importante aspetto di una rilevazione statistica, e quindi della con-
nessa distribuzione di frequenza, con carattere quantitativo quello della concen-
trazione.

Un fenomeno tanto pi concentrato quanto pi una piccola frazione delle
unit di rilevazione della popolazione possiede una elevata quantit del caratte-
re.

Da un punto di vista logico ha senso parlare di concentrazione solo per
fenomeni trasferibili da una unit di rilevazione all'altra. Il concetto di concentra-
zione, infatti, legato a quello di possesso di beni. Questo vuole dire che ogni
qual volta vengono applicati gli strumenti che descriveremo in questo capitolo
necessario in primo luogo verificare che il carattere di cui si tratta sia trasferibi-
le, cio che quote di carattere possono essere tolte, almeno teoricamente, ad
una unit di rilevazione ed assegnate ad altre. In genere, un carattere trasferibile
una quantit positiva e nel seguito supporremo che, non solo la distribuzione
di frequenza una variabile, ma che sia non negativa e che il relativo carattere
possegga le caratteristiche della trasferibilit. Sono trasferibili caratteri come il
reddito, la popolazione, il possesso di terra, gli investimenti, mentre non sono
trasferibili, generalmente, le qualit come la professione, titolo di studio ecc.,
ma anche quantit strettamente connesse alle unit di rilevazione come il peso,
l'altezza, l'et.
La concentrazione pu variare fra due casi estremi:

assenza di concentrazione
massima concentrazione
Capitolo 3 84

3.2 Il concetto di concentrazione

Questi casi estremi sono, in pratica, solo teorici dato che ben difficil-
mente si possono riscontrare nelle pratiche applicazioni. Servono per come
termine di paragone per stabilire se un caso concreto si avvicina all'uno o all'al-
tro estremo.

Si ha concentrazione nulla quando tutte le unit di rilevazione della popola-
zione posseggono lo stesso ammontare del carattere

Quando la concentrazione nulla tutte le N osservazioni sono uguali fra di loro
e si ottiene semplicemente:

x
1
= x
2
= ... = x
N
=

In questo caso si parla anche di equiripartizione del carattere dato che tutti
gli N soggetti lo posseggono con la stessa intensit. Ad esempio, si ha equiri-
partizione del reddito in una data popolazione se tutti i soggetti hanno lo stesso
ammontare di reddito; si parla di equiripartizione del possesso di terra in una
data popolazione se tutti i componenti di quella popolazione posseggono la
stessa estensione di terreno. Lequiripartizione equivalente ad assenza di va-
riabilit, come facilmente si verifica. Da questo punto di vista vi sono chiare
connessioni fra variabilit e concentrazione di un carattere.
Nel caso di equiripartizione la distribuzione di frequenza associata alla
rilevazione diviene semplicemente:

x
i
n
i

N
N

Si ha massima concentrazione quando una sola unit di rilevazione della po-
polazione possiede tutto l'ammontare del carattere e le rimanenti unit non ne
posseggono: x
1
= ... = x
N-1
=0, x
N
= N.

Se la media della popolazione, nel caso di concentrazione massima la
distribuzione di frequenza derivata da quella rilevazione statistica diviene

La concentrazione 85

x
i
n
i

0
N-1

1
N

Come si pu vedere, nel caso di concentrazione massima, le modalit del
carattere si polarizzano sui due valori 0 ed N =
k
i
i i
n x
1
questo vuole dire che
anche la variabilit del fenomeno elevata e risulta

2
= N
2
-
2
= (N-1)
2
.

Come abbiamo gi sottolineato, nelle pratiche applicazioni ben diffici-
le, se non impossibile, trovare fenomeni la cui concentrazione esattamente
nulla o esattamente massima. In genere, si hanno casi con distribuzioni com-
prese fra questi due estremi. Si pone, pertanto, il problema di misurare la con-
centrazione esistente in una data distribuzione relativa ad un carattere trasferibi-
le. Consideriamo, perci, una generica rilevazione statistica relativa ad un carat-
tere trasferibile discreto o discretizzato riferibile ad una popolazione composta da
N unit di rilevazione in cui le osservazioni x
1
, x
2
, ..., x
N
siano state ordinate in
senso crescente ottenendo

x
(1)
x
(2)
, .... x
(N)

ove con x
(i)
abbiamo indicato la rilevazione che occupa il posto i-esimo nell'or-
dinamento in senso non decrescente. Vogliamo elaborare degli indici che per-
mettano di misurare il grado di concentrazione esistente in questa generica rile-
vazione. Inoltre, vogliamo che tale indice sia relativo di modo che possa essere
facilmente confrontabile con quello derivato da rilevazioni espresse con diversa
unit di misura e differente numerosit.
Per rendere gli indici indipendenti dalla numerosit N della popolazione
si considerano al posto delle frequenze assolute le frequenze relative cumulate
che, per motivi storici, nell'ambito della concentrazione vengono indicate con
p
i
:

p
i
=
1
N

j=1
i
1

=
i
N
i=1, 2, ..., N

Si osservi che fra le p
i
(nei due capitoli precedenti e nei seguenti indicate
con F
i
) esiste la seguente relazione
Capitolo 3 86

p
i
= p
i-1
+
1
N
= p
i-1
+ f
i

e dato che sempre
1
N
0 si ha 0 p
1
p
2
... p
N
= 1. Come gi sappia-
mo, p
i
una percentuale: la percentuale cumulata dei primi i possessori del carattere e
risulta indipendente dalla numerosit N della popolazione.
Per rendere gli indici indipendenti dall'unit di misura del fenomeno, al
posto delle x
(i)
consideriamo le percentuali cumulate del carattere dei primi i possessori
che si indicano di solito con q
i

q
i
=
1
N

j=1
i
x
j
=
x
1
+ x
2
+...+ x
i
N
i=1,2,...,N

Fra le q
i
esistono le seguenti relazioni:

q
i
= q
i-1
+
x
i
N
= q
i-1
+ f
i

x
i

e dato che
N
x
i
0 risulta immediatamente 0 q
1
q2 ... qN = 1. Si os-
servi che sempre p
N
= q
N
= 1.
Da un punto di vista operativo, al posto della rilevazione di partenza con
modalit x
i
si ha una nuova rilevazione composta dalle coppie q
i
e p
i

x
i
x
(i)
p
i
q
i

x
1
x
(1)

1
N

x
(1)
N

x
2
x
(2)

2
N

x
(1)
+x
(2)
N

x
3
x
(3)

3
N

x
(1)
+x
(2)
+x
(3)
N

x
N
x
(N)
1 1

Vediamo ora cosa succede alle N coppie (p
i
, q
i
) nei due casi estremi di
concentrazione nulla e di concentrazione massima. Nel caso di concentrazione

nulla abbiamo visto che x
i
= x
(i)
= per i=1,2,...,N questo vuole dire:

q
i
=
1
N

j=1
i
x
(j)
=
j=1
i
1 =
1
N

j=1
i
1 = p
i
i=1,...,N.

In conclusione:

nel caso di concentrazione nulla si ha sempre

p
i
= q
i
, i=1,2,...,N

Nel caso di massima concentrazione avremo x
(1)
= x
(2)
= ... x
(N-1)
= 0 e
questo vuole dire

q
i
=
1
N

j=1
i
x
(j)
=
1
N

j=1
i
0 = 0 i=1,2,...N-1.

In conclusione

nel caso di concentrazione massima si ha

q
i
= 0 per i=1,2,...,N-1, mentre q
N
= 1

In generale, fra le p
i
e le q
i
esiste la seguente relazione p
i
q
i
che equi-
valente a p
i
- q
i
0, per i=1,2,...,N. Infatti,

p
i
- q
i
=
i
j
N
1
1
1

-
i
j
) j (
x
N
1
1
(
(
,
\
,
,
(
j
i
j
) j (
x
N
1
1
1
=

=
i
j
) j (
) x (
N
1
1

Ricordiamo che:

Capitolo 3 88
1) la somma di tutti gli N scarti dalla media sempre nulla:

i=1
N
(x
i
- ) =
i=1
N
( - x
i
) =
i=1
N
( - x
(i)
)

= 0

cio scarti positivi e scarti negativi si compensano;
2) le x
(i)
sono ordinate in senso non decrescente;
3) il carattere della distribuzione, perch sia trasferibile, sempre non negativo,
il che implica > 0.

Le prime due caratteristiche fanno si che gli scarti non negativi siano
sempre ai primi posti, mentre quelli negativi agli ultimi questo implica che sia
sempre

j=1
i
( - x
(j)
)

0

dato che nella sommatoria vi sono o solo scarti non negativi, o tutti gli scarti
non negativi e solo alcuni di quelli negativi che non possono compensare tutti i
positivi. La terza caratteristica fa si che sia sempre 1/N > 0 tutto questo di-
mostra che p
i
q
i
.
Se il fenomeno rilevato per classi di modalit risulta inevitabilmente
raggruppato in k<N classi ordinate in senso crescente. A ciascuna classe ne-
cessariamente associata la relativa frequenza n
i
. In tal caso l'espressione per le p
i
diviene

p
i
=
j=1
i

n
j
N
; i=1,2,...,k,

mentre quella di q
i
pu essere ottenuta solo in via approssimata sostituendo a
ciascuna classe x
i
| x
i+1
il proprio valore centrale c
i
ed ottenendo

q
i

j=1
i

c
j
n
j
N
; i=1,2,...,k.

Le q
i
possono essere ottenute in modo esatto se accanto alle classi ed alle
relative frequenze sono riportate le intensit del carattere ricadente in ciascuna

classe.
Le coppie (p
i
, q
i
) possono essere riportate su un sistema di assi cartesiani
ed ottenere una rappresentazione grafica del fenomeno concentrazione. A tale
proposito bisogna distinguere i due casi:

IL CASO DISCRETO O DISCRETIZZATO

Quando il fenomeno non rilevato per classi di modalit, le N coppie di
punti (p
i
, q
i
) vengono unite da una spezzata, detta spezzata di Lorenz, a gradini
cos come stato fatto per la funzione di ripartizione. In tal caso si ha una si-
tuazione simile a quella rappresentata nella figura seguente

IL CASO PER CLASSI DI MODALITA'

Se il fenomeno per classi di modalit, sotto l'ipotesi che all'interno di
ciascuna classe il fenomeno si distribuisce uniformemente, le k coppie di punti
(p
i
, q
i
) vengono unite da segmenti di retta crescenti che formano una curva
concava che costituisce la spezzata di Lorenz. Nella figura seguente sono riporta-
te le caratteristiche generali della spezzata di Lorenz nel caso in cui il fenomeno
per classi di modalit.

Capitolo 3 90

Sia che il fenomeno sia o non sia per classi di modalit, nel caso di con-
centrazione nulla abbiamo visto che p
i
= q
i
e la spezzata di Lorenz coincide
con la diagonale del quadrato di lato unitario come evidenziato nella figura che
segue.

In altri termini, la diagonale del quadrato di lato unitario coincide con il caso di
equiripartizione e viene detta retta di equiripartizione.
Nel caso di concentrazione massima abbiamo visto che tutte le q
i
sono
nulle esclusa l'ultima che pari ad uno. La spezzata di Lorenz coincide, sostan-
zialmente, con i cateti del triangolo rettangolo definito al di sotto della diagona-
le del quadrato di lato unitario come evidenziato nella figura che segue


In conclusione possiamo affermare che la spezzata di Lorenz:
- si trova al di sotto della diagonale del quadrato di lato unitario;
- sempre non decrescente;
- ha la concavit rivolta verso l'alto.

3.3 Alcuni indici di concentrazione

Presentiamo ora degli indici capaci di misurare la concentrazione di una
distribuzione di frequenza, questi indici saranno calcolati in funzione delle p
i
e
q
i
.

L'INDICE DI CONCENTRAZIONE DEL GINI

Questo indice, di facile calcolo e di immediata interpretazione, viene di
solito usato quando la distribuzione non per classi di modalit, si basa sul fatto
che p
i
q
i
per i=1,2,...,N-1 e che p
N
= q
N
= 1, pi precisamente:

l'indice di concentrazione del Gini indicato con R
g
e dato da

R
g
=
i
N
i
i i
N
i
p
) q p (
1
1
1
1

Capitolo 3 92

R
g
sempre compreso nell'intervallo [0; 1] pi precisamente:

R
g
= 0 quando risulta p
i
= q
i
per i=1,2,...,N, cio nel caso di concentrazione
nulla;

R
g
= 1 quando risulta q
i
= 0 per i=1,2,..., N-1, cio nel caso di concentra-
zione massima.

Pi R
g
si avvicina a zero pi la concentrazione del fenomeno piccola; pi
R
g
si avvicina ad uno pi la concentrazione elevata. Da un punto di vista
geometrico il numeratore di R
g
non altro che la somma dei segmenti evi-
denziati nella figura seguente

Il denominatore della formula serve solo a normalizzare il risultato cio a
fare s che l'indice non superi mai il valore uno.
Si osservi che l'indice R
g
si pu anche scrivere nei modi alternativi se-
guenti:

R
g
=
i
N
i
i
N
i
i
N
i
p
q p
1
1
1
1
1
1
= 1 -
i
N
i
i
N
i
p
q
1
1
1
1
=


=
i
N
i
i
i
i i
N
i
p
p
p
q p
1
1
1
1
=
i
N
i
i
i
i
N
i
p
p
p
q
(
(
,
\
,
,
(
j
1
1
1
1
1

L'ultima formulazione indica che R
g
pu essere interpretata come la media
aritmetica delle divergenze percentuali 1 -
q
i
p
i
.

IL RAPPORTO DI CONCENTRAZIONE

Questo indice viene di norma utilizzato per fenomeni rilevati per classi di
modalit e si basa sul fatto che la concentrazione tanto pi elevata quanto pi
grande la porzione di area compresa fra la diagonale del quadrato e la spezza-
ta di concentrazione. Questa area indicata con R
a
nella figura seguente.

Il rapporto di concentrazione indicato con R e definito come:

R =
R
a
max(R
a
)

Per quanto abbiamo detto in precedenza si ha max(R
a
) =
1
2
e l'indice
pu essere anche definito come
Capitolo 3 94

R = 2 R
a

D'altro lato, dalla figura precedente, si ha R
a
=
1
2
- R
b
ed avremo

R

= 1 - 2 R
b
.

R
b
facilmente calcolabile come somma delle aree A
i
di k trapezi come
evidenziato nella figura seguente

Otteniamo cos

R
b
=
2
0 p q 0
1 1
) )( ( +
+
2
p p q q
1 2 2 1
) )( ( +
+

+
2
p p q q
2 3 3 2
) )( ( +
+ ... +
2
p p q q
1 k k k 1 k
) )( (

+
=

= ) )( (
1 j j j 1 j
k
1 j
p p q q
2
1

= ) (
j 1 j
k
1 j
q q
2
1
+
f
j

ove si posto p
o
= q
o
= 0 e si tenuto conto del fatto che p
j
= p
j-1
+ f
j
. In con-
clusione si ha che il rapporto di concentrazione pu essere calcolato con la se-
guente


R = 1 - 2R
b
= 1 - ) (
j 1 j
k
1 j
q q +
f
j

L'INDICE DEL GINI

Questo indice nasce dalla relazione p
i
q
i
e dal fatto che 0 p
i
, q
i
1
che equivalente a 1-p
i
1 - q
i
. Ma allora esiste una costante
i
1 per cui si
ha:

1 - p
i
= (1-q
i
)
i
i = 1,2,...,N-1

La costante
i
viene interpretata come una misura puntuale (relativa alla i-esima
modalit o classe di modalit del fenomeno) della concentrazione.
i
pu essere
derivata facilmente considerando i logaritmi di entrambi i membri dell'ultima
espressione ottenendo:

log(1 - p
i
) =
i
log(1 - q
i
)

da cui si ricava

i
=
log(1 - p
i
)
log(1 - q
i
)
i = 1,2,...,N-1

Partendo da questa relazione Gini propose di utilizzare come misura globale
della concentrazione (in particolare di quella riguardante i redditi) il seguente
indice :

=
i=1
N-1
log(1 - p
i
)
i=1
N-1
log(1 - q
i
)

L'indice pari ad uno se e solo se nella distribuzione si ha assenza di
concentrazione. Generalmente, sar > 1 e l'indice tanto pi elevato quanto
pi forte la concentrazione.
Un altro modo per ottenere un indice globale di concentrazione parten-
Capitolo 3 96
do dai singoli
i
quello di considerarne la media:

=
1
N-1

i=1
N-1

i

I due ultimi indici, e , sono poco utilizzati nelle pratiche applicazioni
perch non sono normalizzati, cio non variano fra zero ed uno come gli altri
due visti in precedenza.

3.4 Alcune considerazioni sulla concentrazione dei redditi

Vediamo cosa succede nella concentrazione quando nella distribuzione
X, che supponiamo per semplicit dei redditi discretizzati (per esempio appros-
simati al milione di lire, oppure alle centomila lire), avvengono particolari varia-
zioni.
Supponiamo in primo luogo che X, in virt di qualche provvedimento
governativo, diventi Y = a + X. Questo vuole dire che tutte le modalit di Y
sono aumentate (se risulta a > 0, per esempio per aumenti di stipendi in cifra
fissa) o diminuite (se risulta a < 0, per esempio per l'introduzione di una tassa in
cifra fissa) della stessa quantit. Ci implica che dalla rilevazione X si passati
alla Y e precisamente

X: x
1
, x
2
, ...., x
N

Y: a+x
1
, a+x
2
, ..., a+x
N

In altri termini, se prima un individuo aveva reddito x
i
, dopo il suo red-
dito diventato y
i
= a+x
i
, pertanto se risulta a > 0 vi una diminuzione della
concentrazione, viceversa se a < 0 la concentrazione aumenta. Per rendersi
conto di questo fatto consideriamo due individui, diciamo A e B, e supponiamo
che il reddito di A sia 1000 e quello di B sia 100 questo vuole dire che fra i red-
diti di questi individui vi un rapporto di 10 =
1000
100
: il reddito di A 10 volte
quello di B. Supponiamo che il reddito di entrambi aumenti dello stesso am-
montare a=10 in tal modo il nuovo reddito di A sar 1010 e quello di B solo
110 mentre il rapporto fra i due si ridurr
1010
110
= 9.1818 che implica una di-
minuzione delle distanze relative fra i redditi dei due individui e quindi della
concentrazione. Naturalmente, si avr una situazione inversa se vi una dimi-

nuzione del reddito in cifra fissa. Infatti, se a = -10, il nuovo reddito di A sar
990 e quello di B sar 90 ed il rapporto fra i due crescer a
990
90
= 11 che impli-
ca un aumento della concentrazione. Quanto detto lo possiamo dimostrare
formalmente considerando come misura della concentrazione l'indice R
g
ed in-
dicando con p
ix
e q
ix
le quantit che si riferiscono alla rilevazione X e con p
iy
e
q
iy
quelle che si riferiscono alla Y. Osserviamo ora che risulta sempre, visto che
gli N individui sono sempre gli stessi, prima e dopo la variazione intervenuta

p
ix
= p
iy
i = 1,2,...,N

Inoltre, sappiamo che
y
= a +
x
e l'indice di concentrazione relativo alla
rilevazione Y si pu scrivere

R
gy
=
iy
N
i
iy iy
N
i
p
) q p (
1
1
1
1
=
ix
1 N
1 i
iy ix
1 N
1 i
p
) q p (
.

D'altro lato si ha:

p
ix
- q
iy
=
i
j
) j ( y
y
) y (
N
1
1
=

) x a a (
) a ( N
) j ( x
i
j x
+
+
1
1
=

= ) x (
) a ( N
) j ( x
i
j x
1
1
=
x
a+
x
(p
ix
- q
ix
)

ove l'ultimo risultato stato ottenuto ricordando quanto dimostrato nel para-
grafo 3.2. Sostituendo l'ultima espressione in R
gy
diviene:

R
gy
=
ix
k
i
iy iy
k
i
p
) q p (
1
1
1
1
=
ix
1 k
1 i
ix ix
x
x
1 k
1 i
p
) q p (
a
x
a+
x
R
gx .

Come si vede avremo che R
gy
< R
gx
se a > 0 mentre R
gy
> R
gx
se
Capitolo 3 98
a<0.
Supponiamo ora che sia Y = aX, con a costante positiva. Questo vuole
dire che il nuovo reddito Y cresciuto (se a>1) o decresciuto (se a<1) pro-
porzionalmente al vecchio. In tal caso i rapporti fra i vecchi ed i nuovi redditi so-
no rimasti immutati come pure la loro concentrazione. Le due rilevazioni di-
ventano rispettivamente

X: x
1
, x
2
, ...., x
N
Y: ax
1
, ax
2
, ..., ax
N

Mentre

y
= a
x
; p
iy
= p
ix
i=1,2,...,N

e quindi

q
iy
=
1
N
y

j=1
i
y
(j)
=
1
Na
y

j=1
i
ax
(i)
=

1
Na
y

a
j=1
i
x
(i)
= q
ix
i=1,2,...,N

di conseguenza si ha R
gy
= R
gx
indipendentemente dal valore di a.

Esempio 1
Supponiamo di avere una popolazione di 20 individui e di avere rilevato il reddito
lordo mensile di ciascuno di essi arrotondato al milione pi vicino. Si vuole analizzare la con-
centrazione della distribuzione dei redditi cos ottenuti. Le osservazioni originarie e le elabo-
razioni necessarie per ottenere i risultati richiesti sono riportati nella tabella seguente. Nella
prima colonna di detta tabella sono state riportate le osservazioni originarie, nella seconda le
stesse osservazioni ordinate in senso non decrescente, nella terza sono riportate le frequenze
cumulate, nella quarta le frequenze cumulate relative, nella quinta le percentuali cumulate del
carattere, nella sesta e nella settima gli elementi per calcolare l'indice di Gini, nella penul-
tima il rapporto fra la settima e l'ottava colonna, nell'ultima gli elementi per calcolare il rap-
porto di concentrazione come se il fenomeno fosse per classi di modalit.

x
i
x
(i)
i p
i
q
i
log(1-p
i
) log(1-q
i
)
i
(q
i-1
+q
i
)/20
5 2 1 0.05 0.0144 -0.05129 -0.01459 3.5154 0.00072
2 2 2 0.10 0.0289 -0.10536 -0.02940 3.5837 0.00217
7 5 3 0.15 0.0652 -0.16251 -0.06744 2.4096 0.00471
7 5 4 0.20 0.1014 -0.22314 -0.10697 2.0860 0.00833
2 5 5 0.25 0.1376 -0.28768 -0.14812 1.9422 0.01195

5 5 6 0.30 0.1739 -0.35667 -0.19105 1.8669 0.01557
8 7 7 0.35 0.2246 -0.43078 -0.25442 1.6931 0.01992
7 7 8 0.40 0.2753 -0.51082 -0.32208 1.5860 0.02500
10 7 9 0.45 0.3260 -0.59783 -0.39464 1.5149 0.03007
7 7 10 0.50 0.3768 -0.69314 -0.47290 1.4657 0.03514
5 7 11 0.55 0.4275 -0.79850 -0.55781 1.4315 0.04021
8 7 12 0.60 0.4782 -0.91629 -0.65058 1.4084 0.04529
10 8 13 0.65 0.5362 -1.04982 -0.76836 1.3663 0.05072
7 8 14 0.70 0.5942 -1.20397 -0.90189 1.3349 0.05652
8 8 15 0.75 0.6521 -1.38629 -1.05604 1.3127 0.06231
10 8 16 0.80 0.7101 -1.60943 -1.23837 1.2996 0.06811
5 10 17 0.85 0.7826 -1.89711 -1.52606 1.2431 0.07463
7 10 18 0.90 0.8550 -2.30258 -1.93150 1.1921 0.08188
8 10 19 0.95 0.9275 -2.99573 -2.62458 1.1414 0.08913
10 10 20 0.09637
138 9.50 7.6884 -17.5790 -13.25688 33.3935 0.81884

in tal modo si ottengono le seguenti misure di concentrazione

R
g
= 1 -
7.688378
9.50
= 0.190697

R = 1- 0.8188378 = 0.1811622

=
-17.57929
-13.25471
= 1.326267

=
33.4297
19
= 1.759458

che indicano una modesta presenza di concentrazione dei redditi di quella popolazione di 20
soggetti analizzati. La spezzata di Lorenz riportata nella figura seguente che conferma
quanto emerso dagli indici sopra riportati.

Capitolo 3 100
0.0
0.2
0.4
0.6
0.8
1.0
0.0 0.2 0.4 0.6 0.8 1.0
p
p
q

Nel caso in cui il fenomeno per classi di modalit, come spesso avviene
nelle pratiche applicazioni, gli indici sopra presentati possono essere calcolati
solo in via approssimata sostituendo alle relative classi i propri valori centrali.
Questa sostituzione permette di ottenere, come gi accennato, dei valori ap-
prossimati delle q
i
. Le q
i
possono essere calcolate in modo esatto se accanto alle
classi ed alle frequenze sono riportate anche le intensit del fenomeno relative a
ciascuna classe.

Esempio 2
Supponiamo di aver rilevato il fatturato annuo, in miliardi di lire, di 40
piccole aziende di un dato settore in una determinata regione ottenendo i risul-
tati seguenti

classi: x
i
|x
i+1
1 |3 3 |6 6 |10 10 |15 15 |20
frequenze: n
i
5 7 12 10 6 40
intensit: 9 34 88 124 95 350

Vogliamo costruire la curva di Lorenz di questo fenomeno e calcolare la relativa con-
centrazione. Notiamo che la cifra figurante nella riga delle intensit vuol dire che le 5 aziende
della classe 1|3 fatturano complessivamente 9 miliardi all'anno, le 7 aziende della classe
3|6 fatturano complessivamente 34 miliardi all'anno, e cos via. Il fatturato annuo totale
delle 40 aziende considerate pari a 350 miliardi di lire. Nella tabella che segue riportiamo i
dati necessari per poter costruire il grafico richiesto ed il relativo rapporto di concentrazione

classi: x
i
|x
i+1

1 |3 3 |6 6 |10 10 |15 15 |20
frequenze: n
i

5 7 12 10 6 40
intensit: 9 34 88 124 95 350
p
i

5/40 12/40 24/40 34/40 1
q
i

9/350 43/350 131/350 255/350 1
(q
i-1
+q
i
)f
i

0.00321 0.02600 0.14914 0.27571 0.25929 0.71335

Da cui si ottiene immediatamente che

R = 1-0.71315 = 0.28665

mentre la spezzata di Lorenz riportata nella figura che segue.

0.0
0.2
0.4
0.6
0.8
1.0
0.2 0.4 0.6 0.8 1.0
q
p
i
i

Capitolo 4

LE DISTRIBUZIONI DI FREQUENZA DOPPIE

4.1 Introduzione

Data una popolazione composta da N unit di rilevazione, se per ognu-
na di queste si rilevano contemporaneamente i due caratteri X ed Y, si ottiene
la rilevazione doppia:
(x
1
, y
1
), (x
2
, y
2
), ........, (x
N
, y
N
)
L'importanza delle rilevazioni doppie, e di quelle multiple in generale in cui si
rilevano contemporaneamente s caratteri per ogni unit, risiede nel fatto che in
tal modo non solo si hanno informazioni su ciascun carattere preso singolar-
mente, ma se ne ottengono sulle possibili relazioni che intercorrono fra i carat-
teri dati.
I caratteri presi in considerazione possono essere entrambi quantitativi,
entrambi qualitativi o uno quantitativo e l'altro qualitativo. Inoltre, se i caratteri
sono delle quantit queste possono essere sia discrete che continue ed anche,
ovviamente, per classi di modalit. Una tipica rilevazione statistica doppia pu
essere, se le unit di rilevazione sono scambiabili, equivalentemente rappresen-
tata da una distribuzione di frequenza doppia, di solito indicata con (X, Y) per sotto-
lineare che si stanno analizzando simultaneamente i due caratteri X ed Y. Que-
sta viene riportata in una tabella a doppia entrata come quella di seguito sche-
matizzata

Y\
X

x
1
x
2
x
3
x
k

y
1
n
11
n
21
n
31
n
k1
n
.1

y
2
n
12
n
22
n
32
n
k2
n
.2

y
3
n
13
n
23
n
33
n
k3
n
.3

y
h
n
1h
n
2h
n
3h
n
kh
n
.h

n
1.
n
2.
n
3.
n
k.
N
Capitolo 4

104
La tabella a doppia entrata formata da h righe, tante quante sono le di-
verse modalit o classi di modalit assunte dal carattere Y, e k colonne, tante
quante sono le diverse modalit o classi di modalit assunte dal carattere X. I
simboli n
ij
, i=1,2,...,k, j=1,2,...,h, rappresentano le frequenze relative alla coppia
di caratteri (x
i
, y
j
) cio quante volte fra le N unit di rilevazione osservate si
presenta la coppia di valori (x
i
, y
j
). Ovviamente alcune delle n
ij
possono essere
pari a zero e questo vuole significare che nel collettivo non esiste nessuna unit
di rilevazione che assume quella coppia di determinazioni dei caratteri. Inoltre:

n
i.
rappresenta la somma delle frequenze della i-esima colonna, i=1,2,...,k
n
.j
rappresenta la somma delle frequenze della j-esima riga, j=1,2,...,h
N rappresenta la somma totale delle frequenze che ovviamente
corrisponde alla numerosit della popolazione (numero delle unit di
rilevazione della popolazione).

In simboli:
n
i.
=
j=1
h
n
ij
n
.j
=
i=1
k
n
ij

N =
i=1
k

j=1
h
n
ij
=
j=1
h
n
.j
=
i=1
k
n
i.

Esempio 1
Supponiamo che di una popolazione di 119 individui si rilevato contemporanea-
mente il peso, espresso in chilogrammi, e l'altezza, espressa in centimetri ottenendo la seguente
distribuzione doppia (H, P):

P\
H

150 155 160 170 180
40 5 7 3 1 0 16
45 6 10 4 1 1 22
50 3 5 7 6 2 23
60 2 5 8 7 3 25
75 1 0 5 4 7 17
90 0 0 1 5 10 16
17 27 28 24 23 119

Come si vede, nella prima riga della tabella vengono indicate le modalit assunte dal
primo carattere, in questo caso l'altezza, nella prima colonna vengono indicate le modalit

105
assunte dal secondo carattere, in questo caso il peso, nelle altre caselle vengono indicate le fre-
quenze. In particolare:

il valore 16 posto all'incrocio fra la prima riga e l'ultima colonna sta ad indicare che
vi sono 16 persone che pesano 40 chili, indipendentemente dalla loro altezza;
il valore 28 posto all'incrocio fra la quarta colonna e l'ultima riga sta ad indicare che
vi sono 28 individui che sono alti 160 centimetri indipendentemente dal loro peso;
il valore 7 posto all'incrocio fra la penultima colonna e la sesta riga sta ad indicare
che vi sono 7 individui che sono alti 180 centimetri e pesano 75 chilogrammi;
il valore 0 posto all'incrocio fra la penultima colonna e la seconda riga sta ad indica-
re che non vi sono, nel collettivo, individui che sono alti 180 centimetri e contempora-
neamente pesano 40 chilogrammi.

L'interpretazione dei dati figuranti nelle altre caselle della tabella del tutto simile a
quanto sin qui accennato.

Quando si analizzano simultaneamente pi fenomeni necessario defi-
nire anche quali di questi sono da considerare causa e quali effetti. Queste in-
formazioni, che sono essenzialmente logiche, non possono essere ottenute con
strumenti statistici. Cos, se si considera la distribuzione doppia (Peso, Altezza)
noto che fra di loro esistono relazioni di simultaneit nel senso che il peso
influenza l'altezza e viceversa, e gli strumenti statistici servono solo a confermare
e misurare tali relazioni. Se i fenomeni presi in considerazione sono (Reddito,
Consumo) noto che sono i Redditi ad influenzare i Consumi, ma di solito
non vale il viceversa: in questo caso il reddito la causa o una delle cause che
influenza il consumo. Se i due caratteri sono (Altezza del padre, Altezza del
primogenito) chiaramente il primo carattere la causa ed il secondo l'effetto e
non esiste strumento statistico che possa fornire una tale informazione. In con-
clusione, quando si analizzano pi fenomeni congiuntamente, bisogna per pri-
ma cosa chiedersi se l'analisi ha senso logicamente e se logicamente fondato
individuare i caratteri da considerare cause e quelli da ritenere effetti ed even-
tualmente se esiste una doppia relazione fra di essi come visto nel caso (Peso,
Altezza).

4.2 Distribuzioni semplici derivate da una doppia

Data una distribuzione doppia (X,Y) da questa si possono derivare delle
distribuzioni semplici che descrivono aspetti particolari della doppia.

Capitolo 4

106
LE MARGINALI

Dalla distribuzione (X,Y) possibile sempre derivare la distribuzione
della sola X e quella della sola Y. Queste distribuzioni vengono dette marginali
della doppia perch si trovano ai margini della tabella doppia che descrive la
(X,Y).

Le marginali X ed Y della distribuzione doppia sono date rispettivamente
da:

xi ni. y
j
n.
j

x1 n1. y
1
n
.1

x2 n2. y
2
n
.2

x
3
n
3.
y
3
n
.3

xk nk. y
h
n
.h

N N

Esempio 2
Data la distribuzione (H,P) vista nell'esempio 1, le sue marginali sono, rispettiva-
mente, le seguenti:

hi ni. p
j
n.
j

150 17 40 16
155 27 45 22
160 28 50 23
170 24 60 25
180 23 75 17
119 90 16
119

Osserviamo che nota la distribuzione doppia sempre possibile derivare
le sue marginali. Note le marginali, in generale, non possibile risalire alla dop-
pia visto che la conoscenza delle marginali nulla ci dice sugli eventuali legami
esistenti fra X ed Y e quindi sulle caselle all'interno della tabella a doppia entra-
ta che descrive (X,Y). Naturalmente, tutti gli strumenti di analisi che sono stati

107
presentati nei capitoli recedenti possono essere utilizzati sulle singole distribu-
zioni marginali della doppia.

Esempio 3
Consideriamo la distribuzione del personale di ricerca in Italia nel 1990 per qualifica
e settore d'impiego

Settore di impiego
Qualifica Ammin. pubblica Imprese
Ricercatori 46346 31530 77876
Tecnici 19019 23285 42304
Altro 12056 12681 24737
77421 67496 144917

Le due marginali di questa distribuzione doppia sono date rispettivamente da:

Qualifica n
.j
Settore di impego n
i.

Ricercatori 77876 Ammin. pubblica 77421
Tecnici 42304 Imprese 67496
Altro 24737

144917
144917

Come si rileva impossibile risalire dalle due marginali alla tabella doppia che le ha generate.

LE CONDIZIONATE

Le distribuzioni condizionate sono particolari distribuzioni di frequenza
semplici derivate dalla doppia sotto la condizione di un vincolo imposto ad
uno dei caratteri. Pi in generale, data una popolazione P (nel nostro caso le N
unit di rilevazione da cui stata ottenuta la distribuzione doppia (X,Y)), im-
porre su P una condizione vuol dire effettuare una restrizione di P, pi preci-
samente, considerare la sotto popolazione P
*
di P che soddisfa la condizione
posta (nel nostro caso il vincolo imposto ad uno dei due caratteri). La popola-
zione P
*
sar contenuta o al pi sar uguale a quella da cui stata derivata.
Inoltre, P
*
pu anche essere vuota se la condizione imposta non pu essere ve-
rificata. Per esempio, data la popolazione di tutti gli italiani ad una certa data, se
Capitolo 4

108
consideriamo tutti gli italiani maschi a quella data abbiamo ottenuto una popo-
lazione condizionata dal vincolo di essere maschi. Ovviamente la seconda po-
polazione contenuta nella prima. Graficamente la situazione illustrata nella
figura che segue.

Data una distribuzione di frequenza doppia (X,Y), si possono derivare
due classi di condizionate:

le condizionate X dato che Y ha assunto una data modalit, di solito queste di-
stribuzioni si indicano con (X|Y=y
j
) j=1,2,...,h;
le condizionate Y dato che X ha assunto una data modalit, di solito queste di-
stribuzioni si indicano con (Y|X=x
i
) i=1,2,...,k

Di distribuzioni del tipo (X|Y=y
j
) ve ne sono h e coincidono con cia-
scuna riga della tabella doppia:

x
i
|Y=y
1
n
i1
x
i
|Y=y
2
n
i2
x
i
|Y=y
h
n
ih

x
1
n
11
x
1
n
12
x
1
n
1h

x
2
n
21
x
2
n
22
x
2
n
2h

x
k
n
k1
x
k
n
k2
x
k
n
kh

n
.1
n
.2
n
.h

Allo stesso modo, di distribuzioni condizionate (Y|X=x
i
) ve ne sono k e coin-
cidono con ciascuna colonna della distribuzione doppia:

109

y
j
|X=x
1
n
1j
y
j
|X=x
2
n
2j
y
j
|X=x
k
n
kj

y
1
n
11
y
1
n
21
y
1
n
k1

y
2
n
12
y
2
n
22
y
2
n
k2

y
h
n
1h
y
h
n
2h
y
h
n
kh

n
1.
n
2.
n
k.

Le distribuzioni condizionate, cos come le marginali, si possono derivare da qualsiasi
distribuzione doppia siano i caratteri delle qualit o delle quantit, per classi di modalit o
meno.
Esempio 3
Deriviamo le condizionate (H|P=p
j
) relative alla distribuzione doppia riportata
nell'esempio 1:

h
i
|P=40 n
i1
h
i
|P=45 n
i2
h
i
|P=50 n
i3

150 5 150 6 150 3
155 7 155 10 155 5
160 3 160 4 160 7
170 1 170 1 170 6
16 180 1 180 2
22 23

h
i
|P=60 n
i4
h
i
|P=75 n
i2
h
i
|P=90 n
i3

150 2 150 1 160 1
155 5 160 5 170 5
160 8 170 4 180 10
170 7 180 7 16
180 3 17
25

La distribuzione (H|P=40) rappresenta la distribuzione della sotto popolazione costituita
da 16 dei 119 soggetti che hanno peso pari a 40 chilogrammi; la distribuzione (H|P=45)
rappresenta la distribuzione della sotto popolazione costituita da 22 dei 119 soggetti che
hanno peso pari a 45 chilogrammi, e cos via. In modo del tutto simile si derivano le condi-
zionate del tipo (P|H=h
i
).

Si osservi che se sono note tutte le condizionate appartenenti ad una delle
due classi nota la tabella e quindi la distribuzione doppia. Questo vuol dire che
esiste una corrispondenza biunivoca fra distribuzione doppia e tutte le sue con-
Capitolo 4

110
condizionate. Si osservi, infine, che non sempre logicamente ha senso derivare
le condizionate di tutte e due le classi. Cos, nella distribuzione doppia (Altezza
padre, Altezza primogenito) ha senso considerare solo la classe delle condizio-
nate del tipo (Altezza primogenito|Altezza padre).

4.3 L'indipendenza fra caratteri

Abbiamo pi volte sottolineato come una distribuzione di frequenza
doppia, oltre a fornire informazione sui due caratteri presi in considerazione
(tramite le distribuzioni marginali), fornisce informazioni sugli eventuali legami
esistenti fra detti caratteri. Naturalmente, qui si analizza la dipendenza o l'indi-
pendenza statistica, cio quella che pu essere rilevata e misurata con strumenti
statistici. Da questo punto di vista indispensabile, ogni volta che si applicano
questi strumenti, chiedersi in primo luogo se logicamente fra i due caratteri possa
esistere un eventuale legame. Solo se la risposta affermativa, o quanto meno
dubbia si pu procedere alla rilevazione e misura della dipendenza.

Data la distribuzione doppia (X, Y) si dice che fra X ed Y vi indipenden-
za assoluta se non esiste alcun tipo di legame sia fra X ed Y che fra Y ed X.

In altri termini, l'indipendenza assoluta di tipo reciproco per cui se X
non dipende da Y, anche Y non dipende da X. Si possono, infatti, avere casi
per cui mentre X dipende da Y, Y indipendente da X. Un esempio di questo
tipo fornito dalla distribuzione doppia (Altezza padre, Altezza primogenito)
in cui la seconda variabile dipende dalla prima, mentre la prima indipendente
dalla seconda. Quando si ha indipendenza in coppie di fenomeni di quest'ulti-
mo tipo si dice che fra di loro esiste una indipendenza relativa. Un diverso tipo di
indipendenza quella in media:

i due caratteri X ed Y sono indipendenti in media se in media non esiste nessun
legame fra di loro.

INDIPENDENZA ASSOLUTA

In generale, quando si parla di indipendenza fra due caratteri X ed Y si
intende quella assoluta: X indipendente da Y ed Y indipendente da X. Ov-
viamente, se X ed Y sono assolutamente indipendenti lo sono anche in media.

111
Di solito non vero il viceversa. Nel seguito analizzeremo essenzialmente l'in-
dipendenza assoluta e faremo un breve cenno a quella in media.
Data una distribuzione doppia (X, Y) rappresentata dalla relativa tabella
a doppia entrata, per verificare, statisticamente, se X ed Y sono dipendenti o
indipendenti basta analizzare tutte le distribuzioni condizionate di una delle due
classi, cio o solo quelle della classe (X|Y=y
j
), o solo quelle della classe
(Y|X=x
i
). Per ogni distribuzione condizionata cos ottenuta vengono conside-
rate le frequenze relative. Da questo punto di vista diremo che:

i due caratteri X ed Y sono assolutamente indipendenti se tutte le distribuzione
condizionate di frequenza relative (X|Y=y
j
), j=1,2,...,h, sono uguali fra di loro.

In altri termini, consideriamo le distribuzioni condizionate (X|Y=y
1
),
(X|Y=y
2
), ..., (X|Y=y
h
) e consideriamo le distribuzioni delle frequenze relati-
ve:

x
i
|Y=y
1

n
i1
n
.1
x
i
|Y=y
2

n
i2
n
.2

x
i
|Y=y
h

n
ih
n
.h

x
1

n
11
n
.1
x
1

n
12
n
.2

x
1

n
1h
n
.h

x
2

n
21
n
.1
x
2

n
22
n
.2
x
2

n
2h
n
.h

x
k

n
k1
n
.1
x
k

n
k2
n
.2
x
k

n
kh
n
.h

1 1 1

I due caratteri X ed Y sono assolutamente indipendenti se queste h di-
stribuzioni sono esattamente uguali. In tal caso al variare delle modalit assunte
dalla Y la distribuzione della X, condizionata a tali modalit, rimane sempre la
stessa per cui Y non esercita alcuna influenza statistica sulla X. Naturalmente
se questo vero si ha anche che le k distribuzioni condizionate delle frequenze
relative (Y|X=x
i
), i=1,2,...,k, sono uguali. Ma se le frequenze relative delle di-
stribuzioni condizionate (X|Y=y
j
) sono identiche, per forza di cose dovranno
coincidere con le frequenze relative della distribuzione della marginale X. In
altri termini, tutte le colonne delle frequenze relative di queste due distribuzioni
Capitolo 4

112
dovranno essere uguali:

x
i
|Y=y
j

n
ij
n
.j
x
i

n
i.
N

x
1

n
1j
n
.j
x
1

n
1.
N

x
2

n
2j
n
.j
x
2

n
2.
N

x
k

n
kj
n
.j
x
k

n
k.
N

1 1

per j=1,2,...,h.
In definitiva, possiamo affermare che

i due caratteri X ed Y sono assolutamente indipendenti se e solo se risulta
n
ij
n
.j
=
n
i.
N
per i=1,...,k; j=1,...,h

Quest'ultima espressione pu anche essere scritta:

n
ij
=
n
i.
n
.j
N
i=1,...,k; j=1,...,h

Nelle pratiche applicazioni ben difficile osservare distribuzioni in cui,
per tutte le coppie (i,j), sia verificata l'ultima uguaglianza sopra riportata. D'altro
lato, quella equazione permette di derivare la distribuzione doppia teorica sotto
l'ipotesi d'indipendeza. Se con n
ij
intendiamo le frequenze effettivamente osservate
in una data distribuzione doppia (X,Y) e con:

n
*
ij
=
n
i.
n
.j
N
i=1,...,k; j=1,...,h

le frequenze ottenute sotto l'ipotesi di indipendenza, allora X ed Y sono asso-
lutamente indipendenti se e solo se la tabella relativa alla distribuzione osserva-

113
ta coincide, casella per casella, alla tabella teorica d'indipendenza costruita utilizzan-
do l'ultima eguaglianza. Se dividiamo ambo i membri dell'ultima espressione
per N otteniamo le frequenze relative della doppia e delle marginali:

n
ij
N
=
n
i.
n
.j
N N
i =1,...,k; j=1,...,h
cio:

f
ij
= f
i.
f
.j

Questo vuol dire che X ed Y sono assolutamente indipendenti se e solo se cia-
scuna frequenza relativa della doppia uguale al prodotto delle corrispondenti
frequenze relative delle marginali.

Esempio 4
Su una popolazione di 49 unit di rilevazione abbiamo osservato i due caratteri X
ed Y ottenendo la distribuzione osservata seguente

Y\
X

x
1
x
2
x
3

y
1
5 4 3 12
y
2
7 5 2 14
y
3
6 2 4 12
y
4
8 1 2 11
26 12 11 49

la relativa tabella d'indipendenza :

Y\
X

x
1
x
2
x
3

y
1

49
12 26

49
12 12

49
12 11
12
y
2

49
14 26

49
14 12

49
14 11
14
y
3

49
12 26

49
12 12

49
12 11
12
y
4

49
11 26

49
11 12

49
11 11
11
26 12 11 49

E dato che le due tabelle non coincidono casella per casella, per esempio a fronte della fre-
Capitolo 4

114
quenza n
11
= 5 figurante nella tabella osservata si ha n
*
11
= 6,367 in quella di indipen-
denza, vuol dire che fra la X e la Y vi una qualche dipendenza che bisogner misurare con
qualche indice per stabilirne la sua intensit. Osserviamo, inoltre, che le frequenze delle due
marginali X ed Y, nella tabella osservata ed in quella di indipendenza, sono esattamente le
stesse. Questa uguaglianza la mostreremo formalmente pi avanti.

Vediamo ora come pu essere costruito un indice di indipendenza, che
ci permetta di stabilire fino a che punto si vicini o lontani dal caso teorico di
indipendenza. Questo indice dovr essere pari a zero nel caso di perfetta indi-
pendenza fra X ed Y (la tabella osservata e la tabella teorica sono coincidenti)
ed essere positivo e crescente man mano che ci si allontana dal caso di perfetta
indipendenza (la tabella osservata molto diversa da quella teorica costruita sotto
l'ipotesi di indipendenza).

Y\
X

x
1
x
2
x
3
x
k

y
1
n
11
n
21
n
31
n
k1
n
.1

y
2
n
12
n
22
n
32
n
k2
n
.2

y
3
n
13
n
23
n
33
n
k3
n
.3

y
h
n
1h
n
2h
n
3h
n
kh
n
.h

n
1.
n
2.
n
3.
n
k.
N

Y\
X

x
1
x
2
x
3
x
k

y
1

N
n n
. . 1 1

N
n n
. . 1 2

N
n n
. . 1 3

N
n n
. . k 1
n
.1

y
2

N
n n
. . 2 1

N
n n
. . 2 2

N
n n
. . 2 3

N
n n
. . k 2
n
.2

y
3

N
n n
. . 3 1

N
n n
. . 3 2

N
n n
. . 3 3

N
n n
. . k 3
n
.3

y
h

N
n n
h . . 1

N
n n
h . . 2

N
n n
h . . 3

N
n n
h . . k
n
.h

n
1.
n
2.
n
3.
n
k.
N

Osserviamo che le frequenze marginali delle due tabelle sono esattamen-
Tabella
osservata
Tabella di
indipendenza

115
te le stesse. Infatti, la somma delle frequenze della j-esima riga della tabella di
indipendenza data da:

n
1.
n
.j
N
+
n
2.
n
.j
N
+
n
3.
n
.j
N
+
...
+
n
k.
n
.j
N

=

= n
.j

n
1.
+ n
2.
+ n
3.
+
...
+ n
k.
N
= n
.j

Le stesse considerazioni valgono per la somma di ciascuna colonna della
tabella di indipendenza.
A questo punto possiamo definire un indice capace di misurare la diversi-
t esistente fra tabella osservata e tabella teorica.

Data la distribuzione doppia (X, Y) l'indice di indipendenza di Pizzetti-
Pearson, che di solito si indica con
2
e si legge chi-quadrato, dato da

2
=
i=1
k

j=1
h

[n
ij
- n
*
ij
]
2
n
*
ij

Come si pu notare, quest'indice :
- sempre non negativo;
- nullo se e solo se la tabella osservata e quella d'indipendenza coincidono;
- cresce al crescere della diversit delle due tabelle;
- pu essere utilizzato per qualsiasi tipo di carattere dato che non dipende dalle
modalit dei due fenomeni analizzati.
L'indice
2
non normalizzato, cio non varia in un intervallo finito, dato che
funzione della numerosit N della popolazione. Infatti, risulta:

2
=
*
ij
*
ij ij
h
j
k
i
n
] n n [
2
1 1

=
*
ij
*
ij ij
*
ij ij
h
j
k
i
n
n n n n 2
2 2
1 1
+

=

=
]
]
]
]
,
,
,
+

ij
*
ij
*
ij
ij
h
j
k
i
n n
n
n
2
2
1 1
=
*
ij
ij
h
j
k
i
n
n
2
1 1

+ N - 2N =

Capitolo 4

116
=
i=1
k

j=1
h

n
2
ij
n
i.
n
.j
N
- N = N
]
]
]
]
,
,

1
2
1 1 j . . i
ij
h
j
k
i
n n
n

che dimostra quanto avevamo affermato. Si osservi che quest'ultima formula-
zione spesso utile, rispetto alla definizione precedente, per calcolare l'indice
2
dato che per il suo uso non necessario derivare la tabella teorica di indi-
pendenza.

Esempio 5
Abbiamo osservato i due caratteri X ed Y su una popolazione di 20 unit e abbia-
mo ottenuto la distribuzione doppia seguente

Y\
X

x
1
x
2
x
3

y
1
5 3 3 11
y
2
4 2 3 9
9 5 6 20

Calcoliamo l'indice d'indipendenza
2
. In questo caso la tabella di indipendenza :

Y\
X

x
1
x
2
x
3

y
1

20
99

20
55

20
60
11
y
2

20
81

20
45

20
54
9
9 5 6 20

Se per il calcolo dell'indice di indipendenza utilizziamo la formula

2
=
i=1
k

j=1
h

[n
ij
- n
*
ij
]
2
n
*
ij

si ottiene:


117
2
=
(5-4.95)
2
4.95
+
(3-2.75)
2
2.75
+
(3-3.3)
2
3.3
+
(4-4.05)
2
4.05
+
(2-2.25)
2
2.25
+

+
(3-2.7)
2
2.7
= 0.1122.

Se si utilizza la formula

2
= N
]
]
]
]
,
,

1
2
1 1 j . . i
ij
h
j
k
i
n n
n

si ottiene ovviamente lo stesso risultato:

2
= 20
]
]
]
,
,
+ + + + + 1
54
9
45
4
81
16
66
9
55
9
99
25
= 0.1122

Possiamo cos affermare che fra i due caratteri considerati vi dipendenza, ma a questo punto
non possiamo dire nulla sull'intensit di tale legame. Per poter stabilire la forza di questo
legame necessario derivare un indice normalizzato.

Il modo pi semplice per normalizzare un indice quello di dividerlo
per il suo massimo se esiste finito. Nel nostro caso, fissata l'ampiezza N della
popolazione, si pu dimostrare (la dimostrazione non viene riportata per brevi-
t) che ;

max(
2
) = N[min(h, k) - 1]

ove, come sappiamo,

h=numero delle modalit del carattere Y (numero delle righe della tabella),
k=numero delle modalit del carattere X (numero delle colonne della tabel-
la),
min(h,k)=numero pi piccolo fra h e k.

Questo ci permette di definire

Capitolo 4

118

l'indice d'indipendenza di Cramr dato da:
2
=
2
max(
2
)
=

i=1
k

j=1
h

n
2
ij
n
i.
n
.j
- 1
min(h, k) - 1

Questo un indice che varia nell'intervallo [0, 1]: vale zero se fra X ed Y
vi perfetta indipendenza, vale 1 se fra X ed Y vi la massima dipendenza
possibile. Spesso al posto dell'indice di Cramr
2
si preferisce utilizzare la ra-
dice quadrata positiva di questo perch riesce a misurare in modo meno distor-
to la dipendenza esistente fra i caratteri dati:

=
2

ovviamente risulta ancora 0 1.

Esempio 6
Riprendendo la distribuzione doppia riportata nell'esempio 5 si ha immediatamente che
2
= 0.1122; max(
2
) = 20[min(2, 3) -1] = 20[2 - 1] = 20
che implica:

2
=
0.1122
20
= 0.00561; = 0.0749

Possiamo cos affermare che fra i due caratteri dell'esempio 5 esiste una trascurabile dipen-
denza.

INDIPENDENZA IN MEDIA

Trattiamo qui di seguito, brevemente, del concetto della dipendenza in
media fra due caratteri. A tal proposito supponiamo di avere una distribuzione
di frequenza doppia (X,Y) in cui almeno uno dei due caratteri sia misurabile e
possa essere considerato logicamente funzione dell'altro. Senza perdere in ge-
neralit, supponiamo che tale carattere sia X. La generica distribuzione X con-
dizionata da Y=y
j
sappiamo che


119

x
i
|Y=y
j
n
ij

x
1
n
1j

x
2
n
2j

x
k
n
kj

n
.j

Al variare di j=1,2,...,h si ottengono tutte le h distribuzioni (X|Y=y
j
)
condizionate. Dato che, per ipotesi, X una variabile possibile calcolare per
ciascuna di quelle condizionate la relativa media, la j-esima delle quali indichia-
mo con
x|j
, j=1,2,...,k. Possiamo, quindi, dire che:

il carattere X indipendente in media dal carattere Y se
x|j
costante al variare di
j, cio se le h distribuzioni condizionate (X|Y=y
j
) hanno tutte la stessa media
aritmetica coincidente con quella della marginale X:
x|1
=
x|2
= ... =
x|h
=
x

Se anche il carattere Y una variabile si pu considerare un sistema car-
tesiano di riferimento su cui rappresentare le h coppie di punti (y
j
,
x|j
),
j=1,2,...,h ottenendo un grafico come quello idealizzato nella figura seguente.

Questo grafico, non solo mette immediatamente in evidenza l'esistenza
di legami in media fra X ed Y, ma permette di avere un'idea della forma di tali
legami. Si osservi che se X ed Y sono indipendenti tutte le distribuzioni condi-
zionate di frequenza relative (X|Y=y
j
) sono uguali fra di loro ed uguali alla di-
stribuzione marginale X. Ma allora anche le loro relative medie aritmetiche sa-
ranno uguali. Questo vuole dire che l'indipendenza assoluta implica quella in
Capitolo 4

120
media, ma non vale, in generale, il viceversa.

Esempio 7
Consideriamo la distribuzione di frequenza riportata nell'esempio 1 e verifichiamo se
esiste dipendenza in media (dipendenza in senso statistico, ovviamente) di H in funzione di
P. Per far questo calcoliamo le medie di ciascuna riga della tabella ed otteniamo

h|1
=
16
1 170 3 160 7 155 5 150 + + +
= 155.3125

h|2
=
22
1 180 1 170 4 160 10 155 6 150 + + + +
= 156.3636

h|3
=
23
2 180 6 170 7 160 5 155 3 150 + + + +
= 161.9565

h|4
=
25
3 180 7 170 8 160 5 155 2 150 + + + +
= 163.4

h|5
=
17
7 180 4 170 5 160 1 150 + + +
= 170

h|6
=
16
10 180 5 170 1 160 + +
= 175.625

Come si pu notare da queste medie e dal grafico seguente l'altezza fortemente influenzata,
in media, dal relativo peso.

Naturalmente nel caso in cui Y un carattere quantitativo ed ha senso
logico supporre Y in funzione di X possibile derivare le distribuzioni condi-
zionate (Y|X=x
i
), le relative medie condizionate:
y|1
,
y|2, ...,
y|k

e verificare la dipendenza in media che esiste fra Y ed X.
Data la distribuzione di frequenza doppia (X, Y), la generica media con-

121
dizionata di (X|Y=y
i
) data da

x|j
=
1
n
.j

i=1
k
x
i
n
ij
, j = 1,2,...,h

Dimostriamo che la media delle h medie condizionate
x|j
uguale alla
media della marginale X, in simboli
E(
x|j
) =
x.

Infatti,

E(
x|j
) =
k
i
N
1
1
x|j
n
.j
=
(
(
,
\
,
,
(
j

ij i
k
i j
h
j
n x
. n N
1 1
1 1
n.
j
=

k
i
h
j
N
1 1
1
x
i
n
ij
=
k
i
N
1
1
x
i

h
j 1
n
ij
=
k
i
N
1
1
x
i
n
i.
=
x

Indichiamo ora con var(
x|j
) la varianza delle h medie condizionate si ha
immediatamente
var(
x|j
) =
1
N

j=1
h
(
x|j
-
x
)
2
n
.j

Dimostriamo che la varianza delle h medie condizionate sempre minore o
uguale della varianza della marginale X, in simboli

var(
x|j
) var(X)

Infatti,
var(X) =
1
N

i=1
k
(x
i
-
x
)
2
n
i.
=
1
N

i=1
k
(x
i
-
x
)
2

j=1
h
n
ij
=

=
1
N

j=1
h

i=1
k
(x
i
-
x|j
+
x|j
-
x
)
2
n
ij
=
Capitolo 4

122
=
1
N

j=1
h

i=1
k
(x
i
-
x|j
)
2
n
ij
+
1
N

j=1
h

i=1
k
(
x|j
-
x
)
2
n
ij
+

+
2
N

j=1
h

i=1
k
(
x|j
-
x
)(x
i
-
x|j
) n
ij

il primo di questi addendi sicuramente non negativo, il secondo coincide con
la varianza delle medie condizionate, mentre il terzo , come mostreremo nel
seguito, identicamente nullo. In definitiva risulta

var(X) = A
2
+
1
N

i=1
k
(
x|j
-
x
)
2
n
ij
= A
2
+ var(
x|j
)

che dimostra quanto affermato. Nella conclusione qui sopra riportata si tenu-
to conto del fatto che

1
N

j=1
h

i=1
k
(
x|j
-
x
)(x
i
-
x|j
) n
ij
=

=
1
N

i=1
k
x
i

j=1
h

x|j
n
ij
-
1
N

j=1
h

x j . j x
n
2

1
N

i=1
k

x
i
n
i.
+
+
x
1
N

j=1
h

x|j
n
.j
=

=
1
N

j=1
h

x|j
n
.j
1
n
.j

i=1
k

x
i
n
ij
-
1
N

j=1
h

j . j x
n
2
-
x
x
+
x
x
=

=
1
N

j=1
h

j . j x
n
2
-
1
N

j=1
h

j . j x
n
2
-
x
x
+
x
x
= 0

La relazione var(
x|j
) var(X) permette di definire un indice relativo che
misura l'influenza che Y esercita in media su X, pi precisamente

123

la connessione di X in funzione di Y data da

x|y
=
var(
x|j
)
var(X)

per costruzione varia nell'intervallo zero ed uno: pi bassa l'influenza che Y
esercita su X, pi detto indice vicino a zero; viceversa, pi elevata la dipen-
denza di X da Y pi quell'indice si avvicina ad uno.
Naturalmente, se ha senso logico la relazione da X ad Y possibile an-
che derivare un indice
y|x
che misura l'influenza che X esercita su Y.

Esempio 8
Riprendiamo la distribuzione di frequenza doppia del peso e delle altezze riportata
negli esempi 1 e 7. La distribuzione delle medie condizionate delle altezze rispetto ai pesi e
quella della marginale altezza sono riportate, rispettivamente, nelle tabelle seguenti

h|j
n
.j
H n
i.

155.3125 16 150 17
156.3636 22 155 27
161.9565 23 160 28
163.4000 25 170 24
170.0000 17 180 23
175.6250 16 119
119

Risulta immediatamente

E(
h|j
) = 163.319317 E(X) = 163.319328

come si pu notare queste due medie, a meno degli inevitabili arrotondamenti, sono uguali
come previsto dalla teoria. Per le varianze si ha

Var(
h|j
) = 44.6609 Var(X) = 106.4190

e, come atteso la prima nettamente inferiore alla seconda. In tal modo si ottiene

H|P
= 0.648
Capitolo 4

124

che indica una consistente influenza di P su H.

4.4 La correlazione lineare

Quando entrambi i caratteri della distribuzione doppia sono delle varia-
bili possibile elaborare, oltre agli indici riportati nel paragrafo precedente, un
indice capace di misurare l'eventuale legame lineare esistente fra X ed Y. Suppo-
niamo a tal fine di aver rilevato su una popolazione di ampiezza N i due carat-
teri quantitativi e di aver ottenuto la distribuzione di frequenza (X,Y). Uno dei
legami pi semplici che si pu ipotizzare fra questi caratteri quello lineare. Il
legame lineare, oltre a permettere una semplice ed immediata interpretazione,
pu rappresentare una prima approssimazione di legami pi complessi.
Fra X ed Y esiste un legame lineare se al variare di una delle due variabili
l'altra cresce o decresce, in media, secondo una retta.
Se al crescere di X l'altra variabile, in media, cresce come una retta si di-
ce che fra X ed Y esiste un legame lineare positivo.
Se al crescere di X l'altra variabile decresce, in media, come una retta si
dice che fra X ed Y esiste un legame lineare negativo.
Nella ricerca di un legame lineare esistono due casi limite che servono
come termine di paragone per poter stabilire, come faremo pi avanti, il grado
del legame lineare esistente fra due variabili:

il perfetto legame lineare quando al crescere della X la Y cresce o decresce
esattamente come una retta, questo caso si ha se

X = a + bY

con a, b costanti reali e b0;
l'incorrelazione quando al crescere o decrescere della X la Y, in media, ri-
mane costante.

Data una distribuzione doppia (X, Y) con X ed Y delle variabili per le
quali ha senso logico supporre fra di loro un legame, un indice per misurare
l'esistenza di legami lineari fra X ed Y covarianza.

LA COVARIANZA

Questo indice di solito indicato con cov(X,Y),
xy
, E[(X-
x
)(Y-
y
)], e con S
xy

nel caso di rilevazioni campionarie ed definita da:

125

xy
=
1
N

i=1
k

j=1
h
(x
i
-
x
)(y
j
-
y
) n
ij
=
i=1
k

j=1
h
(x
i
-
x
)(y
j
-
y
) f
ij

ove con
x
abbiamo indicato la media aritmetica della marginale X

x
=
1
N

i=1
k
x
i
n
i.

e con
y
la media aritmetica della marginale Y

y
=
1
N

j=1
h
y
j
n
.j

La covarianza misura come X ed Y covariano, un indice espresso nel prodotto
delle unit di misura usate per rilevare X ed Y e quindi non pu essere utilizza-
to per stabilire quanto forte l'eventuale legame lineare esistente fra le due va-
riabili.
Come si vede dalla formula sopra riportata, la covarianza non altro che
la media dei prodotti degli scarti ponderati con le rispettive frequenze. La cova-
rianza un indice che pu teoricamente assumere qualsiasi valore da - a +.
Pi precisamente:

se
xy
> 0
allora fra X ed Y esiste un legame lineare positivo;
se
xy
< 0
allora fra X ed Y esiste un legame lineare negativo;
se
xy
= 0
allora X ed Y sono incorrelate (non esiste legame lineare).

Vediamo ora di dare una interpretazione grafica dei tre casi sopra elencati:

Caso di
xy
> 0

Si ottiene quando a scarti della X corrispondono, in media, scarti dello
stesso segno della Y. Se tali scarti vengono riportati in un sistema di assi carte-
Capitolo 4

126
siani si ha una situazione simile a quella illustrata nella figura seguente

La maggior parte di tali scarti sono situati nel primo (entrambi gli scarti
sono positivi) e nel terzo quadrante (entrambi gli scarti sono negativi), la mag-
gior parte del prodotto di tali scarti, avendo segno concorde, saranno positivi.

Caso di
xy
< 0

Si ottiene quando a scarti della X corrispondono, in media, scarti di se-
gno opposto della Y. Riportando detti scarti in un sistema di assi cartesiani si
ha una situazione simile a quella illustrata nella figura seguente

La maggior parte degli scarti si trova nel secondo (primo scarto negativo
e secondo positivo) e nel quarto quadrante (primo scarto positivo e secondo
negativo) e la maggior parte del prodotto di tali scarti saranno negativi.


127
Caso di
xy
= 0

Gli scarti suddetti sono distribuiti in modo simmetrico nei quattro qua-
dranti. Un caso di
xy
= 0 schematizzato nella figura che segue ove gli scarti
sono distribuiti paritariamente e simmetricamente nei quattro quadranti per cui
la media dei loro prodotti sar pari a zero.

Come si nota da questa figura, il fatto che sia
xy
= 0 vuol dire solo che
fra X ed Y non esiste legame lineare, ma fra i due caratteri potrebbe esistere,
come in questo caso, un forte o addirittura perfetto legame di tipo non lineare.
In altri termini

l'indipendenza fra X ed Y implica assenza di qualsiasi legame e quindi incorrelazio-
ne. L'incorrelazione, in generale, non implica l'indipendenza.

Dimostriamo formalmente che se X ed Y sono indipendenti necessa-
riamente devono essere incorrelati. Dalla definizione di covarianza abbiamo

xy
=
1
N

i=1
k

j=1
h
(x
i
-
x
)(y
j
-
y
) n
ij

Introduciamo in questa formula la condizione di indipendenza che, ricordiamo,
equivale a n
ij
=
n
i.
n
.j
N
, otteniamo

Capitolo 4

128
xy
=
1
N

i=1
k

j=1
h
(x
i
-
x
)(y
j
-
y
)
n
i.
n
.j
N
=

=
1
N

i=1
k
(x
i
-
x
) n
i.

1
N

j=1
h
(y
j
-
y
) n
.j
= 0 0 = 0

e questo per una delle propriet della media aritmetica (la somma degli scarti
dalla media, ponderati con le relative frequenze, sempre nulla).
L'indice
xy
pu anche essere espresso sotto una forma diversa e preci-
samente

xy
=
1
N

i=1
k

j=1
h
(x
i
-
x
)(y
j
-
y
) n
ij
=

=
1
N

i=1
k

j=1
h
(x
i
y
j
-
x
y
j
-
y
x
i
+
x

y
) n
ij
=

=
1
N

i=1
k

j=1
h
x
i
y
j
n
ij
-
x

1
N

i=1
k

j=1
h
y
j
n
ij
+
-
y

1
N

i=1
k

j=1
h
x
i
n
ij
+
x
y

1
N

i=1
k

j=1
h
n
ij
=

=
xy
-
x

1
N

j=1
h
y
j
i=1
k

n
ij
-
y

1
N

i=1
k
x
i
j=1
h

n
ij
+
x

y
=

=
xy
-
x

1
N

j=1
h
y
j
n
.j
-
y

1
N

i=1
k
x
i
n
i.
+
x

y
=

=
xy
-
x
y
-
y
x
+
x

y
=
xy
-
x
y

ove si posto:

129
xy
=
1
N

i=1
k

j=1
h
x
i
y
j
n
ij

che rappresenta la media dei prodotti (detto anche momento primo misto) delle
modalit delle due variabili e viene spesso indicato con i simboli

11
, E(XY).

In definitiva si pu affermare che

la covarianza fra X ed Y data dalla differenza fra la media dei prodotti
ed il prodotto delle medie delle marginali:
xy
=
xy
-
x

y
= E(XY) - E(X)E(Y)

Osserviamo che se almeno una delle medie delle marginali nulla la
covarianza coincide con il momento primo misto:
xy
=
xy
= E(XY).

Esempio 9
Su una popolazione di 22 elementi sono stati osservati due caratteri quantitativi otte-
nendo la seguente distribuzione doppia

Y\
X

0 1 4
1 5 2 0 7
2 3 4 1 8
3 1 1 5 7
9 7 6 22

Si vuole calcolare la covarianza esistente fra queste due variabili. Notiamo che la
maggior parte delle frequenze della distribuzione doppia sono concentrate lungo la diagonale
principale della tabella. Questo implica che il legame lineare esistente fra i due caratteri deve
essere positivo pertanto attesa una covarianza positiva fra i due fenomeni. Dalla seconda
formula della covarianza si ottiene:

xy
=
1
N

i=1
k

j=1
h
x
i
y
j
n
ij
=
1
22
[105 + 112 + 140 + 203
Capitolo 4

130
+ 214 + 241+ 301 + 311 + 345] =
81
22

x
=
1
22
[09 + 17 + 46] =
31
22

y
=
1
22
[17 + 28 + 37] =
44
22

e quindi risulta:
xy
=
81
22
-
31
22

44
22
=
19
22
> 0

Possiamo cos affermare che fra i due caratteri dell'esempio esiste una legame lineare positivo,
nel senso che al crescere di una delle due variabili l'altra in media cresce. Nel grafico che segue
abbiamo riportato le coppie di valori (x
i
, y
j
) ove il peso delle frequenze rappresentato dalla
diversa grandezza dei pallini. Da questo grafico emerge il legame lineare positivo esistente fra
le due variabili visto che i pallini pi grossi sono ben rappresentati da una retta crescente.

Supponiamo ora di avere una distribuzione doppia (X, Y) in cui la
covarianza sia data da
xy
e le medie e varianze delle marginali rispettivamente
da
x
,
y
,
2
x
,
2
y
. Consideriamo la nuova distribuzione

V = a + bX +cY

ove a, b, c sono costanti reali qualsiasi.
Dimostriamo che
2
v
= b
2
2
x
+c
2

2
y
+ 2bc
xy

Infatti, per definizione abbiamo che la distribuzione semplice V assume
modalit pari a v
ij
= (a+bx
i
+cy
j
) e corrispondenti frequenze n
ij
per i=1,...,k;
j=1,...,h. Questo vuol dire che


131
v
=

h
j
k
i
N
1 1
1
v
ij
n
ij
= ) cy bx a (
N
j i
h
j
k
i
+ +

1 1
1
n
ij
=

= a

h
j
k
i
N
1 1
1
n
ij
+ b

h
j
k
i
N
1 1
1
x
i
n
ij
+ c

h
j
k
i
N
1 1
1
y
j
n
ij
=

= a
1
N
N + b
k
i
N
1
1
x
i
(
(
,
\
,
,
(
j
ij
h
j
n
1
+ c
h
j
N
1
1
y
j
(
(
,
\
,
,
(
j
ij
k
i
n
1
=

= a + b
k
i
N
1
1
x
i
n
i.
+ c
h
j
N
1
1
y
j
n
.j
= a +b
x
+ c
y

D'altra parte si ha che

2
v
=
1
N

i=1
k

j=1
h
(v
ij
-
v
)
2
n
ij
=
1
N

i=1
k

j=1
h
(a+bx
i
+cy
j
- a -b
x
- c
y
)
2
n
ij
=

=
1
N

i=1
k

j=1
h
[ b(x
i
-
x
)+c(y
j
-
y
)]
2
n
ij
=

=
1
N

i=1
k

j=1
h
[b
2
(x
i
-
x
)
2
+c
2
(y
j
-
y
)
2
+ 2bc(x
i
-
x
)(y
j
-
y
)]n
ij
=

= b
2

1
N

i=1
k
(x
i
-
x
)
2
(
(
,
\
,
,
(
j
ij
h
j
n
1
+ c
2

1
N

j=1
h
(y
j
-
y
)
2
(
(
,
\
,
,
(
j
ij
k
i
n
1
+

+ 2bc
1
N

i=1
k

j=1
h
(x
i
-
x
)(y
j
-
y
) n
ij
=

= b
2

1
N

i=1
k
(x
i
-
x
)
2
n
i.
+ c
2

1
N

j=1
h
(y
j
-
y
)
2
n
.j
+

Capitolo 4

132
+ 2bc
1
N

i=1
k

j=1
h
(x
i
-
x
)(y
j
-
y
) n
ij
=

= b
2
2
x
+c
2

2
y
+ 2bc
xy

che dimostra quanto avevamo affermato. Da questa uguaglianza segue imme-
diatamente che se X ed Y sono incorrelate (ed a maggior ragione se sono indi-
pendenti) si ha immediatamente

2
v
= b
2
2
x
+c
2

2
y

Naturalmente, detto risultato pu essere esteso, con una procedura simile, alla
somma di un numero qualsiasi di distribuzioni di frequenza.
Vediamo ora di derivare un indice che misuri i legami lineari e sia relativo (cio
indipendente dall'unit di misura utilizzato per rilevare le due variabili) e
normalizzato (cio che vari in un intervallo finito) in modo da poter fornire
indicazioni sull'intensit dei legami lineari esistenti fra i due caratteri. A que-
sto proposito, possibile dimostrare la disuguaglianza di Schwarz.

LA DISUGUAGLIANZA DI SCHWARZ

Questa disuguaglianza, detta anche di Cauchy - Schwarz, data da:

2
xy

2
x

2
y
[cov(X,Y)]
2
var(X) var(Y)

La disuguaglianza sopra riportata pu anche essere scritta come

E[(X-
x
)(Y-
y
)]
2
E[(X-
x
)
2
] E[(Y-
y
)
2
]

che nel caso in cui entrambe le medie delle due marginali sono nulle diventa

[E(XY)]
2
E(X
2
) E(Y
2
)

Senza perdere in generalit, si pu sempre fare in modo che le medie
delle due marginali siano nulle utilizzando le variabili scarto dalle rispettive me-
die. In tal modo, basta dimostrare che l'ultima disuguaglianza vera per dimo-
strare la disuguaglianza di Cauchy - Schwarz. Infatti, qualsiasi sia la costante a ri-

133
sulta

E[(Y-aX)
2
] 0

visto che si tratta di una media di quadrati. Inoltre

E[(Y-aX)
2
] = E(Y
2
+ a
2
X
2
- 2aXY) = E(Y
2
) + a
2
E(X
2
) - 2aE(XY) =

= a
2
E(X
2
) +
[E(XY)]
2
E(X
2
)
-
[E(XY)]
2
E(X
2
)
- 2a
E(XY)
E(X
2
)
E(X
2
) + E(Y
2
) =

= a
2
E(X
2
) +
[E(XY)]
2
[E(X
2
)]
2
E(X
2
) - 2a
E(XY)
E(X
2
)
E(X
2
) + E(Y
2
) -
[E(XY)]
2
E(X
2
)
=

= E(X
2
)
]
]
]
,
,
+
2 2
2
2
2
2
)] X ( E [
)] XY ( E [
) X ( E
) XY ( E
a a +
]
]
]
,
) X ( E
)] XY ( E [
) Y ( E
2
2
2
=

= E(X
2
)
]
]
]
,
) X ( E
) XY ( E
a
2
2
+
]
]
]
,
) X ( E
)] XY ( E [
) Y ( E
2
2
2
0

Questa disuguaglianza vale qualsiasi sia la costante a reale. In particolare pos-
siamo porre

a =
E(XY)
E(X
2
)

ed ottenere

]
]
]
,
) X ( E
)] XY ( E [
) Y ( E
2
2
2
0

che equivalente a
[E(XY)]
2
E(X
2
) E(Y
2
)

e questo dimostra quanto asserito.
Una volta dimostrato che sempre 0
2
xy

2
x

2
y
dividendo ambo i
membri di questa disuguaglianza per
2
x

2
y
si ottiene

Capitolo 4

134
0
2
xy
2
x

2
y
1

Considerando la radice quadrata si ottiene, infine

- 1
xy
x

y
1

Questa relazione pu essere pi facilmente dimostrata ricordando che, qualsiasi
siano le costanti a, b, c in V = a + bX + cY, sempre

2
v
= b
2
2
x
+c
2

2
y
+ 2bc
xy
0

ed valida, in particolare, per b = -
y
, c =
x
che implicano

2
y

2
x
+

2
x

2
y
- 2
y
xy
0

da cui si ha immediatamente

xy
x

y
1

Allo stesso per b=
y
, c =
x
si ottiene

2
y

2
x
+

2
x

2
y
- 2
y
xy
0

e quindi la disuguaglianza

xy
x

y
-1

Combinando insieme queste due ultime disuguaglianze si ha il risultato cercato.


135
IL COEFFICIENTE DI CORRELAZIONE

Il coefficiente di correlazione, di solito indicato con
xy
, corr(X,Y), r
xy
, dato
da
xy
= corr(X,Y) =
xy
x

y
=
cov(X,Y)
var(X)var(Y)

Come si pu notare, il coefficiente di correlazione
xy
un indice nor-
malizzato che varia nell'intervallo [-1, 1] e misura, oltre all'esistenza dei legami
lineari fra X ed Y, anche la loro intensit. Pi in particolare:

1) pi
xy
assume un valore vicino a - 1 pi il legame lineare forte e negativo;
2) pi
xy
assume un valore vicino a 1 pi il legame lineare forte e positivo;
3) pi
xy
assume un valore vicino a zero pi il legame lineare trascurabile.

Nel caso particolare in cui
xy
= 1 allora fra X ed Y vi un perfetto legame
lineare positivo e risulta

X = a + bY

con b > 0 indipendentemente dalla costante a. Nel caso particolare in cui
xy
= -1 allora fra X ed Y vi un perfetto legame lineare negativo e risulta

X = a + bY

con b < 0 ed indipendentemente dalla costante a. Nel caso particolare in cui si
abbia
xy
= 0 allora fra X ed Y non esiste legame lineare e diremo che le due
variabili sono incorrelate.

Esempio 10
Consideriamo la distribuzione presentata nell'esempio 8 e calcoliamo il coefficiente di
correlazione di questa distribuzione doppia. Abbiamo gi visto che
xy
=
19
22

x
=
31
22

y
=
44
22

Inoltre abbiamo

Capitolo 4

136
2x
=
1
N

i=1
k
x
2
i
n
i.
= ) ( 6 16 7 1
22
1
+ =
103
22

2y
=
1
N

j=1
h
y
2
j
n
.j
= ) ( 7 9 8 4 7 1
22
1
+ + =
102
22

e quindi
2
x
=
103
22
-
(
,
\
,
(
j
22
31
2
=
1305
484

2
y
=
102
22
-
(
,
\
,
(
j
22
44
2
=
7
11

In definitiva avremo
xy
=
19
22
1305
484

7
11
= 0.6593

Possiamo cos affermare che fra X ed Y esiste un discreto legame lineare positivo.

Consideriamo ora una generica distribuzione doppia (X, Y), ove X ed Y
sono delle variabili, e sottoponiamo entrambe a trasformazione lineare:

V = a + bX U = c +dY

in modo da ottenere la nuova distribuzione doppia (V, U). Vediamo quali rela-
zioni passano fra il coefficiente di correlazione
xy
di X ed Y ed il coefficiente
di correlazione
vu
di V ed U. Se indichiamo con
x
,
y
,
v
,
u
,
2
x
,
2
y
,
2
v
,
2
u
medie e varianze di X, Y, V ed U sappiamo che sono vere le relazioni se-
guenti:

v
= a + b
x

2
v
= b
2
2
x

u
= c + d
y
2
u
= d
2
2
y

Inoltre, si ha che
vu
=
1
N

i=1
k

j=1
h
(v
i
-
v
)(u
j
-
u
) n
ij
=

137
=
1
N

i=1
k

j=1
h
(a+bx
i
-a- b
x
)(c+dy
j
-c- d
y
) n
ij
=

=
1
N

i=1
k

j=1
h
(bx
i
- b
x
)(dy
j
- d
y
) n
ij
=

= bd
1
N

i=1
k

j=1
h
(x
i
-
x
)(y
j
-
y
) n
ij
= bd
xy

Avremo cos
vu
=
vu
u
=
bd
xy
|bd|
x

y
=
bd
|bd|

xy

Pi precisamente
vu
=
<
>
0
0
db se
db se
xy
xy

In altri termini, una trasformazione lineare non cambia, a meno del segno, il
coefficiente di correlazione.
Nel caso in cui uno o entrambi i caratteri, pur essendo quantitativi, sono per
classi di modalit, la covarianza, e quindi il coefficiente di correlazione, pu
essere ottenuto in modo approssimato sostituendo, come al solito, a ciascu-
na classe il relativo valore centrale.
La covarianza, e quindi il relativo coefficiente di correlazione, pu essere calco-
lato direttamente dalla rilevazione statistica doppia senza passare per la
connessa distribuzione di frequenza doppia. Infatti, data la rilevazione dop-
pia:

(x
1
, y
1
), (x
2
, y
2
), ..., (x
N
, y
N
)

si ottiene immediatamente

xy
=
1
N

i=1
N
(x
i
-
x
)(y
i
-
y
) .

Capitolo 5

INTRODUZIONE ALL'ANALISI DELLE SERIE STORI-
CHE

5.1 Introduzione

Osservare e misurare, per quanto possibile, ad intervalli regolari i feno-
meni che interessano l'attivit economica, sociale e scientifica degli uomini af-
fonda le sue radici nel lontano passato: per esempio noto che gi gli antichi
egiziani osservavano e misuravano regolarmente le piene del Nilo, i raccolti a-
gricoli connessi e ne traevano conseguenti interpretazioni e previsioni. Negli
anni, ed in particolare in questi ultimi, si affermata una branca della statistica
che tratta proprio dello studio di fenomeni rilevati ad intervalli costanti nel
tempo: l'analisi statistica delle serie storiche. Naturalmente questa analisi pu
essere affrontata a vari livelli di raffinatezza, qui utilizzeremo un approccio e-
splorativo-descrittivo che non richiede sofisticati strumenti analitici: nelle no-
stre analisi, infatti, useremo essenzialmente le quattro operazioni dell'aritmetica.
Questo tipo di approccio ci permette di ottenere una massa di informa-
zioni non molto lontana da quella ottenibile usando strumenti pi elaborati. Un
ruolo determinante in questo approccio l'uso sistematico di grafici e dia-
grammi che, mettendo in evidenza gli aspetti pi rilevanti dei fenomeni analiz-
zati, permettono di trarre immediate conclusioni ed effettuare eventuali con-
fronti.

La raccolta delle informazioni su uno o pi fenomeni, molto spesso, av-
viene con sistematicit ad intervalli abbastanza regolari nel tempo. Questo
permette, non solo di descrivere i fenomeni oggetto di studio assieme alle loro
interrelazioni ma anche di analizzarne l'evoluzione nel tempo e, eventualmente,
riprodurne il meccanismo fisico adattandovi appropriati modelli statistici. Fra le
altre cose, tale approccio permette di evidenziare le componenti essenziali che
soggiacciono all'evoluzione del fenomeno.
Pi in generale, si pu constatare come le informazioni cos accumulate
Capitolo 5 140
vengono utilizzate per i fini pi disparati che in modo diverso tendono a condi-
zionare i futuri comportamenti individuali e sociali. Tali comportamenti a loro
volta si ripercuotono sui fenomeni oggetto di studio in un circolo ininterrotto,
ma che essenziale analizzare per capire la struttura interna dei fenomeni che ci
circondano.

Dato un fenomeno A di cui si misura la caratteristica X, se questa
misurazione viene effettuata, a partire dal tempo iniziale c, N volte con cadenza
s, si ottiene la successione di valori

X
c
, X
c+s
, ...., X
c+(N-1)s

che prende il nome di serie storica con cadenza s.

Di solito irrilevante conoscere c per cui possiamo supporre c=1 e de-
scrivere la serie storica pi semplicemente nel modo seguente

X
1
, X
2
, ...., X
N
= {X
t
; t=1,2, ..., N}

esplicitando il periodo di misurazione e la cadenza. Se il fenomeno oggetto di
studio, invece che sul tempo, osservato sul piano lungo una data direzione, le
metodologie che illustreremo per le serie storiche possono essere estese anche
a queste particolari serie spaziali.
Nello studio di una serie storica, che nel seguito indicheremo pi sempli-
cemente con X
t
, ha un ruolo fondamentale l'ordinamento temporale, nel senso
che gli N valori osservati, di cui X
t
si compone, sono ordinati rispetto a t e per
ci non sono scambiabili. Infatti, lo scambio delle osservazioni distrugge le infor-
mazioni sulla evoluzione del fenomeno nel tempo. Per derivare particolari in-
formazioni su X
t
possiamo rimuovere la condizione di non scambiabilit. In tal
caso le informazioni che si ottengono non possono concernere l'evoluzione del
fenomeno, ma solo aspetti globali e sintetici di questo. Se sul fenomeno A si
misurano pi caratteristiche simultanee, per esempio se ne considerano k, si
ottiene una serie storica k-pla:

X
t
=
(
(
(
(
(
,
\
,
,
,
,
,
(
j
kt
t
t
X
...
X
X
2
1
, t=1, 2, ..., N.

In questo caso possibile non solo analizzare l'evoluzione delle singole serie,
Introduzione all'analisi delle serie storiche 141
ma anche le interrelazioni che esistono fra queste ed in particolare quelle che
intercorrono fra tutte le coppie X
it
ed X
jt
, per ij.

Esempio 1
Qui di seguito riportiamo le prime 36 osservazioni con cadenza mensile riguardante:
M
t
morti in Italia per ogni 1000 abitanti, D
t
numero dei detenuti adulti nelle carceri italia-
ne, PE
t
produzione di energia elettrica e gas in Italia.

M
t
D
t
PE
t
t
10.4 25.665 13.005 1
9.9 26.984 11.521 2
11.0 26.196 12.278 3
9.6 27.013 11.577 4
8.8 27.593 11.899 5
8.7 26.346 11.330 6
8.9 26.545 12.045 7
8.9 26.831 10.059 8
8.1 28.851 11.754 9
9.0 29.557 12.558 10
9.6 30.085 11.924 11
10.2 27.672 12.189 12
11.6 30.557 12.743 13
11.4 31.754 11.843 14
9.8 31.099 12.181 15
9.1 32.815 11.520 16
9.2 32.534 11.323 17
8.8 32.285 11.227 18
M
t
D
t
PE
t
t
8.6 31.448 11.596 19
8.6 31.413 9.167 20
8.5 32.307 11.532 21
9.5 32.604 12.561 22
9.5 33.155 12.399 23
10.4 29.429 12.758 24
13.6 30.886 13.064 25
11.4 31.938 12.933 26
10.7 32.557 13.430 27
9.7 31.431 12.580 28
9.2 32.661 12.595 29
8.9 31.936 12.376 30
9.1 30.673 13.064 31
8.7 30.601 10.534 32
8.1 30.718 13.001 33
9.1 30.591 13.617 34
9.9 30.496 13.699 35
10.8 28.556 14.489 36

Analogamente alle distribuzioni di frequenza, anche le serie storiche pos-
sono essere sintetizzate utilizzando gli indici descrittivi che abbiamo gi studia-
to nei capitoli precedenti. Questo permette di confrontare, fra le altre cose, il
comportamento globale di serie diverse. Dobbiamo osservare che questi indici,
in generale, prescindono dalla condizione di non scambiabilit delle osserva-
zioni e quindi, di solito, non servono per valutare l'evoluzione delle serie nel
tempo.

5.2 Alcune rappresentazioni grafiche delle serie storiche

Le rappresentazioni di fenomeni con grafici e figure risultano estrema-
mente utili dato che permettono di cogliere, in modo immediato, gli aspetti pi
rilevanti. D'altro lato, possibile elaborare rappresentazioni differenti a secon-
da delle caratteristiche particolari che si vogliono mettere in evidenza. Questo
Capitolo 5 142
implica che la stessa serie storica pu essere rappresentata in modi diversi; qui
di seguito consideriamo quelle pi comuni ed informative.

RAPPRESENTAZIONE SUL TEMPO

Il modo pi utile e rapido per rappresentare l'evoluzione di una serie storica

la rappresentazione sul tempo. Data la serie X
t
, t=1,2,...,N, si considerano le N cop-
pie (t, X
t
), si rappresentano in un piano cartesiano ponendo sulle ascisse il tem-
po t e sulle ordinate le osservazioni X
t
, si uniscono con una spezzata gli N pun-
ti cos individuati.

Questa rappresentazione di X
t
, non solo rapida ed agevole da costruire,
ma permette di evidenziare l'evoluzione della serie mettendo in rilievo molte
delle sue caratteristiche pi rilevanti ed in particolare:

(a) l'esistenza di un eventuale trend, cio dell'andamento di fondo di X
t
, e sua
tipologia (crescente, decrescente, lineare, quadratico, esponenziale ecc.);
(b) l'esistenza di un eventuale ciclo, cio di fluttuazioni periodiche che si presen-
tano pi o meno regolarmente ogni certo numero di anni;
(c) l'esistenza, per serie osservate con cadenza inferiore all'anno (serie settima-
nali, mensili, trimestrali ecc.) di un'eventuale stagionalit, cio di fluttuazioni
pi o meno regolari che si presentano in ciascun anno di osservazione.

Questo tipo di rappresentazione grafica permette, anche, di confrontare
l'evolversi di due o pi serie, in pratica non pi di tre per evitare di costruire
grafici confusi, riportando semplicemente le serie date sullo stesso sistema di
assi. Naturalmente, perch ci abbia senso necessario che le serie considerate
siano confrontabili ed in particolare:

(i) che vi sia fra di loro un qualche nesso logico,
(ii) che le serie siano misurate nella stessa unit di misura,
(iii) che l'ordine di grandezza delle misure non sia molto differente.

Se le due ultime condizioni non sono soddisfatte si pu preventivamente ed
opportunamente trasformarle, cos come vedremo nel prossimo paragrafo,
prima di effettuare il relativo confronto grafico.

Esempio 2
La figura seguente riporta i grafici sul tempo relativi a M
t
, D
t
, PE
t
, osservate nel
periodo gennaio 1972 - dicembre 1982 e le cui prime 36 osservazioni sono state riportate
nell'esempio 1. Dalle dette figure rileviamo che:

(a) la serie M
t
sostanzialmente stazionaria in media (non cresce n decresce sistematica-
mente nel periodo di osservazione), possiede una marcata stagionalit con picchi netti nei
mesi invernali e depressioni meno nette in quelli estivi. Inoltre si evidenziano due valori ec-
cezionalmente elevati nei mesi di gennaio del 3 e del 5 anno di osservazione;
(b) la serie D
t
ha un andamento molto irregolare e pu essere distinta in tre sottoserie: la
prima con un trend crescente, la seconda essenzialmente stazionaria in media, la terza
(dopo una repentina caduta dovuta agli effetti di una amnistia) di nuovo crescente. Non si
evince stagionalit di rilievo;
(c) la serie PE
t
evidenzia una forte e regolare stagionalit in tutto il periodo di osservazione,
un trend crescente nei primi cinque anni di osservazione ed una sostanziale stazionariet
in media nel restante periodo.

t

t

Capitolo 5 144
t

RAPRESENTAZIONE GAMBO-FOGLIE

La rappresentazione

gambo-foglie (stem-leaves), a differenza di quella illustrata precedentemente, di-
strugge l'ordinamento temporale del fenomeno visto che viene costruita sulla
serie ordinata,

ma permette di evidenziare aspetti che la rappresentazione con la spezzata sul
tempo maschera. In realt, questo tipo di rappresentazione utile costruirla,
pi che su X
t
, su sue particolari componenti.
Per illustrare la procedura di costruzione di questo diagramma utilizzia-
mo un esempio. A tale fine supponiamo che il fenomeno osservato nel tempo
t=1,2,...,70 dia luogo alla seguente serie storica:

103 120 124 109 103 107 107 115 103 114
119 115 119 103 124 117 120 105 110 110
96 133 121 105 96 112 116 110 98 123
91 97 111 127 132 115 132 97 119 96
112 103 94 114 115 109 110 98 120 110
119 122 115 99 122 105 99 128 117 127
116 102 103 117 121 127 117 110 100 103

Dato che la serie oscilla fra 91 e 133 i suoi valori sono al massimo di tre
cifre, pertanto possiamo indicare come foglie l'ultima cifra di ciascuno di tali
numeri e come gambi le prime due cifre. In tal modo i gambi sono dati da 9, 10,
11, 12, 13 e se accanto a questi elementi poniamo, leggendo le osservazioni per
riga, le unit (cio le foglie) otteniamo il diagramma seguente.

9 66817764899
10 3937733553952303
11 54959700260159245009576770
12 04401370228717
13 322
gambi foglie

Se ordiniamo gli elementi delle foglie in senso crescente, otteniamo la rappre-
sentazione grafica finale che, come detto, prende il nome di diagramma gambo-
foglie

9 14666778899
10 0233333335557799
M
e
11 00000012244555556677779999
12 00011223447778
13 223

Dall'esame di questo diagramma facile calcolare i quartili. In particola-
re, dato che N=70, segue immediatamente che la mediana compresa fra il
35-esimo ed il 36-esimo elemento per cui avremo

M
e
= Q
2
=
112+112
2
=112;

viceversa Q
1
la mediana delle prime 35 osservazioni e quindi corrisponde alla
18-esima, mentre Q
3
la mediana delle ultime 35 osservazioni e corrisponde
alla 52-esima. In definitiva avremo

Q
1
= 103; M
e
= Q
2
= 112; Q
3
= 119.

In generale, se i valori della serie X
t
sono costituiti da pi di tre cifre, si
utilizzano solo le prime due o tre per costruire la rappresentazione gambo-
foglie. Le foglie del diagramma sono pari alla numerosit della serie, in questo
caso 70. Questo vuole dire che tutti gli elementi della serie vengono conservati
nel diagramma, ci che viene perso l'ordinamento temporale. Il numero di
gambi pu essere diminuito o aumentato a seconda delle esigenze. Per esempio,
nel caso sopra riportato al gambo 9 sono state attribuite tutte le seconde cifre
comprese fra 90 e 99, al gambo 10 tutte le terze cifre comprese fra 100 e 109, al
gambo 11 tutte le terze cifre comprese fra 110 e 119 e cos via. Ma possibile
ridurre il numero dei gambi associando un maggior numero di foglie. Per e-
sempio se indichiamo con:

Capitolo 5 146
9+ il gambo a cui vengono associate tutte le ultime cifre comprese fra 90 e
104;
119;
134;

otteniamo il diagramma seguente:

9+ 14666778899023333333
11+ 555779900000012244555556677779999
12+ 00011223447778223

Naturalmente, con una logica simile possibile aumentare il numero dei
gambi, distribuendo fra di essi le 70 foglie. In pratica, per potere utilmente in-
terpretare la rappresentazione, si costruiscono diagrammi con almeno 5 gambi.
La rappresentazione del diagramma, invece che per orizzontale, come stato
fatto nell'esempio, pu essere riportata in verticale scrivendo i gambi su una
riga e le relative foglie come colonne sovrastanti tale riga.

RAPPRESENTAZIONE BOX-PLOT

Una particolare rappresentazione grafica che sintetizza la serie ordinata, gi illu-
strata e commentata per le distribuzioni di frequenza, la rappresentazione a
scatola o box-plot. Per la sua costruzione, ricordiamo, che si procede nel modo
seguente:

(a) si ordina la serie storica osservata e da questa si derivano i cinque valori ca-
ratteristici:

X
(1)
; Q
1
; Q
2
; Q
3
; X
(N)
;

(b) fissata una scala, si utilizzano questi cinque numeri per costruire il grafico


Questo grafico sintetizza la serie osservata in cinque valori, pertanto vie-
ne spesso utilizzato per confrontare serie diverse, rese omogenee per l'unit di
misura, o per sintetizzare e confrontare componenti di X
t
. Ricordiamo che ac-
canto ai cinque punti X
(1)
, Q
1
, Q
2
, Q
3
, X
(N)
ne vengono sempre calcolati altri
due dati rispettivamente da:

h
1
= Q
1
- 1.5(Q
3
- Q
1
); H
2
= Q
1
+ 1.5(Q
3
- Q
1
)

e quindi vengono individuati con un asterisco, se esistono, tutti i valori di X
t

inferiori ad h
1
e superiori ad H
2
. I dati segnati con l'asterisco vengono conside-
rati eccezionalmente piccoli, se inferiori ad h
1
, ed eccezionalmente grandi, se
superiori ad H
2
, rispetto all'andamento complessivo del fenomeno. Per esem-
pio, se si ha una situazione come quella descritta dalla figura seguente

vuole dire che in X
t
vi sono tre valori eccezionalmente grandi. Una volta in-
dividuati dei valori eccezionali si cerca di risalire alle cause che li hanno gene-
rati.

5.3 Alcune trasformazioni delle serie storiche

Il pi delle volte, nell'analisi di una serie storica, non si interessati ai
singoli valori che assume, ma alla sua evoluzione nel tempo; ci vuole dire che
una serie pu essere convenientemente trasformata conservando tutte le in-
formazioni sulla sua evoluzione. Cos se, per esempio, si vogliono confrontare
pi serie logicamente legate fra di loro necessario trasformarle preventiva-
mente in qualche modo per eliminare la diversa unit di misura usata nella rile-
vazione del fenomeno. Esistono diversi modi di trasformare una serie storica
ciascuno dei quali funzionale a determinati scopi. Le pi note trasformazioni
sono: dalla serie X
t
alla serie degli indici, che indichiamo con IX
t
, oppure alla
serie delle differenze, che indichiamo con X
t
.

Capitolo 5 148

LA SERIE DEGLI INDICI

Data la serie storica X
t
osservata per t=1,2,...,N, si chiama serie indice a
base fissa t=r la seguente

serie:

r
IX
t
=
X
t
X
r
, t=1,2,...,N.

Spesso
r
IX
t
viene moltiplicata per 100 per esprimerla come una
percentuale.
La serie indice a base fissa una serie adimensionale, cio indipendente
dall'unit di misura del fenomeno. La serie indice a base fissa, dato che otte-
nuta da quella originaria dividendo ciascun suo valore per la stessa costante X
r
,
detta anche base della serie, conserva l'andamento della serie originaria. Tutto
questo implica che se si vuole confrontare l'evoluzione di pi serie misurate
con unit di misura diverse, basta confrontare le rispettive serie degli indici con
base tutte allo stesso tempo t=r. Da un punto di vista interpretativo,
r
IX
t
misu-
ra la variazione che intervenuta nel fenomeno rispetto al tempo base r, pi in
particolare:

r
IX
t

<

>
r ad t da negativa variazione una stata vi 1
r ed t fra variazione alcuna stata vi non 1
r ad t da positiva variazione una stata vi 1

Nota la serie degli indici
r
IX
t
e nota la base X
r
della serie si pu sempre
risalire alla serie originaria, infatti risulta

r
IX
t
X
r
=
X
t
X
r
X
r
= X
t
, t=1, 2, ..., N;

questo mostra la corrispondenza biunivoca esistente fra {X
t
} ed {
r
IX
t
, X
r
}. In
altri termini, la serie degli indici a base fissa, nota la base, contiene tutte le in-
formazioni della serie originaria. Di solito, nelle pratiche applicazioni, la base
viene fissata al tempo r=1 oppure al tempo r=N.
Nota la serie indice a base r, cio
r
IX
t
, possibile cambiare base (slitta-
mento della base) passando, per esempio alla base s. Per fare questo basta divide-
re ciascun elemento di
r
IX
t
per il suo s-esimo elemento, cio per
r
IX
s
. Infatti,
dato che per definizione

r
IX
t
=
X
t
X
r
;
r
IX
s
=
X
s
X
r


r
IX
t
r
IX
s
=
X
t
X
r
:
X
s
X
r
=
X
t
X
r

X
r
X
s
=
X
t
X
s
=
s
IX
t
, t=1,2,...,N

Qui di seguito mostriamo come si costruisce una serie indice a base fissa.

Esempio 3
Supponiamo di volere confrontare l'evoluzione della serie PE
t
, che rappresenta la pro-
duzione di energia elettrica e gas in Italia vista nell'esempio 1, con la serie
r
IPR
t
, che la se-
rie indice a base fissa della produzione in Italia. Per fare questo trasformiamo la serie PE
t

nella serie indice a base fissa r=1 dividendo ciascun elemento di PE
t
per PE
1
= 13.005.
Inoltre, per potere fare il confronto, cambiamo la base di
r
IPR
t
portandola a r=1. Per fare
questo dividiamo ciascun elemento di
r
IPR
t
per
r
IPR
1
= 108.1. I primi dodici valori delle
serie originarie e degli indici sono riportati nella tabella che segue

Serie indici a base fissa per PE
t
e
r
IPR
t

t PE
t r
IPR
t 1
IPE
t

1
IPR
t
t PE
t

r
IPR
t

1
IPE
t

1
IPR
t

1 13.005 108.1 1.000 1.000
2 11.521 117.9 0.886 1.091
3 12.278 119.2 0.944 1.103
4 11.577 121.8 0.890 1.127
5 11.899 128.7 0.915 1.191
6 11.330 127.5 0.871 1.179
7 12.045 122.2 0.926 1.130
8 10.059 68.4 0.773 0.633
9 11.754 133.7 0.904 1.237
10 12.558 130.1 0.966 1.204
11 11.924 134.6 0.917 1.245
12 12.189 128.6 0.937 1.190

I grafici di
1
IPE
t
e di
1
IPR
t
sono riportati nelle figure seguenti, ove, per poterli con-
frontare, si usata la stessa scala sull'asse delle ordinate:

Capitolo 5 150

1
IPR
t

t

1
IPE
t

t

Dal confronto dei due grafici notiamo che:

(i) la stagionalit di IPR molto pi marcata di quella di IPE;
(ii) in tutta la serie IPR vi un modesto trend crescente a cui si sovrappone un ciclo che si
ripete ogni 5 anni circa, mentre IPE mostra un trend crescente solo per i primi cinque
anni di osservazioni e non riusciamo, almeno in questa fase dell'analisi, ad intravedere al-
cun ciclo;
(iii) IPR cresce pi velocemente di IPE, infatti pur partendo entrambe dallo stesso valore pari
ad 1, la prima raggiunge un massimo di 1.411, mentre il massimo della seconda pari a
solo 1.267. Questo implica che, a parit di produzione, vi stato un risparmio di ener-
gia.

Data la serie X
t
, t=1,2,...,N,

la serie degli indici a base mobile si ottiene dividendo ciascun elemento di X
t
per
quello immediatamente precedente X
t-1
. In simboli

t-1
IX
t
=
X
t
X
t-1
per t=2,3,...,N.

Di solito
t-1
IX
t
viene moltiplicata per 100 per esprimerla come una per-
centuale.
Gli indici sopra definiti vengono detti anche concatenati e come si vede
immediatamente nella serie
t-1
IX
t
si perde la prima informazione: essa costi-
tuita solo da N-1 valori. A differenza di
r
IX
t
, che misura le variazioni che inter-
vengono fra il periodo corrente t e quello base r, la serie
t-1
IX
t
misura le varia-
zioni che intercorrono fra il periodo corrente t e quello immediatamente prece-
dente t-1 e quindi mette in evidenza variazioni di breve periodo.
Dato {
t-1
IX
t
, X
1
} possiamo sempre risalire iterativamente ad X
t
tramite
la seguente

t-1
IX
t
X
t-1
=
X
t
X
t-1
X
t-1
= X
t
, per t=2, 3, ..., N;

questo implica che tutte le informazioni di X
t
sono contenute in {
t-1
IX
t
, X
1
} e
viceversa.
Dall'indice a base mobile
t-1
IX
t
possiamo sempre risalire a quello a base
fissa
1
IX
t
e viceversa. Infatti, se consideriamo che l'indice a base fissa al tempo
1,
1
IX
1
, sempre pari ad uno e che l'indice a base fissa al tempo 2,
1
IX
2
, coin-
cide con quello a base mobile si ha che, nota la serie a base mobile, si ottiene
quella a base fissa tramite la seguente

1
IX
2 2
IX
3

3
IX
4
...
t-1
IX
t
=
X
2
X
1

X
3
X
2

X
4
X
3
...
X
t
X
t-1
=
X
t
X
1
=
1
IX
t
,

t = 2,3,...,N.

Naturalmente, una volta ottenuto
1
IX
t
possiamo ottenere una serie con base
fissa diversa dal tempo 1 ricorrendo al relativo cambio di base. Viceversa, nota
la serie a base fissa, otteniamo quella a base mobile utilizzando la seguente

Capitolo 5 152
1
IX
t
1
IX
t-1
=
X
t
X
1
:
X
t-1
X
1
=
X
t
X
1

X
1
X
t-1
=
t-1
IX
t
, t = 2,3,...,N.

Questo vuole dire che tutte le informazioni contenute nella serie a base fissa
sono contenute in quella a base mobile e viceversa.
Nell'esempio che segue vediamo come si calcola una serie a base mobile
con la relativa rappresentazione grafica.

Esempio 4
Qui di seguito calcoliamo e riportiamo i primi dodici valori della serie a base mobile
per la produzione di energia elettrica e gas e la serie a base mobile derivata da quella a base
fissa
r
IPR
t
. Inoltre, delle due serie a base mobile cos calcolate riportiamo e commentiamo i
relativi grafici .

Indici a base mobile calcolati per la serie PE
t
e
r
IPR
t
.
t PE
t r
IPR
t

t-1
IPE
t t-1
IPR
t
t PE
t r
IPR
t t-1
IPE
t t-
1
IPR
t

1 13.005 108.1 ---- -----
2 11.521 117.9 0.886 1.091
3 12.278 119.2 1.066 1.011
4 11.577 121.8 0.943 1.022
5 11.899 128.7 1.028 1.057
6 11.330 127.5 0.952 0.991
7 12.045 122.2 1.063 0.958
8 10.059 68.4 0.835 0.560
9 11.754 133.7 1.169 1.954
10 12.558 130.1 1.068 0.973
11 11.924 134.6 .950 1.035
12 12.189 128.6 1.022 0.955

t

t

Dall'analisi dei grafici delle due figure ricaviamo alcune informazioni di estremo inte-
resse:
(a) mentre la serie originaria mostrava un trend crescente pi o meno accentuato, nella serie
degli indici a base mobile tale trend praticamente scomparso;
(b) la stagionalit presente nella serie originaria continua ad essere presente in quella degli
indici a base mobile.

Generalizzando quanto abbiamo visto nell'esempio, possiamo conclude-
re che

se in X
t
vi trend e stagionalit, in generale, nella serie degli indici a base mobi-
le
t-1
IX
t
rimane solo la stagionalit mentre scompare il relativo trend.

Quanto abbiamo detto fino ad ora pu essere esteso al caso in cui si vo-
glia misurare le variazioni che intercorrono fra X
t
ed X
t-s
costruendo la serie
degli indici a base mobile s

t-s
IX
t
=
X
t
X
t-s
, per t = s+1, s+2,...,N

La costruzione di una tale serie utile quando i dati, raccolti con cadenza
infra-annuale, per esempio s all'anno, presentano un andamento stagionale di
periodo s, nel senso che in X
t
vi un'onda ciclica, pi o meno regolare, che si
esaurisce in ciascun anno. Cos, se i dati sono mensili, e quindi se ne raccolgono
12 all'anno, si ha s=12, per dati trimestrali se ne raccolgono 4 all'anno e risulta
s=4, se i dati sono bimestrali se ne raccolgono 6 all'anno e si ha s=6. In questi
casi si spesso interessati a confrontare i dati distanziati s tempi in modo da
eliminare il peso che la stagionalit esercita sull'evoluzione della serie. Cos, per
Capitolo 5 154
dati mensili si interessati a valutare le variazioni che intervengono fra un mese
e lo stesso mese dell'anno precedente, per cui si costruisce la serie degli indici a
base mobile 12:

t-12
IX
t
=
X
t
X
t-12
, per t=13, 14,...,N.

Si pu verificare che se in X
t
vi stagionalit di periodo s tale stagionalit
scompare nella serie degli indici
t-s
IX
t
.

Esempio 5
Consideriamo la serie PE
t
, abbiamo visto che in questa vi un modesto trend crescen-
te, almeno nella prima parte della serie, ed una accentuata stagionalit. In questo caso, dato
che si tratta di una serie mensile, risulta s=12 e la rappresentazione grafica di
t-12
IPE
t

riportata nella figura seguente.

t-12
IPE
t

t

Come possiamo notare, dalla serie degli indici stato eliminato sia il trend che la stagionalit
presente in quella originaria.

LA SERIE DELLE DIFFERENZE

Una trasformazione alternativa a quella vista in precedenza la trasfor-
mazione differenze. Qui di seguito illustreremo diversi tipi di differenze molto
utilizzate nelle pratiche applicazioni e ne analizzeremo le propriet pi rilevanti.
Data una serie storica X
t
, t=1,2,...,N,


la serie delle differenze, dette anche differenze assolute o differenze prime, data dal-
la seguente

Z
t
= X
t
- X
t-1
, t=2,3,...,N

Per dire che la serie Z
t
la differenza di X
t
si usa anche la simbologia se-
guente

Z
t
= X
t
, t=2,3,...,N;

Osserviamo che nella serie degli indici a base mobile si confronta X
t
con l'os-
servazione precedente X
t-1
tramite il rapporto, mentre nella serie delle differen-
ze prime il confronto avviene utilizzando la differenza. Nella serie delle diffe-
renze si perde la prima informazione X
1
. Inoltre, noto {Z
t
, X
1
} si pu, iterati-
vamente, derivare X
t

X
t
= Z
t
+ X
t-1
, t=2,3,...,N;

questo vuole dire che tutte le informazioni contenute in X
t
sono pure contenu-
te in {Z
t
, X
1
}. Infine, nella serie delle differenze assente l'eventuale trend li-
neare esistente in X
t
.

Esempio 6
Il grafico delle differenze prime di PE
t
riportato nella figura seguente

PE
t

t

Capitolo 5 156

Abbiamo pi volte osservato che questa serie composta sostanzialmente da due sottoserie: la
prima relativa ai primi cinque anni di osservazione e la seconda relativa ai restanti sei anni.
Queste due serie hanno una struttura sostanzialmente differente come evidenziato nella ta-
bella che segue.

Confronto fra le due sottoserie che compongono la serie PE
t
.

PE
t
PE
1t
PE
2t

Medie 0.014 0.041 -0.008
Scarti quadratici medi 1.224 1.124 1.342

In questa tabella con PE
1t
abbiamo indicato la serie delle differenze relative alle osserva-
zioni dei primi cinque anni e con PE
2t
quelle relative ai rimanenti sei anni. Da questi dati
emerge la diversa struttura delle due sottoserie. In particolare, la prima sottoserie meno va-
riabile della seconda; ci emerge anche dai box-plot delle due sotto serie e dai rispettivi grafici
riportati qui di seguito

t

Grafico della sottoserie PE
1t


t

Grafico della sottoserie PE
2t

Come possiamo notare da questi grafici, nella serie delle differenze scomparso l'eventuale
trend lineare esistente in quella originaria, ma viene conservata la stagionalit.

La constatazione fatta nell'esempio 6, cio la scomparsa del trend lineare
ed il mantenimento della stagionalit nella serie delle differenze, permette di va-
lutare, approssimativamente, il peso che il trend lineare ha sull'evoluzione di un
dato fenomeno X
t
tramite la seguente

= 1 -
2
x
2
x

ove
2
x
= var(X
t
) mentre
2
x
= var(X
t
).

Quest'indice utile, oltre che a valutare il peso del trend in X
t
, anche per
stabilire se il caso di procedere alla costruzione della serie delle differenze. In-
fatti, intuitivo che X
t
ha senso differenziarla solo se >0, ed il peso del
trend tanto pi elevato quanto pi l'indice si avvicina all'unit.

Esempio 7
Calcoliamo l'indice per PE
t
, PE
t
e per le relative due sottoserie che abbiamo
individuato nell'esempio 6.

Capitolo 5 158

PE
t

PE
t

PE
1t

PE
1t

PE
2t

PE
2t

2

2.322 1.535 1.615 1.241 1.457 1.777

----- .339 ----- .232 ----- -.219

La serie delle differenze Z
t
= X
t
pu essere utilizzata per individuare e misu-
rare l'esistenza di valori eccezionali in X
t
che spesso sono mascherati dalla presen-
za del trend. In pratica, si considerano eccezionali quei valori di X
t
che presen-
tano ambedue le caratteristiche seguenti:

si discostano sostanzialmente, in positivo o in negativo, dalla tendenza di
fondo di X
t
;
la loro presenza dovuta a fattori specifici, contingenti e non sistematici
e quindi non sono legati alla legge di evoluzione di X
t
.
In tale ottica non sono da considerare eccezionali le fluttuazioni, anche
rilevanti, dovute alla stagionalit o al ciclo-trend.
In particolare, se al tempo s vi un valore eccezionalmente grande in X
t
e si
costruisce il grafico sul tempo della serie delle differenze Z
t
questo presenter
due picchi uno per t=s ed uno per t=s+1. In particolare, Z
s
sar eccezionalmen-
te grande, Z
s+1
sar eccezionalmente piccolo e risulter |Z
s
| |Z
s+1
|. Se in
X
t
, per t=s, vi un valore eccezionalmente piccolo, quanto abbiamo detto continua a
valere con l'unica differenza che Z
s
risulta piccolo mentre Z
s+1
grande. Una
conferma dell'esistenza di valori eccezionali si ottiene costruendo il box-plot di
Z
t
. Se in X
t
, per t=s, vi un valore eccezionale il box-plot di Z
t
fornir due va-
lori estremi situati uno nella coda di sinistra ed uno in quella di destra. La stessa
cosa si dovr evidenziare nel diagramma gambo-foglie di Z
t
.

Ovviamente, se
nella serie vi sono pi valori eccezionali la situazione sopra descritta si ripeter
di conseguenza. Se il numero dei valori eccezionali elevato rispetto al numero
N delle osservazioni della serie, in pratica se si supera il 20% delle osservazioni
di X
t
, vuole dire che questi valori non sono pi "eccezionali" ma costituiscono
una caratteristica del fenomeno. In tal caso si rende necessario indagare sulle
cause che li generano oltre che sulla loro struttura e distribuzione.
Una volta stabilito che X
s
un valore eccezionale di X
t
, possiamo valu-
tare il suo effetto sull'evoluzione della serie confrontando

var(Z
t
) =
1
N-1

t=2
N
(Z
t
-
z
)
2
con il contributo alla variabilit del valore eccezionale dato da

A
s
=
1
N-1
[(Z
s
-
z
)
2
+ (Z
s+1
-
z
)
2
],

ottenendo
A
s
var(Z
t
)

che misura quanta parte della variabilit di Z
t
dovuta alla presenza del valore
eccezionale X
s
. Gli esempi seguenti chiariscono quanto abbiamo fino ad ora
affermato.

Esempio 8
Consideriamo la serie M
t
. Abbiamo gi intravisto che in questa esistono due valori
eccezionalmente elevati. Per meglio metterli in evidenza presentiamo la serie delle differenze
M
t
ed il relativo box-plot

t

Dal grafico di M
t
emerge come la stagionalit presente nella serie originaria sia ancora
riscontrabile in quella delle differenze, mentre i due valori eccezionali sono diventati molto
netti, ci confermato in modo inequivocabile anche dal relativo box-plot.
Capitolo 5 160
Esempio 9
Consideriamo la serie mensile dei Depositi in conto corrente e postale rilevata nel pe-
riodo gennaio 1972 - dicembre 1982 (espressa in centinaia di migliaia di miliardi di lire) che
indichiamo con DC
t
. Questa serie, riportata nella figura seguente, mostra un marcato trend
di tipo esponenziale e si intravede, specie negli ultimi anni, una modesta componente stagiona-
le. Inoltre, da una prima analisi del grafico della serie non sembra che in questa siano riscon-
trabili valori eccezionali.

t

Se della serie DC
t
consideriamo la serie delle differenze e ne costruiamo la
rappresentazione sul tempo otteniamo il grafico seguente che ci riserva qualche sorpresa

t

Infatti:
(a) i picchi che si riscontrano alle osservazioni t=52 e t=53 mostrano chiaramente che
DC
52
un valore eccezionalmente basso rispetto all'andamento complessivo del fenomeno;
(b) nella serie vi una componente stagionale che era sostanzialmente mascherata dal trend;
(c) emerge chiaramente l'evoluzione di tipo esponenziale del fenomeno.

L'uso delle differenze pu essere utile per mettere in evidenza e valutare
i cambiamenti di livello, dovuti a specifici fattori, che avvengono in una data serie
storica. Per essere pi precisi, supponiamo che nella serie X
t
sia avvenuta una
variazione del suo livello medio complessivo a partire dalla osservazione X
s+1
.
Questo vuole dire che:

- se il cambiamento di livello positivo, allora il grafico di Z
t
presenta un valore
eccezionalmente basso, dovuto all'aumento del livello in X
t
;
- se il cambiamento di livello in negativo, lo stesso grafico presenta un valore
eccezionalmente alto, dovuto ad una diminuzione del livello in X
t
.

Un modo per valutare il peso del cambio del livello sulla evoluzione della
serie dato dal seguente indice

*
s
=
L
s
var(Z
t
)

ove si posto
L
s
=
1
N-1
(Z
s
-
z
)
2
,

che misura quanta parte della variabilit di Z
t
dovuta al cambiamento di livello
in t=s. L'esempio seguente illustra i concetti riportati.

Esempio 10
Consideriamo la serie D
t
e da questa deriviamo quella delle differenze D
t
, il suo
grafico riportato nella figura seguente

t

Come possiamo notare dal grafico, la serie presenta una struttura molto complessa e, fra l'al-
tro, vi un valore eccezionalmente basso in corrispondenza della 92-esima osservazione dovu-
ta alla netta caduta del livello avvenuta a partire da D
92
da attribuire ad una amnistia con-
Capitolo 5 162
cessa in quel mese dal governo.

Di una serie storica possono essere calcolate, invece che le differenze
prime, le differenze di ordine superiore applicando iterativamente la procedura
della differenziazione. In particolare,

la serie delle differenze seconde derivata da X
t
data da

V
t
=
2
X
t
= Z
t
= Z
t
- Z
t-1
= (X
t
- X
t-1
) - (X
t-1
- X
t-2
) =
= X
t
- 2X
t-1
+ X
t-2

Nella serie V
t
si perdono le prime due osservazioni
Le serie, specie quelle economiche, che vengono rilevate con cadenza in-
fra-annuale sono influenzate spesso dalla stagionalit. In questo caso, se si vuo-
le isolare e valutare il peso di questo aspetto sulla evoluzione della serie ne-
cessario ricorrere alla

serie delle differenze stagionali. Pi precisamente, se il periodo stagionale s, la serie
alle differenze stagionali data da

Z
t
=
s
X
t
= X
t
- X
t-s
, t= s+1, s+2, ..., N

ove
s
la differenza stagionale, e risulta s=12 per serie mensili, s=6 per serie
bimestrali, s=4 per serie trimestrali, s=2 per serie semestrali ecc. Se per sempli-
cit di esposizione supponiamo che sia s= 12, derivare Z
t
=
12
X
t
significa
calcolare le variazioni intervenute fra un mese e lo stesso mese dell'anno prece-
dente (fra gennaio e gennaio precedente, febbraio e febbraio precedente e cos
via).
Una caratteristica della serie Z
t
=
12
X
t
che se in X
t
vi sono onde pe-
riodiche annuali o di sottomultipli dell'anno, queste scompaiono da Z
t
, ma la
differenza stagionale elimina dalla serie anche buona parte dell'eventuale trend
in essa presente. Inoltre, se X
k
un valore eccezionalmente grande, rispetto
all'andamento generale di X
t
, allora nella serie delle differenze stagionali Z
t
=
s
X
t
vi un valore eccezionalmente grande in Z
k
ed uno eccezionalmente pic-
colo in Z
k+s
, cio s osservazioni dopo.
Per valutare, in prima approssimazione, l'incidenza della stagionalit sulla
evoluzione della serie possiamo utilizzare l'indice
s
= 1 -
2
2
x
x
s

ove con
2
x
s
abbiamo indicato la varianza di

s
X
t
. Pi tale indice vicino ad
uno e pi forte la stagionalit di X
t
. Se questo indice vicino a zero o addirit-
tura negativo allora vi pratica assenza di stagionalit.
Se in una serie vi sia forte trend che stagionalit, si possono usare en-
trambe le differenze calcolando la serie delle differenze prime delle differenze
stagionali. Per dati mensili si ha

12
X
t
= (X
t
- X
t-12
) = X
t
- X
t-1
- X
t-12
+ X
t-13
, per t=14,15,...,N

Data una serie X
t
, per valutare quali differenze bisogna usare si procede per
tentativi calcolando
2
x
,
2
x
,
2
x
s
,
2
x
s
;

si sceglie, quindi, la differenziazione la cui varianza la pi piccola fra le quattro
sopra riportate.
L'esempio che segue mostra come la procedura pu essere utilizzata in
alcune delle serie gi presentate nelle pagine precedenti.

Esempio 11
Consideriamo la serie M
t
e da questa costruiamo le serie delle differenze: M
t
,
12
M
t
,
12
M
t
, otteniamo le seguenti figure.

M
t
t

Capitolo 5 164
12
M
t

t

12
M
t

Dall'analisi di queste figure notiamo che:
(a) l'uso della differenza prima non elimina la stagionalit, ma mette in evidenza l'esistenza
di valori eccezionali;
(b) l'uso della differenza dodici elimina la stagionalit e rende ancora pi chiara l'esistenza
dei due valori eccezionali presenti nella serie;
(c) l'uso congiunto della differenza prima e della differenza stagionale non produce alcun mi-
glioramento interpretativo sulla serie M
t
ma raddoppia i picchi dovuti ai valori ecceziona-
li.
Se per M
t
, M
t
,
12
M
t
,
12
M
t
calcoliamo la relativa varianza otteniamo i ri-
sultati riportati nella tabella seguente.

Varianze e indice per le serie delle differenze relative a M
t
.

M
t

M
t

12
M
t

12
M
t

2

1.241 .755 .661 .948

----- .392 .467 .236

Da questi dati risulta confermato che la differenza stagionale quella appropriata e che la
stagionalit spiega circa il 46% della variabilit di M
t
. Notiamo ancora che la media di
12
M
t
pari a -.005 e che i quattro valori derivati dai due eccezionali sono pari rispettiva-
mente a -2, 3.5, -4.2, 3.3 per cui l'incidenza di tali valori sulla varianza di
12
M
t
data
da

A =
1
120
[(-2+.005)
2
+(3.5-.005)
2
+(-4.2+.005)
2
+(3.3+.005)
2
] = .373

che rapportata alla varianza di
12
M
t
d .373/.616 = .606. Questo vuole dire che pi del
60% della varianza di
12
M
t
dovuta all'esistenza dei due valori eccezionali. Ci implica
che se M
t
viene depurata da tali valori l'incidenza della stagionalit sulla sua evoluzione ri-
sulta molto pi rilevante.

5.4 Gli indici dei prezzi

Nel caso in cui il carattere osservato il prezzo, P
t
per t=1,2,...,N, di un
dato bene e della serie dei prezzi si costruiscono i relativi indici, siano essi a ba-
se fissa o a base mobile, si parla di indici dei prezzi. Le variazioni che mettono in
rilievo gli indici dei prezzi sono una misura dell'inflazione. La serie degli indici dei
prezzi al tempo t in base x, di solito, viene indicata pi semplicemente come:
x
I
t
=
P
t
P
x

Naturalmente, tutte le analisi ed interpretazioni viste nelle pagine precedenti
valgono sia per la serie P
t
che per quella degli indici.
Nel caso dei prezzi, la serie degli indici a base fissa misura le variazioni
storiche che si sono verificate nei prezzi, mentre quella a base mobile misura le
variazioni congiunturali. Come gi visto in generale, le due serie sono comples-
sivamente equivalenti e quindi forniscono, da prospettive diverse, la stessa
quantit di informazione sull'evoluzione dei prezzi del bene considerato.
Spesso, quando si analizzano le variazioni di un sistema di prezzi si interessati a
misurare le variazioni complessive dei prezzi di pi beni rilevati in tempi e luoghi diversi.
Questo porta alla costruzione degli
Capitolo 5 166
INDICI DEI PREZZI COMPOSTI O PONDERATI

Come gi osservato, molto spesso nelle analisi economiche si interessa-
ti a studiare le variazioni dei prezzi di pi beni o, addirittura, di un intero mer-
cato. Lo strumento idoneo per ottenere tali misure sono appunto gli indici dei
prezzi composti. Questi vengono anche chiamati sintetici oppure ponderati. A tale
proposito supponiamo di avere rilevato i prezzi di k beni B
i
, i=1,2,...,k, in n
tempi diversi. Si osservi che alcuni di questi k beni possono essere piazze diver-
se in cui rilevato il prezzo dello stesso bene. Questi nk prezzi possono essere
elencati in una tabella come quella qui di seguito riportata

t\
B

B
1
B
2
B
3
B
k

1 P
11
P
12
P
13
P
1k

2 P
21
P
22
P
23
P
2k

3 P
31
P
32
P
33
P
3k

n P
n1
P
n2
P
n3
P
nk

ove nel generico prezzo P
ti
il primo indice t=1,2,...,n rappresenta il tempo, men-
tre il secondo indice i=1,2,...,k rappresenta il diverso bene o piazza su cui il
prezzo stato rilevato. Cos
P
11
indica il prezzo del bene B
1
rilevato al tempo t=1;
P
23
indica il prezzo del bene B
3
rilevato al tempo t=2 e cos via.

Abbiamo visto che nel caso in cui gli n prezzi si riferivano allo stesso be-
ne, il relativo indice
x
I
t
era definito come rapporto fra prezzo del bene al tempo
t e prezzo al tempo x. Questo tipo di procedura non pu essere pi utilizzata
nel caso si voglia misurare la variazione congiunta dei prezzi di pi beni. In tal
caso per risolvere il problema si confrontano non i singoli prezzi ma medie di
prezzi. Cos, se indichiamo con (P)
t
la media dei k prezzi al tempo t e con
(P)
x
la media dei prezzi al tempo x la variazione media dei prezzi fra il tempo x
e quello t ci fornisce il relativo indice sintetico:

indice dei prezzi composto
x
I
t
=
(P)
t
(P)
x
=
media dei prezzi al tempo t
media dei prezzi al tempo x

A questo punto necessario capire il tipo di media da prendere in consi-
derazione. Notiamo intanto che le medie devono essere ponderate per tenere
conto della diversa importanza che i vari beni hanno nel mercato che si analizza
e devono essere sensibili alle variazioni dei prezzi. Visto che si tratta di indici di
prezzi di beni, il modo pi ovvio per tenere conto nella costruzione delle medie
del diverso peso quello di considerare come pesi le quantit che indicheremo
con q
ti
. Queste saranno le quantit consumate, cio quelle scambiate fra imprese e
famiglie, se l'indice deve misurare le variazioni dei prezzi al consumo, le quantit
prodotte se l'indice deve misurare le variazioni dei prezzi alla produzione, le quan-
tit scambiate fra imprese se l'indice riguarder le variazioni dei prezzi all'ingros-
so, ecc.
Si osservi che, se rilevare sistematicamente i prezzi di beni e per tutto il
territorio nazionale richiede una organizzazione capillare ed un forte impegno
finanziario, ancora pi complicato rilevare le quantit siano esse quelle con-
sumate, prodotte o scambiate. Per questi motivi, di solito, vengono considerati
come pesi alternativamente:

le quantit relative all'anno base
le quantit relative all'anno corrente

Se si considerano come pesi le quantit relative all'anno base si ottiene

l'indice di Laspeyres
x
I
L
t
=

i=1
k
P
ti
q
xi
i=1
k
q
xi

i=1
k
P
xi
q
xi
i=1
k
q
xi
=
i=1
k
P
ti
q
xi
i=1
k
P
xi
q
xi

Come si pu notare, per il calcolo dell'indice necessario rilevare i prezzi
in tutti i tempi in cui si calcola e le sole quantit relative al periodo scelto come
base. Ovviamente, se si cambia periodo base bisogna rilevare delle nuove
quantit.
Capitolo 5 168
tit.
Si osservi che P
xi
q
xi
rappresenta il valore dell'i-esimo bene al tempo x
scelto come base. Questo vuole dire che l'indice di Laspeyres si pu anche
formulare nel modo seguente:

x
I
L
t
=
Valore al tempo t delle merci relative al tempo x
Valore al tempo x delle merci relative al tempo x

cio come rapporto fra valori delle merci che entrano nella composizione (in
termini tecnici paniere) dell'indice.

Esempio 12
Se si vuole calcolare
3
I
L
1
si ha

3
I
L
1
=
i=1
k
P
1i
q
3i
i=1
k
P
3i
q
3i
=
P
11
q
31
+ P
12
q
32
+... + P
1k
q
3k
P
31
q
31
+ P
32
q
32
+... + P
3k
q
3k

e come si vede, nell'indice sono coinvolte la prima e la terza riga della tabella dei prezzi sopra
presentata e la riga delle quantit relative al tempo base. Allo stesso modo avremo che

3
I
L
2
=
i=1
k
P
2i
q
3i
i=1
k
P
3i
q
3i
=
P
21
q
31
+ P
22
q
32
+... + P
2k
q
3k
P
31
q
31
+ P
32
q
32
+... + P
3k
q
3k

ed in tal caso nella costruzione dell'indice sono coinvolte la seconda e la terza riga della tabella
dei prezzi e la stessa riga delle quantit.

Se si utilizzano come pesi le quantit dell'anno corrente si ottiene


l'indice di Paasche
x
I
P
t
=

i=1
k
P
ti
q
ti
i=1
k
q
ti

i=1
k
P
xi
q
ti
i=1
k
q
ti
=
i=1
k
P
ti
q
ti
i=1
k
P
xi
q
ti

Dato che l'indice di Paasche pondera con le quantit dell'anno corrente,
ogni volta che si calcola un indice, anche se non si cambia base, necessario
rilevare le quantit. Questo vuol dire che l'indice di Paasche pi costoso dell'in-
dice di Laspeyres.

Esempio 13
Se si vuole calcolare
3
I
P
1
si ha

3
I
P
1
=
i=1
k
P
1i
q
1i
i=1
k
P
3i
q
1i
=
P
11
q
11
+ P
12
q
12
+... + P
1k
q
1k
P
31
q
11
+ P
32
q
12
+... + P
3k
q
1k

e come si vede, nell'indice sono coinvolte la prima e la terza riga della tabella dei prezzi sopra
presentata e la prima riga delle quantit relative al tempo corrente. Allo stesso modo avremo
che

Capitolo 5 170
3
I
P
2
=
i=1
k
P
2i
q
2i
i=1
k
P
3i
q
2i
=
P
21
q
21
+ P
22
q
22
+... + P
2k
q
2k
P
31
q
21
+ P
32
q
22
+... + P
3k
q
2k

ed in tal caso nella costruzione dell'indice sono coinvolte la seconda e la terza riga della tabella
dei prezzi e la seconda riga delle quantit relative al tempo corrente. Come si pu notare,
ogni volta che si calcola un indice necessario disporre delle quantit relative al tempo a cui
l'indice si riferisce.

Anche l'indice di Paasche pu essere interpretato come rapporto fra va-
lori. Infatti, il numeratore dell'indice esprime il valore delle merci al tempo cor-
rente, mentre il denominatore rappresenta il valore delle stesse merci valutate
con i prezzi del tempo scelto come base:

x
I
P
t
=
Valore al tempo t delle merci relative al tempo t
Valore al tempo x delle merci relative al tempo t

Per gli indici composti, come per quelli semplici, si derivano con una
tecnica del tutto simile quelli a base fissa e quelli a base mobile. Inoltre, pos-
sibile passare, anche se tecnicamente la cosa risulta pi complicata dato che bi-
sogna tener conto dei coefficienti di raccordo pubblicati dall'ISTAT, da una ba-
se all'altra.
I due indici composti sopra illustrati (Laspeyres e Paasche), anche se so-
no derivati con una ponderazione molto diversa, in pratica presentano lievi dif-
ferenze numeriche. Per questo motivo si utilizza, quasi sempre, visto che
quello meno oneroso, l'indice di Laspeyres. Da un punto di vista teorico, per, i
due indici presentano propriet statistiche contrapposte: il primo tende a sotto-
valutare gli aumenti di prezzi (tendenziosit negativa), mentre il secondo tende
a sopravvalutarli (tendenziosit positiva). Per ovviare a questo inconveniente
stato proposto, con poca fortuna visto che raramente usato, un ulteriore indi-
ce composto:

l'indice ideale di Fisher definito come media geometrica dei due indici sopra men-
zionati:
x
I
F
t
=
x
I
L
t

x
I
P
t

Se negli indici che abbiamo presentato si scambiano i prezzi con le quan-
tit, se in altri termini si interessati alle variazioni delle quantit utilizzando i
prezzi come pesi, si ottengono indici di quantit come, per esempio, l'indice della
produzione industriale.

LA DEFLAZIONE DELLE SERIE MONETARIE

Gli indici dei prezzi servono, oltre che a misurare le variazioni intervenu-
te nei prezzi di uno (indici semplici) o pi beni (indici composti), a ridurre una
serie monetaria ad una serie a prezzi costanti. Questo tipo di procedura prende il
nome di deflazione. Le serie monetarie sono quelle serie che sono espresse in u-
nit di conto come: redditi, risparmi, consumi, investimenti, debito pubblico
ecc.
Per capire perch utile in molti casi trasformare una serie monetaria da
prezzi correnti a prezzi costanti, supponiamo di avere, a fini puramente esplica-
tivi dato che la logica si estende ad una qualsiasi serie monetaria, la serie dei
redditi rilevati in n tempi diversi:

R
1
, R
2
, R
3
, ..., R
n

Supponiamo ora che il mercato sia composto da un solo bene ed indichiamo
con P
t
e q
t
, t=1,2,...,n, i prezzi e le quantit acquistate con quei redditi. Ovvia-
mente avremo che:

R
1
= P
1
q
1
, R
2
= P
2
q
2
, R
3
= P
3
q
3
, ..., R
n
= P
n
q
n

e come si vede, le eventuali variazioni intervenute nei prezzi sono da attribuire
sia alle variazioni dei prezzi che a quelle delle quantit. In molti casi, per esem-
pio se si interessati a sapere se la capacit di acquisto aumentata o meno nel
tempo, importante sapere quanto delle variazioni da attribuirsi alle quantit.
Per far questo basta esprimere quei redditi con il prezzo di un dato anno. E'
proprio questa tecnica che prende il nome di deflazione.
Supponiamo che si voglia esprimere quei redditi con il prezzo P
3
co-
struendo la serie a prezzi costanti del tempo 3. Per far questo necessario con-
siderare la serie degli indici dei prezzi a base fissa con base al tempo t=3 ed ot-
tenere la serie deflazionata nel modo seguente:

R
*
1
=
R
1
3
I
1
, R
*
2
=
R
2
3
I
2
, R
*
3
=
R
3
3
I
3
, ..., R
*
n
=
R
n
3
I
n

Capitolo 5 172
E' facile verificare che la nuova serie R
*
t
, t=1,...,n, cos ottenuta espressa con il
prezzo P
3
. Infatti, ricordando che

3
I
t
=
P
t
P
3
, t=1,...,n

R
*
1
=
R
1
3
I
1
= P
1
q
1

P
3
P
1
= P
3
q
1

R
*
2
=
R
2
3
I
2
= P
2
q
2

P
3
P
2
= P
3
q
2

R
*
3
=
R
3
3
I
3
= P
3
q
3

P
3
P
3
= P
3
q
3
..........................................

R
*
n
=
R
n
3
I
n
= P
n
q
n

P
3
P
n
= P
3
q
n

ed i nuovi redditi sono espressi tutti con i prezzi del terzo tempo. In generale,
se si vuole esprimere questa serie a prezzi costanti con i prezzi del tempo x bi-
sogna considerare:

R
*
t
=
R
t
x
I
t
= P
t
q
t

P
x
P
t
= P
x
q
t
; t=1,2,...,n

Per esprimere la serie R
t
a prezzi costanti P
x
, basta dividere R
t
per l'indice
a base fissa
x
I
t
, t=1,2,...,n.

In realt, su un mercato non esiste un solo bene, ma ne esistono k per
cui risulta:
R
t
=
i=1
k
P
ti
q
ti
, t=1,2,..., n

in tal caso si avr che


per esprimere la serie R
t
a prezzi costanti del tempo x, basta dividere R
t
per l'in-
dice composto di Paasche a base fissa
x
I
P
t
, t=1,2,...,n.

Infatti, avremo
R
*
t
=
R
t
x
I
P
t
=

i=1
k
P
ti
q
ti
i=1
k
P
ti
q
ti
i=1
k
P
xi
q
ti
=
i=1
k
P
xi
q
ti
, t=1,2,...,n

Le variazioni che interverranno nella serie R
*
t
sono da attribuire esclusi-
vamente alle quantit dato che i prezzi sono sempre gli stessi. Il particolare in-
dice dei prezzi che viene utilizzato per effettuare la deflazione viene detto deflat-
tore. La scelta del deflattore in funzione del tipo di serie da rendere a prezzi
costanti. Cos, se si tratta del reddito disponibile delle famiglie come deflattore
bisogna considerare l'indice composto dei prezzi al consumo, se la serie da de-
flazionare quella dei profitti aziendali allora l'indice da usare come deflattore
sar quello dei prezzi all'ingrosso e cos via.
Naturalmente, se al posto dell'indice di Paasche si utilizza quello di La-
speyres, che meno costoso dell'altro, si ottiene una deflazione approssimata.

Capitolo 6

L'INTERPOLAZIONE LINEARE

6.1 Introduzione

In questo capitolo conclusivo affrontiamo il problema, di grande rile-
vanza pratica, riguardante l'esistenza di una relazione fra una data variabile (va-
riabile endogena o dipendente) ed una o pi variabili (variabili esplicative o indipenden-
ti). Il legame del tipo cause-effetto che supponiamo di tipo unidirezionale: sono
le variabili esplicative che causano quella dipendente, ma non ammesso, logi-
camente, il viceversa. Da un punto di vista formale, se indichiamo con Y la va-
riabile dipendente e con X
1
, X
2
, ..., X
k
le k variabili esplicative che entrano nel
problema si suppone che sia

Y = f(X
1
, X
2
, ..., X
k
; ) (1)

ove f( ) una qualche funzione nota a meno del vettore di parametri . Pi
precisamente:
X
1
, X
2
, ..., X
k
sono le cause
Y l'effetto
un vettore di parametri incogniti
f( ) una funzione nota

Se si escludono fenomeni di tipo fisico, ed anche in quell'ambito la cosa
discutibile, ben difficile sostenere che fra cause ed effetto vi sia una perfetta
relazione matematica. Di solito su Y, oltre alle k variabili esplicative (X
1
, X
2
, ...,
X
k
) individuate, esercitano la loro influenza tutta una serie di micro-cause di
difficile o impossibile osservazione che chiamiamo scarto per indicare aspetti
irrilevanti che possono essere scartati, eliminati. Queste micro-cause possono
essere rappresentate da una variabile non osservabile, che chiamiamo errore o
scarto, e che indichiamo con e. Un modo molto semplice per includere in Y
176 Capitolo 6
l'influenza di e quello di sommare questa variabile scarto nella (1) ottenendo

Y = f(X
1
, X
2
, ..., X
k
; ) + e (2)

Esempio 1
Indichiamo con R il reddito individuale di un certo insieme di soggetti, con C i relativi
consumi, dalla teoria economica sappiamo che ha senso scrivere

C = f(R) + e

In altri termini, con questa relazione diciamo che i consumi individuali sono una qualche
funzione del reddito individuale a cui si somma una variabile scarto che pu essere identificata
con i diversi gusti, la diversa religione, errori di misurazione ecc.
Indichiamo con D la domanda di un dato bene, P il prezzo unitario di quel bene, R
il reddito del consumatore, P
c
il prezzo unitario di un bene complementare, P
s
il prezzo uni-
tario di un bene sostitutivo, sappiamo dalla teoria economica che ha senso la relazione seguen-
te

D = f(P, R, P
c
, P
s
) + e

Indichiamo con CA il consumo di carburante e con CI la cilindrata di date autovet-
ture, ha senso scrivere la relazione seguente

CA = f(CI) + e.

Nella (2), per procedere oltre, esplicitiamo la forma funzionale di f( ) e
quindi ci poniamo cos in un ambito parametrico (le uniche incognite sono i
parametri presenti nel modello). Si potrebbe anche utilizzare un approccio
pi complesso, che in questa sede non viene presentato, in cui la forma fun-
zionale f( ) essa stessa incognita (caso non parametrico) e da stimare. Per
semplificare ancora gli sviluppi ed i risultati teorici, nel seguito supporremo che
f( ) sia lineare e di conseguenza parleremo di modello lineare.
Nel caso in cui vi sia una sola variabile esplicativa ed f( ) lineare si parla
di modello lineare semplice, se le variabili esplicative sono pi di una si parla di
modello lineare multiplo. Tratteremo in modo diffuso del modello lineare
semplice avvertendo che, almeno da un punto di vista concettuale, tutto ci
che viene detto per questo caso vale per quello, pi interessante da un punto di
vista applicativo, multiplo. La scelta di analizzare e presentare in modo detta-
gliato il modello lineare semplice che in tal caso molti sviluppi formali si
semplificano ed i relativi calcoli applicativi possono essere eseguiti anche con
una semplice calcolatrice tascabile. D'altro lato, almeno concettualmente, fare-
Il modello lineare 177
mo vedere come questi sviluppi si generalizzano al caso multiplo e presentere-
mo in tal senso anche qualche applicazione a fenomeni reali.

6.2 Il modello lineare semplice

Poniamo ora la nostra attenzione al caso di un modello di regressione li-
neare semplice. In altri termini, supponiamo che per i fenomeni che si stanno
studiando si pu ritenere valido un modello di regressione lineare semplice e
quindi che sia

Y =
o
+
1
X + e (3)

con: Y la variabile dipendente che descrive il fenomeno di interesse, X l'unica
variabile esplicativa (causa) di Y, e la variabile scarto non osservabile,
o
e
1

due parametri incogniti e da stimare.
Osserviamo che nella (3)
o
+
1
X rappresenta l'equazione di una retta
ove
o
la relativa intercetta mentre
1
il coefficiente angolare. Per poter
procedere alla stima dei parametri incogniti del modello (3) necessario avere
informazioni sulle due variabili osservabili Y ed X. A tale proposito supponia-
mo di disporre di n coppie di osservazioni effettuate sulla coppia di fenomeni
(X, Y) ottenendo la seguente rilevazione statistica:

(x
1
, y
1
), (x
2
, y
2
), ..., (x
n
, y
n
).

Naturalmente, queste n coppie di osservazioni possono essere analizzate
con gli strumenti della statistica descrittiva di cui abbiamo parlato nei capitoli
iniziali ed in particolare possono dare luogo ad una distribuzione di frequenza
doppia ed ai relativi indici descrittivi ivi presentati.
Se il modello (3) vero, e tale lo riteniamo fino a prova contraria, allora
sar vero per ogni coppia di osservazioni ottenendo

y
1
=
o
+
1
x
1
+ e
1

y
2
=
o
+
1
x
2
+ e
2
........................
y
n
=
o
+
1
x
n
+ e
n

ove e
1
il valore della variabile scarto non osservabile associata alla prima cop-
pia di osservazioni, e
2
il valore della variabile scarto non osservabile associata
alla seconda coppia di osservazioni, ....., e
n
il valore della variabile casuale scar-
178 Capitolo 6
to non osservabile associata alla n-esima coppia di osservazioni. Ovviamente, le
n coppie di osservazioni potrebbero anche costituire una serie storica doppia
osservata in n tempi diversi sulla stessa unit di rilevazione in tal caso anche e
i
,
i=1,2,...,n, risulta ordinata nel tempo.

Esempio 2
Nel caso del consumo in funzione del reddito, il modello lineare diviene

C =
o
+
1
R + e

ed avendo a disposizione le n coppie di osservazioni (c
i
, r
i
) avremo:

c
i
=
o
+
1
r
i
+ e
i
i=1,2, ..., n

Se le n coppie di osservazioni (c
i
, r
i
) sono state ottenute intervistando gli n individui di una
data popolazione allora queste sono scambiabili e le informazioni contenute nella rilevazione
doppia sono equivalenti a quella della distribuzione di frequenza doppia ad essa associata. Se
le n coppie di osservazioni si riferiscono sempre alla stessa unit di rilevazione (lo stesso indi-
viduo, oppure la stessa regione, oppure lo stesso paese) osservata in n tempi diversi, di solito
equispaziati, allora si ha una serie storica doppia le cui coppie di rilevazioni non sono scam-
biabili pena la perdita di informazioni sull'evoluzione temporale del fenomeno.

Una volta formulato il modello e ottenute le n coppie di osservazioni
necessario stimare i parametri incogniti. Per fare questo sembra plausibile che
gli scarti, in media, non abbiano alcuna influenza sul fenomeno Y e quindi che
risulti
n
e ... e e
n 2 1
+ + +
= 0

che equivale a supporre che sia

e
1
+e
2
+...+e
n
=0 (4)

Da quanto stato detto fino ad ora, rileviamo che in complesso i para-
metri da stimare sono
o
,
1
.
Se il modello lineare fosse stato multiplo, per esempio con le tre variabili
esplicative X, Z V, avremmo dovuto avere n quadruple di informazioni (y
i
, x
i
,
z
i
, v
i
), i=1,2,...,n, e per ciascuna di esse sarebbe risultato

y
i
=
o
+
1
x
i
+
2
z
i
+
3
v
i
+ e
i i=1,2,,n
(5)

In questo caso sarebbero quattro i parametri da stimare e precisamente:
o
,
1
,
2
,
3
.
Ritornando al caso semplice, tenuto conto dell'ipotesi (4) si ha
immediatamente

E(Y
i
) =
o
+
1
x
i
, i=1,2,...,n

questo vuol dire che Y, in media, una funzione lineare della X.

6.3 La derivazione dei parametri del modello

Dato il modello lineare semplice, utilizzando le n informazioni campio-
narie, stimiamo i due parametri
o
e
1
. Per far questo utilizziamo il Metodo dei
Minimi Quadrati.
Per capire come opera logicamente questo metodo di stima nel caso del
modello di regressione consideriamo la rappresentazione grafica a scatter delle
coppie di valori osservati (x
i
, y
i
), i=1,2,...,n. In altri termini, riportiamo su un
sistema di assi cartesiani le n coppie di punti osservati, si otterr una rappresen-
tazione tipo quella riportata nella figura seguente. Il problema che si vuole af-
frontare di adattare agli n punti la retta "ottimale" il che equivale a scegliere la
coppia di parametri ottimali (
o
,
1
) che descrivono tale retta. Come ben noto,
in n punti passano infinite rette e quella "ottimale" deve essere scelta secondo
una qualche funzione obiettivo.

180 Capitolo 6

Il metodo dei minimi quadrati, in sigla OLS (Ordinary Least Squares),
sceglie, fra le infinite rette possibili, quella che minimizza la somma dei quadrati
degli scarti.

Questo vuol dire che nel metodo dei minimi quadrati il criterio obiettivo
per la scelta della retta "ottimale" la minimizzazione della somma dei quadrati
degli scarti. Traduciamo quanto detto qui sopra in espressioni algebriche in
modo da poter ottenere delle formule operative per le stime dei due parametri
della retta in questione. Dalla relazione ipotizzata

y
i
=
o
+
1
x
i
+ e
i
, i=1,2,...,n

si ricavano gli n scarti:

e
i
= y
i
-
o
-
1
x
i
, i=1,2,...,n

e quindi la somma dei loro quadrati:

i=1
n
e
2
i
=
i=1
n
(y
i
-
o
-
1
x
i
)
2

e fra le infinite coppie (
o
,
1
) e quindi fra le infinite corrispondenti rette pos-
sibili scegliamo quella che minimizza l'ultima espressione,

cio quella per cui risulta

i=1
n
e
2
i
=
i=1
n
(y
i
-
o
-
1
x
i
)
2
= minimo(
o
,
1
)

La soluzione del problema di minimo per la ricerca dei valori da attribui-
re a
o
e
1
un problema prettamente matematico che in questo caso ha una
soluzione piuttosto semplice. Infatti, per trovare questo minimo basta conside-
rare le derivate prime di
e
2
i
rispetto alle due incognite
o
e
1
, uguagliarle
a zero, risolvere il relativo sistema di equazioni lineari. Pi precisamente:

) x y (
i 1 o i
n
1 i o

2
= 2 ) 1 )( x y (
i 1 o i
n
1 i

=

= -2
i=1
n
(y
i
-
o
-
1
x
i
)

= 0

) x y (
i 1 o i
n
1 i 1

2
= 2
i=1
n
(y
i
-
o
-
1
x
i
)(-x
i
) =

= -2
i=1
n
(y
i
-
o
-
1
x
i
) x
i

= 0.

Da cui, dividendo ambo i membri delle due equazioni per -2, deriviamo il se-
guente sistema lineare nelle due incognite
o
e
1
:

0
0
1
1
1
1
i
i o i
n
i
i o i
n
i
x ) x y (
) x y (

che posto
x =
1
n

i=1
n
x
i
y =
1
n

i=1
n
y
i

m
xy
=
1
n

i=1
n
x
i
y
i
m
2x
=
1
n

i=1
n
x
2
i

pu essere scritto

0 nm x n nm
0 x n n y n
x 2 1 o xy
1 o

182 Capitolo 6
Dividendo ambo i membri delle due equazioni per n, ricavando
o
dalla prima
equazione e sostituendolo nella seconda si pu scrivere

x 2 1
) x
1 xy
x
1 o
m y ( x m
y

Posto
S
xy
= m
xy
- x
-
y
-
: covarianza di (X, Y) sulle n coppie di osservazioni
(xi, yi)

S
2
x
= m
2x
- x
-

2
: varianza di X sulle n osservazioni xi
si ottiene

2
x 1 xy
1 o
S S
x y

Risolvendo rispetto ai due parametri incogniti si ha infine che

le stime dei minimi quadrati dei parametri della retta sono

^

1
=
S
xy
S
2
x
,
^

o
= y
-
-
^

1
x

L'equazione della retta che minimizza la somma dei quadrati degli scarti
data da

y
^
=
^

o
+
^

1
x

Osserviamo che:
(a)
^

1
e
^

o
non sono i valori veri
o
e
1
che sono funzioni anche dei valori
non osservabili di e, ma quelli ottenuti sulla base delle n coppie di osserva-
zioni (x
i
, y
i
), i = 1, 2, ..., n
(b) la retta di regressione passa sempre per il punto medio ( x , y ), infatti
sostituendo al posto di
^

o
si ottiene

^

o
+
^

1
x = (y
-
-
^

1
x ) +
^

1
x = y

(c) in corrispondenza di ciascuna x
i
osservata possibile individuare la relativa
y
i
interpolata, che indichiamo con y
^

i
, situata sulla retta:

y
^

i
=
^

o
+
^

1
x
i
, i=1,2,..,n

(d) dai valori osservati y
i
e da quelli interpolati y
^

i
possiamo derivare gli scarti,
che indichiamo con e
^

i
, dati da

e
^

i
= y
i
- y
^

i
i=1,2,..,n

(e) se ricordiamo che una delle propriet della media aritmetica quella di mi-
nimizzare la somma dei quadrati degli scarti ci rendiamo subito conto che la
retta ottenuta con il metodo dei minimi quadrati proprio una media ed
presumibile che i relativi parametri abbiano le stesse propriet della media;
(f) una conseguenza di quanto detto al punto (e) che la somma degli scarti in-
terpolati sempre nulla: la somma degli scarti positivi pari alla somma de-
gli scarti negativi. La dimostrazione formale di questa affermazione sem-
plice, infatti

i=1
n
e
^

i
=
i=1
n
(y
i
- y
^
i
) =
i=1
n
[y
i
- (
^

o
+
^

1
x
i
)] =

184 Capitolo 6

i=1
n
y
i
-
i=1
n

^

o
-
i=1
n

^

1
x
i
=
i=1
n
y
i
-
n
1 i
1
) x
y ( -
^

1
i=1
n

x
i
=

= n y - (n y - n
^

1
x ) - n
^

1
x = n y - n y + n
^

1
x - n
^

1
x = 0

che dimostra quanto affermato. Graficamente si ha una situazione simile a
quella riportata nella figura seguente

Una immediata implicazione di questa uguaglianza che

i=1
n
y
i
=
i=1
n
y
^

i

e dividendo ambo i membri per n segue immediatamente che la media delle y
i

osservate esattamente uguale alla media delle y
^

i
interpolate.

Esempio 3
Su 7 autovetture a gasolio, scelte a caso da un dato parco macchine, stato verificato
il consumo, per miglia, prima di un determinato intervento (variabile X) e dopo l'intervento
(variabile Y) ottenendo le 7 coppie di risultati seguenti

(17.2; 18.3) (21.6; 20.8) (19.5; 20.9) (19.1; 21.2)

(22.9; 22.7) (18.7; 18.6) (20.3; 21.9)

si vuole verificare se fra X ed Y esiste il legame lineare :

Y =
o
+
1
X + e

In questo caso notiamo che il legame logico del tipo X "causa" Y, infatti Y ottenuto "do-
po" X. Inoltre, se costruiamo la rappresentazione a scatter (X, Y) otteniamo la figura che
segue

18
19
20
21
22
23
17 18 19 20 21 22 23
Y

Da questo grafico deduciamo che il legame lineare ipotizzato abbastanza plausibile visto
che le sette coppie di osservazioni tendono a disporsi lungo una retta crescente. Per quanto ri-
guarda la stima di
o
e
1
con il metodo dei minimi quadrati, i calcoli possono essere orga-
nizzati come nella tabella seguente. A partire dalle 7 coppie di osservazioni (x
i
, y
i
), riportate
nelle prime due colonne della tabella, deriviamo le x
2
i
e x
i
y
i
riportate nella terza e quarta
colonna rispettivamente. Facciamo le somme delle quattro colonne cos ottenute:

x
i
y
i
x
2
i
x
i
y
i
y
^

i
e
^

i
= y
i
-y
^

i

17.20 18.30 95.840 14.760 18.60094 -0.300945
21.60 20.80 66.560 49.280 22.07043 -1.270433
19.50 20.90 80.250 07.550 20.41454 0.485460
19.10 21.20 64.810 04.920 20.09913 1.100868
22.00 22.70 84.000 99.400 22.38584 0.314161
18.70 18.60 49.690 47.820 19.78372 -1.183723
20.30 21.90 12.090 44.570 21.04536 0.854645
138.40 144.40 2753.240 2868.300 144.39996 0.000033

186 Capitolo 6
Dalla tabella deriviamo immediatamente:

x =
138.4
7
= 19.771429 y =
144.4
7
= 20.62857

m
2x
=
2753.24
7
= 393.32001 m
xy
=
2868.3
7
= 409.75715

S
2
x
= 2.4106 S
xy
= 1.9008

che ci permettono di ottenere le stime cercate

^

1
= 0.78852
^

o
= 5.0384

Una volta ottenute le stime dei due parametri deriviamo le stime della variabile dipendente:
i 1 0 i
x

y
+

y
^

1
=
^

o
+
^

1
x
1
= 5.0384 + (0.78852)17.20 = 18.600944
y
^

2
=
^

o
+
^

1
x
2
= 5.0384 + (0.78852)21.6 = 22.070432
.......................................................................................
y
^

7
=
^

o
+
^

1
x
7
= 5.0384 + (0.78852)20.3 = 21.045356

Ottenuti i valori stimati
i
y
(penultima colonna della tabella sopra riportata) deriviamo le

stime dei residui e
^

i
= y
i
-y
^

i
riportate nell'ultima colonna della citata tabella. Osserviamo,
infine, che teoricamente dovrebbe risultare

y
^

i
=
y
i

e
^

i
= 0

1 2 3 4 5 6 7
18
19
20
21
22
23
Y
Y
^

In pratica, per gli arrotondamenti che necessariamente devono essere fatti, queste uguaglianze
quasi mai sono verificate in modo esatto come si nota anche dalla tabella sopra riportata ove
le dette uguaglianze sono solo praticamente confermate, sono cio vere a meno di approssima-
zioni trascurabili.
Nel grafico qui sopra riportato abbiamo messo a confronto i valori osservati della variabile
dipendente Y con quelli ottenuti con il modello lineare. Vediamo che il modello ipotizzato
riesce a cogliere in modo accettabile il fenomeno preso in considerazione.
Nella figura seguente abbiamo riportato il diagramma a scatter fra i due fenomeni os-
servati con la relativa retta di regressione adattata e l'indicazione dell'ampiezza dei residui
stimati oltre che del relativo segno.

18
19
20
21
22
23
17 18 19 20 21 22 23
Y
X

Nell'esempio sopra riportato abbiamo mostrato in dettaglio come si pu
procedere per costruire le stime dei minimi quadrati dei due parametri
o
e
1

nel modello lineare semplice e come sia possibile con semplici strumenti grafici
verificare, in prima approssimazione, la bont del modello ipotizzato. In prati-
ca, i calcoli sopra riportati ed i relativi grafici non vengono fatti manualmente,
ma si utilizzano in modo sistematico gli strumenti che vengono forniti dalla
tecnologia. La diffusione e l'utilizzo intensivo dei computers (hardware) e dei
188 Capitolo 6
relativi programmi di calcolo (software) permettono di effettuare queste elabo-
razioni in modo preciso e veloce. Naturalmente l'utilizzatore deve sapere cosa
l'elaboratore sta calcolando e come i risultati vanno interpretati. Tutto questo
ancora pi rilevante quando il modello utilizzato di regressione multipla (le va-
riabili esplicative sono pi di una) e le relative elaborazioni bisogna necessaria-
mente effettuarle con tali strumenti avanzati. Teniamo conto che nelle pratiche
applicazioni molto spesso il modello di tipo multiplo. In questo caso la pro-
cedura di stima una semplice generalizzazione di quella vista ma, ripetiamo, i
calcoli diventano molto pi lunghi e complessi e quindi non eseguibili se non
con gli strumenti informatici ormai largamente disponibili.
Per rimanere nel concreto, supponiamo che il modello di cui vogliamo
stimare i parametri quello riportato nella (5)

y
i
=
o
+
1
x
i
+
2
z
i
+
3
v
i
+ e
i
, i=1,2,..,n

in questo caso necessario risolvere il seguente problema di minimo

i=1
n
e
2
i
=
i=1
n
(y
i
-
o
-
1
x
i
-
2
z
i
-
3
v
i
)
2
= minimo(
o
,
1
,
2
,
3
)

che si ottiene risolvendo rispetto a (
o
,
1
,
2
,
3
) il seguente sistema non o-
mogeneo di quattro equazioni lineari che ammetter, sotto l'ipotesi che fra le
tre variabili esplicative non vi siano perfetti legami lineari, una ed una sola solu-
zione:

0 2
0 2
0 2
0 2
1
3 2 1 0
1
2
3
1
3 2 1 0
1
2
2
1
3 2 1 0
1
2
1
1
3 2 1 0
1
2
0
i
n
i
i i i i
n
i
i
i
n
i
i i i i
n
i
i
n
i
i i i i i
n
i
i
n
i
i i i i
n
i
i
v ) v z x y ( e
z ) v z x y ( e
x ) v z x y ( e
) v z x y ( e

Nell'esempio che segue stimeremo un modello di regressione con tre va-
riabili esplicative e ne commenteremo i relativi risultati.

Esempio 4
Nella tabella seguente riportiamo i tassi relativi ai Nati vivi (NV), Matrimonialit
(MTR), Mortalit (MRT), in Cerca di prima occupazione (CPO) relativi al 1993 per le
venti regioni italiane:

NV MTR MRT CPO NV
^
e
^

Piemonte 7.5 4.9 11.4 2.507 8.024250 - 0.524250
Valle d'Aosta 7.4 4.8 10.1 1.201 8.094782 - 0.694782
Lombardia 8.4 4.7 9.0 1.739 8.341146 0.058853
Trentino-Alto A. 10.5 5.2 9.0 0.879 9.181734 1.318266
Veneto 8.2 5.0 9.1 1.495 8.847956 - 0.647956
Friuli-Ven. Giu. 7.2 4.4 12.5 1.581 6.582482 0.617518
Liguria 6.5 4.7 13.8 3.055 6.915501 - 0.415501
Emilia-Romagna 7.1 4.4 11.4 1.503 6.938589 0.161411
Toscana 7.0 4.6 11.5 2.468 7.413622 - 0.413622
Umbria 7.9 5.0 11.2 2.927 8.336814 - 0.436813
Marche 8.2 4.7 10.2 2.199 8.001959 0.198041
Lazio 9.7 4.9 8.9 4.835 9.162971 0.537028
Abruzzo 9.4 4.8 9.8 3.955 8.556788 0.843211
Molise 9.2 4.9 10.3 5.622 8.800165 0.399834
Campania 13.4 6.3 7.8 11.030 13.01526 0.384737
Puglia 11.7 6.1 7.5 7.281 12.23962 - 0.539623
Basilicata 9.4 5.5 8.3 7.199 10.81801 - 1.418008
Calabria 10.9 5.4 8.0 9.527 11.03327 - 0.133274
Sicilia 12.4 5.7 9.1 8.389 11.08948 1.310516
Sardegna 9.3 5.0 8.1 7.006 9.905586 - 0.605586
Italia 9.4 5.1 9.5 4.602 9.400000 0.000000

Le variabili sopra riportate sono state ottenute tramite le seguenti:

NV =
numero nati vivi nel 1993
popolazione media nel 1993
1000

MTR =
numero matrimoni nel 1993
1000

MRT =
numero morti nel 1993
1000

190 Capitolo 6
CPO =
n cerca 1 occupazione nel 1993
popolazione nel 1993
100

Osserviamo che utilizziamo dati relativi e non assoluti visto che vogliamo capire se esiste un
legame fra NV (l'effetto) e MTR, MRT, CPO (le cause) e questo ha senso solo se elimi-
niamo la diversa numerosit di popolazione esistente fra le diverse regioni italiane. Per i fe-
nomeni in studio ipotizziamo che il seguente modello lineare

NV =
o
+
1
MTR +
2
MRT +
3
CPO + e

sia idoneo a spiegare il fenomeno Nati vivi per le diverse regioni italiane. Da un punto di vi-
sta logico ci attendiamo che:

(a) fra Matrimoni e Nati vivi vi sia un legame lineare positivo (questo ci fa attendere un
1
>0) visto che logico supporre un aumento del tasso di natalit in corrispondenza del-
l'aumento del tasso di matrimonialit;
(b) il legame sia negativo fra Morti e Nati vivi (valore atteso di
2
< 0) dato che in una
popolazione matura, come quella italiana, la mortalit alta perch la popolazione pi
vecchia e quindi la natalit pi bassa;
(c) siamo molto scettici a ipotizzare un legame diretto ed immediato fra in Cerca di prima
occupazione e Nati vivi anche se non pu essere escluso del tutto dato che chi giovane e
non ha un lavoro difficilmente si sposa e mette al mondo figli (valore atteso
3
> 0). In
margine, notiamo la forte dicotomia che esiste fra le regioni del centro-nord e quelle del
sud.

I legami a coppie (NV, MTR), (NV, MRT), (NV, CPO) sono riportati negli scatter se-
guenti

5
8
10
13
15
4.0 4.5 5.0 5.5 6.0 6.5
NV
MTR


che confermano le ipotesi fatte, in particolare emerge un legame lineare non marginale fra
NV e CPO.
Le stime dei quattro parametri con il metodo dei minimi quadrati sono rispettiva-
mente:
^

o
= 2.1456;
^

1
= 1.9073;
^

2
= - 0.3331;
^

3
= 0.0131

ed il segno dei valori stimati quello atteso. Queste stime ci hanno permesso di ottenere i va-
lori stimati di NV tramite la seguente
NV
^
= 2.1456 + 1.9073 MTR - 0.3331MRT + 0.0131CPO
ed i relativi residui stimati e
^
. I valori di NV
^
e di e
^
sono riportati nelle ultime due co-
lonne della tabella. Nella figura che segue abbiamo riportato i grafici dei valori osservati e
stimati della variabile dipendente NV, per le 20 regioni ed il relativo scatter. I risultati sem-
brano complessivamente accettabili.

5 10 15 20
6
7
8
9
10
11
12
13
14
NV
^
NV

5
8
10
13
15
5 8 10 13 15
NV
MRT
5
8
10
13
15
0 25 50 75 100 125
NV
CPO
192 Capitolo 6

5
8
10
13
15
5 8 10 13 15
NV
NV
^

Una volta stimati i parametri
i
del modello di regressione necessario derivare
anche
2
la varianza delle e
i
.
Sembra ovvio che questo parametro debba essere ottenuto a partire dagli scarti
interpolati

e
^

i
= y
i
- y
^

i
, i=1,2,...,n.

Nel caso del modello di lineare semplice, y
i
=
o
+
1
x
i
, la somma dei quadrati
degli scarti dalla media data da

i=1
n
(y
i
- y
^
i
)
2
=
i=1
n
e
^
2
i

Si pu dimostrare che un

valore accettabile per
2
, nel caso del modello lineare semplice, dato da
s
2
=
1
n-2

i=1
n
e
^
2
i
.

Con ragionamenti del tutto simili si ottiene un valore per
2
nel caso di model-
lo lineare multiplo. Cos per il modello lineare definito nella (5) un valore accet-
tabile per
2
data da

s
2
=
1
n-4

i=1
n
e
^
2
i

Esempio 5
La stima di
2
nel caso visto nell'esempio 3 data da

s
2
=
5.382467
5
= 1.076493
La stima di
2
nel caso visto nell'esempio 4 data da

s
2
=
9.61101
16
= 0.600688.

MISURA DELLA BONT DI ADATTAMENTO

Definiamo in primo luogo uno strumento che ci permette di misurare
l'accostamento tra i dati osservati e quelli stimati e quindi di stabilire se global-
mente il modello di regressione stimato descrive in modo accettabile le osserva-
zioni che si hanno a disposizione. In altre parole, vogliamo calcolare un indice
che ci indica fino a che punto il modello di regressione lineare stimato, nella
sua globalit, approssima i dati osservati.
Consideriamo, per il momento, il caso della regressione lineare semplice.
In questo contesto la situazione ottimale si ha quando tutte le n coppie (x
i
, y
i
)
osservate sono allineate lungo una retta che, ovviamente, coincide con quella di
regressione per cui i relativi residui osservati e
^

i
sono tutti identicamente nulli.
Viceversa il caso peggiore si ha quando tutte le n coppie osservate (x
i
, y
i
) sono
disperse nel piano (X, Y) e risulta del tutto irrealistica l'approssimazione con
una retta. Le due situazioni qui richiamate sono schematizzate nelle figure se-
guenti

194 Capitolo 6

1) Caso ottimale 2) Caso peggiore

Nelle pratiche applicazioni ben difficilmente si hanno situazioni estreme
come quelle sopra illustrate e sorge la necessit di misurare fino a che punto si
vicini al caso ottimale o a quello peggiore. A tale scopo si costruisce un indice
di correlazione multipla, che si indica con R
2
, e misura l'intensit del legame
lineare esistente fra la variabile dipendente Y e quelle esplicative X
1
, X
2
, ..., X
k
.
Prima di definire questo nuovo indice dimostriamo che sempre

i=1
n
e
^

i
(y
^

i
- y
-
) = 0

Infatti,

i=1
n
e
^

i
(y
^

i
- y
-
) =
i=1
n
(y
i
- y
^
i
)(y
^
i
- y
-
) =

=
i=1
n
(y
i
-
^
o
-
^
1
x
i
)(
^
o
+
^
1
x
i
-
^
o
-
^
1
x
-
) =
^

1
i=1
n
(y
i
-
^
o
-
^
1
x
i
)(x
i
- x
-
)

=
=
^

1
i=1
n
(y
i
x
i
-
^
o
x
i
-
^
1
x
2
i
- y
i
x
-
+
^
o
x
-
+
^
1
x
i
x
-
)

=

=
^

1
(
i=1
n
y
i
x
i
-
^

o
i=1
n

x
i
-
^

1
i=1
n

x
2
i
- x
-

i=1
n
y
i
+ n
^

o
x
-

+
^

1
x
-
i=1
n

x
i
) =

=
^

1
(n m
xy
- n
^

o
x
-
- n
^

1
m
2x
- n x
-
y
-
+ n
^

o
x
-

+
^

1
x
-

2
) =

=
^

1
n [m
xy
- x
-
y
-
-
^

1
(m
2x
- x
-

2
)] =
^

1
n (S
xy
-
^

1
S
2
x
) =

=
^

1
n
(
(
,
\
,
,
(
j
2
2
x
x
xy
xy
S
S
S
S = 0

Tenendo conto di questo risultato si ha immediatamente

i=1
n
(y
i
- y
-
)
2
=
i=1
n
(y
i
- y
^
i
+ y
^
i
- y
-
)
2
=
i=1
n
[e
^

i
+ (y
^

i
- y
-
)]
2
=

=
i=1
n
[e
^
2
i
+ (y
^

i
- y
-
)
2
+ 2 e
^

i
(y
^

i
- y
-
)] =
i=1
n
e
^
2
i
+
i=1
n
(y
^
i
- y
-
)
2

Se dividiamo il primo e l'ultimo membro di quest'ultima uguaglianza per n si
ottiene
1
n

i=1
n
(y
i
- y
-
)
2
=
1
n

i=1
n
e
^
2
i
+
1
n

i=1
n
(y
^
i
- y
-
)
2

o equivalentemente
S
2
y
= S
2
e
^
+ S
2
y
^

In altri termini,

se il modello di regressione lineare ed stimato con il metodo dei minimi
quadrati, allora la varianza stimata delle y osservate sempre uguale alla varian-
za dei residui stimati pi la varianza delle y
^
teoriche.

Se dividiamo ambo i membri dell'ultima uguaglianza per S
2
y
si ottime

1 =
S
2
e
^
S
2
y
+
S
2
y
^
S
2
y

196 Capitolo 6
Siamo ora in condizione di dare la seguente definizione

l'indice R
2
dato da
R
2
=
S
2
y
^
S
2
y
= 1 -
S
2
e
^
S
2
y

e misura la percentuale della variabilit di Y spiegata dal modello di regressione
adattato ad Y.

Da quanto abbiamo appena detto facile verificare che sempre

0 R
2
1

Per meglio illustrare il significato di questo indice, analizziamo i due casi estre-
mi: R
2
= 0 ed R
2
= 1.

Caso di R
2
= 0.
R
2
= 0 equivalente a S
2
y
^
= 0, cio
1
n

i=1
n
(y
^
i
- y
-
)
2
= 0
che equivale a
(y
^

1
- y
-
) = (y
^

2
- y
-
) = ... = (y
^

n
- y
-
) = 0
da cui infine
y
^

1
= y
^

2
= ... = y
^

n
= y
-
.

In altri termini, nel caso di R
2
= 0 tutti i valori interpolati sono uguali fra di lo-
ro e coincidono con la propria media. Nel caso della regressione lineare sem-
plice si ha una situazione come quella schematizzata nella figura seguente

y
-

Quanto detto si verifica se e solo se risulta
^

1
= 0 e quindi
^

o
= y
-
, ma questo
vuol dire che al variare di X la Y, in media, non varia. In altri termini, in un ca-
so del genere la variabile esplicativa X non esercita, in media, alcuna influenza
su Y per cui il modello considerato non accettabile e va riformulato. Queste
considerazioni possono essere estese al caso multiplo con k 2 variabili espli-
cative. Infatti, si pu dimostrare che R
2
= 0 equivalente a
^

1
=
^

2
= .... =
^

k
= 0 e quindi
^

o
= y
-
. Questo vuol dire che, in media, nessuna delle k variabili
esplicative X
1
, X
2
, ..., X
k
esercita una influenza su Y, di conseguenza il model-
lo utilizzato inaccettabile a va riformulato.

Caso di R
2
= 1
R
2
= 1 equivalente a S
2
e
^
= 0 che a sua volta equivalente a

i=1
n
e
^
2
i
= 0.

Questo si verifica se e solo se risulta e
^

1
= e
^

2
= ... = e
^

n
= 0. In definitiva, si
ha R
2
= 1 se e solo se tutti i residui osservati sono identicamente nulli, ma que-
sto equivalente a dire che tutte le y osservate sono coincidenti con quelle teo-
riche e quindi risulta y
i
= y
^

i
per i=1,2,...,n. In altri termini, le y
i
osservate sono
tutte allineate lungo una retta che coincide necessariamente con quella di re-
gressione. Graficamente si ha una situazione come quella descritta nella figura
seguente

198 Capitolo 6
y = + x

1
^ ^ ^

Questo risultato vale, con identica interpretazione, anche quando si hanno k
2 variabili esplicative.
Nelle pratiche applicazioni molto difficilmente si otterr uno dei casi li-
mite sopra illustrati, ma si avranno valori di R
2
interni all'intervallo [0; 1]. Tali
valori limite sono utili per meglio interpretare questo indice: pi R
2
vicino ad
uno pi il modello globalmente accettabile, pi R
2
vicino a zero pi il mo-
dello globalmente da rifiutare. Per esempio, se in una data applicazione risulta
R
2
= 0.86 vuol dire che l'86% della varianza di Y spiegato dal modello di re-
gressione lineare, mentre il restante 14% spiegato dai residui.

Esempio 6
Riprendiamo l'esempio 3, abbiamo visto che il modello da prendere in considerazione

Y =
0
+
1
X + e

in tal caso si ottiene R
2
= 0.592. Questo vuol dire che il 59.2% della variabilit di Y
spiegato dal modello di regressione utilizzato, mentre il restante 40.8% dovuto ai residui.
Riprendiamo l'esempio 4, siamo arrivati alla conclusione che abbia senso il modello

NV =
0
+
1
MTR +
2
MRT +
3
CPO + e

in tal caso si ottiene R
2
= 0.846. In altri termini, la variabilit di NV spiegata per
l'84.6% dal modello suddetto, mentre il restante 15.4% spiegato dai residui e quindi da
fattori accidentali.

Facciamo ora vedere che R
2
una generalizzazione del coefficiente di
correlazione gi analizzato. Pi precisamente mostriamo che nel caso di regres-
sione lineare semplice R
2
coincide con la correlazione stimata al quadrato:

R
2
= r
2
=
S
2
xy
S
2
x
S
2
y

Partendo dalla definizione di R
2
si ha

R
2
=
S
2
y
^
S
2
y
,

ma nel caso della regressione semplice, tenendo conto delle espressioni di
i
y
,
y
-
e
^

1
si ha sempre

S
2
y
^
=
1
n

i=1
n
(y
^
i
- y
-
)
2
=
1
n

i=1
n
(
^
o
+
^
1
x
i
-
^
o
-
^
1
x
-
)
2
=

^
2
1

1
n

i=1
n
(x
i
- x
-
)
2
=
^
2
1
S
2
x
=
S
2
xy
S
4
x
S
2
x
=
S
2
xy
S
2
x

Sostituendo quest'ultima nella formula di R
2
si ottiene il risultato cercato.

ANALISI DEI RESIDUI

Un secondo modo per stabilire se il modello adattato ai dati pu essere
accettato e quindi utilizzato, oppure va rifiutato e quindi riformulato quello di
analizzare i residui stimati. Se nei residui stimati vi ancora una qualche strut-
tura evidente che il modello selezionato non riesce a catturare completamente
l'evoluzione del fenomeno e quindi va riformulato e ristimato. Se le n osserva-
zioni di cui si dispone sono relative a serie storiche, oppure posseggono un
qualche altro ordinamento naturale, un modo di verificare se nei residui vi
una qualche struttura quello di costruire i due grafici come qui di seguito in-
dicato.

Primo grafico
200 Capitolo 6
In un sistema di assi cartesiani si riportano le coppie di punti (i, e
^

i
), se
nei residui stimati vi una qualche ulteriore struttura questa dovrebbe emerge-
re dal relativo grafico. Nella figura che segue riportato il tipico caso in cui fra
i residui esiste una ulteriore struttura che il modello non riuscito a catturare.
Infatti, in questo grafico a residui positivi tendono a susseguirsi residui positivi
ed a quelli negativi ancora residui negativi.

Secondo grafico
In un sistema di assi cartesiani si rappresentano le coppie (e
^

i
, e
^

i-1
), se
nei residui vi una qualche struttura allora questa dovrebbe emergere dal grafi-
co ed il relativo modello dovrebbe essere riformulato. Nella figura che segue
viene riportato il tipico caso in cui fra i residui esiste una ulteriore struttura di
cui necessario tenere conto.

In questo caso si pu notare come la maggior parte dei punti siano concentrati
nel primo e nel terzo quadrante.
Se le osservazioni di cui si dispone non posseggono un ordinamento na-
turale, un modo per verificare se nei residui vi una qualche ulteriore struttura
quella di costruire uno scatter rappresentando le n coppie di osservazioni (e
^

i
,
y
i
). Se il modello utilizzato non idoneo a rappresentare la variabile dipendente
Y nello scatter sopra citato deve essere visibile una qualche struttura.

Le due figure qui sopra riportate si riferiscono agli scatter (
i
e
, y
i
) e (
i
e
,
NV
i
) connessi alle stime dei modelli di regressione degli esempi 3 e 4. Come si
pu notare, in questi non si intravedono strutture apparenti e quindi i modelli
utilizzati possono essere considerati idonei per rappresentare i fenomeni in stu-
dio.

6.4 Modello non lineare

Le analisi che abbiamo fatto nei paragrafi precedenti sono relative al ca-
so in cui la relazione esistente fra la variabile dipendente Y e quelle esplicative
(X
1
, X
2
, ..., X
k
) sia di tipo lineare. Molto spesso, considerazioni teoriche, evi-
denze empiriche o entrambe portano a formulare modelli non lineari. In questi
casi necessario distinguere fra tre situazioni alternative, qui di seguito somma-
riamente illustrate, che implicano soluzioni diverse.

MODELLI NON LINEARI NELLE ESPLICATIVE

Questo il caso pi semplice da affrontare dato che la stima dei suoi
parametri e la relativa verifica non si discosta sostanzialmente da quello lineare
gi conosciuto. Per essere pi chiari supponiamo che per esempio sia
6
8
10
12
14
-2 -1 0 1 2 RESID
18
19
20
21
22
23
-2 -1 0 1 2 RESID
202 Capitolo 6
conosciuto. Per essere pi chiari supponiamo che per esempio sia

Y =
o
+
1
e
X
+
2
V
2
+ a

ove a la variabile residuo. Come si pu notare, questo modello lineare nei
parametri incogniti, ma non lineare nelle due variabili esplicative X e V. D'al-
tra parte, se poniamo

e
X
= X
*
, V
2
= V
*

cio lavoriamo sull'esponenziale della variabile X e sui quadrati della variabile
V, otteniamo il nuovo modello

Y =
o
+
1
X
*
+
2
V
*
+ a

che risulta lineare nei parametri e nelle nuove variabili esplicative X
*
, V
*
e tut-
to quanto illustrato per il modello lineare continua a valere per questo partico-
lare modello non lineare.

MODELLI NON LINEARI MA LINEARIZZABILI

In molti casi un modello non lineare nei parametri pu essere ricondotto
a quello lineare con una semplice trasformazione monotona. In tal modo i ri-
sultati illustrati nelle pagine precedenti valgono per il modello trasformato e
dato che la trasformazione di tipo monotona, sempre possibile risalire al
modello originario. Qui di seguito presentiamo tre modelli non lineari nei pa-
rametri incogniti e la relativa trasformazione monotona che li riconduce al caso
lineare:

Y =
o
e
(
1
X +
2
V)
a

Y =
o
X
1
V
2
a

Y =
1
o
+
1
X+e

ove con a abbiamo indicato la variabile scarto ed Y strettamente positivo.
Questi modelli possono essere ricondotti facilmente alla forma lineare, rispetti-
vamente, con le trasformazioni seguenti:

log(Y) = log(
o
) +
1
X +
2
V + log(a)

log(Y) = log(
o
) +
1
log(X) +
2
log(V)+ log(a)

1
Y
=
o
+
1
X+e.

MODELLI NON LINEARIZZABILI

Esistono molti modelli di regressione non lineari e non linearizzabili con
semplici trasformazioni monotone. Cos, se

Y =
o
+

X
1
+ V
2
+ a

il modello non lineare nei parametri e non facilmente linearizzabile. In tal
caso per procedere necessario utilizzare una stima non lineare dei minimi
quadrati dato che bisogna minimizzare l'espressione seguente
i=1
n
[y
i
-
o
- X
1
- V
2
] = min(
o
,
1
,
2
).

Esistono algoritmi numerici abbastanza affidabili all'interno di pacchetti
applicativi per computer che permettono di ottenere le relative stime. In tal ca-
so, per, gli strumenti di verifica del modello che abbiamo qui illustrato non
sono pi validi.
Bibliografia
BOLDRINI M. (1968) S tatistica, Giuffr, Milano
CALVELLI A., QUINTANO C. (1982) L a S tatistica. E lementi di Metodologia ed
A pplicaz ioni in Campo S ociale ed E conomico, Liguori Editore, Napoli
CASTELLANO V. (1968) Istituz ioni di S tatistica, Ed. Ilardi, Roma
CECCHI C. (1995) I N umeri indici, Cacucci, Bari
CHIEPPA M., RIBECCO N., VITALE C. (1994) T eoria e Metodi S tatistici, ESI Napoli
DEL VECCHIO F. (1996) E lementi di S tatistica per la R icerca S ociale, Cacucci, Bari
GIRONE G SALVEMINI T. (1984) L ez ioni di S tatistica, vol. I, Cacucci, Bari
GIUSTI F. (1983) Introduz ione alla S tatistica, Loescher Editore, Torino
GIUSTI F., GUERRIERI G. (1980) E lementi di S tatistica, Cacucci, Bari
JALLA E. (1980) Per un' A nalisi S tatistica degli A ggregati E conomici, Giappichelli, Torino
LANDENNA G. (1984) Fondamenti di S tatistica D escrittiva, Il Mulino, Bologna
LETI G. (1983) S tatistica D escrittiva, Il Mulino, Bologna
NADDEO A. (1981) S tatistica di Base, Edizioni Kappa, Roma
NADDEO A., LANDENNA G. (1986) Metodi S tatistici nella R icerca S cientifica e Industriale,
Franco Angeli, Milano
PICCOLO D., VITALE C. (1984) Metodi S tatistici per l' A nalisi E conomica, Il Mulino,
Bologna
PREDETTI A. (1978) I N umeri Indici. T eoria e Pratica, Giuffr, Milano
SALVEMINI T. (1970) L ez ioni di S tatistica, vol. I, Cacucci, Bari
SCARDOVI I. (1980) A ppunti di S tatistica, vol. I, Edizioni Patron, Bologna
TUKEY J.W. (1971) E sploratory D ata A nalysis, Addison-Wesley, Reading
VAJANI L. (1974) S tatistica D escrittiva, ETAS Libri, Milano
VITALI O. (1991) S tatistica per le S cienz e A pplicate, vol. I, Cacucci, Bari
ZENGA M. (1988) Introduz ione alla S tatistica D escrittiva, Vita e Pensiero, Milan
Indice analitico

207

INDICE ANALITICO

A
Asimmetria; 71; 74; 80
negativa; 73
positiva; 73

B
Baricentro; 29; 31; 34
Base
slittamento; 148
Box-plot; 48; 68; 72; 146; 158

C
Carattere; 2; 6; 9; 10; 22; 38; 43; 70;
83; 103; 115; 165
Cardine; 52
Classe
aperta; 12; 13
intensit; 18
mediana; 53
modale; 55
modalit; 55
Coefficiente
asimmetria; 74; 75
Collettivo
statistico; 21
Concentrazione
massima; 83; 91
nulla; 84
dei redditi; 96
Connessione; 123
Correlazione
coefficiente; 135-137
Covarianza; 124; 125; 127; 129; 130;
137; 182
Curtosi
leptocurtica; 77; 79
mesocurtica; 77
platicurtica; 77; 79
D
Deflattore; 173
Deflazione; 171; 173
Deviazione standard; 62
Differenza
tra quartili; 72
interquartile; 72
Differenze
assolute; 155
prime; 155; 162
seconde; 162
stagionali; 162
Distribuzione
di frequenza; 9; 12-23;
Disuguaglianza
di Cauchy-Schwarz; 132
Jensen; 52

E
Entropia; 69

F
Frequenza
assoluta; 18
relativa; 18
relativa cumulata; 43; 45

G
Gambo-foglie; 144; 145; 158
Gini; 70; 91; 95; 98
Grafico
aste; 13
barre; 15-17
box-plot; vedi Box-plot
funzione di contro ripartizione; 23
funzione di ripartizione; 21-23
gambo-foglie; vedi Gambo-foglie
istogramma; 17; 52
Indice analitico

208
nastri; 15
scatola; vedi Box-plot
stem-leaves; vedi Gambo-foglie
torta; 14

I
Incorrelazione; 124; 127
Indice
base fissa; 148; 149; 151; 165; 170
base mobile, 151; 170
base mobile s; 153
composto; 170
deflattore; 173
Gini; vedi Gini
ideale; 170
prezzi; 165
quantit; 170
Indici descrittivi
asimmetria; 71
cncentrazione; 91
concentrazione ; 95
curtosi; 76; 78; 79
forma; 26
locazione; 53; 56
mutabilit; 69
posizione; 25; 57; 60; 71
variabilit; 25; 57
Indipendenza
assoluta; 110; 111; 119
fra caratteri; 110
indice; 114; 115; 116
in media; 118
relativa; 110
Intensit della classe; 17
Intervallo di variazione; 58

L
Laspeyres; 167-170
Livello
cambiamento di; 161
Lorenz; 89-91; 99-101

M
Media
geometrica; 53-57; 170
ponderata; 27
propriet; 29
robustezza, 35
semplice; 27
troncata; 37
Mediana; 38-48; 52; 67; 72; 75; 145
classe; 43; 45
robustezza; 43
Metodo
dei minimi quadrati; 180, 182, 185,
187, 191, 195, 203
Moda; 51-55; 72
classe; 52; 53
Modalit; 8- 20;
Modello di regressione
lineare; 177; 179; 188; 192; 193;
195; 196; 198

O
Ordinamento
statistico; 6; 10

P
Paasche; 169; 170; 172; 173
Popolazione
condizionata; 2-6; 8; 9

R
Rapporto
di concentrazione; 93; 94; 99; 101

T
Trasformazione
lineare; 33; 34; 63; 136; 137

V
Variabilit; 25; 26; 57
Varianza; 59-62; 66; 76; 79; 121-125

Questo volume stato impresso
nel mese di marzo dellanno 2002
presso la Buona Stampa s.p.a., Ercolano
per le Edizioni Scientifiche Itasliane s.p.a., Napoli
Stampato in Italia/ Printed in Italy

Volume Primo

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Volume Primo

Caricato da

Copyright:

Formati disponibili

COSIMO D.

abbiamo indicato la varianza di

(penultima colonna della tabella sopra riportata) deriviamo le

Potrebbero piacerti anche