Sei sulla pagina 1di 23

6.

INDICI DI DIPENDENZA

6.1 Introduzione
La rilevazione contemporanea di due variabili X e Y su n unità statistiche ha essenzialmente lo scopo di
evidenziare le eventuali relazioni esistenti fra loro, ossia di verificare se esiste una certa dipendenza di
una variabile dall’altra. Una condizione di dipendenza di Y da X implica che al variare delle
determinazioni assunte da X si modifica una qualche caratteristica della distribuzione di Y.
Se almeno una delle due variabili è di tipo qualitativo, si ha una situazione di dipendenza, che in questo
caso è detta anche connessione, quando a una particolare determinazione di una di esse si accompagna, in
genere, una specifica determinazione dell’altra.
Se invece entrambe le variabili sono quantitative, si è in presenza di un certo grado di dipendenza, che in
questo caso è detta correlazione, quando al crescere dei valori assunti dalla X anche la Y tende a
crescere, oppure quando al crescere dei valori assunti dalla X la Y tende a diminuire.
Fra le innumerevoli variabili che risultano naturalmente più o meno dipendenti fra loro si possono citare
la posizione geografica e il tipo di vegetazione presente in una zona, le condizioni igieniche e le malattie,
la pressione atmosferica e il livello di inquinamento, la quantità di fertilizzante impiegata e la resa
produttiva delle coltivazioni, l'ammontare di prestiti e il tasso di interesse, i livelli di reddito e di consumo
delle famiglie, l’età dei bambini e la classe che frequentano a scuola, la professione e il titolo di studio.
In tutti questi casi la determinazione assunta da una variabile su un’unità statistica è in grado di fornire
indicazioni più o meno precise sulla determinazione dell’altra. Così, per esempio, l'età di un bambino
fornisce un'indicazione sulla classe che molto probabilmente frequenta a scuola, la professione di un
individuo adulto fornisce informazioni sul suo probabile titolo di studio.
Come si vede dagli esempi, i casi che interessano da un punto di vista statistico si riferiscono a situazioni
in cui la conoscenza della determinazione assunta da una variabile consente di fare delle valutazioni più o
meno attendibili sulla determinazione assunta da un’altra, ma in genere non permette di conoscerla
esattamente. Nelle situazioni reali, infatti, due variabili possono risultare più o meno dipendenti, ma ben
difficilmente la relazione che li lega è perfetta, né è del tutto inesistente.

La situazione limite di dipendenza perfetta si presenterebbe quando a ciascuna delle determinazioni con
cui può manifestarsi una variabile fosse associata, in ogni caso, una sola delle diverse determinazioni
dell’altra variabile.

101
Con riferimento agli esempi precedenti una situazione di connessione perfetta si avrebbe quando, in una
collettività di bambini di età diverse e iscritti a classi diverse, tutti quelli di una stessa età frequentassero
una stessa classe, oppure quando tutti gli individui con una stessa professione possedessero lo stesso titolo
di studio. In questi casi, evidentemente, conoscere l'età equivarrebbe a conoscere esattamente anche la
classe, mentre l’informazione sulla professione consentirebbe di conoscere esattamente il titolo di studio.
Nelle situazioni concrete possono esistere legami più o meno stretti fra le due variabili, e questo legame è
tanto più stretto quanto più a ciascuna delle determinazioni con cui può manifestarsi una variabile è
associata, nella maggior parte dei casi, una stessa determinazione dell'altra. Il grado di dipendenza fra età
e classe frequentata dai bambini è probabilmente molto elevata, mentre in generale lo è di meno quella fra
professione e titolo di studio.
Nelle situazioni di elevata dipendenza la conoscenza della determinazione assunta da una variabile su una
particolare unità statistica consente di “prevedere” con una qualche precisione quale sarà la
manifestazione dell’altra variabile sulla medesima unità. Il legame fra due variabili risulta tanto più stretto
e, quindi, il grado di dipendenza è tanto più elevato, quanto maggiore è l'attendibilità di questa
“previsione”.

La situazione limite opposta, detta di indipendenza, si ha quando non esiste alcuna associazione fra le
due variabili, nel senso che la conoscenza della determinazione assunta da una di esse non fornisce alcuna
informazione sulla probabile determinazione dell'altra.

Per esempio, la conoscenza del sesso di un individuo non consente di avere una previsione attendibile
della sua età o della sua religione. Nelle situazioni reali esistono anche variabili che sono correlate fra loro
per un gruppo di individui, ma non per un altro, come per esempio nel caso dell’età e dell’altezza che
risultano correlate per i bambini, ma non per gli adulti.
Nelle pagine seguenti si esamineranno alcuni dei più comuni metodi statistici utilizzati per evidenziare
l'esistenza di un eventuale legame fra le variabili, per descrivere il tipo di relazione e per misurarne
l'intensità.
Questi indici assumono forme diverse a seconda del tipo di variabili considerate e del tipo di legame di
cui si vuole misurare l’intensità. Va comunque sottolineato il fatto che una qualsiasi misura statistica della
dipendenza indica soltanto che tra due variabili esiste di fatto un’associazione più o meno stretta, mentre
la natura di questa associazione può essere messa in luce solo con gli strumenti propri della scienza che si
occupa di quei particolari fenomeni. In altri termini, questo significa che i metodi statistici non sono in

102
grado di individuare le eventuali “leggi” che regolano i legami fra variabili, ma solo di verificare se
esistono o meno delle regolarità di rapporti.

103
6.2 Associazione fra variabili in una distribuzione bivariata
Nella successiva tabella 6.2.1 è riportato un caso di dipendenza perfetta della variabile Y dalla X in
quanto le unità statistiche che presentano una certa determinazione della X presentano tutte una stessa
determinazione della Y. In questo caso la conoscenza della determinazione assunta dalla prima variabile
equivale a conoscere con certezza anche la determinazione della seconda.

Tabella 6.2.1
Esempio di dipendenza perfetta unilaterale della Y dalla X

X\Y d1 d2
c1 0 n12
c2 n21 0
c3 n31 0

Non esiste invece una dipendenza perfetta della X dalla Y dato che, mentre alla determinazione d2
corrisponde la determinazione c1, a d1 corrispondono sia c2 sia c3.
In situazioni analoghe a questa si dice che esiste una perfetta dipendenza unilaterale della Y dalla X.
Nella tabella 6.2.2, invece, è riportato un esempio in cui è la variabile X a dipendere in modo perfetto
dalla Y.

Tabella 6.2.2
Esempio di perfetta dipendenza unilaterale della X dalla Y

X\Y d1 d2 d3
c1 0 n12 0
c2 n21 0 n23

Per semplicità, in seguito si esaminerà in dettaglio la dipendenza della Y dalla X, ma ovviamente tutte le
considerazioni valgono anche se si scambiano le due variabili fra loro.

La dipendenza perfetta della Y dalla X implica che le distribuzioni condizionate della Y|cj presentano
un'unica determinazione a cui è associata una frequenza diversa da zero, mentre tutte le altre frequenze
sono nulle.
Con riferimento alle distribuzioni relative condizionate della Y|cj ciascuna di esse presenta una sola
frequenza pari a 1, mentre le altre frequenze sono nulle.

104
Nella tabella 6.2.3 è invece riportato un esempio di dipendenza perfetta bilaterale. In questa situazione
tutte le unità statistiche che presentano una certa determinazione di una variabile presentano una e una
sola determinazione dell'altra e viceversa.

Tabella 6.2.3
Esempio di dipendenza perfetta bilaterale

X\Y d1 d2 d3
c1 0 n12 0
c2 n21 0 0
c3 0 0 n33

In una situazione di perfetta dipendenza bilaterale tutte le distribuzioni di Y condizionate a X (e tutte le


distribuzioni di X condizionate a Y) presentano un'unica determinazione con frequenza diversa da zero,
mentre alle restanti determinazioni è associata una frequenza nulla.
Con riferimento alle distribuzioni relative condizionate esiste una sola frequenza pari a 1 su ciascuna riga
e su ciascuna colonna della tabella, mentre le restanti frequenze sono nulle.

La situazione di perfetta dipendenza bilaterale richiede necessariamente che le due variabili assumano
uno stesso numero di determinazioni diverse, per cui la tabella a doppia entrata avrà un numero di righe
uguale al numero di colonne.
Quando invece la tabella è rettangolare, con un numero di righe diverso dal numero di colonne, se esiste
una situazione di dipendenza perfetta, questa può essere solo unilaterale.

In alcune situazioni reali, l'interesse può essere rivolto a misurare il grado di dipendenza unilaterale di una
variabile dall’altra, ma in altre situazioni si può voler valutare il grado di dipendenza bilaterale, detta
anche interdipendenza.

Nel primo caso si intende valutare in che misura una variabile "dipende" dall'altra per cercare di
“prevedere” la determinazione di tale variabile a partire da quella assunta dall’altra (come nei casi delle
variabili reddito e consumo, livello dei tassi di interesse e numero di richieste di mutui bancari, dose di un
fertilizzante e produttività per ettaro, ammontare delle spese pubblicitarie e numero di articoli venduti).
Nel secondo caso si suppone invece che le due variabili abbiano uno stesso “ruolo” all’interno dell’analisi
(esempi di questo genere sono costituiti dalle coppie di variabili peso e statura, lunghezza del femore e

105
dell’omero, consumo medio delle auto in città e in autostrada, votazione ottenuta negli esami di
matematica e di statistica).

Se interessa esaminare la dipendenza della Y dalla X (oppure della X dalla Y), la prima variabile è detta
variabile dipendente, mentre la seconda è detta variabile indipendente o variabile esplicativa.

L'uso del termine "dipendenza" non vuole però suggerire che la determinazione assunta da una variabile
sia la causa (o una delle cause) della determinazione assunta dall'altra, anche perché una eventuale
relazione di causa-effetto non potrebbe in ogni caso essere provata con i soli metodi statistici.

Se fra le variabili non esiste alcuna relazione, si dice che X e Y sono indipendenti.

Facendo riferimento alla tabella a doppia entrata, la condizione di indipendenza implica che le
distribuzioni relative condizionate risultano tutte uguali fra loro, ossia che per ogni determinazione di una
variabile le diverse determinazioni dell’altra si presentano sempre nelle stesse proporzioni.
In questo caso è evidente che la conoscenza della determinazione assunta da una variabile su una unità
statistica è del tutto irrilevante per fare delle ipotesi attendibili sulla determinazione assunta dall’altra su
quella stessa unità.
Se la variabile Y è indipendente da X, quindi, le distribuzioni relative condizionate di Y|cj sono tutte
uguali fra loro, per cui valgono le seguenti uguaglianze

f11 f j1 f
 ....  ...  k1  s1;
f1. f j. f k.
…;
f1l f jl f
 ....  ...  kl  sl ;
f1. f j. f k.
…;
f1h f jh f
 ....  ...  kh  sh
f1. f j. f k.

come si vede anche dalla tabella 6.2.4 che riporta le distribuzioni condizionate relative di Y|cj sotto ipotesi
di indipendenza della Y dalla X.

106
Tabella 6.2.4
Distribuzioni relative condizionate della Y dalla X sotto ipotesi di indipendenza della Y dalla X

X\Y d1 ... dl ... dh


f11 ... f1l ... f1h
c1  s1 s  sh 1.00
f1. f1. l f1.
. . . . . . .
f j1 ... f jl ... f jh
cj  s1  sl  sh 1.00.
f j. f j. f j.
. . . . . . .
f k1 ... f kl .... f kh
ck  s1  sl  sh 1.00
f k. f k. f k.

A partire dalle uguaglianze contenute all’interno della tabella precedente, la distribuzione bivariata può
essere posta nella forma riportata nella tabella 6.2.5.

Tabella 6.2.5
Esempio di distribuzione bivariata sotto ipotesi di indipendenza della Y dalla X

X\Y d1 ... dl ... dh


c1 f11=s1f1. ... f1l=sl f1. ... f1h=sh f1. f1.
. . . . . . .
cj fj1=s1fj. ... fjl=sl fj. ... fjh=sh fj. fj.
. . . . . . .
ck fk1=s1fk. ... fkl=sl fk. ... fkh=sh fk. fk.
f.1 . f.l . f.h 1

Effettuando le somme per colonna delle frequenze si ottiene

k
f.1  s1 
j 1
f j.  s1;

…;
k
f.l  sl 
j 1
f j.  sl ;

…;
k
f.h  sh 
j 1
f j.  sh ;

107
da cui risulta che ciascuna costante sl corrisponde alla frequenza relativa marginale f.l (per ogni l
= 1, 2, …, h).

In caso di indipendenza della Y dalla X le distribuzioni relative condizionate delle Y|cj sono tutte uguali

fra loro e uguali alla distribuzione relativa marginale della Y.

Questo risultato resta valido anche nel caso in cui si utilizzino le frequenze assolute, anziché le frequenze
relative, dato che le une differiscono dalle altre solo per la costante moltiplicativa n.
In caso di indipendenza valgono quindi le seguenti uguaglianze

f jl
 f.l
f j.
(j = 1, 2, …, k; l = 1, 2, …, h) 6.2.1
n jl n.l

n j. n

per cui un qualsiasi indice calcolato per la Y assume sempre lo stesso risultato per ciascun gruppo
omogeneo in X, e tale risultato corrisponde anche al valore dell’indice calcolato sulla distribuzione
marginale di Y.
In una situazione di indipendenza, quindi, le informazioni fornite dalle distribuzioni condizionate non
aggiungono nulla a quelle fornite dalla distribuzione marginale.
Dalle uguaglianze 6.2.1, valide sotto ipotesi di indipendenza della Y dalla X, discendono anche le due
seguenti uguaglianze

f jl
 f j.
f.l
(j = 1, 2, …, k; l = 1, 2, …, h)
n jl n j.

n.l n

in base alle quali risulta che le distribuzioni relative condizionate della X sono uguali fra loro e uguali alla
distribuzione marginale della X: si può quindi concludere che quando Y è indipendente da X anche X
risulta indipendente da Y.

La condizione di indipendenza statistica è sempre bilaterale.

108
Dalle uguaglianze 6.2.1 deriva infine che, sotto condizione di indipendenza, le frequenze interne (assolute
e relative) della tabella corrispondono ai prodotti

n j.n.l
n jl 
n (j = 1, 2, …, k; l = 1, 2, …, h)
f jl  f j. f .l

e queste due uguaglianze rappresentano la condizione necessaria e sufficiente per l’indipendenza


fra X e Y.

Due variabili X e Y sono indipendenti se e solo se la frequenza assoluta associata a ogni coppia (cj, dl) è
uguale al prodotto delle frequenze assolute marginali associate a cj e dl diviso per n, oppure se la
frequenza relativa associata a ogni coppia (cj, dl) è uguale al prodotto delle frequenze relative marginali
associate a cj e dl.

Le frequenze interne corrispondenti al caso di indipendenza fra X e Y sono dette frequenze


teoriche (assolute o relative) e sono indicate mediante la notazione seguente

n j.n.l
n'jl  (j = 1, 2, …, k; l = 1, 2, …, h) 6.2.2
n
f jl  f j. f .l
'

Esempio 6.2.1
Data la seguente distribuzione relativa a due variabili qualitative sconnesse X e Y

Esempio di distribuzione bivariata


X\Y d1 d2 d3
c1 0.30 0.18 0.12 0.60
c2 0.20 0.12 0.08 0.40
0.50 0.30 0.20 1.00

si determinino le distribuzioni della variabile Y condizionata a X

Le due distribuzioni risultano quelle riportate nella tabella successiva e coincidono con la distribuzione marginale
della Y della tabella precedente. Le variabili X e Y sono quindi indipendenti fra loro.

109
Distribuzioni della variabile Y|cj ottenute dalla tabella precedente
X\Y d1 d2 d3
c1 0.50 0.30 0.20 1.00
c2 0.50 0.30 0.20 1.00

Esempio 6.2.2
Completare la seguente tabella sotto ipotesi di indipendenza assoluta fra le due variabili

Esempio di distribuzione bivariata


X\Y a b c
0 30
1 20
2 50
20 50 30 100

La tabella assume la forma seguente


Esempio di distribuzione bivariata
X\Y a b c
0 6 15 9 30
1 4 10 6 20
2 10 25 15 50
20 50 30 100

La relazione analizzata in questo paragrafo è solo uno dei tanti possibili tipi di legame che possono
intercorrere fra due variabili. Per distinguerla da altri tipi di dipendenza/indipendenza si parla quindi di
“dipendenza/indipendenza assoluta” o anche di “dipendenza/indipendenza in distribuzione”.

110
6.3 Dipendenza assoluta (o dipendenza in distribuzione)
Nelle situazioni reali, la relazione esistente fra le variabili X e Y è più o meno lontana dalle situazioni
limite di indipendenza e di dipendenza perfetta, per cui le frequenze delle diverse distribuzioni
condizionate sono più o meno concentrate in corrispondenza di una o più determinazioni diverse, mentre
alle altre determinazioni sono associate frequenze minori.
L'indice più comunemente usato per valutare il grado di dipendenza assoluta fra due variabili è il
cosiddetto chi-quadrato di Pearson, indicato con il simbolo 2, che assume la forma

  
2
k h n jl  n'jl 
2
. 6.3.1
j 1 l 1 n'jl

Questo indice si basa sulle differenze (comunemente dette contingenze) fra le frequenze osservate e
quelle teoriche, calcolate cioè sotto ipotesi di indipendenza, per cui può essere calcolato per variabili di
qualsiasi tipo, dato che si basa solo sui valori delle frequenze congiunte.
Se la distribuzione è espressa mediante le frequenze relative, il calcolo del chi-quadrato richiede la
conoscenza della numerosità della popolazione e la 6.3.1 assume la forma equivalente

  n
2
k h f jl  f 'jl 
2
6.3.2
j 1 l 1 f 'jl

Dalle precedenti espressioni risulta evidente che l’indice non può mai assumere valori negativi e che
risulta uguale a zero se e solo se tutte le contingenze sono uguali a zero e, quindi, in caso di indipendenza
assoluta fra X e Y, mentre tende ad assumere valori crescenti al crescere del grado di dipendenza fra le
due variabili.
Una formula semplificata di calcolo è data da

 k h n2jl 
  n
2
  n n
 1

6.3.3
 j1 l 1 j. .l 

se la tabella è espressa mediante le frequenze assolute oppure dall’espressione equivalente

111
 k h f jl2 
  n
2
 f f
 1

6.3.4
 j 1 l 1 j. .l 

che si utilizza quando si dispone delle frequenze relative ed è noto il numero n di unità statistiche.

Dimostrazione
Per ottenere le due formule precedenti è sufficiente sviluppare i quadrati che compaiono nelle formule originali e
utilizzare l’uguaglianza 6.2.2. Per esempio, sviluppando la 6.3.1 si ottiene

k h  n2  k h  n2 
 jl   
  jl n j.n.l
2   '  n'
jl  2 n jl    n n
n   2 n jl  
j 1 l 1  n jl  j 1 l 1  j. .l 
n
  
 k h n2 k h k h  k h n2
 
 n 
 j 1 l 1 j. .l
n
jl
n

1
n  
n j. n.l  2

  
n jl   n

  
n
jl
n
j. .l
 n  2n
 j 1 l 1 j 1 l 1  j 1 l 1

da cui si ottiene la 6.3.3, mentre partendo dalla 6.3.2, con un procedimento analogo, si ottiene la 6.3.4.

Il valore massimo del chi-quadrato, che si ottiene nei casi di perfetta dipendenza assoluta (sia unilaterale,
sia bilaterale), risulta uguale al prodotto fra n e il minore fra il numero di determinazioni assunto da X e il
numero di determinazioni assunto da Y diminuito di 1. Il campo di variazione del chi-quadrato è quindi
costituito dai due estremi

 min
2
0,

 max
2
 nmin k, h  1 ,

per cui tende ad assumere valori crescenti al crescere delle dimensioni della tabella a doppia entrata e al
crescere del numero delle unità statistiche.

Dimostrazione
Per questa dimostrazione occorre innanzitutto tenere presente che per ogni j e l si ha sempre

n jl  n.l j = 1, 2, …, k, l = 1, 2, …, h

dove il segno di uguaglianza vale solo nel caso in cui a ogni determinazione di Y corrisponde una sola
determinazione di X, ossia quando c'è una condizione di dipendenza assoluta perfetta della X dalla Y.
Moltiplicando entrambi i termini della disuguaglianza precedente per njl, si ottiene

112
n2jl  n.l n jl

che, sostituita nella 6.3.3, fornisce il seguente risultato

 k hn.l n jl   k h n jl   k n j. 
 2  n  1  n  1  n 
 1  nk  1 .
 j1 l 1 n j.n.l   j1 l 1 n j.   j1 n j. 
6.3.5
     

In caso di perfetta dipendenza della X dalla Y, quindi, il valore massimo del chi quadrato è pari al prodotto della
numerosità n per il numero di modalità della X meno 1.
In maniera analoga, a partire dalla disuguaglianza

n jl  n j. j = 1, 2, …, k, l = 1, 2, …, h

si vede facilmente che risulta

 2  nl  1 , 6.3.6

dove il segno di uguaglianza si ha solo in caso di perfetta dipendenza della Y dalla X.

Si consideri, per esempio, la tabella 6.3.1 che si riferisce a due variabili qualitative sconnesse rilevate su
una collettività di 200 individui.

Tabella 6.3.1
Distribuzione degli occupati dipendenti per rapporto di lavoro e sesso

Lavoro\Sesso Maschi Femmine


A tempo determinato 7 8 15
A tempo indeterminato 50 35 85
57 43 100

Questa distribuzione è molto prossima a quella che si avrebbe in caso di indipendenza, come risulta dalla
tabella 6.3.2, in cui le frequenze interne sono state calcolate sotto questa ipotesi.

Tabella 6.3.2
Distribuzione teorica degli occupati dipendenti per rapporto di lavoro e sesso
in caso di indipendenza

Lavoro\Sesso Maschi Femmine


A tempo determinato 8.55 6.45 15
A tempo indeterminato 48.45 36.55 85
57 43 100

Di conseguenza il chi-quadrato, che in questa situazione potrebbe assumere un qualsiasi valore compreso
fra 0 e 100 (in quanto entrambe le variabili assumono 2 modalità diverse), risulta prossimo al suo minimo

113
 72 82 502 352 
 2  100     1  0.7688.
 5715 4315 57 85 43 85 

Esempio 6.3.1
Data la seguente distribuzione bivariata, riferita al sesso dell’acquirente e al modello di ipod acquistato, si calcoli il
valore dell’indice chi-quadrato e se ne determini minimo e massimo.

Esempio di distribuzione bivariata


Sesso\Modello A B C
F 18 12 0 30
M 2 8 10 20
20 20 10 50

Utilizzando la formula 6.3.3 si ottiene


 182 122 22 82 102 
 2  50     1  22.5

 30 20 30 20 20 20 20 20 10 20 
Il minimo e il massimo sono rispettivamente
2 0,
χmin

2  50min2, 3 1 50.


 max

114
6.4 Dipendenza in media
Data una variabile quantitativa Y considerata in corrispondenza delle diverse determinazioni assunte da
una variabile X (qualitativa o quantitativa), si può avere interesse a valutare le eventuali differenze
esistenti non fra le distribuzioni condizionate della Y|cj, ma fra i valori di una specifica caratteristica di
tali distribuzioni che si ritiene di particolare interesse nel caso in esame.
In numerose situazioni reali, per esempio, si vogliono confrontare i valori medi assunti dalla Y all’interno
dei diversi gruppi omogenei in X, per cui lo scopo dell’indagine consiste nel valutare le differenze fra le
medie delle distribuzioni condizionate. Casi di questo genere si presentano quando si vogliono comparare
i livelli medi del rendimento a un esame di studenti che hanno utilizzato differenti libri di testo, le medie
della resa produttiva per ettaro di fertilizzanti diversi, i livelli medi del reddito a seconda del tipo di
occupazione oppure del settore di attività economica, i rendimenti medi di differenti titoli azionari.
Considerata per esempio la successiva tabella 6.4.1, che riporta la distribuzione degli occupati di sesso
maschile per classe di età e ramo di attività economica, si potrebbe essere interessati a verificare se l’età
media degli occupati varia a seconda del ramo di attività.

Tabella 6.4.1
Distribuzione degli occupati maschi per età e ramo di attività. Dati in migliaia1

Attività\età [14, 25) [25, 30) [30, 50) [50, 65) 65 e +


Agricoltura 123 94 538 554 59 1368
Industria 913 703 3049 1137 67 5869
Terziario 624 714 3419 1430 104 6291
1660 1511 7006 3121 230 13528

Chiudendo l’ultima classe a 75 anni si ottengono i seguenti risultati (arrotondati a due cifre decimali)

19.5 123 27.5  94  40 538 57.5  554 70 59


yagricoltura   45.68
1368
19.5  913 27.5  703 40 3049 57.5 1137 70 67
yindustria   39.05
5869
19.5  624 27.5  714 40 3419 57.5 1430 70104
yterziario   41.02
6291

dai quali risulta che gli occupati nel settore agricolo hanno in media poco meno di 46 anni, gli occupati
nel terziario hanno un’età media di 41 anni, mentre la media più bassa, pari a circa 39 anni, si rileva nel
settore dell’industria.

1ISTAT (1986), Indagine statistica sulle condizioni di salute della popolazione e sul ricorso ai servizi sanitari. Novembre 1983, Note e relazioni n.1

115
Nell’esempio appena esaminato la variabile Y “età” assume dei valori medi che variano al variare della
determinazione assunta dalla variabile X “settore di attività economica”, per cui si può concludere che la
Y dipende in media da X.
Quando esiste questo tipo di dipendenza è possibile ottenere una valutazione più o meno approssimata
dell'ordine di grandezza assunta dalla Y su una unità statistica quando per quella unità è nota la
determinazione cj assunta dalla X. Tanto più la Y è dipendente in media dalla X, tanto più accurata sarà

tale previsione, corrispondente alla media della distribuzione condizionata yc j .

L’intensità di questo tipo di legame dipende dalla variabilità delle distribuzioni condizionate della Y|cj. Se

infatti i k valori delle varianze condizionate s 2y|c j risultano prossimi a zero, tali distribuzioni sono molto

concentrate intorno alla loro media per cui le yc j forniscono indicazioni attendibili sull'ordine di

grandezza della Y per ogni gruppo omogeneo in X.

La situazione limite di perfetta dipendenza in media della Y dalla X si ha quando le k varianze

condizionate s 2y|c j sono nulle, perché in questo caso la conoscenza della determinazione assunta da X

consente di individuare con certezza la corrispondente determinazione assunta da Y. In questo caso,


quindi, si avrebbe anche una perfetta dipendenza assoluta della Y dalla X.

Se le medie condizionate risultassero tutte uguali fra di loro ci si troverebbe invece nella condizione limite
opposta, di indipendenza in media. In questo caso la conoscenza della determinazione assunta dalla
variabile X su un’unità statistica sarebbe del tutto irrilevante per prevedere il valore assunto dalla Y su
quella stessa unità sulla base della media della distribuzione condizionata yc j .

Per misurare il grado di dipendenza in media della Y dalla X si utilizza un indice che si basa sulla
scomposizione 4.3.10 della varianza di n osservazioni suddivise in g gruppi.
In questo contesto, però, la varianza fra i gruppi (o varianza between) è la varianza delle medie
condizionate

yc 
k

1
sb2  j
 y 2 n j.
n j 1

116
e viene chiamata varianza spiegata perché misura quella parte della varianza complessiva della Y che
"dipende", ossia è "spiegata", dalle differenze fra i valori medi della Y all'interno di ogni gruppo
omogeneo in X.
La varianza all’interno dei gruppi (o varianza within) corrisponde invece alla media delle varianze delle
distribuzioni condizionate

k

1
sw2  s 2y|c n j.
j
n j 1

e viene chiamata varianza residua perché misura la parte “residua” della varianza complessiva della Y,
che dipende dalla variabilità della Y all'interno dei singoli gruppi omogenei in X.

La dipendenza in media di una variabile quantitativa Y da una variabile X di tipo qualsiasi viene misurata
mediante il cosiddetto rapporto di correlazione della Y sulla X che è pari al rapporto fra la varianza
spiegata e la varianza totale della Y.

Il rapporto di correlazione  y|x


2
(eta quadrato) assume la forma

sb2 sw2
 y|x
2
  1  6.4.1
s 2y s 2y

e, dato che s 2y corrisponde alla somma s b2 + s w2 , risulta sempre compreso nell’intervallo [0, 1].

Più in particolare, risulta pari a zero quando il suo numeratore è uguale a zero, ossia quando le yc j sono

tutte uguali fra loro e uguali alla media della distribuzione marginale y . Un risultato pari a zero indica
quindi che la variabile Y è indipendente in media dalla X.
Il rapporto di correlazione assume invece valore 1 quando è nulla la varianza residua, ossia quando è nulla
la media ponderata delle varianze condizionate. Questo si verifica se e solo se tutte le varianze delle
distribuzioni condizionate sono pari a zero, ossia quando all’interno dei diversi gruppi omogenei in X i
valori della Y coincidono tutti con la media condizionata. In questo caso c’è una dipendenza assoluta
perfetta della Y dalla variabile X.

117
Se è noto che X e Y sono indipendenti in senso assoluto (per cui l’indice chi-quadrato è pari a zero), Y
risulta anche indipendente in media dalla X, dato che le variabili Y|cj hanno distribuzioni identiche e,
quindi, hanno gli stessi momenti.
Se, invece, c’è indipendenza in media, per cui le yc j sono tutte uguali fra loro, questo non implica che

siano uguali fra loro anche le distribuzioni condizionate per cui potrebbe esservi una situazione di
dipendenza più o meno elevata in distribuzione.

Se due variabili sono indipendenti in senso assoluto lo sono anche in media, mentre non è
necessariamente vero il viceversa.

Nelle situazioni concrete l'indice 6.4.1 assume un valore interno all’intervallo [0, 1] e al crescere del
risultato cresce il grado di dipendenza in media della Y dalla X. Per esempio, il valore del rapporto di

correlazione calcolato sulla tabella 6.4.1 è circa pari a  y|x


2
 0.024 e indica quindi che si è prossimi alla
situazione di indipendenza in media, dato che solo poco più del 2% della variabilità complessiva della Y è
assorbita dalla varianza spiegata.
Se tutte e due le variabili sono quantitative, sulla distribuzione è definito anche il rapporto di correlazione

 x|y
2
della X sulla Y, per il quale valgono tutte le considerazioni precedenti.

È evidente che i valori dei due indici in genere sono diversi fra di loro, come si intuisce subito con
riferimento alle situazioni di dipendenza assoluta perfetta unilaterale.
Ovviamente l’indipendenza assoluta implica l’indipendenza in media bilaterale.
Con riferimento ai dati sul reddito e sul consumo riportati nella tabella 5.2.6, i valori dei due rapporti di

correlazione (arrotondati a 4 cifre decimali) sono  x|y


2
 0.4367 e  y|x
2
 0.4341. In questo esempio,
quindi, il 43% della variabilità della Y dipende (o viene spiegato) dalla relazione che lega le medie
condizionate della Y alla X, mentre la varianza media all'interno dei singoli gruppi omogenei è pari al
residuo 57% della variabilità complessiva. Commenti analoghi valgono per il rapporto di correlazione
della X sulla Y.

Esempio 6.4.1
Considerata la seguente distribuzione bivariata si calcoli il rapporto di correlazione della Y sulla X

X\Y -11 17 79


A 4 4 0 8
B 1 1 6 8
C 0 1 3 4
5 6 9 20

118
Dalla distribuzione marginale si ottengono la media e la varianza di Y che risultano rispettivamente uguali a

y
0  5  4  6  8 9
 4.8 s 2y 
0  4.82  5  4  4.82  6  8  4.82  9  10.56
20 20
Sulle tre distribuzioni condizionate si ottiene

yA 
0 4  4 4
 2.0 s 2y| A 
0  22  4  4  22  4  4.0
8 8

yB 
01 41 8 6
 6.5 s 2y|B 
0  6.5  4  6.52  8  6.52  6  7.75
2

8 8

yC 
4 1 8 3
 7.0 s 2y|C 
4  7  8  7
2 2
3
 3.0
4 4
Per cui la varianza spiegata è

sb2 
1
20
 
2  4.82 8  6.5  4.82 8  7  4.82  4  5.26
5.26
e il rapporto di correlazione della Y sulla X risulta  y|x2
  0.4981
10.56

119
6.5 Concordanza e discordanza
In numerose situazioni reali, quando entrambe le variabili X e Y sono di tipo quantitativo, si vuole
valutare se al crescere dei valori assunti da una variabile anche i valori dell’altra tendono a crescere
oppure se tendono a diminuire. Per esempio, si potrebbe essere interessati a verificare se al crescere dei
livelli del reddito mensile anche la spesa per consumi tende ad aumentare, se al crescere del grado di
anzianità in ruolo aumenta anche il livello del reddito, se al crescere della produzione di grano il suo
prezzo tende a diminuire.
Se si dispone della sequenza originaria delle coppie di osservazioni, uno strumento che si rivela
particolarmente utile per indagare sul tipo e sull'intensità del legame esistente fra le variabili è il
cosiddetto diagramma di dispersione o scatter diagram, che consiste in un grafico sul quale le coppie
di valori (xi, yi), per i = 1,2, …, n, rilevati sulle n unità statistiche vengono rappresentate da un punto con
coordinate proporzionali a xi e yi. Pertanto ogni singolo punto del grafico corrisponde a una unità
statistica.

Il diagramma di dispersione mette in evidenza il campo di variazione delle due variabili, i punti intorno ai
quali sono concentrati i loro valori, il tipo di legame che esiste tra le variabili e la sua intensità.

La figura 6.5.1, per esempio, riporta le coppie di valori elencate nella tabella 5.2.5.

Figura 6.5.1
Diagramma di dispersione dei dati riportati nella tabella 5.2.5
26

25

24
C
o 23
n
s 22
u
m 21
o
20

19

18
22 23 24 25 26 27 28 29 30 31 32 33 34 35
Reddito

120
Il grafico ottenuto mostra come, al crescere del livello del reddito, anche il consumo tende generalmente a
crescere. In una situazione come questa si dice che esiste concordanza fra le due variabili, o che le
variabili X e Y sono concordi.
Inoltre il grafico evidenzia anche che i punti tendono a disporsi intorno ad una retta con inclinazione
positiva. Si può quindi concludere che a incrementi di reddito corrispondono generalmente incrementi
proporzionali di consumo, per cui quello proposto è un esempio di dipendenza lineare diretta fra le due
variabili. In situazioni come questa la conoscenza del valore di una variabile per una unità statistica
sembra in grado di fornire informazioni, sia pure approssimate, sull'ordine di grandezza dell'altra
variabile. Questa affermazione ancora intuitiva e poco accurata verrà ripresa e precisata nelle pagine
seguenti.
Il diagramma di dispersione relativo ai dati dell’esempio 5.6.4, che riporta i valori della variabile X
“contenuto di umidità” e Y “solidità” di 10 assi di legno, mostra invece un esempio di discordanza fra le
due variabili, dato che al crescere dei valori dell’umidità la solidità delle assi di legno tende a diminuire.
Le variabili X e Y sono quindi discordi.

Figura 6.5.2
Diagramma di dispersione dei dati riportati nell’esempio 5.6.4
14

s
o 13
l
i
d
i
t 12
à

11
8 9 10 11 12
umidità

Come si può notare dal confronto fra i due grafici precedenti, l’intensità del legame fra X e Y può essere
più o meno elevata e le forme che possono assumere le nuvole di punti di un diagramma di dispersione
sono le più varie. Nella figura 6.5.3, per esempio, non esiste una relazione di concordanza o di

121
discordanza fra le due variabili considerate, mentre il grafico della figura 6.5.4 mostra un andamento
dapprima concordante e poi discordante.

Figura 6.5.3
Esempio di diagramma di dispersione
20

18

16

14
Y 12
10

4
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
X

Figura 6.5.3
Esempio di diagramma di dispersione
10

6
Y
4

0
0 1 2 3 4
X

Nota
Anche la rappresentazione di una distribuzione bivariata relativa a due variabili quantitative potrebbe essere
effettuata mediante un diagramma di dispersione, ma in questa situazione i singoli punti hanno un peso diverso, che
dipende dalla frequenza associata a ciascuna coppia di valori. Per questo motivo si evita questo tipo di
rappresentazione ricorrendo, semmai, a grafici di tipo differente che non verranno però esaminati in questa sede.

122
Un indice in grado di valutare se le due variabili in esame sono legate in modo diretto o inverso è la
covarianza che, come si è visto in precedenza, assume valori positivi se le variabili sono concordi e valori
negativi se sono discordi.
Una covarianza nulla indica solo l’assenza di concordanza o discordanza nell’andamento delle due
variabili, ma non esclude che esistano altri tipi di legami, anche molto stretti, per cui a una covarianza
pari a zero può corrispondere un eta quadrato o un chi-quadrato molto elevato, o addirittura massimo.
Se, invece, è il chi-quadrato a risultare nullo, allora saranno nulli sia l’indice eta quadrato sia la
covarianza.

Se due variabili X e Y sono indipendenti in senso assoluto (o in distribuzione) e sono entrambe di tipo
quantitativo, la loro covarianza è pari a zero.

Dimostrazione
Tenendo presente la seconda delle uguaglianze 6.2.2, il primo momento misto fra le due variabili
(espresso nella formula 5.6.5) può essere scritto nella forma seguente

k h k h
m1,1  
j 1 l 1
x j yl f j. f .l  
j 1
x j f j. 
l 1
yl f .l  x y

e risulta quindi uguale al prodotto delle medie delle due variabili.


Di conseguenza la covarianza, pari alla differenza fra la media della variabile XY meno il prodotto delle
medie delle due variabili, risulta pari a zero.

123

Potrebbero piacerti anche