Sei sulla pagina 1di 4

STATISTICA (Dispense a cura di Marco Minozzo e Annamaria Guolo) 1

Università degli Studi di Verona


Corso di laurea in Economia e Commercio
A.A. 2011/2012

STATISTICA
Prof. Marco Minozzo

Esercitazione 7. Dipendenza

Introduzione
Si consideri l’informazione sui due caratteri X e Y , di modalità rispettivamente x1 , . . . , xs e y1 , . . . , yt ,
racchiusa nella seguente tabella di frequenza a doppia entrata
y1 ... yj ··· yt Totale
x1 n11 ··· n1j ··· n1t n10
.. .. .. .. ..
. . . . .
xi ni1 ··· nij ··· nit ni0
.. .. .. .. ..
. . . . .
xs ns1 ··· nsj ··· nst ns0
Totale n01 ··· n0j ··· n0t N
Nella tabella, nij rappresenta la frequenza assoluta congiunta rilevata per la modalità xi di X e yj
di Y ; ni0 rappresenta la frequenza assoluta marginale della modalità xi di X; n0j rappresenta la
frequenza assoluta marginale della modalità yj di Y ; e N rappresenta il totale delle osservazioni
rilevate. Si ha

s ∑
t ∑
s ∑
t
N= nij = ni0 = n0j .
i=1 j=1 i=1 j=1

A partire dalla tabella a doppia entrata, si ricavano la distribuzione relativa marginale di X


X x1 ··· xi ··· xs Totale
n10 ni0 ns0
f10 = · · · fi0 = · · · fs0 = 1
N N N
e la distribuzione relativa marginale di Y
Y y1 ··· yj ··· yt Totale
n01 n0j n0t
f01 = · · · f0j = · · · f0t = 1
N N N
Fissata una qualunque modalità yj di Y , la distribuzione relativa (“per colonna”) di X condizionata
a yj è data da
X x1 ··· xi ··· xs Totale
n1j nij nsj
··· ··· 1
n0j n0j n0j
In modo analogo si ricava la distribuzione relativa (“per riga”) di Y condizionata alla modalità
generica xi
Y y1 ··· yj ··· yt Totale
ni1 nij nit
··· ··· 1
ni0 ni0 ni0
STATISTICA (Dispense a cura di Marco Minozzo e Annamaria Guolo) 2

Solitamente è di interesse valutare se esiste indipendenza tra i due caratteri X e Y . In caso di


indipendenza, le distribuzione relative di un carattere condizionate a ciascuna delle modalità assunte
dall’altro carattere sono identiche. Ciò si traduce nella possibilità di scrivere le frequenze assolute
congiunte come segue
ni0 · n0j
nij = ,
N
o, equivalentemente, in termini di frequenze relative congiunte
nij ni0 n0j
fij = = · = fi0 · f0j .
N N N
A partire dal confronto tra le frequenze congiunte osservate nij e quelle teoriche n̂ij = ni0 · n0j /N
nel caso di indipendenza, si può valutare il grado di dipendenza tra X e Y . A tal fine, si costruisce
l’indice di dipendenza χ2 di Pearson

s ∑
t
(nij − n̂ij )2
χ2 = .
i=1 j=1 n̂ij

L’indice assume valore nullo se e solo se esiste indipendenza tra X e Y , e assume valore positivo
in caso (e solo in quel caso) di dipendenza tra √ X e Y . Solitamente, a partire dall’indice χ2 si
costruiscono anche l’indice di dipendenza ψ = χ2 /N e l’indice di dipendenza normalizzato di
Cramér definito come √
ψ χ2 1
C=√ = · ,
k N k
dove k è il valore minimo tra s − 1 e t − 1, ovvero tra il numero s di righe meno 1, e il numero t di
colonne meno 1 della tabella di contingenza. L’indice C di Cramér assume valore 0 (valore minimo)
in caso di indipendenza tra X e Y , e assume valore 1 (valore massimo) in caso di dipendenza perfetta
di Y da X, o di X da Y . Nelle situazioni in cui la tabella di contingenza non è quadrata, vale a
dire se il numero di modalità di X e Y è diverso, allora non può esistere contemporaneamente
dipendenza perfetta di Y da X e di X da Y ; in questo caso si può solo avere o dipendenza perfetta
di Y da X, oppure di X da Y .

Esercizio 1
Relativamente alla Tavola 7.2 del “Compendio Statistico Italiano 1998” (pag. 86) e limitatamente
alle regioni Piemonte, Veneto, Emilia Romagna, Toscana e Lazio si consideri la seguente dis-
tribuzione doppia di frequenza degli occupati (in migliaia) secondo i caratteri tipo di occupazione
(Agricoltura, Industria, Altre attività) e Regione:
Regione Agricoltura Industria Altre attività Totale
Piemonte 87 676 930 1693
Veneto 100 766 983 1849
Emilia Romagna 121 592 981 1694
Toscana 57 463 833 1353
Lazio 80 362 1375 1817
Totale 445 2859 5102 8406
Sulla base di questa distribuzione doppia di frequenza:

a) Si ricavi la distribuzione marginale relativa del carattere tipo di occupazione.


b) Si ricavino le distribuzioni condizionate relative del carattere tipo di occupazione per le cinque
regioni. Si dica se esiste o meno dipendenza tra i due caratteri considerati.
STATISTICA (Dispense a cura di Marco Minozzo e Annamaria Guolo) 3

c) Si calcolino l’indice di dipendenza χ2 e l’indice di dipendenza normalizzato C di Cramér e si


commentino i risultati ottenuti.

Esercizio 2
Si consideri la tavola seguente relativa alla risposta ad un test dermatologico (Y ) di tre gruppi di
individui affetti da una diversa patologia dermatologica (X):
Risposta al test dermatologico
elevata discreta moderata negativa totale
Gruppo 1 14 12 13 4 43
Gruppo 2 8 22 12 6 48
Gruppo 3 3 2 6 10 21
a) Si ottenga la distribuzione marginale relativa del carattere Y (risposta al test) e le distribuzioni
condizionate relative del carattere Y (risposta al test) per i tre gruppi.
b) Si ottengano le distribuzioni condizionate relative del tipo di patologia (gruppo), ovvero del
carattare X, data la risposta al test e si dica se esiste dipendenza o meno tra i caratteri X ed
Y.
c) Si dica se per questo tipo di tabella (di dimensione 3 righe × 4 colonne) è possibile che ci sia
perfetta dipendenza di X da Y , ovvero di Y da X.
d) Si calcolino l’indice di dipendenza χ2 , l’indice C normalizzato di dipendenza di Cramér e si
commenti.

Esercizio 3
Si consideri la Tavola 11.7 (“Eurostat 2006-2007”, pag. 296), relativamente alle nazioni Grecia,
Spagna, Italia, che riporta la produzione di Cereali, Ortaggi e Latte (espressa in centinaia di migliaia
(100000) di tonnellate)
Tipo di Produzione
Cereali Ortaggi Latte Totale
Grecia 42 40 7 89
Italia 201 144 101 446
Spagna 133 129 59 321
Totale 376 313 167 856
a) Si determinino le distribuzioni marginali relative dei caratteri tipo di produzione e Nazione.
b) Si determinino le distribuzioni condizionate relative del tipo di produzione rispetto alle nazioni
considerate.
c) Si valuti se esiste dipendenza tra i due caratteri.

Esercizio 4
Si considerino due caratteri X e Y , con modalità rispettivamente x1 , . . . , xs e y1 , . . . , yt .
a) Assumendo s = 3 (ovvero che X presenti solamente tre modalità) e t = 3 (ovvero che Y
presenti solamente tre modalità), si riempiano le celle della seguente tabella di frequenza
nell’ipotesi che vi sia dipendenza perfetta tra i due caratteri. Si consideri fissata a N = 20 la
somma delle frequenze assolute.
STATISTICA (Dispense a cura di Marco Minozzo e Annamaria Guolo) 4

y1 y2 y3 Totale
x1
x2
x3
Totale 20

b) Assumendo s = 3 (ovvero che X presenti solamente tre modalià) e t = 3 (ovvero che Y presenti
solamente tre modalità), si riempiano le celle della seguente tabella di frequenza nell’ipotesi
che vi sia indipendenza tra i due caratteri. La scelta del totale delle frequenze assolute è libera.

y1 y2 y3 Totale
x1
x2
x3
Totale

Potrebbero piacerti anche