Sei sulla pagina 1di 52

10/18/2019

ANALISI DEI DATI


PER IL MARKETING
2019

Marco Riani
mriani@unipr.it
http://www.riani.it

Misura della relazione tra


coppie di variabili
• Matrice di correlazione (variabili
quantitative)
• Matrice di cograduazione (ranking)
Associazione (variabili
qualitative, nominali o ordinali
con poche categorie) CAP. IV

1
10/18/2019

Indici di associazione per tabelle


22
La tabella 22 è generata da variabili
dicotomiche (binarie) o da variabili
(qualitative o quantitative) ricondotte a due
sole modalità.
L’associazione tra le variabili è definita in
funzione delle frequenze riportate nella
tabella (frequenze di cella o casella).

Tabella 2  2
A e B  2 prodotti (items) del «paniere»

A/B Acquistato Non Tot.


acquistato
Acquistato n11 n12 n1
Non n21 n22 n2
acquistato
Tot. n1 n2 n

n11 = numero di transazioni in cui A e B sono acquistati


insieme
n = numero totale di transazioni

A e B  2 pagine web (visitate / non visitate)

2
10/18/2019

Tabella di contingenza 22


y
x y1 y2 Tot
1 grado di libertà:
se si mantengono x1 n11 n12 n1.
costanti le distribuzioni
marginali basta fissare
una sola frequenza in x2 n21 n22 n2.
una qualunque cella
affinché le altre tre Tot n.1 n.2 n
siano determinate in
modo univoco

Definizione: Indipendenza
• Teorema della probabilità composta per eventi
indipendenti
• Due variabili dicotomiche X ed Y si dicono
indipendenti, con riferimento alle n unità
statistiche analizzate, se e solo se:

y1 y2 Tot

x1 n11 n12 n1.

= distribuzione x2 n21 n22 n2.

condizionata Tot n.1 n.2 n

3
10/18/2019

Implicazioni dell’indipendenza

Cioè

Interpretazione
In caso di indipendenza, la modalità
assunta da X è irrilevante rispetto alla
modalità assunta da Y.
In tale circostanza, la proporzione di
unità statistiche che presentano la
categoria x1 di X risulta la medesima in
entrambe le classi di Y.

4
10/18/2019

Esempio
y
• X = ricordo della x sì no Tot
pubblicità
sì 87 188 275
• Y = acquisto del
no 42 406 448
prodotto
Tot 129 594 723
• Tabella delle sì no Tot
frequenze teoriche in
sì 49,1 225,9 275
caso di indipendenza:
no 79,9 368,1 448
• (275 ×129)/723 = 49.1
Tot 129 594 723

Associazione positiva
Consideriamo le modalità di maggior rilievo
per l’analisi: in questo caso sono date dalla
presenza dei fenomeni (modalità “sì”).
Se si verifica che:

(frequenza teorica)

si dice che le variabili mostrano associazione


positiva (sono associate positivamente).
Nell’esempio si ha n11> n*11 per cui vi è associazione
positiva tra il ricordo della pubblicità e l’acquisto del
prodotto.

5
10/18/2019

Associazione negativa

Se si verifica che:

si dice che le variabili mostrano associazione


negativa (sono associate negativamente)

Osservazioni
• L’associazione si misura con riferimento
alle frequenze teoriche in caso di
indipendenza
• Se i fenomeni dicotomici non sono del
tipo presenza / assenza, la scelta delle
modalità di riferimento è arbitraria.

6
10/18/2019

Esercizio
• Implementare il calcolo delle frequenze
teoriche in Excel

Definizione: statistica 2
(chi quadrato)

Si dice statistica di Pearson, e si indica con 2


la seguente quantità:

2  0 ed è funzione crescente dell’associazione


2 = 0 se i fenomeni sono indipendenti
E’ una misura globale della “discrepanza” tra le
frequenze osservate e le frequenze teoriche
nell’ipotesi di indipendenza.

7
10/18/2019

Caratteristiche statistica 2
• Dipende da n e tende a crescere al
divergere di n

Definizione: statistica  (phi)


Poiché 2 dipende da n, ed in particolare
tende a crescere al divergere di n, si
introduce una misura relativa, che
assume valore nell’intervallo [-1, +1]:

ove il simbolo ± significa che alla radice


quadrata è attribuito il segno della
differenza (n11n22 – n21n12)

8
10/18/2019

Proprietà di 
• E’ funzione anche delle frequenze
marginali
•  = -1 se e solo se n11 = n22 = 0
•  = +1 se e solo se n12 = n21 = 0
• Nel caso di variabili del tipo presenza-
assenza, si ha  = +1 solo se tutte le unità
statistiche che possiedono X possiedono
anche Y e, viceversa, tutte quelle che non
presentano X non presentano neanche Y.
Si parla di associazione assoluta

Associazione assoluta
sì no Tot sì no Tot

sì n11 0 n1. sì 0 n12 n1.

no 0 n22 n2. no n21 0 n2.

Tot n.1 n.2 n Tot n.1 n.2 n

 = +1  = -1

9
10/18/2019

Osservazione
• L’indice phi si può interpretare come il
coefficiente di correlazione lineare tra X e
Y

Esempio
sì no Tot
• X = ricordo pubblicità
• Y = acquisto prodotto sì 87 188 275.
no 42 406 448
Tot 129 594 723

sì no Tot
sì 49,1 225,9 275
no 79,9 368,1 448
Tot 129 594 723

10
10/18/2019

Osservazioni
• Inconvenienti degli indici precedenti
• X2 dipende da n
•  dipende dalle distribuzioni marginali

Misura alternativa di associazione in tabelle 2x2


Rapporto dei prodotti incrociati
(cross product ratio)

L’indice  dipende solo dalle frequenze di cella


• = 0 se n11=0 o n22=0,
•  = + se n12=0 o n21=0 (convenzione)
•  = 1 se le variabili sono indipendenti

11
10/18/2019

 = 1 se le variabili sono indipendenti

y1 y2 Tot

x1 n11 n12 n1.

x2 n21 n22 n2.

Tot n.1 n.2 n

Proprietà del Cross Product


Ratio
1.E’ invariante se si inverte l’ordine delle
righe e delle colonne
2.E’ invariante se si moltiplicano per delle
costanti le frequenze di riga e di colonna
3.Se  > 1 si ha associazione positiva o
diretta

12
10/18/2019

Esempio y
sì no Tot
X
X = ricordo pubblicità
sì 87 188 275.
Y = acquisto prodotto
no 42 406 448
Tot 129 594 723
y
sì no Tot
X
Sì 0.120 0.260 0.38
no 0.058 0.562 0.62
Tot 0.178 0.822 1.00
RAPPORTO DI RAPPORTI: Il rapporto tra acquirenti e non
acquirenti è 0,462 per coloro che ricordano la pubblicità e
0,103 per coloro che non la ricordano (è 4,48 volte più
alto per coloro che ricordano)

Indice normalizzato del rapporto


dei prodotti incrociati
Assume valori nell’intervallo [-1, +1]

Risulta pari a 0 se le variabili sono indipendenti


ed è simmetrico rispetto allo 0

13
10/18/2019

Proprietà dell’indice Q

• Q = +1 se n12 = 0 oppure n21 = 0


• Q = -1 se n11 = 0 oppure n22 = 0
In questi due casi l’associazione è
completa, cioè è la massima
associazione che si può
verificare dati i totali marginali.

Indice U
• Altro indice normalizzato tra [-1 1]

• Nel file di Excel Theta_and_Q.xlsx si


esplora la relazione tra U, Q e 

14
10/18/2019

Esempio
sì no Tot
X = ricordo pubblicità
Y = acquisto prodotto sì 87 188 275.
no 42 406 448
Tot 129 594 723

Esempio
X = sesso, Y = iscrizione società sportiva
sì no Tot
n*11 = ? M 35 37 72
F 18 70 88
2 = ?
Tot 53 107 160
=?
=? ASSOCIAZIONE COMPLETA

Q=? sì no Tot
M 53 19 72
F 0 88 88
Tot 53 107 160

15
10/18/2019

Esempio
X = sesso, Y = iscrizione società sportiva
sì no Tot
n*11 = 23,85 M 35 37 72
F 18 70 88
2 = 14,17
Tot 53 107 160
 = 0,298
 = 3,68 ASSOCIAZIONE COMPLETA

Q = 0,57 sì no Tot
M 53 19 72
F 0 88 88
Tot 53 107 160

Tabella di contingenza rc


(pag. 109 e seg.)
gradi di libertà: y
(r-1)  (c-1) X
y1 ... yc Tot

Variabili indipendenti se: x1 n11 n1c n1.

...
xr nr1 nrc nr.
Tot n.1 n.c n

16
10/18/2019

Tabella di contingenza rc


(pag. 109 e seg.)
gradi di libertà: y
(r-1)  (c-1) X y1 ... yc Tot

Variabili indipendenti se: x1 n11 n1c n1.

...
xr nr1 nrc nr.
Tot n.1 n.c n

Definizione: Indipendenza
In caso di indipendenza, la modalità assunta da
X non influenza le modalità assunte da Y.
Due variabili nominali X ed Y si dicono
indipendenti, con riferimento alle n unità
statistiche analizzate, se e solo se, per ogni i e j:

17
10/18/2019

Tabella
• Occorre generalizzare la statistica di
Pearson per tabelle 2 x 2 al caso di tabella
rxc

Indice X2 (CHI QUADRATO)


di Pearson

Contingenze

Φ compreso tra -1 e +1 in tabella 2x2


(attribuzione convenzionale del segno in base a: n11 n22 – n12 n21)

• non normalizzato in tabella rxc (può risultare >1)

18
10/18/2019

Indice di Cramer

V = 1 nell’ipotesi di massima
dipendenza tra i caratteri
(per qualsiasi valore di r e c)
V = Φ se r =2 e/o c =2

Esercizio
• Il file SONDAGGIOUSA è una parte di
un’indagine multiscopo
• Per ciascun intervistato sono riportate
informazioni anagrafiche, sulle tendenze
politiche e il pensiero a riguardo di alcune
tematiche di stretta attualità. Gli studiosi sono
interessati ad indagare su relazioni intercorrenti
tra le variabili
• Obiettivo 1 È sostenibile la tesi secondo la
quale la tendenza politica (var. partito) influenzi
in qualche modo il parere riguardo alla pena
capitale (var. penacap)?

19
10/18/2019

Esercizio
• Costruire la tabella di contingenza tra le
variabili partito e penacap
• Mostrare tramite un grafico a barre
sovrapposto (in pila al 100% l’andamento
dei favorevoli e contrari al progredire della
tendenza politica)
• Calcolare il X2 e l’indice di Cramer per
misurare l’associazione tra le due variabili

Output Excel: tabella pivot

20
10/18/2019

Grafico associato alla tabella pivot

Concetto di dipendenza e
interdipendenza
• Dipendenza:
• Esiste un antecedente (logico o
temporale) ed un conseguente

• Interdipendenza:
• Le due variabili sono sullo stesso piano

21
10/18/2019

Massima interdipendenza e
dipendenza (p. 116)
y1 y2 Tot y1 y2 y3 Tot
x1 n11 0 n1. x1 0 n12 0 n1.
x2 n21. 0 0 n2.
x2 0 n22 n2.
x3 0 0 n33 n3.
x3 0 n32 n3.
Tot n.1 n.2 n Tot n.1 n.2 n.3 n

Max dipendenza di Y da X Max interdipendenza


La dipendenza di Y da X (r  c) si definisce massima quando vi è una sola
frequenza non nulla per ogni riga

Dipendenza ed Interdipendenza
La dipendenza di Y da X (r  c) si definisce
massima quando vi è una sola frequenza non
nulla per ogni riga
La dipendenza di X da Y (c  r) si definisce
massima quando vi è una sola frequenza non
nulla per ogni colonna
Si ha massima interdipendenza quando
nij = ni. = n.j (c = r)

22
10/18/2019

INFERENZA SULLA ASSOCIAZIONE


(pag. 148 e seg.)
Obiettivo dell’inferenza:
Estendere la conoscenza da un campione di
osservazioni ad una popolazione (universo) più
ampia
 è un processo che ha a che fare con
l’estrazione della conoscenza (in una fase
confermativa, non esplorativa)

ASSUNZIONE: le n osservazioni bivariate


presentate nella tabella di contingenza
costituiscono un campione casuale

• Chi quadrato:

X2 > 0 come si interpreta?


Test di significatività dell’associazione (calcolo
p-value)

Se X2 è significativo:
Misura dell’entità della relazione:
•  indici di associazione (simmetrici)
ottenuti da X2
•Il più utile è V di Cramer varia in [0, 1]

23
10/18/2019

Distribuzione di 2 sotto H0

IPOTESI DI INDIPENDENZA STOCASTICA


Stima di nij :

= variabile aleatoria

Se H0 è vera

Variabile aleatoria 2
Y = (Z1)2 + (Z2)2 + ... + (Zg)2
ove Zi ~ N(0,1) i = 1, ..., g
Y ~ 2(g)
1. E (2 (g)) = g
2.VAR (2 (g)) = 2g
3. f (2 (g)) è asimmetrica, ma se g →  la
2(g) standardizzata →NORMALE

24
10/18/2019

Verifica di ipotesi sulla 2


TAVOLA SUL TESTO (Ultima)

f(2)
g=4

2 2

DECISIONE
• Calcolo del valore di χ2 campionario
• H0: indipendenza; H1: associazione (significativa)
• g = (r-1)(c-1)
• Scelta di α (livello di significatività = prob. di
errore di prima specie)
• Lettura sulla tavola del valore χ2 α
• RIFIUTO H0 SE:
• χ2 camp > χ2 α
• Con SPSS: RIFIUTO H0 se: p-value <α
• La probabilità di errore è minore di 

25
10/18/2019

Esercizio
• Nell’esercizio sull’associazione tra
partitato e penacap (file SONDUSA)
calcolare il p-value e commentare la
significatività della relazione.

Osservazioni conclusive
• La verifica della significatività
dell’associazione è una condizione
preliminare al calcolo degli indici
• Se non vi è associazione significativa (almeno al
10%) non si può rifiutare l’ipotesi di
indipendenza stocastica
• Quindi la misura dell’associazione è priva di
senso
• Nel caso di un campione piccolo, è opportuno
aumentare la numerosità (se possibile!) per
verificare se permane la non significatività
dell’associazione

26
10/18/2019

Osservazioni
• Gli indici visti finora sono poco
interpretabili.
• Ad es V=0.3 significa che la relazione è
pari al 30% del valore massimo possibile
• Obiettivo = trovare indici di associazione di
chiaro significato operativo e un modello
probabilistico sottostante

Esempio: previsione del settore


conoscendo la laurea
X / Y Azienda Azienda Libero Non Tot
Privata pubblica Profes occup
Economia 150 80 20 50 300
Giurisprud. 80 250 30 140 500
Lettere 30 50 0 120 200
Totale 260 380 50 310 1000

27
10/18/2019

Indici con interpretazione


operativa (pag. 117 e seg.)
Previsione della modalità di Y
• 1) In assenza d’informazioni
• 2) Conoscendo la modalità di X

Esempio: previsione del settore


conoscendo la laurea
X / Y Azienda Azienda Libero Non Tot
Privata pubblica Profes occup
Economia 150 80 20 50 300
Giurisprud. 80 250 30 140 500
Lettere 30 50 0 120 200
Totale 260 380 50 310 1000

Probabilità di errore nel caso 1): 1-380/1000 =0.62


Probabilità di errore nel caso 2): 1-(150+250+120)/1000=0.48

28
10/18/2019

Probabilità di errore

• Probabilità di errore nel caso 1):

• Probabilità di errore nel caso 2):

Proportional
Reduction
Error
(PRE):

Probabilità di errore
Proportional
Reduction
Error
(PRE):
ove ni(max) = max(j) nij n.(max) = max(j) n.j

29
10/18/2019

Proportional Reduction Error


Indice di Goodman-Kruskal (p. 119)

y|x = 0  Indipendenza
y|x = 1 Dipendenza Predittiva (max dipendenza di
Y da X)
PROPRIETA’
• Invarianza per permutazione di righe o colonne
• Asimmetria: y|x  x|y

Esempio
Azienda Azienda Libero Non Tot
Privata pubblica Profes occup
Economia 150 80 20 50 300
Giurisprud. 80 250 30 140 500
Lettere 30 50 0 120 200
Totale 260 380 50 310 1000

30
10/18/2019

Commento al valore di lambda


• Riduzione della probabilità di errore nella
previsione del settore conoscendo la
laurea del 22.58%

INDICI BASATI SULLA


RIDUZIONE PROPORZIONALE
DELL’ETEROGENEITÀ

31
10/18/2019

Eterogeneità e Variabilità
• Variabilità  differenze tra i valori di un fenomeno
quantitativo
• Eterogeneità  differenze tra le modalità di un fenomeno
qualitativo
Frequenze ni Frequenze fi

x1 n1 f1
x2 n2 f2
… … …
xi ni fi
… …
xp np fp
Tot n 1

Casi estremi
• Perfetta omogeneità (eterogenità nulla) = il
fenomeno presenta una sola modalità con
frequenza non nulla. Esempio
Frequenze ni Frequenze fi

x1 0 0
x2 n 1
… … …
xi 0 0
… …
xp 0 0
Tot n 1

32
10/18/2019

Casi estremi
• Massima eterogeneità = le p modalità del
fenomeno qualitativo presentano uguale
frequenza.
Frequenze ni Frequenze fi

x1 n/p 1/p
x2 n/p 1/p
… … …
xi n/p 1/p
… …
xp n/p 1/p
Tot n 1

Indici di eterogeneità
• Misure che consentono di valutare in che
posizione si colloca la distribuzione di
frequenze di un fenomeno qualitativo
rispetto ai casi estremi di perfetta
omogeneità e massima eterogeneità

33
10/18/2019

Indice di eterogeneità di Gini

• Perfetta omogeneità  G =0
• Max eterogeneità  G = (p-1)/p

Indice di entropia (eterogeneità


di Shannon)

• Perfetta omogeneità  H =0
• Max eterogeneità  H = log p

34
10/18/2019

Esempio
• Distribuzione del numero di protesti (in
migliaia) in Italia. File di Excel
entropia.xlsx
• Calcolare gli indici di eterogeneità di Gini e
di Shannon

Definizione
• Si dice indice di associazione basato sulla
riduzione proporzionale dell’eterogeneità
una misura che assume la seguente forma

35
10/18/2019

Indice tau di Goodman e Kruskal

• Se

Coefficiente di incertezza di Theil

• Se

36
10/18/2019

Proprietà di H e Tau
• [0 1]
• 0 se e solo se i due caratteri sono
indipendenti
• 1 se vi è la massima dipendenza di Y da X
• Sono invarianti per permutazioni di righe e
colonne
• Tau = Φ2 (nelle tabellle 2 x 2)
• Sono indici asimmetrici

Esercizio
• Aprire il file spumanti.xlsx.
• 1) Costruire la tabella di contigenza tra le
variabili Gusto (x) e Abbinamento (y)
• 2) Calcolare y|x di Goodman e Kruskall,
l’indice tau di Goodman e Kruskall e il
coefficiente di incertezza di Theil

37
10/18/2019

RELAZIONI TRA
VARIABILI ORDINALI
•Cograduazione in serie doppia
•Associazione in tabella di contingenza
con variabili ordinali

ASSOCIAZIONE per variabili ordinali


Esempio: outlet, soddisfazione per due
aspetti

38
10/18/2019

ASSOCIAZIONE per variabili


ordinali (pag. 127 e seg.)

TABELLA DI CONTINGENZA r x c
Relazione fra coppie di unità:
• Concordante se l’unità che ha livello più
elevato su X ha pure livello più elevato su Y.
• Discordante se l’unità che ha livello più
elevato su X ha livello più basso su Y.
• A pari merito se le due unità hanno livello
uguale per X e/o per Y (è sufficiente
l’uguaglianza di una delle due modalità)

Risultati di due prove:


Calcolo di C e D
X = prova scritta; Y = orale

X Y Suff Discreto Buono Tot


Suff 20 40 20 80
Discreto 10 45 45 100
Buono 0 5 15 20
Tot 30 90 80 200
Concordanze: 20(45+45+5+15) + 40(45+15) +
10(5+15) + 45(15) = 5475
Discordanze: 40(10) + 20(10+45+5) + 45(5) =
1825

39
10/18/2019

Indice  di Goodman- Kruskal


(simmetrico)

Si basa sul numero di coppie concordanti (C) e

discordanti (D):

È compreso nell’intervallo [-1, 1]:


+1 quando l’ordinamento delle coppie rispetto ai due
caratteri è sempre concorde;

-1 quando è sempre discorde

E’ uguale a 0 quando C=D

Risultati delle due prove: calcolo di 

La concordanza è pari al 50% del valore massimo possibile


(secondo l’indice utilizzato). Ad un risultato migliore nella
prima prova corrisponde più frequentemente un esito
migliore anche nella seconda.

L’indice gamma tiene conto solo delle coppie


concordanti e discordanti, per cui un elevato numero di
coppie a pari merito tende ad elevarne il valore in
maniera artificiosa.

40
10/18/2019

Indice b di Kendall
Tiene conto delle coppie a pari merito

-1  b  1

Vale la relazione |b |  | |

Indice b (tau) di Kendall


Misura di interdipendenza ordinale

+1 quando l’ordinamento delle coppie


rispetto ai due caratteri è sempre
concorde;

-1 quando è sempre discorde

E’ uguale a 0 quando C=D

41
10/18/2019

Indice d di Somers
Misura di dipendenza ordinale (di
tipo asimmetrico)
Y dipendente
X esplicativa

-1  dy|x  1

Indice d di Somers

Y dipendente
X esplicativa

-1  dy|x  1

42
10/18/2019

Esempio
X Y Suff Discreto Buono Tot
Suff 20 40 20 80
C = 5475
Discreto 10 45 45 100 D = 1825
 = 0.5
Buono 0 5 15 20
Tot 30 90 80 200

Esempio:
X = prova scritta; Y = orale
X Y Suff Discreto Buono Tot
Suff 20 40 20 80
Discreto 10 45 45 100
Buono 0 5 15 20
Tot 30 90 80 200

43
10/18/2019

Relazione tra indici tau e d

• dy | x = 0,315
• dx | y = 0,297

Esempio: Indagine su 100 imprenditori


X Y Diminuzione Uguale Aumento Tot
Peggiore 28 1 0 29
Stazionario 17 26 10 53
Migliore 0 5 13 18
Tot 45 32 23 100
X = Giudizio sull’andamento congiunturale dell’economia
Y = Intenzioni di investimento

2 = 65,52 20,01(4) = 13,277 → rifiuto H0

44
10/18/2019

Calcolo di Lambda e d di Somers

C = 28(26+10+5+13) + 1(10+13) + 17(5+13) + 26(13) = 2179


D = 1(17) + 10(5) = 67

Interpretazione λy|x

Riduzione della probabilità di errore nella


previsione delle «Intenzioni di investimento»
conoscendo il «giudizio sull’andamento
congiunturale dell’economia» del 40%

45
10/18/2019

Interpretazione dy|x
La differenza tra la proporzione di coppie
concordanti e la proporzione di coppie
discordanti (calcolata con riferimento solo
alle coppie di osservazioni che non sono a
pari merito sulla variabile esplicativa X
("Giudizio sull’andamento congiunturale
dell’economia") è positiva ed è pari al 70 per
cento (circa) del valore massimo possibile.
C'è quindi una sostanziale concordanza tra il
giudizio sull’andamento congiunturale
dell’economia e le intenzioni di investimento

Scelta dell’indice di
associazione più appropriato
Occorre considerare:
• In via preliminare, chi quadrato
significativo
• Scala dei fenomeni (nominale o
ordinale)
• Relazione di dipendenza o di
interdipendenza

46
10/18/2019

Intervallo di confidenza
degli indici di associazione (p.154)
• Intervallo che con probabilità 1 – 
contiene l’ignoto valore del parametro
della popolazione
• Se le variabili sono indipendenti (nella
popolazione): non si può escludere che il
valore dell’indice di associazione >0
calcolato nel campione sia dovuto solo alle
“fluttuazioni campionarie”: Associazione
(positiva) osservata nel campione non è
significativa

STANDARD ERROR
Il valore degli indici campionari varia da
campione a campione  c’è variabilità
campionaria
Come si misura la variabilità campionaria?

STANDARD ERROR = s. q. m. stimato


della distribuzione campionaria
• è calcolato dai software statistici è
inversamente proporzionale a

47
10/18/2019

• L’int. di confidenza di un deteminato indice


contiene il valore 0 non si può escludere che
il valore campionario sia dovuto solo alle
“fluttuazioni campionarie” e che il “vero”
valore dell’indice nell’universo sia uguale a 0
(l’associazione positiva osservata nel
campione non è significativa)

Esempio riepilogativo
• Per 127 modelli di frigoriferi di varie marche si è
calcolata la tabella di contingenza tra la classe
energetica e la classe climatica (entrambe le variabili
espresse su scala ordinale). La tabella di contingenza è
riportata nella slide successiva.
• Si verifichi la significatività dell’associazione.
• Si commenti il significato di tutti gli indici che compaiono
nella tabella e si dica qual è l’indice più appropriato per il
caso in esame.
• Si costruisca l’intervallo di confidenza con probabilità
0.99 dell’indice tau di Kendall e si illustrino le
informazioni che esso fornisce.

48
10/18/2019

Tabella di contingenza

Tavola di contingenza Classe energetica * Classe climatica


Conteggio

Soluzione
• Il chi-quadrato può essere calcolato
direttamente sulla tabella, oppure molto
più rapidamente si può ricavare dalla
relazione:

2 = 18.4942

49
10/18/2019

Commento sulla significatività


dell’indice 2
• Per g = 8, sulla tavola della variabile
aleatoria chi-quadrato per  = 0.02 si
legge un valore critico uguale a 18.17, e
per  = 0.01 si legge un valore critico
uguale a 20.09, per cui 2 campionario
risulta significativo al livello del 2%, ma
non significativo al livello dell’uno%.
DISTRIB.CHI.QUAD(18.17;8;1)=0.980013
DISTRIB.CHI.QUAD(20.09;8;1)=0.989999

DISTRIB.CHI.QUAD(18.5;8;1)=0.982225

Significato degli indici di


associazione riportati nella tabella
• L’indice Φ (phi) è di scarso interesse nel
caso in esame, poiché essendo la tabella
di dimensioni 3×5 esso può assumere
anche valori maggiori di 1.
• L’indice V=0.27 di Cramer segnala
un’associazione uguale al 27% del valore
massimo possibile, considerando però i
fenomeni come nominali.

50
10/18/2019

Commento indice tau-b di Kendall

|b |  | |

Significato indice tau di Kendall


L’indice tau di Kendall segnala una
concordanza tra le due variabili pari al 30,5%
del valore massimo possibile ed è quello più
appropriato per il caso in esame poiché le due
variabili sono ordinali; esso è preferibile rispetto
all’indice Gamma, in quanto tiene conto anche
delle coppie a pari merito.

|b |  | |

51
10/18/2019

Costruzione intervallo
di confidenza
dell’indice tau di
Kendall
• L’intervallo di confidenza risulta:
• P{0.305 – 2.58 × 0.068 ≤ τ ≤ 0.305 + 2.58 ×
0.068} = 0.99
• P{0.1296 ≤ τ ≤ 0.4804} = 0.99
• Dato che il suddetto intervallo non contiene lo
zero, la concordanza tra classe energetica e la
classe climatica è significativa al livello
dell’uno%

52