Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
A seconda del tipo di variabile (qualitativa o quantitativa), saranno utilizzati modi diversi per
misurare il legame.
Data una variabile doppia (X; Y), la misura del legame che caratterizza le componenti X ed Y si
definisce:
● connessione (o associazione) se X e Y sono mutabili;
● correlazione se X e Y sono variabili.
INTERDIPENDENZA E DIPENDENZA
Se le componenti di una variabile doppia (X; Y) oggetto di studio rivestono lo stesso ruolo, ai fini
dell'analisi si studia l'interdipendenza tra X e Y.
Se si vuole studiare, invece, l'andamento della variabile Y rispetto ad X, si farà riferimento alla
dipendenza di Y da X; in tal caso:
● Y si definisce variabile dipendente;
● X si definisce variabile indipendente.
Frequenze condizionate del carattere A rispetto alla j-sima modalità del carattere B (↓)
Frequenze condizionate del carattere B rispetto alla j-sima modalità del carattere A (↓)
Frequenze relative condizionate della variabile A rispetto alla j-sima modalità della
variabile B (↓)
Frequenze relative condizionate della variabile B rispetto alla i-sima modalità della
variabile A (↓)
Interpretazione (↑):
➢ 5 donne con un frame di tipo large;
➢ 7 uomini con un frame di tipo medium, ecc…
Cosa significa che c’è un legame tra due variabili qualitative? Significa che c’è
un’associazione, ovvero che alcune categorie di una variabile si verificano più spesso con
alcune categorie dell’altra variabile.
Es. potrebbe esserci un’associazione tra una determinata patologia ed il genere: una
patologia che si presenta più spesso nei maschi che nelle femmine.
Le frequenze relative condizionate vengono utilizzate per ridurre gli errori dovuti alla
presenza di modalità che compaiono di più o di meno nella distribuzione; quindi lo scopo di
tale metodologia è quello di rendere le distribuzioni indipendenti dal numero dei casi, in
modo da poterle confrontare direttamente.
Il procedimento consiste nel confrontare la tabella delle frequenze assolute osservate con
quella che sarebbe stata osservata se ci fosse stata indipendenza:
- se la tabella delle frequenze assolute osservate è lontana dalla tabella in condizione di
indipendenza, c’è un’associazione tra le 2 variabili;
- se, invece, le due tabelle sono uguali, non c’è un’associazione tra le 2 variabili.
Come ricavare (costruire) la tabella che sarebbe stata osservata se ci fosse stata
indipendenza? (procedimento spiegato in seguito)
INDIPENDENZA
e per X│Y
n1 j n2 j n3 j n
= = =…= 1 k
n1. n 2. n3. n k.
● ecc.;
● Ne deriva la tabella che segue (tabella frequenze relative sotto indipendenza genere e
frame).
La tabella frequenze relative condizionate rispetto alle righe (frame) sotto indipendenza
(↓);
La tabella frequenze relative condizionate rispetto alle colonne (genere) sotto
indipendenza (↓);
Ad occhio diremmo che si tratti di variabili dipendenti. Per quantificare quanta associazione c’è
tra queste due variabili si fissa lo zero e si calcola quanto siamo lontani dallo zero.
Come facciamo? Si crea una nuova tabella che presenta la distribuzione di frequenze che
avremmo osservato se ci fosse stata indipendenza.
Tale tabella ha in comune con la tabella soprastante le distribuzioni marginali ossia i totali di
riga e i totali di colonna.
La frequenza della combinazione
TRATTAMENTO Colesterolo Alto/Trattamento A che avrei
A B C TOTALE dovuto osservare se ci fosse stata
C. 3,1 1,3 3,5 8 indipendenza è data da:
ALTO
ñ 1,1 ñ 1,2 ñ 1,3
C. 3,8 1,6 4,4 10 BASSO
TOTALE DI RIGA∗TOTALE DI COLONNA
ñ 2,1 ñ 2,2 ñ 2,3 A=
TOTALE DI TABELLA
TOTALE 7 3 8 18
N.B. Tale calcolo viene definito come Frequenze teoriche sotto la condizione di
indipendenze.
Gli indici per la misura delle connessioni sono basati sulle differenze tra le frequenze
osservate sul collettivo nij e le frequenze teoriche n^ ij , ovvero le frequenze che si
osserverebbero sul collettivo se le mutabili considerate fossero indipendenti.
Indice quadratico di connessione ( X 2 ) è dato dalla seguente relazione:
2
k h
( n ij− n^ ij )
2
X =∑ ❑ ∑ ❑
i=1 j=1 n^ ij
( n ij− n^ ij ) → tale differenza viene elevata al quadrato perché non si è interessati al segno;
2
i=1 j=1 n^ ij
Avremo:
Per le righe:
2 2
( nij −n^ ij ) ( 5−3,1 )2 ( nij −n^ ij ) ( 2−1,3 )2
A= = =1,16 B= = =0.37
n^ ij 3,1 n^ ij 1,3
2
( nij −n^ ij ) ( 1−3 , 5 )2
C= = =7,14
n^ ij 3 ,5
Per le colonne:
2 2
( nij −n^ ij ) ( 2−3 , 8 )2 ( nij −n^ ij ) ( 1−1.6 )2
A= = =0.85 B= = =0.22
n^ ij 3,8 n^ ij 1.6
2
( nij −n^ ij ) ( 7−4.4 )2
C= = =1.53
n^ ij 4.4
- Essendo una somma di quadrati non può essere negativo quindi varia tra 0 e n
- L’indice è 0 quando le frequenze osservate coincidono con le frequenze teoriche sotto la
condizione di indipendenza
- Non c’è un massimo indice in quanto questo dipende dall’ordine di grandezza delle
frequenze che dipendono a loro volta dalla taglia del campione considerato
X2 11.27
Quindi nel nostro caso sarà: = 2 =¿ =0.63
n 18
Per verificare se l’associazione tra le due variabili è forte o debole, è necessario normalizzare
il valore:
X2 Il totale moltiplicato per il più
v= piccolo tra il numero di righe -1
n∗(h−1e k−1)
e il numero di colonne -1.
[Si chiama V di Cramér e sarà sempre un valore compreso tra 0 e 1]
Quando si esegue uno test di screening per una determinata malattia, si possono verificare 4
situazioni:
- il test è positivo e il soggetto è malato (A);
- il test è negativo e il soggetto non è malato (D);
- il test è positivo, ma il soggetto non è malato (B);
- il test è negativo, ma il soggetto è malato (C).
Negli ultimi due casi il test in questione fallisce.
o Tra i due, l’errore più grave è “il test è negativo, ma il soggetto è malato”; in
tal caso il soggetto non saprà mai di avere la malattia e quindi non sarà mai
sottoposto al trattamento opportuno;
o Se, invece, l’errore è “il test è positivo, ma il soggetto non è malato”,
nonostante la diagnosi non sia corretta, in seguito all’esecuzione di ulteriori
esami diagnostici, sarà dimostrata l’assenza di malattia.
Complessivamente, i risultati del test che si possono verificare sono sintetizzati nella tabella:
MALATO NON MALATO
TEST POSITIVO A B
TEST NEGATIVO C D
Per poter ridurre tali errori bisogna lavorare su una specie di trade-off.
In economia un trade-off (o trade off) è una situazione che implica una scelta tra due o più
possibilità, in cui la perdita di valore di una costituisce un aumento di valore in un'altra.
A partire dalla tabella, è possibile ricavare diverse misure della peformance (qualità) del test di
screening:
A veri positivi
- Sensibilità: è data da = : dove A + C rappresenta il totale dei
A +C malati
soggetti malati; risponde alla domanda: quando il soggetto è malato, quanto è
verosimile che il test risulti positivo?
D veri negativi
- Specificità: è data da = : dove D + B rappresenta il totale dei
D+ B sani
soggetti sani; risponde alla domanda: quando il soggetto non è malato, quanto è
verosimile che il test risulti negativo?
- Valore predittivo positivo: misura la capacità del test di individuare correttamente i
A veri positivi
soggetti malati, ed è data da = : dove A + B rappresenta il numero
A +B tutti i positivi
di volte che il test ha dato esito positivo; risponde alla domanda: quando il test è
positivo, quanto è verosimile che il soggetto sia malato?
D veri negativi
- Valore predittivo negativo: è dato da = : dove D + C rappresenta
D+ C tutti inegativi
il numero di volte che il test ha dato esito negativo; risponde alla domanda: quando il
test è negativo, quanto è verosimile che il soggetto sia sano?
ESEMPIO:
Si consideri di aver condotto un test sul sangue di 100 soggetti con ematemesi per
identificare la presenza di cancro gastrico. Sui soggetti in questione è stata poi effettuata una
biopsia per stabilire la presenza effettiva del cancro. I risultati del test sono stati confrontati
con l'effettiva condizione dei soggetti:
A 20
- Sensibilità = = =0.8; l'80% dei soggetti con un cancro gastrico saranno
A +C 20+5
identificati dal test;
D 45
- Specificità = = =0.6 ; il 60% dei soggetti sani saranno identificati dal test, il che
D+ B 45+30
indica anche che il test identificherà come malati il 40% dei soggetti sani (falsi positivi, non
tanto grave rispetto ai falsi negativi);
A 20
- Valore predittivo positivo = = =0.4; solo il 40% dei soggetti con esito
A +B 20+ 30
positivo del test sono effettivamente malati;
-
D 45
- Valore predittivo negativo = = =0.9; il 90% dei soggetti con esito negativo non
D+ C 45+5
presenteranno il cancro (il restante 10% rappresenta i falsi negativi).
Per valutare come tarare correttamente un test, la sua accuratezza, viene utilizzata la curva
ROC.
- Il valore sull’asse delle ordinate è dato dalla sensibilità; se la sensibilità è 100%, il valore
sull’asse delle y tenderà a +∞.
I vari punti della curva rappresentano le varie combinazioni del test e lo scopo è quello di
identificare la combinazione che offre il rapporto migliore: quindi è necessario calcolare i
vari rapporti e identificare il rapporto massimo.
Tuttavia, per valutare il funzionamento del test in sé, ovvero quanto è buono il test
indipendentemente da come viene tarato, bisogna far riferimento all’area presente al di sotto
della curva, Area AUC (area under the curve): maggiore è l’area, migliore sarà il
macchinario (più la curva tenderà all’angolo in alto a sinistra, migliore sarà il macchinario).
Esempio
Un test ideale ha sensibilità pari a 1 e (1-specificità) pari a 0. In questo caso l'andamento
della curva va da (0,0) al (0,1) e a (1,1).
ESEMPIO:
Si considerino i voti riportati da n = 10 studenti negli esami di anatomia e statistica:
ANATOMIA (X) STATISTICA (Y)
24 23
27 28
30 30
20 28
26 27
27 22
29 30
18 20
21 20
22 25
Si misuri il legame lineare che caratterizza le due variabili.
Il legame che stiamo misurando è un legame di interdipendenza cioè le due variabili
giocano lo stesso ruolo. Ci interessa capire se c’è o meno una correlazione/associazione.
Solitamente in statistica vengono utilizzati dei modelli. Nei modelli abbiamo una variabile
che “ci interessa” che si cerca di ottenere sulla base di variabili associate.
Per poter quantificare quello che stiamo misurando dobbiamo capire che vuol dire “voto
alto” e “voto basso”, esempio se uno ha la media del 18 e prende 23 nella sua prospettiva
sarà un voto alto.
1). Andare a stabilire non cosa sia alto e cosa sia basso ma bensì cosa è sopra la media e
cosa è sotto la media.
Come facciamo? Calcoliamo la media per gli esami di anatomia X e la media per gli esami
di statistica Y.
µx= 24.4 e µy= 25.3
Per dare una prima occhiata, si utilizza il diagramma di dispersione (scatter plot):
consiste in un grafico in cui vengono rappresentate le osservazioni della distribuzione (con
dei punti), ponendo una variabile sull’asse delle x e l’altra sull’asse delle y.
❖ Se la maggior parte dei punti si trova nel quadrante in alto a destra e nel quadrante in
basso a sinistra, ci si aspetta una correlazione POSITIVA (al crescere di una
variabile cresce anche l’altra).
❖ Se, invece, la maggior parte dei punti si trova nel quadrante in alto a sinistra e nel
quadrante in basso a destra, ci si aspetta una correlazione NEGATIVA (al crescere
di una variabile diminuisce l’altra e viceversa).
❖ Se ci si trova di fronte ad una nube di pinti (punti dispersi), c’è un’ASSENZA DI
RELAZIONE.
L’obiettivo, come sempre, non è solo quello di individuare la presenza di una relazione, ma
di quantificarla
Se ci si trova di fronte a DUE VARIABILI CON LO STESSO ORDINE DI
GRANDEZZA, il coefficiente di correlazione lineare è dato da:
Cov xy
rho=
σx∙σy
dove la Covarianza (Cov xy ¿ è data dalla media del prodotto degli scarti di x e y dalla media:
n
1
Cov xy = ∑ ❑(x i−μ x)∙( y i−μ y )
n i=1
Se, invece, ci si trova di fronte a DUE VARIABILI CON ORDINI DI GRANDEZZA
DIFFERENTI (es. peso corporeo e numero di globuli rossi presenti nel sangue), è
necessario prima rendere le due variabili confrontabili tra loro (versione standardizzata).
Quindi, volendo misurare le variazioni congiunte delle modalità di X ed Y, si fa
riferimento alla versione standardizzata delle variabili (z-score), data da:
X−μ x Y −μ y
Z x= e Z y=
σx σy
Si utilizza la versione standardizzata per escludere dalla misura del legame gli effetti della
differente media e varianza delle due variabili (essendo μ x ≠ μ y e σ x ≠ σ y).
Con tale procedimento, le due variabili vengono tradotte in un’unità di misura comune
(unità standard); quindi, avendo lo stesso ordine di grandezza, sono direttamente
confrontabili.
Nel caso in cui viene utilizzata la versione standardizzata delle variabili, il coefficiente di
correlazione lineare rho viene sostituito dal coefficiente di correlazione lineare di Pearson
ρ.
L’indice corrispondente alla media aritmetica del prodotto delle modalità standardizzate
(standard units) delle variabili, si definisce coefficiente di correlazione lineare di
Pearson ρ ed è dato da:
(
xi −μ x y i−μ y
)
n n
1 1
ρ xy= ∑ ❑ ( z x ,i × z y ,i )= ∑ ❑ ×
n i =1 n i=1 σx σy
In pratica, per il calcolo del coefficiente di correlazione lineare di Pearson ¿), bisogna
calcolare la media dei prodotti degli z-score ( Z x × Z y ).
√
n
∑ ❑( xi −μ x )2
σ x= i=1
n
=
√ 146.4
10
=3.83
√
n
∑ ❑( y i −μ y )2
σ y= i=1
n
=
√ 136.1
10
=3.66
-0.10 - 0.07
0.63
0.68 - -0.61
0.90
-1.67 - 2.42
1.45
-0.89 - 1.29
1.45
-0.63 - 0.05
0.08
n
1
ρ xy = ∑ ❑( z x ,i × z y ,i )= 6.48
n i =1 10
=0.65
N.B. Il coefficiente di correlazione lineare di Pearson ρ può essere utilizzato sia per
variabili con la stessa unità di misura che con diversa unità di misura; mentre il coefficiente
di correlazione lineare rho può essere utilizzato solo in caso di variabili con la stessa unità di
misura.
X - µx Y - µy
0.05 0.4
- 0.15 -1.6
- 0.05 5.4
0.15 10.4
0 -14.6
Covarianza 0.31
P= Deviazione standard di x e y = =0.37
(8.4 )( 0.1)
N.B. Per verificare che il risultato sia corretto possiamo effettuare una “prova” (metodo
alternativo).
Ossia vado ad effettuare il prodotto tra i valori di x e y.
Altezza (m) X Peso (Kg) Y X*Y
1.8 70 126
1.6 68 108.8
1.4 75 127.5
1.9 80 152
1.75 55 96.25
610.55
Calcolo il totale = 610.55 e divido per 5 =122.11
5
Effettuo il prodotto tra le medie di µx e µy 1.75 * 69.6 = 121.8
Sottraggo il primo dal secondo: 122.11 – 121.8 = 0.31 (otteniamo così la covarianza).