Sei sulla pagina 1di 23

STATISTICA LEZIONE 4

[Siamo ancora nell’ambito della statistica descrittiva]

Statistica bivariata → La statistica viene definita bivariata quando si utilizzano 2 variabili.

Una variabile può essere qualitativa (o categorica) o quantitativa (numerica).


Le informazioni che si possono ricavare dalle variabili dipendono dal tipo di variabile:
- Se è quantitativa, possono essere ricavate tre informazioni: tendenza centrale o
posizione; (media, mediana, quartili, ecc..); variabilità (varianza e scarto quadratico
medio) e forma (simmetrica o asimmetrica).
- Se invece è qualitativa, si è più limitati: può essere individuata la categoria più
rappresentata e può essere misurata (in qualche modo) la variabilità.

MISURA DEL LEGAME

A seconda del tipo di variabile (qualitativa o quantitativa), saranno utilizzati modi diversi per
misurare il legame.
Data una variabile doppia (X; Y), la misura del legame che caratterizza le componenti X ed Y si
definisce:
● connessione (o associazione) se X e Y sono mutabili;
● correlazione se X e Y sono variabili.

INTERDIPENDENZA E DIPENDENZA
Se le componenti di una variabile doppia (X; Y) oggetto di studio rivestono lo stesso ruolo, ai fini
dell'analisi si studia l'interdipendenza tra X e Y.
Se si vuole studiare, invece, l'andamento della variabile Y rispetto ad X, si farà riferimento alla
dipendenza di Y da X; in tal caso:
● Y si definisce variabile dipendente;
● X si definisce variabile indipendente.
Frequenze condizionate del carattere A rispetto alla j-sima modalità del carattere B (↓)

Frequenze condizionate del carattere B rispetto alla j-sima modalità del carattere A (↓)
Frequenze relative condizionate della variabile A rispetto alla j-sima modalità della
variabile B (↓)

La distribuzione delle frequenze relative condizionate della variabile A (k modalità)


rispetto alla j-sima modalità della variabile B (h modalità) si ottiene dividendo ciascun
elemento dell'j-ma colonna (frequenza assoluta) per il rispettivo totale di colonna nij=n.j per
i = 1; : : : ; k.

Frequenze relative condizionate della variabile B rispetto alla i-sima modalità della
variabile A (↓)

La distribuzione delle frequenze relative condizionate della variabile B (h modalità)


rispetto alla i-sima modalità della variabile A (k modalità) si ottiene dividendo ciascun
elemento dell'i-ma riga (frequenza assoluta) per il rispettivo totale di riga nij=ni. per j = 1;
MISURA DEL LEGAME TRA VARIABILI QUALITATIVE

Esempio tabelle a doppia entrata (esempio di rappresentazione di coppie di variabili)


Nelle tabelle utilizzate in precedenza (nelle lezioni precedenti) venivano rappresentati,
generalmente, sulle righe gli individui e sulle colonne le variabili. Nella tabella a doppia
entrata, ovvero una tabella dove si incrociano 2 variabili, sulle righe vengono rappresentate
le categorie di una variabile e sulle colonne le categorie dell’altra.

La tabella a doppia entrata tra le variabili qualitative genere e frame (↓);

Interpretazione (↑):
➢ 5 donne con un frame di tipo large;
➢ 7 uomini con un frame di tipo medium, ecc…

NB. Distribuzione marginale


Le distribuzioni marginali, mostrate nella riga e nella colonna “Totale Risultato”,
rappresentano le frequenze assolute delle variabili frame e genere. Per capire meglio:
- “Totale risultato” sulla riga rappresenta la distribuzione marginale della variabile frame
(quindi indica, indipendentemente dal genere, quante persone hanno un frame di tipo
large, medium o small);
- “Totale risultato” sulla colonna rappresenta la distribuzione marginale della variabile
genere (quindi indica, indipendentemente dal frame, quante persone sono femmine o
maschio).

La tabella frequenze relative genere e frame (↓);


I valori della tabella che segue si ottengono dividendo i valori della tabella precedente
FA
(frequenze assolute) per il totale (30). Infatti: FR=
Tot
(↑) Nella tabella delle frequenze relative, il valore totale è sempre 1.

Cosa significa che c’è un legame tra due variabili qualitative? Significa che c’è
un’associazione, ovvero che alcune categorie di una variabile si verificano più spesso con
alcune categorie dell’altra variabile.
Es. potrebbe esserci un’associazione tra una determinata patologia ed il genere: una
patologia che si presenta più spesso nei maschi che nelle femmine.

La statistica non si limita ad individuare l’esistenza di un’associazione, ma mira alla


quantificazione dell’associazione stessa.
Essa può essere quantificata misurando quanto la distribuzione è distante dalla tabella che
sarebbe stata osservata se ci fosse stata indipendenza.

Le frequenze relative condizionate vengono utilizzate per ridurre gli errori dovuti alla
presenza di modalità che compaiono di più o di meno nella distribuzione; quindi lo scopo di
tale metodologia è quello di rendere le distribuzioni indipendenti dal numero dei casi, in
modo da poterle confrontare direttamente.

La tabella frequenze relative condizionate rispetto alle righe (frame) (↓);

La tabella frequenze relative condizionate rispetto alle colonne (genere) (↓);


In caso di indipendenza, ci si aspetta di avere sempre la stessa distribuzione (ad esempio: la
variabile frame non ci da nessuna informazione sulla variabile genere perché,
indipendentemente dal genere, tutti si comportano allo stesso modo).

Il procedimento consiste nel confrontare la tabella delle frequenze assolute osservate con
quella che sarebbe stata osservata se ci fosse stata indipendenza:
- se la tabella delle frequenze assolute osservate è lontana dalla tabella in condizione di
indipendenza, c’è un’associazione tra le 2 variabili;
- se, invece, le due tabelle sono uguali, non c’è un’associazione tra le 2 variabili.

Come ricavare (costruire) la tabella che sarebbe stata osservata se ci fosse stata
indipendenza? (procedimento spiegato in seguito)

INDIPENDENZA

Indipendenza e distribuzioni condizionate


Le componenti di una variabile doppia (X; Y) sono indipendenti se le distribuzioni di
frequenze relative condizionate Y│X e X│Y sono costanti.
Formalmente dovrà risultare per Y│X
ni 1 n i2 ni 3 nih
= = =…=
n.1 n.2 n.3 n .h

e per X│Y
n1 j n2 j n3 j n
= = =…= 1 k
n1. n 2. n3. n k.

Indipendenza e tabelle a doppia entrata


Come ricavare (costruire) la tabella che sarebbe stata osservata se ci fosse stata
indipendenza:
Per ottenere la tabella di indipendenza, bisogna partire dalle distribuzioni marginali della
tabella dei dati: il valore di ogni cella è dato dal prodotto delle distribuzioni marginali, di
entrambe le variabili, corrispondenti ad ogni cella (tipo battaglia navale).
Procedimento nella tabella che segue (↓):
Tabella di Frame
indipendenza
Genere Large Medium Small Totale Risultato
(Distribuzione
marginale)
F 0.4 X 0.53 X 0.07 X 0.53
0.53 0.53 0.53
M 0.4 X 0.53 X 0.07 X 0.47
0.47 0.47 0.47
Totale Risultato 0.4 0.53 0.07 1.00
(Distribuzione
marginale)
Interpretazione (↑):
● cella Large/F → distribuzione marginale di Large X distribuzione marginale di F
0.04 × 0.53

● ecc.;
● Ne deriva la tabella che segue (tabella frequenze relative sotto indipendenza genere e
frame).

La tabella frequenze relative sotto indipendenza genere e frame (↓);

La tabella frequenze relative condizionate rispetto alle righe (frame) sotto indipendenza
(↓);
La tabella frequenze relative condizionate rispetto alle colonne (genere) sotto
indipendenza (↓);

Sostanzialmente, una volta ottenuta la tabella sotto la condizione di indipendenza, può


essere calcolato il X2 (indice quadratico di connessione o chi-quadro), facendo riferimento
alla differenza tra la frequenza osservata e la frequenza che sarebbe stata osservata se ci
fosse stata indipendenza.

ESEMPIO FATTO ALLA LAVAGNA:


Abbiamo tre trattamenti applicati a 18 pz che presentano indici di colesterolo alto e basso.
TRATTAMENTO
A B C TOTALE
n i j = n i (1) j (1)
C. 5 2 1 8 ALTO
nij (n1,1) n1,2 n1,3
C. 2 1 7 10 BASSO
n2,1 n2,2 n2,3
TOTALE 7 3 8 18

Ad occhio diremmo che si tratti di variabili dipendenti. Per quantificare quanta associazione c’è
tra queste due variabili si fissa lo zero e si calcola quanto siamo lontani dallo zero.

Come facciamo? Si crea una nuova tabella che presenta la distribuzione di frequenze che
avremmo osservato se ci fosse stata indipendenza.
Tale tabella ha in comune con la tabella soprastante le distribuzioni marginali ossia i totali di
riga e i totali di colonna.
La frequenza della combinazione
TRATTAMENTO Colesterolo Alto/Trattamento A che avrei
A B C TOTALE dovuto osservare se ci fosse stata
C. 3,1 1,3 3,5 8 indipendenza è data da:
ALTO
ñ 1,1 ñ 1,2 ñ 1,3
C. 3,8 1,6 4,4 10 BASSO
TOTALE DI RIGA∗TOTALE DI COLONNA
ñ 2,1 ñ 2,2 ñ 2,3 A=
TOTALE DI TABELLA
TOTALE 7 3 8 18

[Così anche per B/C e il Colesterolo


Basso]
TOTALE DI RIGA∗TOTALE DI COLONNA
A=
TOTALE DI TABELLA

N.B. Tale calcolo viene definito come Frequenze teoriche sotto la condizione di
indipendenze.

Quanto differisce la tabella A dalla tabella B?

La calcolo attraverso l’indice quadratico di connessione X2 (indice Chi-quadro).

INDICE QUADRATICO DI CONNESSIONE (X2) (detto “chi-quadro”)

Gli indici per la misura delle connessioni sono basati sulle differenze tra le frequenze
osservate sul collettivo nij e le frequenze teoriche n^ ij , ovvero le frequenze che si
osserverebbero sul collettivo se le mutabili considerate fossero indipendenti.
Indice quadratico di connessione ( X 2 ) è dato dalla seguente relazione:
2
k h
( n ij− n^ ij )
2
X =∑ ❑ ∑ ❑
i=1 j=1 n^ ij
( n ij− n^ ij ) → tale differenza viene elevata al quadrato perché non si è interessati al segno;
2

n^ ij → tale denominatore viene utilizzato per bilanciare il contributo che ciascuna


differenza da;
k h

∑ ❑∑ ❑→ il simbolo doppia sommatoria sta a significare che le operazioni devono


i=1 j=1

essere ripetute per ogni cella della matrice.

- in caso di indipendenza, essendo nij = n^ ij, risulta X 2 =0;


- il massimo valore dell'indice X 2 è dato dalla seguente espressione:
n × min ( k−1 , h−1 ) ,
dove n è la numerodità del campione e k e hrappresentano il numero di categorie dell’una
e dell’altra variabile.

X è un indice assoluto, il quale valore dipende da:


2

- la numerosità del campione;


- il numero di categorie dell’una e dell’altra variabile

Nel nostro esempio applicando questa formula:


2
k h
( n ij− n^ ij )
X =∑ ❑ ∑ ❑
2

i=1 j=1 n^ ij

Avremo:
Per le righe:

2 2
( nij −n^ ij ) ( 5−3,1 )2 ( nij −n^ ij ) ( 2−1,3 )2
A= = =1,16 B= = =0.37
n^ ij 3,1 n^ ij 1,3
2
( nij −n^ ij ) ( 1−3 , 5 )2
C= = =7,14
n^ ij 3 ,5

Per le colonne:

2 2
( nij −n^ ij ) ( 2−3 , 8 )2 ( nij −n^ ij ) ( 1−1.6 )2
A= = =0.85 B= = =0.22
n^ ij 3,8 n^ ij 1.6
2
( nij −n^ ij ) ( 7−4.4 )2
C= = =1.53
n^ ij 4.4

X2 = 1.16 + 0.37 + 7.14 + 0.85 + 0.22 + 1.53 = 11.27

Che valori può assumere?

- Essendo una somma di quadrati non può essere negativo quindi varia tra 0 e n
- L’indice è 0 quando le frequenze osservate coincidono con le frequenze teoriche sotto la
condizione di indipendenza
- Non c’è un massimo indice in quanto questo dipende dall’ordine di grandezza delle
frequenze che dipendono a loro volta dalla taglia del campione considerato

Per neutralizzare/svincolarmi dall’ordine di grandezza vado a dividere il X2 (chi-quadro) per n.

X2 11.27
Quindi nel nostro caso sarà:  = 2 =¿ =0.63
n 18

Per verificare se l’associazione tra le due variabili è forte o debole, è necessario normalizzare
il valore:
X2 Il totale moltiplicato per il più
v= piccolo tra il numero di righe -1
n∗(h−1e k−1)
e il numero di colonne -1.
[Si chiama V di Cramér e sarà sempre un valore compreso tra 0 e 1]

Nel nostro caso sarà:


11,27 11.27
v= = =0.31
18∗(3−1 e 4−1) 18∗2
SENSITIVITÀ, SPECIFICITÀ E VALORE PREDITTIVO

Quando si esegue uno test di screening per una determinata malattia, si possono verificare 4
situazioni:
- il test è positivo e il soggetto è malato (A);
- il test è negativo e il soggetto non è malato (D);
- il test è positivo, ma il soggetto non è malato (B);
- il test è negativo, ma il soggetto è malato (C).
Negli ultimi due casi il test in questione fallisce.
o Tra i due, l’errore più grave è “il test è negativo, ma il soggetto è malato”; in
tal caso il soggetto non saprà mai di avere la malattia e quindi non sarà mai
sottoposto al trattamento opportuno;
o Se, invece, l’errore è “il test è positivo, ma il soggetto non è malato”,
nonostante la diagnosi non sia corretta, in seguito all’esecuzione di ulteriori
esami diagnostici, sarà dimostrata l’assenza di malattia.

Complessivamente, i risultati del test che si possono verificare sono sintetizzati nella tabella:
MALATO NON MALATO
TEST POSITIVO A B
TEST NEGATIVO C D

- il valore in posizione B rappresenta il numero di falsi positivi (positivo al test ma


sano);
- il valore in posizione C rappresenta il numero di falsi negativi (negativo al test ma
malato).

Per poter ridurre tali errori bisogna lavorare su una specie di trade-off.
In economia un trade-off (o trade off) è una situazione che implica una scelta tra due o più
possibilità, in cui la perdita di valore di una costituisce un aumento di valore in un'altra.

Es. riducendo il cut-off di un determinato esame, aumentano i falsi positivi, ma si riducono i


falsi negativi. Quindi si gioca sostanzialmente sulla taratura del test: tale procedura non è esente
da errori, bisogna però identificare l’errore più preoccupante e fare il possibile per evitarlo (es.
falsi negativi).

A partire dalla tabella, è possibile ricavare diverse misure della peformance (qualità) del test di
screening:
A veri positivi
- Sensibilità: è data da = : dove A + C rappresenta il totale dei
A +C malati
soggetti malati; risponde alla domanda: quando il soggetto è malato, quanto è
verosimile che il test risulti positivo?
D veri negativi
- Specificità: è data da = : dove D + B rappresenta il totale dei
D+ B sani
soggetti sani; risponde alla domanda: quando il soggetto non è malato, quanto è
verosimile che il test risulti negativo?
- Valore predittivo positivo: misura la capacità del test di individuare correttamente i
A veri positivi
soggetti malati, ed è data da = : dove A + B rappresenta il numero
A +B tutti i positivi
di volte che il test ha dato esito positivo; risponde alla domanda: quando il test è
positivo, quanto è verosimile che il soggetto sia malato?
D veri negativi
- Valore predittivo negativo: è dato da = : dove D + C rappresenta
D+ C tutti inegativi
il numero di volte che il test ha dato esito negativo; risponde alla domanda: quando il
test è negativo, quanto è verosimile che il soggetto sia sano?

ESEMPIO:
Si consideri di aver condotto un test sul sangue di 100 soggetti con ematemesi per
identificare la presenza di cancro gastrico. Sui soggetti in questione è stata poi effettuata una
biopsia per stabilire la presenza effettiva del cancro. I risultati del test sono stati confrontati
con l'effettiva condizione dei soggetti:

Presente Assente Totale


Test del sangue 20 30 50
positivo
Test del sangue 5 45 50
negativo
Totale 25 75 100

A 20
- Sensibilità = = =0.8; l'80% dei soggetti con un cancro gastrico saranno
A +C 20+5
identificati dal test;

D 45
- Specificità = = =0.6 ; il 60% dei soggetti sani saranno identificati dal test, il che
D+ B 45+30
indica anche che il test identificherà come malati il 40% dei soggetti sani (falsi positivi, non
tanto grave rispetto ai falsi negativi);
A 20
- Valore predittivo positivo = = =0.4; solo il 40% dei soggetti con esito
A +B 20+ 30
positivo del test sono effettivamente malati;
-
D 45
- Valore predittivo negativo = = =0.9; il 90% dei soggetti con esito negativo non
D+ C 45+5
presenteranno il cancro (il restante 10% rappresenta i falsi negativi).

Per valutare come tarare correttamente un test, la sua accuratezza, viene utilizzata la curva
ROC.

CURVA DI ROC (Receiving operator characteristic)


Sensibilità, specificità e valori predittivi dipendono da come viene “tarato” il test: in altre
parole, dipendono dalla soglia del test oltre la quale si identifica un soggetto come positivo.
Modificando tale soglia cambiano
anche i valori di sensitività
(sensibilità) e specificità.
Per visualizzare l'accuratezza del
test, si utilizza pertanto la curva
ROC, la quale mette in relazione i
veri positivi (sensibilità) con i falsi
positivi (1-specificity).
Un test ideale è un test che presenta,
contemporaneamente, il massimo di
sensibilità e di specificità.
Nella curva ROC:
- Il valore sull’asse delle ascisse è dato da (100 – specificità); se la specificità è 100%, allora
il valore sull’asse delle x sarà 0.

- Il valore sull’asse delle ordinate è dato dalla sensibilità; se la sensibilità è 100%, il valore
sull’asse delle y tenderà a +∞.

I vari punti della curva rappresentano le varie combinazioni del test e lo scopo è quello di
identificare la combinazione che offre il rapporto migliore: quindi è necessario calcolare i
vari rapporti e identificare il rapporto massimo.
Tuttavia, per valutare il funzionamento del test in sé, ovvero quanto è buono il test
indipendentemente da come viene tarato, bisogna far riferimento all’area presente al di sotto
della curva, Area AUC (area under the curve): maggiore è l’area, migliore sarà il
macchinario (più la curva tenderà all’angolo in alto a sinistra, migliore sarà il macchinario).

Esempio
Un test ideale ha sensibilità pari a 1 e (1-specificità) pari a 0. In questo caso l'andamento
della curva va da (0,0) al (0,1) e a (1,1).

L'area tra la curva e la linea tratteggiata (detta Area


Under the Curve, AUC), la quale rappresenta il valore
massimo (o rapporto massimo), è pari a 0.5.
L'accuratezza del test in questione viene misurata
come il rapporto tra l'area sotto la curva (in blue)
effettivamente osservata, e il valore massimo (0.5).

MISURAZIONE DEL LEGAME DI INTERDIPENDENZA TRA VARIABILI


QUANTITATIVE
La CORRELAZIONE indica se due variabili sono interdipendenti: ovvero, non se una
dipende dall’altra, ma se esse hanno un legame.
La correlazione non è causazine. Infatti si possono osservare correlazioni tra coppie di
variabili che dipendono da qualcos’altro. Es. consumo di gelato e attacchi di squalo.

ESEMPIO:
Si considerino i voti riportati da n = 10 studenti negli esami di anatomia e statistica:
ANATOMIA (X) STATISTICA (Y)
24 23
27 28
30 30
20 28
26 27
27 22
29 30
18 20
21 20
22 25
Si misuri il legame lineare che caratterizza le due variabili.
Il legame che stiamo misurando è un legame di interdipendenza cioè le due variabili
giocano lo stesso ruolo. Ci interessa capire se c’è o meno una correlazione/associazione.
Solitamente in statistica vengono utilizzati dei modelli. Nei modelli abbiamo una variabile
che “ci interessa” che si cerca di ottenere sulla base di variabili associate.

Per poter quantificare quello che stiamo misurando dobbiamo capire che vuol dire “voto
alto” e “voto basso”, esempio se uno ha la media del 18 e prende 23 nella sua prospettiva
sarà un voto alto.
1). Andare a stabilire non cosa sia alto e cosa sia basso ma bensì cosa è sopra la media e
cosa è sotto la media.
Come facciamo? Calcoliamo la media per gli esami di anatomia X e la media per gli esami
di statistica Y.
µx= 24.4 e µy= 25.3

Per dare una prima occhiata, si utilizza il diagramma di dispersione (scatter plot):
consiste in un grafico in cui vengono rappresentate le osservazioni della distribuzione (con
dei punti), ponendo una variabile sull’asse delle x e l’altra sull’asse delle y.

NB. Nei grafici c’è un errore → Non è matematica ma anatomia


In base all’andamento dei punti, può essere individuata una relazione tra le due variabili se
all’aumentare di una aumenta anche l’altra o, viceversa, all’aumentare di una diminuisce
l’altra.
Nel grafico a destra, sono state inserite due linee, una verticale e una orizzontale, in
corrispondenza della media dei valori delle due variabili (media dei voti in anatomia e
media dei voti in statistica).
Interpretazione:
- Quadrante in alto a destra: buon voto sia in anatomia che in statistica;
lo scarto dalla media di entrambe le variabili sarà positivo, quindi il loro prodotto sarà
positivo (+∙+=+);
- Quadrante in basso a sinistra: brutto voto sia in anatomia che in statistica;
lo scarto dalla media di entrambe le variabili sarà negativo, quindi il loro prodotto sarà
positivo (-∙-=+);
- Quadrante in alto a sinistra: buon voto in statistica e brutto voto in anatomia;
lo scarto dalla media delle variabili sarà uno positivo e l’altro negativo, il loro prodotto sarà
negativo (+∙-=-)
- Quadrante in basso a destra: brutto voto in statistica e buon voto in anatomia.
lo scarto dalla media delle variabili sarà uno negativo e l’altro positivo, il loro prodotto sarà
negativo (-∙+=-)

❖ Se la maggior parte dei punti si trova nel quadrante in alto a destra e nel quadrante in
basso a sinistra, ci si aspetta una correlazione POSITIVA (al crescere di una
variabile cresce anche l’altra).
❖ Se, invece, la maggior parte dei punti si trova nel quadrante in alto a sinistra e nel
quadrante in basso a destra, ci si aspetta una correlazione NEGATIVA (al crescere
di una variabile diminuisce l’altra e viceversa).
❖ Se ci si trova di fronte ad una nube di pinti (punti dispersi), c’è un’ASSENZA DI
RELAZIONE.

L’obiettivo, come sempre, non è solo quello di individuare la presenza di una relazione, ma
di quantificarla
Se ci si trova di fronte a DUE VARIABILI CON LO STESSO ORDINE DI
GRANDEZZA, il coefficiente di correlazione lineare è dato da:
Cov xy
rho=
σx∙σy

dove la Covarianza (Cov xy ¿ è data dalla media del prodotto degli scarti di x e y dalla media:
n
1
Cov xy = ∑ ❑(x i−μ x)∙( y i−μ y )
n i=1
Se, invece, ci si trova di fronte a DUE VARIABILI CON ORDINI DI GRANDEZZA
DIFFERENTI (es. peso corporeo e numero di globuli rossi presenti nel sangue), è
necessario prima rendere le due variabili confrontabili tra loro (versione standardizzata).
Quindi, volendo misurare le variazioni congiunte delle modalità di X ed Y, si fa
riferimento alla versione standardizzata delle variabili (z-score), data da:
X−μ x Y −μ y
Z x= e Z y=
σx σy

Si utilizza la versione standardizzata per escludere dalla misura del legame gli effetti della
differente media e varianza delle due variabili (essendo μ x ≠ μ y e σ x ≠ σ y).
Con tale procedimento, le due variabili vengono tradotte in un’unità di misura comune
(unità standard); quindi, avendo lo stesso ordine di grandezza, sono direttamente
confrontabili.
Nel caso in cui viene utilizzata la versione standardizzata delle variabili, il coefficiente di
correlazione lineare rho viene sostituito dal coefficiente di correlazione lineare di Pearson
ρ.

COEFFICIENTE DI CORRELAZIONE LINEARE DI PEARSON ρ

L’indice corrispondente alla media aritmetica del prodotto delle modalità standardizzate
(standard units) delle variabili, si definisce coefficiente di correlazione lineare di
Pearson ρ ed è dato da:

(
xi −μ x y i−μ y
)
n n
1 1
ρ xy= ∑ ❑ ( z x ,i × z y ,i )= ∑ ❑ ×
n i =1 n i=1 σx σy

Con piccole trasformazioni si ottiene la presente formalizzazione


n
1
∑ ❑ ( x i−μ x) ( y i −μ y ) σ
n i=1
ρ xy = = xy
σx σy σ xσ y

In pratica, per il calcolo del coefficiente di correlazione lineare di Pearson ¿), bisogna
calcolare la media dei prodotti degli z-score ( Z x × Z y ).

Sia il coefficiente di correlazione lineare (rho ) che il coefficiente di correlazione lineare di


Pearson ¿), sono indici normalizzati; infatti il valore assunto da tali indici può variare da -1
a +1. Quindi:
❖ Se rho o ρ<0→ correlazione lineare negativa; l’intensità della relazione dipende dal
valore assunto da rho o ρ (se rho o ρ=−1→ molto intensa);
❖ Se rho o ρ>0→ correlazione lineare positiva; l’intensità della relazione dipende dal
valore assunto da rho o ρ (se rho o ρ=1→ molto intensa);
❖ Se rho o ρ=0
o O non c’è una relazione tra le due variabili;
o O c’è una relazione tra le due variabili, ma la relazione non è lineare.

Simmetria del coefficiente di correlazione lineare

Il coefficiente di correlazione lineare è simmetrico, in quanto l’obiettivo non è quello di


misurare la dipendenza, come già è stato detto, ma l’interdipendenza:
Es. il coefficiente di correlazione lineare tra X ed Y è 0.60. Quanto vale il coefficiente di
correlazione tra Y ed X? SEMPRE 0.60 (si tratta di prodotti: quindi invertendo i valori il
risultato non cambia).

…Tornando all’esempio dopo aver calcolato le medie degli esami di anatomia e


statistica vado a calcolare
Gli scarti quadratici medi:


n

∑ ❑( xi −μ x )2
σ x= i=1
n
=
√ 146.4
10
=3.83


n

∑ ❑( y i −μ y )2
σ y= i=1
n
=
√ 136.1
10
=3.66

Misura del legame: standard units (valori standardizzati) → in questo esercizio il


professore, nonostante si tratti di variabili con la stessa unità di misura, utilizza gli z-score
(può essere utilizzato in entrambi i casi).
Conoscendo i valori: μx= 24.4 μy= 25.3 σx= 3.83 σy= 3.66

Vengono calcolati gli z-score (vado a standardizzare) dati da:


xi −μx y i−μ y
Z x= e Z y=
σx σy
Anatomia Statistica Scarti Scarti x dalla media: Scarti y dalla xi −μx yi −μ y
media: Z x= Z y=
(xi) (yi) (x i−μ x ) σx σy
( y i−μ y )

24 23 -0.40 -2.30 -0.10 -0.63

27 28 2.60 2.70 0.68 0.74

30 30 5.60 4.70 1.46 1.28

20 28 -4.40 2.70 -1.15 0.74

26 27 1.60 1.70 0.42 0.46

27 22 2.60 -3.30 0.68 -0.90

29 30 4.60 4.70 1.20 1.28

18 20 -6.40 - 5.30 -1.67 -1.45

21 20 -3.40 -5.30 -0.89 -1.45

22 25 -2.40 -0.30 -0.63 -0.08

A questo punto, può essere calcolato il coefficiente di correlazione lineare di Pearson ρ ,


dato che utilizza gli z-score) che è dato dalla come media del prodotto di standard units:
zx zy zx × z y

-0.10 - 0.07
0.63

0.68 0.74 0.5

1.46 1.28 1.88

-1.15 0.74 -0.85

0.42 0.46 0.19

0.68 - -0.61
0.90

1.20 1.28 1.54

-1.67 - 2.42
1.45

-0.89 - 1.29
1.45

-0.63 - 0.05
0.08
n
1
ρ xy = ∑ ❑( z x ,i × z y ,i )= 6.48
n i =1 10
=0.65

N.B. Il coefficiente di correlazione lineare di Pearson ρ può essere utilizzato sia per
variabili con la stessa unità di misura che con diversa unità di misura; mentre il coefficiente
di correlazione lineare rho può essere utilizzato solo in caso di variabili con la stessa unità di
misura.

Coefficiente di correlazione: esempi di casi limite

Nel grafico a sinistra i punti della


distribuzione sono molto sparpagliati,
quindi non c’è una relazione lineare tra
le variabili; infatti:
rho=0.01 , quindi è tendente a 0.

Nel grafico a destra c’è una correlazione


lineare positiva (al crescere di una
variabile, cresce anche l’altra); infatti:
rho=0.99,quindi la relazione è molto
intensa perché dà origine ad una retta
Se rho fosse stato pari ad 1, nel grafico
sarebbe stata rappresentata una retta.

Nel grafico a sinistra c’è una correlazione


lineare negativa (al crescere di una
variabile, l’altra diminuisce); infatti:
rho-0.99, quindi la relazione è molto
intensa perchè è tendente a-1.
Nel grafico è facile notare che c’è una
relazione tra le due variabili (una varia in
funzione dell’altra). Nonostante ciò, però,
rho=−0.11, quindi il valore è molto basso
(tendente a 0); ciò significa che non
necessariamente c’è un’assenza di relazione
tra le variabili, ma potrebbe trattarsi di una
relazione non lineare. Infatti, in questo caso,
non si tratta di una relazione lineare, ma di
una relazione quadratica.

ESEMPIO FATTO IN CLASSE [PROCEDIMENTO]:


Altezza (m) X Peso (Kg) Y
1.8 70
1.6 68
1.4 75
1.9 80
1.75 55
1°: Costruisco lo scatter plot:

2° Calcolo la media tra le altezze e la media tra i pesi.


µx = 1.70 e µy = 69.6

3° Calcolo lo scarto della media:

X - µx Y - µy

0.05 0.4
- 0.15 -1.6
- 0.05 5.4
0.15 10.4
0 -14.6

4° Calcolo i prodotti degli scarti:


(X - µx) (Y - µy)
0.02
COVARIANZA:
0.24 TOTALE 1.55
-0.27 = =0.31
N 5
1.56
0
Totale: 1.55
5° Calcolare scarto quadratico medio:
(X - µx)2 (Y - µy)2
0.0025 0.16
0.0225 2.56
0.0025 29.16
0.0225 108.16
0 213.16

Totale: 0.05 Totale 353.2


Dopodiché vado a dividere tutto per n, quindi avrò la varianza:
0.05 353.2
=0.01 e =70.64
5 5

Da qui calcolo la deviazione standard che è dato dalla √ varianza


Quindi sarà √ 0.01=0.1 e √70.64=8.40

6° Calcolo il coefficiente di correlazione lineare di Pearson:

Covarianza 0.31
P= Deviazione standard di x e y = =0.37
(8.4 )( 0.1)

N.B. Per verificare che il risultato sia corretto possiamo effettuare una “prova” (metodo
alternativo).
Ossia vado ad effettuare il prodotto tra i valori di x e y.
Altezza (m) X Peso (Kg) Y X*Y
1.8 70 126
1.6 68 108.8
1.4 75 127.5
1.9 80 152
1.75 55 96.25

610.55
Calcolo il totale = 610.55 e divido per 5  =122.11
5
Effettuo il prodotto tra le medie di µx e µy  1.75 * 69.6 = 121.8
Sottraggo il primo dal secondo: 122.11 – 121.8 = 0.31 (otteniamo così la covarianza).

Potrebbero piacerti anche