Sei sulla pagina 1di 32

COVARIANZA e CORRELAZIONE

Statistica Bivariata (2 variabili alla volta)


Per studiare 2 variabili alla volta procederemo esattamente alla stessa maniera di
quello che abbiamo fatto per 1 sola variabile:
- Tipologia di variabile: qualitativa o qualitativa, continua o discreta.

In questo caso dovremmo considerare tanti casi diversi, consideriamo che se trattiamo
due variabili alla volta devo considerare tutte le possibili combinazioni es:
- Studiare una variabile quantitativa continua, associata ad un’altra variabile
quantitativa continua
es: studio, peso e altezza
- una quantitativa continua con una discreta
es in una famiglia reddito è il numero di figli (reddito è continuo e il
numero di figli è discreto)
- variabile quantitativa continua con una ordinale
reddito di un individuo (quantitativa continua) e giudizio che dà su un
determinato prodotto (variabile ordinale) sufficiente ecc
- variabile quantitativa continua con una nominale
reddito e sesso

Possiamo a studiare tutte le caratteristiche e dovremmo avere strumenti diversi per


ciascuna di queste combinazioni.
consideremo solo strumenti che vanno bene per tutti i casi e possono rappresentare
qualunque di queste combinazioni
Vedremo nello specifico il caso quando entrambe le variabili sono quantitative
continue

Distingueremo:
Studieremo solo:
- Quando entrambe sono quantitative
strumenti specifici
- Quando almeno una è qualitativa (sia ordinale che nominale)
strumenti generali

Procederemo come per il caso univariato considerando:


1. Tabelle
2. Grafici
diretta estensione dl caso univariato
1
3. Strumenti analitici

1. tabelle
• Possiamo costruire distribuzioni di frequenza bivariate (anche dette tabelle
a doppia entrata o crosstabs) contando il numero di individui che
presentano simultaneamente una certa modalità delle 2 variabili
• Per esempio: sesso e stato civile

Come si costruisce?
- Andiamo a contare quanti individui nel nostro collettivo presentano la
prima variabile con una determinata modalità e la seconda variabile con
una determinata modalità
- Per esempio sesso e stato civile

Tabella a Doppia Entrata (Crosstabulation)

2
Conteggio( 90 donneecc)= frequenza
Totale di colonna:
- Distribuzione di frequenza del sesso a prescindere dello stato civile

Totale di riga:
- Distribuzione dello stato civile a prescindere dal sesso
Su queste tabelle possiamo calcolare TRE diversi tipi di percentuali:
1. Di riga
all’interno degli individui che sono sposati che % ci sono di donne?
220/400

2. Di colonna
all’interno delle donne quante solo le coniugate?
220/600

3. Totali
qual è la % degli uomini sposati?
180/1000

Rapporto ciascun valore della frequenza o al totale di riga o al totale di colonna o al


totale generale
Dobbiamo stabilire quale tipo ci serva caso per caso, secondo le nostre necessità

3
Domanda di esempio: Quale percentuale delle persone sposate è di sesso
maschile?

Domanda di esempio: Quale percentuale delle donne è divorziata?

80/ 600 x 100= donne divorziate/ totale colonna donne x 100


La somma delle % di colonna deve fare 100.
4
Tratto le due distribuzioni di frequenza verticali come se fossero 2 distribuzioni di
frequenza univariata e ne calcolo le percentuali

Domanda di esempio: Quale percentuale del nostro campione è vedovo/vedova?

Come se prendessi le 5 distribuzioni orizzontali e le 5 univariati e calcolo le %.


Totali di riga: somma % donna e % di quella riga uomini

50/1000 quale % del campione è vedovo degli uomini.


rapporto ciascuna frequenza al totale generale (1000)

Se guardo la % di colonna noto immediatamente che la % delle vedove è il 25%, tra gli
uomini solo il 12%.
Cause:
nel matrimonio gli uomini sono più anziani rispetto alle donne, le donne vivono di
più ecc

Variabili stato civile e sesso solo in qualche modo legate tra di loro.

Se invece ci fosse l’indipendenza tra due variabili:


- Le 2 variabili hanno dei comportamenti completamente autonomi fra di
loro
- Le % sarebbero state uguali la % degli uomini non coniugati dovrebbe
essere uguale a quelle delle donne non coniugate e così via…
- Se noto una differenza delle percentuali di colonna è perché le 2 variabili
5
hanno una relazione
- Alla fine del corso vedremo il tipo di relazione

Una tabella a doppia entrata può essere costruita per ogni tipo di variabile (fa parte
degli strumenti in generale), ma quando una variabile è quantitativa continua occorre
partizionarla in classi.
Se abbiamo una variabile quantitativa continua non si possono elencare tutte le
modalità in quanto solo infinite, quindi le raggruppo in classi.
Es classi di peso, altezza, reddito…

Esempio:
variabile quantitativa
variabile quantitativa discreta
continua

Le classi devono avere un senso, fino 8 anni elementari …


Variabile continua non posso mai elencare tutti i valori del reddito perché sono infiniti,
quindi faccio delle classi fino a 2000 ecc
in una variabile continua dove finisce una classe immediatamente ne inizia un’altra
nella variabile discreta, c’è un salto e poi subito un’altra.

C’è una relazione tra anni di studio e reddito? Sì!


se guardiamo la colonna “fino a 8 anni” la moda della distribuzione è il reddito più
basso
chi ha fatto le medie la moda è più alta ecc,

questo mi dice che al crescere degli anni di istruzione cresce la moda del reddito,
questo è indice che tra le due variabili c’è una relazione.
Dato che entrambe le variabili sono quantitative, posso dire che al crescere di una
variabile cresce l’altra relazione diretta tra le due variabili!!
Importante per fare delle previsioni!

6
2. strumenti grafici
Possiamo produrre una rappresentazione grafica della distribuzione di frequenza
bivariata.
Se la variabile è continua costruiamo un istogramma.
Se due variabili sono continue costruiamo il grafico in basso (istogramma bivariato)

Se entrambe le variabili sono quantitative partizionate in classi (nell’esempio: peso ed


altezza)
il grafico si chiama stereogramma (analogamente all’istogramma per il caso
univariato)

Consideriamo che le due variabili siano peso e altezza


- Pezzo viola: alti fino a 1,60, la moda il peso è fino a 60 kg
- Prezzo rosso: altezza fino a 1,80, la moda è fino a 80 kg
quando cresce la variabile altezza osserviamo una crescita tendenziale della
moda della variabile peso
sintomo che tra le due variabili c’è una variabile diretta (se cresce una
variabile cresce anche l’altra, e anche la moda)
ci dice come si comportano congiuntamente le variabili

Difetto estereogramma:
- non si vede bene perché a dipendenza di come lo guardo potrebbe
cambiare

7
Se le variabili sono qualitative creiamo un grafico a colonne tridimensionale (le
colonne sono staccate tra di loro)

Vediamo che la moda per i ragazzi per lo scientifico e per le ragazze il classico.

Excel consente, per migliorare la leggibilità, di ruotare a piacere questi grafici.

8
Se entrambe le variabili sono quantitative continue abbiamo un grafico alternativo:
il diagramma a dispersione o scatter (non si può fare con una sola variabile)

Ciascun paese è rappresentato da un puntino nel quale per ciascun paese osservo le
due variabili.
X= tasso di mortalità del paese
Y=tasso di natalità del paese

Ciascun punto rappresenta le modalità assoluto di quel paese rispetto a quelle variabili
Si guarda la forma “della nuvola di punti” e non il singolo!
Dice che un gruppo di paesi in cui c’è elevata natalità ed elevata mortalità
La natalità è elevata ma la mortalità è bassa

Si vede che la nuvola dei punti ha una tendenza crescente, questo rappresenta che
c’è una tendenza delle due variabili a muoversi insieme relazione positiva tra le
due.
Se in un paese c’è un elevato tasso di natalità ci sarà anche un elevato tasso di
mortalità e viceversa.

In uno scatter:
• ogni punto rappresenta un individuo, e le sue coordinate sono date dai
valori assunti dalle 2 variabili per quella osservazione
• l’intera nuvola rappresenta la relazione tra le 2 variabili

2 variabili devono essere quantitative continue, perché è un grafico cartesiano.


Ogni individuo è rappresentato da un punto.
La nuvola dell’insieme dei punti è ciò che ci suggerisce qualcosa della relazione tra le
due variabili.
cfr tipi di relazione

9
Tipi di relazione
Se la nuvola assume una forma regolare allora c’è una relazione tra le 2 variabili
1. Quando una variabile cresce, anche l’altra tende a crescere (relazione diretta o
positiva)

X=aspettativa di vita dell’uomo


Y=aspettativa di vita della donna

Tendenza molto marcata ad una relazione diretta


in paesi in cui l’aspettativa di vita dell’uomo è elevata anche l’aspettativa di vita della
donna è elevata e viceversa

Uomo e donna sono soggetti agli stessi aspetti in un paese, perciò le aspettative di vita
sono comparabili.
tendenza ad avere un comportamento simile relazione diretta

2. Quando una variabile cresce l’altra tenda a decrescere (relazione inversa o


negativa)

10
al crescere di una variabile, l’altra variabile tende a decrescere.
Quando ci sono valori bassi della variabile x, ci sono valori elevati della variabile y e
viceversa.

3. Quando una variabile cresce l’altra tende ad essere costante (assenza di


relazione) no relazione tra le due variabili

X= numero di abitanti per metro quadrato


Y= aspettativa di vita della donna
Dal grafico vediamo che non c’è una relazione tra le due variabili!
Qualunque sia aspettativa di vita di una donna la densità di popolazione resta sempre
la stessa.
Ci sono due valori eccezionali ( i due pallini ) rispetto alla relazione tra le due variabili e
non alla singola!!!

11
4. Quando una variabile cresce l’altra non ha un andamento regolare (assenza di
relazione)

no costante
né tendenza crescita né tendenza alla diminuzione

X= % persone che vivono in città


Y= tasso di crescita delle persone

Assenza di relazione= imprevedibilità


Se c’è una relazione tra le due variabili, soprattutto se è diretta e molto forte come nel
caso dell’aspettativa di vita dell’uomo e della donna.
Tramite l’aspettativa di vita dell’uomo riesco a prevedere l’aspettativa di vita della
donna perché i punti sono quasi tutti allineati.
 Relazioni tra variabili che significa capacità di prevedere una variabile sulla base
dell’altra
adesso faremo degli strumenti analitici che ci permetteranno di quantificare la
relazione tra due variabili.
dobbiamo introdurre un parametro che gioca lo stesso ruolo della media nello
studiare lo stesso ruolo tra variabili!

Nel caso 4 (assenza di relazione) se conosco il tasso di urbanizzazione, non posso dire
nulla sulla % di persone che vivono in città.

12
3. Strumenti analitici per la statistica bivariata
 Se in particolare entrambe le variabili sono quantitative descriviamo le relazioni
evidenziate da uno scatter attraverso il concetto di
Correlazione

 In generale, quando ci riferiamo a coppie di variabili di qualunque tipo


(qualitative o quantitative suddivise in classi)
descriviamo una distribuzione di frequenza bivariata attraverso il concetto di
Dipendenza
(lo tratteremo più avanti nel corso)

Per variabili quantitative


• Possiamo caratterizzare ogni scatter con un singolo valore (un parametro)
il quale descrive il grado di regolarità mostrata dal grafico.
• Questo valore è la correlazione
• La correlazione si riferisce a relazioni di tipo LINEARE una retta

Non lineareparabola!

Ci occuperemo ora soltanto di relazioni di tipo LINEARE


13
Riassunto varianza
(spiegazione formula)

Prendiamo ciascun valore della x, lo confrontiamo con la media, e la grandezza totale la


eleviamo al quadrato. Poi, di questa grandezza ne otteniamo la media.

La covarianza
La natura di questa misura è molto simile a quella della varianza, ci interessa in questo
ambito come DUE variabili variano due insieme (CO-VARIANO)
Es: aspettativa di vita dell’uomo e della donna co-variano insieme.
Es: tasso di urbanizzazione e tasso di crescita della popolazione non co-variano. La
variabilità dell’una è indipendente dalla variabilità dell’altra.

Caso 1: Quando una variabile cresce, anche l’altra tende a crescere (relazione diretta o
positiva)

La correlazione in questo caso è un numero positivo

14
Caso 2: Quando una variabile cresce l’altra tende a decrescere (relazione inversa o negativa)
In tal caso la correlazione è un numero negativo

Caso 3: Quando una variabile cresce l’altra tende ad essere costante (assenza di relazione)
In tal caso la correlazione è vicina allo 0

Caso 3: Quando una variabile cresce l’altra non ha un andamento regolare (assenza di relazione):
tipicamente abbiamo una “nuvola” di punti.
Anche in tal caso la correlazione è vicina allo 0

le due misure co-variano ma in modo caotico. C’è varianza ma non è possibile prevedere la
variabilità dell’una conoscendo l’altra.

15
Rappresentiamo graficamente un diagramma a dispersione/scatter. Su questo grafico tracciamo 2
rette che passano 1 dalla media della x (mx) e l’altra dalla media della y (my).
In questa maniera abbiamo identificato quattro quadranti.

Osserviamo che:
- Nel primo quadrante cadono gli individui che presentano un valore della x > media e
un valore della y pure superiore alla media
cadono gli individui che hanno una misura superiore alla media in entrambi le
variabili

Esempio con peso e altezza:

Nel primo quadrante cadono gli individui che sono più alte la media e pesano di più della media.
Nel terzo quadrante cadono gli individui più bassi della media che pesano meno della media.
1 e 3 quadrante cadono quegli individui che si comportano secondo una regola per la quale più
sei alto e più pesi.
2 e 4 quadrante ci sono gli individui che violano questa regola.
2 quadrante: individui più bassi della media, ma pesano di più: sovrappeso
4 quadrante: individui più alti della media che pesano meno della media: sottopeso.

Più alta è l’intensità della relazione tra le 2 variabili, più alto è il valore assoluto della correlazione.

Nel primo quadrante gli scarti sono tutti e due positivi.


Nel secondo quadrante: gli scarti hanno due segni diversi
Nel terzo quadrante gli scarti della media sono tutti e due negativi

16
II
I

III IV

Nel primo e nel squarte quadrante gli scarti delle due variabili assumono lo stesso segno.
Nel secondo e quarto quadrante assumono un segno opposto

Con questo ragionamento capiamo che:


- Posso costruire una misura che è il prodotto degli scarti
- Nel primo quadrante, tutti e due gli scarti sono positivi, quindi il prodotto è positivo
- Stessa caratteristica la noto nel terzo quadrante, gli scarti sono entrambi negativi,
quindi il prodotto è positivo

-
Se costruisco questa grandezza come il prodotto degli scarti tra due variabili.
Il prodotto di questi due valori assumeranno:
- Valori positivi nel primo e nel terzo quadrante
- Valori negativi nel secondo e quarto quadrante

Ci interessa una misura che ci dice se c’è una relazione diretta tra le due variabili, il prodotto degli
scarti deve essere positivo I punti si devono trovare prevalentemente il primo nel terzo
quadrante

17
Se c’è una relazione inversa tra le due variabili, il prodotto degli scarti dovrà essere negativo e si
dovrà concretare nel secondo e quarto quadrante.
Calcoliamo il prodotto degli scarti:

E poi andiamo a vedere quali di questi scarti prevalgono (quelli nel 1 e 3 quadrante o 2 e 4
quadrante)

Se prevalgono i punti nel primo e terzo quadrante, i prodotti saranno positivi!


Se prevalgono i punti del secondo e quarto quadrante, i prodotti saranno negativi!
quindi facciamo la media!!
facendo la media succede che se ci sono tanti scarti positivi e tanti scarti negativi, si mediano e
la media è zero. Significa che non c’è una prevalenza né a crescere né a decrescere nella nuvola di
punti no co-varianza.

Covarianza: media dei due prodotti!!

prendiamo la differenza tra ciascun valore x e la media moltiplicata alla differenza di ciascun valore
della y e la media.
prodotti degli scarti di ciascuna variabile della propria media

media del prodotto degli scarti (media x e media y)


misura della relazione tra due variabili
Se prevalgono i punti nel primo e terzo quadrante, c’è una relazione diretta:

18
2
la maggiorparte dei punti sono nel primo e terzo quadrante
calcolo la misura come il prodotto degli scarti faccio la media la misura sarà positiva.

Invece in questo caso i punti sono quasi tutti nel secondo e nel quarto quadrante la media dei
prodotti è negativa. Co-varianza negativa!

Covarianza vicino a 0!!!

19
In questo caso non c’è una porzione che prevale sull’altra!
non c’è una relazione tra le due variabili, co-varianza=0

Su excel:
individui

Seleziono la colonna altezza e peso e inserisco grafico a scatter (il primo tra i proposti)

20
Come si calcola la covarianza su excel?

faccio la media dell’altezza e del peso


se trascino orizzontalmente la media di 174,33 mi farà la media del peso!

Dopo di che costruisco gli scarti di altezza:


valore altezza – media altezza (blocco con il dollaro)

Dopo calcolo lo scarto del peso, con lo stesso procedimento dello scarto dell’altezza

la somma degli scarti è sempre 0!!! O un numero vicino a 0

Dopo di che faccio il prodotto degli scarti: co-varianza

Il primo individui è 4 cm e -7 cm sotto la media, quindi si trova nel terzo quadrante e il prodotto è
positivo.

Il secondo individui è 15 cm (altezza) sopra la media e 17 kg di peso sopra la media, il prodotto è


positivo (terzo quadrante).

Tutti i prodotti sono positivi quindi la media sarà positiva.

21
Media del prodotto
degli scarti

Difetti della covarianza:


- Altezza espressa in cm
- Peso espresso in kg
covarianza è il prodotto di cm e kg, ?? grande confusione!
impossibile interpretarla! Dobbiamo renderla scale free come il coefficiente di
variazione
in questo modo eliminiamo l’influenza dell’unità di misura.
- Il valore della covarianza mi dice solo se tra due variabili c’è una relazione positiva,
negativa o nulla NON POSSO DIRE L’INTENSITà!
- Ci sarà una nuova misura (correlazione) che sia un numero puro scale free che
esprime se c’è una forte o debole correlazione!
Correlazione
Corr (x,y)
ottenuta dalla covarianza tramite una standardizzazione
standardizzare delle misure in maniera che si muovano in intervalli rigidi
La covarianza può assumere qualunque valore (da -infinito a + infinito) perché la covarianza è
espressa in un’unità di misura che è il prodotto delle 2 unità di misura
se studiamo la relazione fra peso e altezza la covarianza sarà espressa in cm x kg
dobbiamo eliminare le unità di misura, perché ci confondono e non ci permettono di fare
confronti!

La covarianza la dividiamo per il prodotto delle due deviazioni standard:

in questo modo eliminiamo l’unità di misura!


diventa un numero puto
Pxy è il numero senza unità di misura.

Vantaggio di Pxy:
- Eliminiamo l’unità di misura
- è sempre compresa in un intervallo predeterminato che va da -1 a +1

22
in questo modo fissiamo dei limiti dell’intervallo nel quale può cadere l’indice
+ indice è vicino a 1, + c’è una relazione positiva forte
+ indice è vicino a -1, c’è una relazione forte!
mi permette di fare un commento sull’intensità della relazione!

Covarianza
Corr (x, y) = σxy

Eliminiamo l’unità di misura e fissiamo dei limiti dell’intervallo dove può cadere questo indice.
+ vicino a -1 c’è una relazione – forte.

forte relazione positiva e lineare tra le variabili, lineare=perché i punti tendono a somigliare a
una retta
Valore molto elevato e positivo, un quasi allineati con un andamento quasi crescente
L’indice di correlazione deve assumere un valore prossimo a +1,
0,992 quando si ha un valore elevato positivo si ha sempre un grafico di questo genere
Quasi allineati con un andamento quasi crescente.

Più basso è il valore assoluto della correlazione, più debole è l’intensità della relazione

Un valore negativo indica una tendenza alla decrescita

23
Consideriamo:
- Asse ascisse: reddito ascisse
- Asse verticale: aspettative di vita della donna

In paesi in cui il reddito è più alto, ci sono migliori condizioni economiche, migliori condizioni
sanitarie e l’aspettativa di vita è elevata.
c’è una relazione tra le 2 variabili, ma nel grafico la relazione appare non lineare, perché la curva
non ha un andamento lineare.
Variabile aspettativa di vita della donna è una variabile che ha un limite, non ha numero infiniti
si scontra con “il limite biologica della vita umana”. A 80 anni il paese può diventare ricchissimo
ma l’aspettativa di vita non cresce proporzionalmente!!!

Quando una delle due variabili, o tutte e due hanno un limite (tipico con le %, perché non si supera
il 100) gli andamenti perdono questa caratteristica di linearità la curva si piega.
Relazione è molto forte perché il grafico è ben delineato, I punti sono quasi perfettamente lungo
la curva che però non è una retta.
Questa caratteristica è colta dalla correlazione. È sempre positiva, ma non così elevata (0,642)
La correlazione è una misura non della relazione tra le due variabili, ma della relazione lineare tra
le 2 variabile = LIMITE!!
Correlazione bassa non vuol dire che non c’è relazione, ma potrebbe voler dire che c’è una
relazione ma non lineare!!!

Esempio:
c’è relazione tra queste due variabili?

sì c’è una relazione molto forte.


relazione tra 2 variabili significa prevedibilità. Significa che se conosco una variabile es valore di
x , riesco a prevedere il valore di y preciso.
Covarianza:
- Tracciamo le due linee delle medie (quelle rosse)

24
-
abbiamo tanti punti nel ramo in cui il prodotto è positivo, quanti ce ne sono dove il
ramo è negativo. È lo stesso!
non c`è una dominanza di un quadrante rispetto ad un altro. Qui la covarianza è =0!

Correlazione= 0
Vuol dire che non ci sia relazione tra le due variabili. Vuol dire che non c’è una correlazione
lineare tra le due variabili!!! Ma magari c’è una correlazione no lineare
LIMITE!

Un altro esempio:

Relazione tra aspettativa di vita di una donna e crescita popolazione


Prezzo viola: Tasso crescita popolazione, basso e a aspettativa donna alto
nel diagramma a scatter c’è una relazione non particolarmente forte negativa, perché il pezzo
in viola ha un tasso di crescita della popolazione relativamente basso e l’aspettativa di vita della
donna alto.

Come mostra la linea rossa la tendenza dei punti tende a decrescere correlazione negativa
Siccome la nuvola di nuvola di punti no è lungo una retta, la correlazione non sarà tropppo forte
25
infatti 0,579.
In sintesi:
il valore di una correlazione è:
• = 0 quando la relazione tra le 2 variabili non può essere rappresentata attraverso una linea
retta, ma magari può essere rappresentata da un’altra curva
• = 1 quando la relazione tra le 2 variabili può essere rappresentata perfettamente da una
retta crescente
• = -1 quando la relazione tra le 2 variabili può essere rappresentata perfettamente da una
retta decrescente

La correlazione è pari a…
-1= tutti i punti sono perfettamente allineati lungo una retta decrescente
1= tutti i punti sono perfettamente allineati lungo una retta crescente
0= nuvola di punti confusa che non ci fa vedere né una relazione positiva né negativa
Tendenza a decrescere ma non perfetta rappresentazione attraverso una relazione, la correlazione
è nell’intervallo negativo ma non vicino a -1
Al contrario, simmetricamente, correlazione più elevata (0,6) nuvola di punti tendenzialmente
crescente, ma non così forte (0,6)

Calcolo della correlazione

prodotto delle deviazioni


standard

ciascun valore x – media x


Ciascun valore y – media y

26
Procedura Excel
calcolo della Covarianza: funzione COVAR(array1,array2)
array1= dove si trova la x
array2= dove si trova la y

Dobbiamo scrivere 2 campi:


dove si trova la x
dove si trova la y

covar= vecchio comando


covariance.p=

27
Calcolo correlazione

Ci devono sempre essere 2 campi:


1. Dove si trova x
2. Dove si trova y

Limitazioni correlazione
1. Misura solo per le relazione lineare
relazione non lineare= correlazione coglie il segno, ma non l’intensità.

Erreoramente pensiamo alla correlazione come una relazione causa-effetto (altezza determina il
peso, reddito e aspettaiva di vita). In realtà non è sempre così.

COORELAZIONE elavata:
x  (causa)y
yc
la correlazione stabilisce solo l’entità della relazione lineare, non la direzione di una relazione
causa e effetto

Può accadere che x e y sono correlati perché sono entrambi effetti di una medesima causa z
causa sottostante che non osserviamo, la quale determina sia x che y.
Risultato: correlazione tra le due

X non causa y, ma una variabile z, la quale non momento successivo causa la y

28
Z non la osservo. Osservo solo il principio della correlazione

X causa y, solo se concorre una terza variabile (causa z)

Y è un effetto congiunto di due cause.


L’interpetazione della correlazione è molto diversa in tutte queste situazioni.

È importante cercare di identificare relazioni che abbiano senso nel quale si riesca ad intuire il
meccanismo causa-effetto.
la correlazione questo non lo rileva!!! Rileva solo uno stato di fatto: due variabili si muovono
insieme seguendo una retta. Non è detto che sia xcausa di y o qualsiasi altro meccanismo!

2. La correlazione non può mai essere interpretata come una relazione causa-effetto.
correlazioni spurie
Es furto appartamenti e consumazione gelato:
tutte e due sono effetto di una causa non osservata: la stagione climatica
durante l’estate, le persone vanno in vacanza, può soggetti a furti, e in quello stesso
periodo si consumano più gelati

Variabile z= temperatura!

Ricordiamo che…
La covarianza: due variabili variano insieme, se poi variano perché una è causa e l’altra effetto, non
è qualcosa che impariamo con la correlazione!!

3. La presenta di valori eccezionali può modificare radicalmente la situazione che


abbiamoutlier.

Possiamo avere situazioni molto diverse tra di loro che hanno tutte la stessa correlazione,
ad esempio una relazione che sia perfettamente lineare tranne un valore eccezionale

29
positiva ma non così forte(non arriva a 1) perché c’è un valore eccezionale.

Stessa situazione in:

correlazione è positiva ma non troppo elevata

4. Non è possibile fare inferenza!


Quanto deve essere elevata la correlazione per poter dire che c’è relazione tra le due
variabili?
Es 0,6 cosa vuol dire?
NON c’è un valore limite che esprime relazione tra le due variabili
questo è sbagliato perché noi facciamo solo una sintesi dei dati!!
Noi ci chiederemo: avendo trovato un certo valore a livello del campione della
correlazione, quanto è verosimile che ci sia una correlazione a livello della popolazione?
potrei trovare una correlazione=1 alla quale non assegno nessun significato dal punto di
vista dell’inferenza.

Es:
x=temperatura
y=reddito
in paesi
apparentemente sembra che non ci sia relazione tra le due

30
Che relazione c’è tra queste due variabili se lo misuriamo solo su due località?
- In due punti passa la retta e la correlazione tra x e y è -1.
seguendo questa logica potremmo dire che al polo nord c’è il reddito procapite più
elevato, non è così perché questo è un campione… un campione di due non è
sufficiente!
cambia se il campione è molto vasto

se il valore è =1 non è detto che ci sia perfetta relazione, magari i dati sono insufficienti
per rilvarla.
limite di una misura descrittiva; serve solo per dire nel campione ci sono due variabili che
si muovono insieme lungo la retta.

ATTENZIONE !!!
Un valore elevato della correlazione nel campione NON implica necessariamente che nella
popolazione le due variabili siano correlate, meno ancora che una sia causa e l’altra effetto.
implica solo che le due variabili co-variano insieme.
Ed ancor meno che una sia causa dell’altra!!

Questa è un’affermazione di tipo inferenziale che non ci è ancora possibile a questo stadio del
corso

31
Scarti della media al quadrato perché ci serve la deviazione standard della x

32

Potrebbero piacerti anche