In questo caso dovremmo considerare tanti casi diversi, consideriamo che se trattiamo
due variabili alla volta devo considerare tutte le possibili combinazioni es:
- Studiare una variabile quantitativa continua, associata ad un’altra variabile
quantitativa continua
es: studio, peso e altezza
- una quantitativa continua con una discreta
es in una famiglia reddito è il numero di figli (reddito è continuo e il
numero di figli è discreto)
- variabile quantitativa continua con una ordinale
reddito di un individuo (quantitativa continua) e giudizio che dà su un
determinato prodotto (variabile ordinale) sufficiente ecc
- variabile quantitativa continua con una nominale
reddito e sesso
Distingueremo:
Studieremo solo:
- Quando entrambe sono quantitative
strumenti specifici
- Quando almeno una è qualitativa (sia ordinale che nominale)
strumenti generali
1. tabelle
• Possiamo costruire distribuzioni di frequenza bivariate (anche dette tabelle
a doppia entrata o crosstabs) contando il numero di individui che
presentano simultaneamente una certa modalità delle 2 variabili
• Per esempio: sesso e stato civile
Come si costruisce?
- Andiamo a contare quanti individui nel nostro collettivo presentano la
prima variabile con una determinata modalità e la seconda variabile con
una determinata modalità
- Per esempio sesso e stato civile
2
Conteggio( 90 donneecc)= frequenza
Totale di colonna:
- Distribuzione di frequenza del sesso a prescindere dello stato civile
Totale di riga:
- Distribuzione dello stato civile a prescindere dal sesso
Su queste tabelle possiamo calcolare TRE diversi tipi di percentuali:
1. Di riga
all’interno degli individui che sono sposati che % ci sono di donne?
220/400
2. Di colonna
all’interno delle donne quante solo le coniugate?
220/600
3. Totali
qual è la % degli uomini sposati?
180/1000
3
Domanda di esempio: Quale percentuale delle persone sposate è di sesso
maschile?
Se guardo la % di colonna noto immediatamente che la % delle vedove è il 25%, tra gli
uomini solo il 12%.
Cause:
nel matrimonio gli uomini sono più anziani rispetto alle donne, le donne vivono di
più ecc
Variabili stato civile e sesso solo in qualche modo legate tra di loro.
Una tabella a doppia entrata può essere costruita per ogni tipo di variabile (fa parte
degli strumenti in generale), ma quando una variabile è quantitativa continua occorre
partizionarla in classi.
Se abbiamo una variabile quantitativa continua non si possono elencare tutte le
modalità in quanto solo infinite, quindi le raggruppo in classi.
Es classi di peso, altezza, reddito…
Esempio:
variabile quantitativa
variabile quantitativa discreta
continua
questo mi dice che al crescere degli anni di istruzione cresce la moda del reddito,
questo è indice che tra le due variabili c’è una relazione.
Dato che entrambe le variabili sono quantitative, posso dire che al crescere di una
variabile cresce l’altra relazione diretta tra le due variabili!!
Importante per fare delle previsioni!
6
2. strumenti grafici
Possiamo produrre una rappresentazione grafica della distribuzione di frequenza
bivariata.
Se la variabile è continua costruiamo un istogramma.
Se due variabili sono continue costruiamo il grafico in basso (istogramma bivariato)
Difetto estereogramma:
- non si vede bene perché a dipendenza di come lo guardo potrebbe
cambiare
7
Se le variabili sono qualitative creiamo un grafico a colonne tridimensionale (le
colonne sono staccate tra di loro)
Vediamo che la moda per i ragazzi per lo scientifico e per le ragazze il classico.
8
Se entrambe le variabili sono quantitative continue abbiamo un grafico alternativo:
il diagramma a dispersione o scatter (non si può fare con una sola variabile)
Ciascun paese è rappresentato da un puntino nel quale per ciascun paese osservo le
due variabili.
X= tasso di mortalità del paese
Y=tasso di natalità del paese
Ciascun punto rappresenta le modalità assoluto di quel paese rispetto a quelle variabili
Si guarda la forma “della nuvola di punti” e non il singolo!
Dice che un gruppo di paesi in cui c’è elevata natalità ed elevata mortalità
La natalità è elevata ma la mortalità è bassa
Si vede che la nuvola dei punti ha una tendenza crescente, questo rappresenta che
c’è una tendenza delle due variabili a muoversi insieme relazione positiva tra le
due.
Se in un paese c’è un elevato tasso di natalità ci sarà anche un elevato tasso di
mortalità e viceversa.
In uno scatter:
• ogni punto rappresenta un individuo, e le sue coordinate sono date dai
valori assunti dalle 2 variabili per quella osservazione
• l’intera nuvola rappresenta la relazione tra le 2 variabili
9
Tipi di relazione
Se la nuvola assume una forma regolare allora c’è una relazione tra le 2 variabili
1. Quando una variabile cresce, anche l’altra tende a crescere (relazione diretta o
positiva)
Uomo e donna sono soggetti agli stessi aspetti in un paese, perciò le aspettative di vita
sono comparabili.
tendenza ad avere un comportamento simile relazione diretta
10
al crescere di una variabile, l’altra variabile tende a decrescere.
Quando ci sono valori bassi della variabile x, ci sono valori elevati della variabile y e
viceversa.
11
4. Quando una variabile cresce l’altra non ha un andamento regolare (assenza di
relazione)
no costante
né tendenza crescita né tendenza alla diminuzione
Nel caso 4 (assenza di relazione) se conosco il tasso di urbanizzazione, non posso dire
nulla sulla % di persone che vivono in città.
12
3. Strumenti analitici per la statistica bivariata
Se in particolare entrambe le variabili sono quantitative descriviamo le relazioni
evidenziate da uno scatter attraverso il concetto di
Correlazione
Non lineareparabola!
La covarianza
La natura di questa misura è molto simile a quella della varianza, ci interessa in questo
ambito come DUE variabili variano due insieme (CO-VARIANO)
Es: aspettativa di vita dell’uomo e della donna co-variano insieme.
Es: tasso di urbanizzazione e tasso di crescita della popolazione non co-variano. La
variabilità dell’una è indipendente dalla variabilità dell’altra.
Caso 1: Quando una variabile cresce, anche l’altra tende a crescere (relazione diretta o
positiva)
14
Caso 2: Quando una variabile cresce l’altra tende a decrescere (relazione inversa o negativa)
In tal caso la correlazione è un numero negativo
Caso 3: Quando una variabile cresce l’altra tende ad essere costante (assenza di relazione)
In tal caso la correlazione è vicina allo 0
Caso 3: Quando una variabile cresce l’altra non ha un andamento regolare (assenza di relazione):
tipicamente abbiamo una “nuvola” di punti.
Anche in tal caso la correlazione è vicina allo 0
le due misure co-variano ma in modo caotico. C’è varianza ma non è possibile prevedere la
variabilità dell’una conoscendo l’altra.
15
Rappresentiamo graficamente un diagramma a dispersione/scatter. Su questo grafico tracciamo 2
rette che passano 1 dalla media della x (mx) e l’altra dalla media della y (my).
In questa maniera abbiamo identificato quattro quadranti.
Osserviamo che:
- Nel primo quadrante cadono gli individui che presentano un valore della x > media e
un valore della y pure superiore alla media
cadono gli individui che hanno una misura superiore alla media in entrambi le
variabili
Nel primo quadrante cadono gli individui che sono più alte la media e pesano di più della media.
Nel terzo quadrante cadono gli individui più bassi della media che pesano meno della media.
1 e 3 quadrante cadono quegli individui che si comportano secondo una regola per la quale più
sei alto e più pesi.
2 e 4 quadrante ci sono gli individui che violano questa regola.
2 quadrante: individui più bassi della media, ma pesano di più: sovrappeso
4 quadrante: individui più alti della media che pesano meno della media: sottopeso.
Più alta è l’intensità della relazione tra le 2 variabili, più alto è il valore assoluto della correlazione.
16
II
I
III IV
Nel primo e nel squarte quadrante gli scarti delle due variabili assumono lo stesso segno.
Nel secondo e quarto quadrante assumono un segno opposto
-
Se costruisco questa grandezza come il prodotto degli scarti tra due variabili.
Il prodotto di questi due valori assumeranno:
- Valori positivi nel primo e nel terzo quadrante
- Valori negativi nel secondo e quarto quadrante
Ci interessa una misura che ci dice se c’è una relazione diretta tra le due variabili, il prodotto degli
scarti deve essere positivo I punti si devono trovare prevalentemente il primo nel terzo
quadrante
17
Se c’è una relazione inversa tra le due variabili, il prodotto degli scarti dovrà essere negativo e si
dovrà concretare nel secondo e quarto quadrante.
Calcoliamo il prodotto degli scarti:
E poi andiamo a vedere quali di questi scarti prevalgono (quelli nel 1 e 3 quadrante o 2 e 4
quadrante)
prendiamo la differenza tra ciascun valore x e la media moltiplicata alla differenza di ciascun valore
della y e la media.
prodotti degli scarti di ciascuna variabile della propria media
18
2
la maggiorparte dei punti sono nel primo e terzo quadrante
calcolo la misura come il prodotto degli scarti faccio la media la misura sarà positiva.
Invece in questo caso i punti sono quasi tutti nel secondo e nel quarto quadrante la media dei
prodotti è negativa. Co-varianza negativa!
19
In questo caso non c’è una porzione che prevale sull’altra!
non c’è una relazione tra le due variabili, co-varianza=0
Su excel:
individui
Seleziono la colonna altezza e peso e inserisco grafico a scatter (il primo tra i proposti)
20
Come si calcola la covarianza su excel?
Dopo calcolo lo scarto del peso, con lo stesso procedimento dello scarto dell’altezza
Il primo individui è 4 cm e -7 cm sotto la media, quindi si trova nel terzo quadrante e il prodotto è
positivo.
21
Media del prodotto
degli scarti
Vantaggio di Pxy:
- Eliminiamo l’unità di misura
- è sempre compresa in un intervallo predeterminato che va da -1 a +1
22
in questo modo fissiamo dei limiti dell’intervallo nel quale può cadere l’indice
+ indice è vicino a 1, + c’è una relazione positiva forte
+ indice è vicino a -1, c’è una relazione forte!
mi permette di fare un commento sull’intensità della relazione!
Covarianza
Corr (x, y) = σxy
Eliminiamo l’unità di misura e fissiamo dei limiti dell’intervallo dove può cadere questo indice.
+ vicino a -1 c’è una relazione – forte.
forte relazione positiva e lineare tra le variabili, lineare=perché i punti tendono a somigliare a
una retta
Valore molto elevato e positivo, un quasi allineati con un andamento quasi crescente
L’indice di correlazione deve assumere un valore prossimo a +1,
0,992 quando si ha un valore elevato positivo si ha sempre un grafico di questo genere
Quasi allineati con un andamento quasi crescente.
Più basso è il valore assoluto della correlazione, più debole è l’intensità della relazione
23
Consideriamo:
- Asse ascisse: reddito ascisse
- Asse verticale: aspettative di vita della donna
In paesi in cui il reddito è più alto, ci sono migliori condizioni economiche, migliori condizioni
sanitarie e l’aspettativa di vita è elevata.
c’è una relazione tra le 2 variabili, ma nel grafico la relazione appare non lineare, perché la curva
non ha un andamento lineare.
Variabile aspettativa di vita della donna è una variabile che ha un limite, non ha numero infiniti
si scontra con “il limite biologica della vita umana”. A 80 anni il paese può diventare ricchissimo
ma l’aspettativa di vita non cresce proporzionalmente!!!
Quando una delle due variabili, o tutte e due hanno un limite (tipico con le %, perché non si supera
il 100) gli andamenti perdono questa caratteristica di linearità la curva si piega.
Relazione è molto forte perché il grafico è ben delineato, I punti sono quasi perfettamente lungo
la curva che però non è una retta.
Questa caratteristica è colta dalla correlazione. È sempre positiva, ma non così elevata (0,642)
La correlazione è una misura non della relazione tra le due variabili, ma della relazione lineare tra
le 2 variabile = LIMITE!!
Correlazione bassa non vuol dire che non c’è relazione, ma potrebbe voler dire che c’è una
relazione ma non lineare!!!
Esempio:
c’è relazione tra queste due variabili?
24
-
abbiamo tanti punti nel ramo in cui il prodotto è positivo, quanti ce ne sono dove il
ramo è negativo. È lo stesso!
non c`è una dominanza di un quadrante rispetto ad un altro. Qui la covarianza è =0!
Correlazione= 0
Vuol dire che non ci sia relazione tra le due variabili. Vuol dire che non c’è una correlazione
lineare tra le due variabili!!! Ma magari c’è una correlazione no lineare
LIMITE!
Un altro esempio:
Come mostra la linea rossa la tendenza dei punti tende a decrescere correlazione negativa
Siccome la nuvola di nuvola di punti no è lungo una retta, la correlazione non sarà tropppo forte
25
infatti 0,579.
In sintesi:
il valore di una correlazione è:
• = 0 quando la relazione tra le 2 variabili non può essere rappresentata attraverso una linea
retta, ma magari può essere rappresentata da un’altra curva
• = 1 quando la relazione tra le 2 variabili può essere rappresentata perfettamente da una
retta crescente
• = -1 quando la relazione tra le 2 variabili può essere rappresentata perfettamente da una
retta decrescente
La correlazione è pari a…
-1= tutti i punti sono perfettamente allineati lungo una retta decrescente
1= tutti i punti sono perfettamente allineati lungo una retta crescente
0= nuvola di punti confusa che non ci fa vedere né una relazione positiva né negativa
Tendenza a decrescere ma non perfetta rappresentazione attraverso una relazione, la correlazione
è nell’intervallo negativo ma non vicino a -1
Al contrario, simmetricamente, correlazione più elevata (0,6) nuvola di punti tendenzialmente
crescente, ma non così forte (0,6)
26
Procedura Excel
calcolo della Covarianza: funzione COVAR(array1,array2)
array1= dove si trova la x
array2= dove si trova la y
27
Calcolo correlazione
Limitazioni correlazione
1. Misura solo per le relazione lineare
relazione non lineare= correlazione coglie il segno, ma non l’intensità.
Erreoramente pensiamo alla correlazione come una relazione causa-effetto (altezza determina il
peso, reddito e aspettaiva di vita). In realtà non è sempre così.
COORELAZIONE elavata:
x (causa)y
yc
la correlazione stabilisce solo l’entità della relazione lineare, non la direzione di una relazione
causa e effetto
Può accadere che x e y sono correlati perché sono entrambi effetti di una medesima causa z
causa sottostante che non osserviamo, la quale determina sia x che y.
Risultato: correlazione tra le due
28
Z non la osservo. Osservo solo il principio della correlazione
È importante cercare di identificare relazioni che abbiano senso nel quale si riesca ad intuire il
meccanismo causa-effetto.
la correlazione questo non lo rileva!!! Rileva solo uno stato di fatto: due variabili si muovono
insieme seguendo una retta. Non è detto che sia xcausa di y o qualsiasi altro meccanismo!
2. La correlazione non può mai essere interpretata come una relazione causa-effetto.
correlazioni spurie
Es furto appartamenti e consumazione gelato:
tutte e due sono effetto di una causa non osservata: la stagione climatica
durante l’estate, le persone vanno in vacanza, può soggetti a furti, e in quello stesso
periodo si consumano più gelati
Variabile z= temperatura!
Ricordiamo che…
La covarianza: due variabili variano insieme, se poi variano perché una è causa e l’altra effetto, non
è qualcosa che impariamo con la correlazione!!
Possiamo avere situazioni molto diverse tra di loro che hanno tutte la stessa correlazione,
ad esempio una relazione che sia perfettamente lineare tranne un valore eccezionale
29
positiva ma non così forte(non arriva a 1) perché c’è un valore eccezionale.
Es:
x=temperatura
y=reddito
in paesi
apparentemente sembra che non ci sia relazione tra le due
30
Che relazione c’è tra queste due variabili se lo misuriamo solo su due località?
- In due punti passa la retta e la correlazione tra x e y è -1.
seguendo questa logica potremmo dire che al polo nord c’è il reddito procapite più
elevato, non è così perché questo è un campione… un campione di due non è
sufficiente!
cambia se il campione è molto vasto
se il valore è =1 non è detto che ci sia perfetta relazione, magari i dati sono insufficienti
per rilvarla.
limite di una misura descrittiva; serve solo per dire nel campione ci sono due variabili che
si muovono insieme lungo la retta.
ATTENZIONE !!!
Un valore elevato della correlazione nel campione NON implica necessariamente che nella
popolazione le due variabili siano correlate, meno ancora che una sia causa e l’altra effetto.
implica solo che le due variabili co-variano insieme.
Ed ancor meno che una sia causa dell’altra!!
Questa è un’affermazione di tipo inferenziale che non ci è ancora possibile a questo stadio del
corso
31
Scarti della media al quadrato perché ci serve la deviazione standard della x
32