Sei sulla pagina 1di 5

CORRELAZIONE E REGRESSIONE

CORRELAZIONE: misura lintensit e il verso della relazione fra due variabili metriche
(quantitative). Una correlazione positiva significa che le due variabili si muovono nella stessa
direzione, viceversa una correlazione negativa indica che due variabili si muovono in direzioni
opposte (ma sono comunque correlate).
La correlazione pi di un semplice indicatore; pu essere considerata come una statistica
campionaria che consente la verifica delle ipotesi. Infatti la misura della correlazione nel
campione influenzata dallerrore di campionamento (per questo una stima).
Possono essere utili dei controlli per moderare lerrore di campionamento nella correlazione:
assicurarsi che la relazione tra le variabili sia lineare
la varianza dellerrore dovrebbe essere simile per diversi livelli di correlazione
le due variabili dovrebbero provenire da distribuzioni statistiche simili.
COVARIANZA: fornisce la misura di quanto, due variabili, si muovano insieme, ossia la loro
dipendenza. Per ogni osservazione di i, una situazione dove sia x che y sono sotto o sopra le loro
rispettive medie campionarie accresce il valore della covarianza. La situazione in cui una delle
due variabili sopra la sua media e laltra sotto la sua media campionaria, decresce la
covarianza totale. La covarianza pu assumere valori positivi e negativi.
PROBLEMA: la covarianza dipende, come la varianza, dallunit di misura delle variabili. Di
conseguenza necessario normalizzare la covarianza per eliminare questo errore. Per
normalizzare ci si affida alla standardizzazione, che richiede di sottrarre la media e di dividere per
la deviazione standard.
Considerando che lespressione della covarianza gi corretto per la differenza delle medie,
baster solo dividere per le deviazioni standard campionarie, sia per x che per y.

COEFFICIENTE DI CORRELAZIONE (r): fornisce una misura numerica compresa fra -1 e +1 del
legame fra due variabili.
r = 0 significa che non c correlazione
r = +1 significa correlazione perfetta positiva
r = -1 significa correlazione perfetta negativa

VERIFICA DELLE IPOTESI SULLE CORRELAZIONI


Se le due variabili considerate derivano da distribuzioni Normali, si pu eseguire una verifica di
ipotesi, sfruttando la natura probabilistica del campionamento ed eseguire un test di ipotesi dul
coefficiente di correlazione campionaria r.
H0 (ipotesi nulla) => r=0 secondo questa ipotesi non esiste correlazione tra le variabili, quindi
eseguendo questo test ci si aspetta il risultato di rifiuto dellipotesi nulla per poter rintracciare la
correlazione.

r = indica in che misura si muovono le variabili


p-value = aiuta a capire se lipotesi nulla che r sia uguale a 0 respinta
Se il coefficiente r assume un valore alto (correlazione forte) ma il p-value si trova nellarea di non
rifiuto, quindi maggiore del valore critico 0.05 o 0.01, lipotesi nulla che la correlazione sia zero,
non pu essere rifiutata.
Se il coefficiente r assume valore basso (poca correlazione) ma il p-value si trova nellarea di
rifiuto, quindi minore del valore critico, lipotesi nulla di correlazione uguale a zero rifiutata.
Quindi in questo caso anche se r non rappresenta un grado di correlazione importante, comunque
la correlazione esiste. Viceversa, nel primo caso, pu sembrare che ci sia una correlazione forte,
eppure potrebbe non esserci significativit tale da rifiutare lipotesi di mancanza di correlazione (r
potrebbe essere distorto da qualche altro fattore).
Il coefficiente r ha significato solo se si pu sicuramente supporre che non c unaltra variabile che
influenza i valori di x e y. Si pu utilizzare il coefficiente di correlazione solo quando valgono
condizioni di ceteris paribus cio tutte le altre variabili rilevanti sono costanti.

CORRELAZIONE PARZIALE: permette di valutare il legame fra due variabili dopo aver controllato
gli effetti di una o pi ulteriori variabili. Considerando tre variabili x, y e z, il coefficiente di
correlazione parziale si ottiene correggendo il coefficiente di correlazione fra x e y dopo aver
considerato la correlazione tra x e z e la correlazione tra y e z.

CORRELAZIONE SEMI-PARZIALE: controlla la correlazione fra la variabile che influenza z e una


sola delle variati tra x e y.

STATISTICHE DI CORRELAZIONE NON-PARAMETRICHE: basate sullassociazione fra due


variabili di scala o ordinali:
Rho di Spearman
statistica Tau-b di Kendall
COEFFICIENTE DI CORRELAZIONE MULTIPLA: relazione congiunta fra una variabile e un
insieme di altre variabili (analisi di regressione).

REGRESSIONE LINEARE BIVARIATA

y=+x+
Si assume ora la casualit [da x a y]. Fare regressione significa andare a ritroso dalla
variabile dipendente y, ai suoi determinanti. Il termine di errore incarna tutto ci che NON
spiega la relazione lineare. I parametri non noti (alfa e beta) devono essere stimati sui
dati campionari. Indichiamo le stime campionare dei parametri rispettivamente a e b. Con
le stime di a e b si costruisce la variabile y teorica (y^)

STIMA DEI MINIMI QUADRATI


Il criterio dei minimi quadrati si usa per scegliere quale sia la retta preferibile che passa
nella nuvola di punti nel grafico rappresentativo dei valori del campione.
Deve sussistere la minore differenza possibile tra i dati osservati (yi) e i dati teorici (y^)
sommati tra di loro.

ASSUNZIONI DEL TERMINE DI ERRORE


lerrore ha media = 0 altrimenti sarebbe un errore sistemato.
la varianza del termine di errore non varia fra i casi (OMOSCHEDASTICIT), la
variabilit dellerrore non dovrebbe diventare pi grande per i casi con grandi valori
della variabile x. LETEROSCEDASTICIT la condizione opposta.
il termine di errore pero ogni caso indipendente dal termine di errore di ogni altro
caso, lomissione di importanti variabili esplicative farebbe aumentare lerrore ossia il
termine residuo.
il termine di errore anche indipendente dai valori della variabile indipendente x,
altrimenti la variabile x non sarebbe davvero indipendente ma sarebbe influenzata dai
cambiamenti della variabile dipendente y.
il termine di errore normalmente distribuito come conseguenza del fatto che la
variabile dipendente normalmente distribuita. Grazie alla Normale si possono
effettuare verifiche di ipotesi.
VERIFICA DELLE IPOTESI SUI COEFFICIENTI DI REGRESSIONE
test t su ogni coefficiente individuale:
lipotesi nulla che il coefficiente di regressione sia zero.
statistica t: si divide la stima (a) oppure (b) per il suo errore standard
il p-value permette di decidere se rifiutare lipotesi in base al livello di confidenza
test F su pi variabili indipendenti:
si applica congiuntamente su tutti i coefficienti di regressione
ipotesi nulla che tutti i coefficienti sono uguali a zero
il test F nella regressione corrisponde al test ANOVA

COEFFICIENTE DI DETERMINAZIONE: SST = SSR + SSE


la devianza totale composta da:
1. devianza spiegata che quella che spiega il modello quindi preferibile che assuma
valore 1 cio il massimo, e si misura come la somma dei quadrati delle differenze tra le
variabili y teoriche e la media della variabile dipendente y;
2. devianza residua che rappresenta quella parte non spiegata dal modello che contiene
lerrore residuo, e perch il modello sia buono deve assumere valore zero. Si misura
come la somma dei quadrati delle differenze tra la variabile y osservata e la variabile y
teorica.
Il coefficiente di determinazione quindi valido per misurare la bont del modello. Inoltre
unaltro modo legato a questo concetto per verificare la bont del modello R^2 (R
quadro) calcolato come rapporto tra la devianza spiegata e la devianza totale. Quanto pi
il rapporto assume valori grandi vicini all1 quanto pi il modello buono.

N.B. In una regressione bivariata, il coefficiente di determinazione R^2 il quadrato del


coefficiente di correlazione (r) fra y e x. Infatti non si ottengono risultati troppo differenti nel
caso di una correlazione tra x e y e nel caso di una regressione bivariata tra gli stessi
valori di x e y.

Root Mean Standard Error (RMSE) una misura dellaccuratezza delle previsioni che
corrisponde per le diagnostiche nel campione, allerrore standard dei residui, cio la radice
quadrata della SSE divisa per n-1

TEST ANOVA
Ha significato quando ci sono molte regressioni, con ipotesi nulla che esiste almeno una
regressione diversa da zero.
Questo test se significativo conferma la pertinenza di effettuare una regressione su
determinati dati. Devo arrivare a rifiutare lipotesi nulla per accettare lidea che almeno una
regressione sia diversa da zero e quindi vale la pena applicare il modello di regressione.

TEST T (COEFFICIENTE)
Considera prima le stime non standardizzate e poi lerrore standard.
t = rapporto tra stima e errore standard
se t assume valori grandi e il p-value pi piccolo del livello di confidenza, si rifiuta che i
coefficiente di regressione sia uguale a zero e quindi significativo applicare il modello di
regressione.
Per linterpretazione in SPSS si considerano i dati NON standardizzati, invece per sapere
quale regressione pesa di pi si considerano i dati standardizzati.

Beta uguale a R -> denoto anche da questo dato che la regressione bivariata d gli
stessi risultati della correlazione.
REGRESSIONE MULTIPLA
Il principio identico alla regressione bivariata ma ci sono pi variabili esplicative
indipendenti
y = + x + x +...+ x +
Le variabili indipendenti sono anche indipendenti le une dalle altre. Altrimenti potremmo incorrere
in qualche problema di duplicazione e diventerebbe molto difficile separare il significato.

COLLINEARIT: esiste quando due variabili sono correlate. perfetta quando una delle due
variabili ha una correlazione perfetta [+1 o -1] con unaltra variabile, o con una combinazione
lineare di pi di una variabile. Questo rende impossibile la stima.
Una forte collinearit rende le stime dei coefficienti instabili e inefficienti, che signora che
gli errori standard delle stime sono gonfiati alla miglior soluzione possibile.
La soluzione diventa molto sensibile alla scelta delle variabili da includere nel modello.
Quando c multicollinearit il modello potrebbe sembrare molto buono a prima vista, ma
produce previsioni scarse.

BONT DI ADATTAMENTO
Il coefficiente di determinazione R^2 cresce sempre allaumentare del campione e quindi
allaumentare dei regressori. Questo contro il principio di parsimonia. I modelli con
molte variabili esplicative sono impegnativi in termini di dati (costi elevati) e calcoli. Se
vengono confrontati con modelli annidati alternativi, quelli con pi variabili esplicative
risultano avere migliore bont di adattamento. Cos, un appropriato indicatore lR^2
aggiustato che tiene conto del numero di variabili esplicative (k) in relazione al numero di
osservazioni (n).

INDICATORI DI MULTICOLLINEARIT
Si parte dal presupposto che se lR^2 un valore alto significa che il regresso re
fortemente legato e quindi correlato agli altri

VIF (FATTORE INFLAZIONE VARIANZA): 1/(1-R^2), il reciproco della T quindi


valori alti di VIF sono sintomo di collinearit mentre valori uguali a 0 sono
incollinearit.

T (TOLLERANZA): 1-R^2 se R^2 uguale a 1 allora significa che T = 1-1 = 0 sintomo


di collinearit.

PROCEURA STEPWISE
una procedura che aiuta a scegliere quali variabili inserire nel modello di regressione.
Seleziona le variabili esplicative con pi ALTA correlazione rispetto alla variabile
dipendente e fa girare il modello. Poi prende anche la variabile che ha pi alto
coefficiente di correlazione parziale e la inserisce nel modello.
Di seguito esegue un test F o confronta i valori di R^2 aggiustato, fino ad arrivare a capire
se aver aggiunto una variabile in pi possa aver migliorato il modello. Se la risposta s,
mantiene la variabile nel modello, se la risposta no la esclude. Poi ricomincia con un
altro step ripetendo loperazione con le altre variabili. Ad ogni step, la procedura pu
eliminare una delle variabili gi incluse nel modello se non vi una diminuzione
significativa del valore F.
PROCEDURA FORWARD
La regressione Forward lavora esattamente come la regressione Stepwise, ma le variabili
vengono solo inserite e non eliminate. Il processo termina quando non c un ulteriore
incremento significativo del valore F.

PROCEDURA BACKWAED
Questa regressione inizia includendo tutte le variabili indipendenti e lavora escludendo ad
ogni step la variabile che provoca il minor decremento nel valore F. Il processo termina
quando il decremento di F non significativo.