Sei sulla pagina 1di 9

Relazioni statistiche: regressione e correlazione

detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili
statistiche o fra una mutabile e una variabile statistica o fra due Mutabili statistiche.
di notevole interesse perch permette di individuare legami fra fenomeni diversi. Tale e pu
essere effettuato sia sullintera popolazione statistica, sia su un campione estratto da essa.
Esistono metodi diversi per la ricerca della connessione secondo che si vogliano esaminare i legami
fra due variabili, oppure fra due mutabili, oppure fra una variabile e una mutabile.
In statistica pi importante lo studio della connessione fra due variabili, studio che si pu
effettuare o ricercando se una variabile dipendente dallaltra, oppure se si influenzano
reciprocamente.

Funzione di Regressione
E la funzione che esprime il legame di dipendenza d una variabile dallaltra
molto utile perch permette di valutare, entro i limiti dellintervallo dei dati rilevati, il valore della
variabile dipendente al variare della variabile indipendente. Ad esempio, se di un bene, non di prima
necessit, s sono rilevate, al variare del prezzo, le relative quantit domandate, si pu determinare,
mediante il metodo dei minimi quadrati, la funzione della domanda che esprime il legame fra il
prezzo e la quantit domandata dai consumatori e quindi il produttore ha la possibilit di prevedere,
per un prezzo prefissato, la corrispondente quantit di bene domandata.
La funzione pi utilizzata, soprattutto se i dati rilevati sono numerosi, la funzione lineare; s parla
allora di regressione lineare.
Se invece fra le due variabili non esiste un legame di dipendenza di una variabile dallaltra si
possono verificare i seguenti casi:

esse possono influenzarsi reciprocamente, cio esiste fra loro una correlazione.
possono essere entrambe dipendenti da unaltra grandezza
possono essere indipendenti.

Il confronto fra due variabili si effettua solo se fra esse esiste un legame logico, perch la
meccanica applicazione delle diverse tecniche pu portare a risultati assurdi.

Correlazione fra due variabili


La correlazione si misura mediante indici ed esprime la forza, o intensit, del loro legame.
Fra i vari indici introdotti il pi importante e il pi utile il coefficiente di correlazione lineare.
Talvolta lanalisi della correlazione precede lo studio della regressione, in quanto una variabile
viene confrontata con varie altre per vedere quelle pi connesse fra loro.

Correlazione fra due mutabili o fra una variabile e una mutabile


Il loro grado di correlazione dato da alcuni indici di cui il pi importante quello di Pearson.

Regressione lineare
Siano X e Y due variabili statistiche (oppure, come si preferisce dire, sia data una variabile statistica
doppia di cui X e Y sono le componenti), consideriamo le coppie (xi, yi) dei valori associati; se il
numero delle coppie non grande, si usa una Tabella a semplice entrata, altrimenti una Tabella a
doppia entrata.

Per prima cosa occorre fare una rappresentazione grafica mediante un diagramma, che rappresenta
le coppie dei valori rilevati (xi, yi); si ottiene cos un diagramma a dispersione.

Sia Y la variabile dipendente e X la variabile indipendente. Se esiste una relazione lineare, i punti si
distribuiscono vicino a una retta, come nei primi due schemi qui riportati di diagrammi a
dispersione; se invece i punti sono molto dispersi, come nel terzo schema, non esiste alcuna
relazione.

Retta di regressione di Y rispetto a X


Si ottiene applicando il Metodo dei minimi quadrati:

Il coefficiente di regressione b1 indica di quanto varia laY al variare di una unit di X e se Y


crescente o decrescente. Se, per esempio, b1 valesse 10, al crescere di una unit di X, la Y
crescerebbe di 10 unit, mentre se b1 valesse 0,5, al crescere di una unit di X, la Y crescerebbe di
mezza unit.

Retta di regressione di X rispetto a Y


Si pu anche determinare, se ha senso logico, la retta di regressione di X rispetto a Y, che ha
equazione (ottenuta dalla precedente scambiando X con Y):

Le rette di regressione possono anche essere scritte nel modo seguente, sostituendo ad a1 e a2 le loro
espressioni:

da cui si deduce che entrambe passano per il punto ( ( x; y ) baricentro della distribuzione, le cui
coordinate sono le medie aritmetiche, rispettivamente dei valori di X e dei valori di Y.

Le due rette di regressione coincidono quando tutti i punti del diagramma a dispersione
appartengono a una retta, invece quanto maggiore la dispersione, tanto maggiore langolo
formato dalle due rette.
Caso estremo si ha quando b1 = b2 = 0; le rette, allora, hanno equazione y = y e x = x e sono,
quindi, parallele agli assi cartesiani.
per importante notare che la condizione b1 = b2 = 0, in generale, non indica che le due variabili
X e Y sono indipendenti, ma piuttosto indica che non esiste regressione lineare, ossia che le due
variabili non sono linearmente dipendenti, potrebbero per essere legate da una relazione di tipo
parabolico, o di tipo esponenziale ecc. (Vedi esempi 1,2,3).

Correlazione fra due variabili


Lanalisi della correlazione fra due variabili conduce a misurare la forza, o lintensit, del legame
fra le due variabili. Si misura mediante lindice di Bravais-Pearson detto Indice di correlazione
lineare

Tale indice pu essere espresso mediante la covarianza fra X ed Y (varianza congiunta) la varianza
di X e la varianza di y. Sostituendo si ottiene:

Se tutti i punti giacciono su una retta parallela allasse delle ascisse, o parallela allasse delle
ordinate lindice r assume la forma indeterminata 0/0 perch si annullano numeratore e
denominatore.

Relazione fra r e i coefficienti angolari delle rette di regressione b1 e b2

Questa relazione ci permette di dimostrare facilmente che se le due rette di regressione coincidono
il coefficiente r vale + 1 oppure meno 1. Infatti in tal caso risulta b 2 = 1 / b1

Varianza spiegata e Varianza non spiegata

Elevando a quadrato e sommando, per gli n punti si ottiene:

Poich si dimostra sostituendo che lultima sommatoria nulla

= Varianza attribuibile alla relazione che sussiste fra X ed Y. Viene detta Varianza
spiegata. E calcolata come differenza dalla retta di regressione dal valore medio.

= E detta varianza non spiegata in quanto non imputabile alla relazione fra X ed Y ma ad
altri fattori.

Coefficiente di determinazione

Esempio

Esempio

Esempio
Calcolare il coefficiente di correlazione lineare fra le variabili X e Y della Tabella
dellesercizio 3 .