Sei sulla pagina 1di 21

Regressione lineare semplice

In molti esperimenti al ricercatore interessa lanalisi delle variazioni di due


o pi variabili per evidenziare le eventuali relazioni esistenti tra di loro.
La relazione che viene presa in esame la dipendenza di una variabile dalle
altre.
Il rapporto di dipendenza
in matematica si indica come funzione
in statistica si indica come regressione
g

Esempio
p la pressione
p
arteriosa in funzione
f
dellet

Si indica come indipendente una variabile (x)


i cui livelli si possono fissare sperimentalmente (dosi di una sostanza)
o semplicemente rilevare (et, temperatura etc)
Si indica come dipendente una variabile (y)
la cui variazione si assume sia la risposta
p
alle variazioni della variabile indipendente.

Si parla di regressione lineare semplice


se le variabili che entrano in gioco sono la y ed una sola x e
la relazione che lega le due variabili una retta
con una equazione, a livello di popolazione, del tipo

= + x
in cui e sono i parametri che definiscono la retta
= intercetta
i t
tt , punto
t dove
d
la
l retta
tt iincontra
t llasse d
delle
ll y
= coefficiente di regressione,
indica di quanto aumenta la y
per laumento di una unit delle x,
quindi un numero
che assume la dimensione delle y e pu variare tra( - e +)

In uno studio sulla p


perdita dacqua
9 gruppi di 25 Tribolium confusum (il coleottero della farina),
sono stati pesati (non si potevano effettuare misurazioni singole per carenza di
strumenti adatti) e
quindi tenuti per 6 giorni senza cibo in ambienti con diversa umidit relativa.
relativa
Sono quindi stati ripesati e si calcolata la perdita di peso in milligrammi per
ciascun gruppo. I risultati sono

% di umidit relativa
mg di perdita peso

y 9.0

12

30

43

53

63

76

85

93

8.1

7.0

6.0

5.8

5.5

5.0

4.2

3.5

% di umidit relativa

12

30

43

53

63

76

85

93

mg di perdita peso

90
9.0

81
8.1

70
7.0

60
6.0

58
5.8

55
5.5

50
5.0

42
4.2

35
3.5

Perdita di peso

Tribolium Confusum

mg
10
8
6
4
2
0
0

10 20 30 40 50 60 70 80 90 100
% umidit relativa

Se in un campione di soggetti si dispone di


coppie di misure quantitative (xi;yi)
si possono rappresentare in forma grafica questi dati
tramite un diagramma a punti e
poi stimare la retta che interpola i dati

Stima dei parametri della retta

a , b

Per stimare i parametri si interpola la retta con il metodo dei minimi quadrati,
quadrati
cio cercando il valore che minimizza lo scarto quadratico tra un generico punto
y e la retta di regressione
( yi- i )2= minimo
( yi- i )2= [ yi- ((a+ bxi)]2= ( yi - a - b xi)

= ( yi2 + a2 + b2 xi2 -2ayi -2 yi b xi +2ab xi) =


= yi2 + a2 + b2xi2 -2a yi -2b yi xi +2ab xi = minimo

yi2 + a2 + b2xi2 -2a yi -2b yi xi +2ab xi = minimo


Ricerca del minimo tramite le derivate parziali per a e per b
per a
p

2na- 2y
yi +2b xi= 0
na = yi - b xi
a= yi - b xi
n
n
a= y - bx

yi2 + a2 + b2xi2 -2a yi -2b yi xi +2ab xi = minimo


Ricerca del minimo tramite le derivate parziali per a e per b
per b

2b xi2 - 2xi yi + 2a xi = 0
b xi2 = xi yi - a xi

Sostituisco a

b xi2 = xi yi - (yi - b xi) xi


n
n
b xi2 = xi yi - yixi + b(xi)2
n
n
b xi2 - b(x
( i)2 = xi yi - y
yixi
n
n

b[ xi2 - (xi)2 ] = xi yi - yixi


n
n
b( xi - x )2 = (xi -x)(yi- y )

b (x
b=
( i -x)(y
)( i- y ) = codevianza
d
((xy))
( xi - x )2
devianza x

a= y - b
bx

b= (xi -x)(yi- y )2 =
( xi - x )2

codevianza (xy)
devianza x

La codevianza serve nello studio di due variabili: stima come X e Y variano congiuntamente,
rispetto al loro valore medio. E' definita come la sommatoria degli n prodotti degli scarti di X
rispetto alla sua media e di Y rispetto alla sua media:

TEST F - ANALISI DELLA VARIANZA DELLA REGRESSIONE


90
80

70

yi

Y
i
y
y

60
50
40
30
0

10

20

30

40

Il test si basa sulla ipotesi che non ci sia regressione lineare semplice, cio che non
esista
i t regressione
i
e quindi
i di che
h il coefficiente
ffi i t di regressione
i
sia
i parii a zero.
Per verificare questa ipotesi si pu effettuare un test F partendo dalla scomposizione della devianza:

(yi

i ) = (yi y
i y)
Y
) ( Y

Quadrando e sommando per tutte le osservazioni

2
2

(y
(yi y
y ) = (y
(yi Yi ) + (( Yi y
y)

TABELLA DELLANOVA NELLA REGRESSIONE


ffonte
t di
variazione

d i
devianza

totale

(yi y
y )2

Dovuta a

regressione

( Y i y
(Y
y) ?
??

Intorno a
regressione

2
(yi Y i )

f
formule
l di calcolo
l l

differenza

varianza
i

n-1

yi2 (y )2
n
[ xi yi -(xi yi) /n]
2
2
xi -(xi) /n

gdl
dl

S2 reg

n-2
n
2

S2 e

Devianza dovuta a regressione o devianza spiegata dalla regressione =

s2reg / s2 e

codevianza(xy)2
devianza (x)

RIFIUTARE O ACCETTARE H0
La Varianza della regressione il rapporto tra devianza della regressione e i suoi gdl
La Varianza residua o derrore il rapporto tra devianza intorno e i suoi gdl
Se lipotesi nulla vera, la varianza derrore e la varianza della regressione sono simili.
Se esiste regressione (Rifiuto H0), la varianza della regressione significativamente maggiore di
quella d
derrore
errore.
l rapporto tra queste due varianze determina il valore del test F con gdl 1 e n-2
se il valore di F calcolato inferiore al valore tabulato,
tabulato allora si accetta ll'ipotesi:
ipotesi: i dati non mi indicano
una regressione statisticamente significativa ( non differisce dallo 0)
.
se il valore calcolato di F supera il valore tabulato, allora si rifiuta l'ipotesi nulla : la regressione lineare
tra le due variabili statisticamente significativa ( differisce significativamente da 0)
0).

La verifica della significativit della retta o verifica dell'esistenza di una relazione


lineare tra le due variabili pu essere attuata anche mediante il test t di Student,
con risultati equivalenti al test F:

TEST DIPOTESI

H0: = 0

H1: 0

Il test t il rapporto tra il valore del coefficiente angolare b ed il suo errore standard Sb.

Dove

e
Nella verifica della significativit della regressione uguale a 0

Limiti di confidenza di b

b t n-2,a Sb

Grado di precisione della stima di b cresce allaumentare della varianza di x e di n

Il coefficiente di determinazione

R2 la proporzione di variabilit totale descritta dalla


regressione lineare
0<R2<1
Valori
V
l i elevati
l
i di R2 significa
i ifi che
h lla maggior
i parte d
della
ll
variabilit tot. spiegata dal modello di regressione.

= + x per cui la singola osservazione yi pu essere rappresentata dal modello yi = + xi + i


con i che rappresenta la componente dovuta a fattori accidentali

Assunzioni

xi considerate fisse, senza errori


A livello di popolazione la relazione che lega y ad x si presuppone assuma la forma di una relazione lineare
ad ogni xi corrisponde una popolazione di y N(i,2) con le medie poste sulla retta di regressione E( y|x) =
i= + xi
Le varianze di queste popolazioni devono essere omogenee tra loro per cui E() =0 ; 2 =2;
Allora = N(0i,2)

Queste assunzioni ovviamente non sono necessarie per la stima puntuale dei parametri ma per la costruzione dei
tests statistici e per la definizione degli intervalli di confidenza.
Una volta stimati i parametri della retta necessario valutare se questa pu rappresentare la relazione tra le due
variabili

Analisi dei residui

Si definisce
d f
residuo
d i-esimo:

Si p
pu verificare
f
che:

Analisi dei residui


Residuo standardizzato:
I residui standardizzati hanno media 0 e varianza 1.
il modello
d ll adeguato
d
t aii d
dati
ti se ttutte
tt lle assunzioni
i i
sono rispettate: residui standardizzati ~ N(0, 2).
Lanalisi grafica dei residui utile per la verifica delle
assunzioni del modello lineare
GRAFICI: rappresentare lerrore e_std contro il
valore
l
atteso
tt
d
dell modello
d ll o contro
t lla x.

Il primo grafico (Residuals vs fitted) evidenzia se c indipendenza dei residui (i punti


si distribuiscono in modo casuale intorno alla media pari a 0 ?).
In altre parole il grafico evidenzia se la relazione di tipo lineare (y=a+bx) adeguata.
Il grafico indica anche se ci sono punti anomali con residui elevati che possono
influenzare la relazione tra x e y.

Il secondo grafico (QQ plot) indica se la normalit dei residui


soddisfacente (i punti si posizionano sulla diagonale?)

Il terzo grafico (Standardized Residuals vs fitted values) indica se le varianze


dei residui sono omogenee (la linea rossa parallela allasse delle x?)