Sei sulla pagina 1di 30

X e Y: caratteri entrambi quantitativi

X: variabile indipendente
Y: variabile dipendente


y = f(x)


f(x): espressione funzionale mirante a
descrivere la legge di dipendenza di Y
da X.


Diagramma di dispersione
{x
j
, y
j
;
j = 1,2,...,n}

Y




y
j
.














x
j
X

Modello di dipendenza lineare:
retta di regressione
y = b
0
+ b
YX
x

b
0
: ordinata allorigine (o termine noto)


b
YX
: coefficiente angolare della retta di
regressione, detto coefficiente di
regressione. Riassume lintensit della
dipendenza di Y da X.
y
j
=
j
j
j
)
2
Criterio di accostamento: metodo dei
minimi quadrati
y
j
:ordinata empirica di ascissa x
j



*
b
0



n

+ b
YX
x
j
:ordinata teorica di
ascissa x
j

D =

(y
j=1
n
y
*
)
2
=
=

(y
j=1


b
0


b
YX
x
j



= minimo
Grafico della n-pla di valori
{x
j
, y
j
}



Y




y
j .



y
j
*

b
0




x
j
X

n
x




b
0
= y b
YX
x



n

x
j
y
j



nx y

(y
j

y)(x
j
x)

b
YX
=
j=1
n
2
j




nx
2

=
j=1
n




(x
j


=
x)
2

j=1



=
Codev(X, Y )
=

De
v(
X)
j=1



Cov(X, Y )
V(X)
b
YX
indica di quanto varia in media Y per
ogni variazione unitaria positiva di
X;

ha il segno algebrico della
codevianza.

b
YX
>0 retta ascendente;


b
YX
<0



b
YX
=0

retta



retta

discendente;



parallela allasse









delle
ascisse (equazione della retta:
y = y
): Y linearmente
indipendente da X.
Osservazione:
la retta di regressione passa sempre per
il centroide della nuvola di punti, poich
i valori medi
lequazione:
(x, y)
soddisfano


y* =
b
0
+ b
YX
x
j
j
b
2
Scomposizione della devianza di Y

Dev(Y)
tot
= Dev(Y)
regr
+ Dev(Y)
disp




(y
j

j
y)
2

=

(y
*

j
y)
2

+

(y
j

j
y
*
)
2
=




=
YX
(x
j

j
x)
2

+

|y
j

j

b
0

b
YX
x
j
|
2

R
2
:indice di determinazione lineare



R
2
=
Dev(Y)
regr

Dev(Y)
tot




= 1
Dev(Y)
disp

Dev(Y)
tot


0 s R
2
s 1
R
2
: frazione della variabilit di Y
attribuibile alla dipendenza lineare da X.

R
2
= 0

per
Dev(Y)
regr
= 0

(retta di regressione non inclinata e
devianza di regressione nulla)

R
2
= 1
per
Dev(Y)
disp
= 0

(tutta la variabilit di Y dovuta alla
dipendenza lineare da X e la devianza di
dispersione nulla).
b
y
= x
0

n

X: variabile dipendente
Y: variabile indipendente

'
b
XY
y

n n

x
j
y
j


nx y

(y
j

y)(x
j

x)

b
XY
=
j=1
n
2
j




ny
2

=
j=1



(y
j


=
y)
2

j=1

=
Codev(X, Y )
Dev(Y)
j=1
= 0
, Y linearmente indipendente
nche
b
XY
= 0
, X linearmente

I coefficienti angolari
b
YX
e

b
XY
hanno lo
stesso segno algebrico, dato dalla
codevianza, e differiscono per effetto
della diversa variabilit dei due caratteri.



Se
b
YX

da X, a
indipendente da Y, e viceversa.
Lindipendenza lineare reciproca.
b
0



Grafico delle rette:
y* =
b
0
+ b
YX
x
x
*
=
'


Y
+ b
XY
y














y




x
X
Coefficiente di correlazione lineare (r)
(Bravais-Pearson)


Indicatore simmetrico della relazione
lineare tra Y e X.
Codev(X, Y)
r =
Dev(X) Dev(Y)
1 s r s +1



Lindice r ha il segno algebrico della
codevianza

Nel modello di regressione lineare semplice
vale la relazione R
2
= r
2

r = +1: perfetta correlazione lineare
positiva tra X e Y; punti empirici tutti
allineati su una sola retta ascendente;
r = -1: perfetta correlazione lineare
negativa; punti empirici tutti allineati
su una sola retta discendente;
r = 0: assenza di correlazione lineare;
rette di regressione ortogonali tra loro,
con coefficienti angolari entrambi
uguali a 0: caratteri linearmente
indipendenti.
0 < r < +1: tendenziale correlazione positiva
tra X e Y; rette di regressione entrambe
ascendenti; coefficienti di regressione
positivi (quanto pi essi si riducono, tanto
pi le rette si aprono a forbice, espressione
dell'attenuarsi della relazione lineare tra le
variabili);
-1 < r < 0: tendenziale correlazione negativa
tra X e Y; rette di regressione entrambe
discendenti: coefficienti di regressione
negativi (l'angolo racchiuso dalle due rette
tanto minore quanto pi si accentua la
correlazione negativa).
Relazioni che intercorrono tra il
coefficiente di correlazione lineare (r) e
i coefficienti di regressione:

b = r
s
Y
b = r
s
X

YX
s
X
XY
s
Y


s
X
: scarto
quadratico medio di X
s
Y
: scarto
quadratico medio di Y
r = b
YX
b
XY

Dalla n-pla bivariata alla distribuzione
bivariata
x
1
.. x
h
.. x
v

y
1
n
11
.. n
1h
.. n
1v
n
10

: :
y
i
n
i1
.. n
ih
.. n
iv
n
i0

: :
y
u
n
u1
.. n
uh
.. n
uv
n
u0

n
01
.. n
0h
.. n
0v
n

{x
h
, y
i
;


n
ih
;


i = 1,...,u; h = 1,..., v}
h
n
In una {y
i
, x
h
;n
ih
}

1
x =

x
h
n
0h

n
h



1
Dev(X)
=

x
2
n
0h
h




2
nx
2







2
y =


i
y
i
n
i0 Dev(Y) =

y
i
i

n
i0
ny





Codev(X, Y) =

x
h
y
i
n
ih
i h
nx y
Regressione lineare e correlazione:
funzioni Excel



- funzioni per lanalisi del modello di
regressione lineare semplice
y = b
0
+ b
YX
x

- funzione matriciale applicabile sia al
modello di regressione lineare semplice
sia al modello di regressione lineare
multipla

y = b
0
+ b
1
x
1
+ b
2
x
2

+ ...
+ b
p
x
p

Funzioni Excel per lanalisi del modello di
regressione lineare semplice

y* =
b
0
+ b
YX
x

- INTERCETTA(y,x): calcolo di b
0



- PENDENZA(y,x): calcolo di b
YX



- TENDENZA(y;x;nuova_x;cost):
calcolo dei valori teorici y
j
* di ascissa x
j
,
j=1,...,n, o della previsione di Y in
corrispondenza di un nuovo valore di X
(cost=1 se modello con intercetta,
0 altrimenti)
- RQ(y,x): calcolo dellindice di
determinazione lineare



- COVARIANZA(Matrice1,Matrice 2): calcolo
della covarianza fra X e Y



- CORRELAZIONE(Matrice1,Matrice 2):
calcolo del coefficiente di correlazione
lineare di Pearson fra X e Y
Funzione matriciale (sia modello di regressione
lineare semplice sia modello di regressione
lineare multipla)



REGR.LIN(y,x,cost,stat)



y variabile dipendente;
x variabili indipendenti (se regressione
semplice 1 sola colonna, se regressione
multipla pi colonne contigue);
cost=1 se modello con intercetta, 0 altrimenti;
stat=1 se si vogliono statistiche aggiuntive, 0
altrimenti
Modello di regressione lineare semplice
y* =
b
0
+ b
YX
x



OUTPUT DI REGR.LIN(y,x,1,0):
b
YX
b
0


OUTPUT DI REGR.LIN(y,x,1,1):


b
YX b
0

se
1
se
0

R
2
se
Y

F df
Dev(Y)
regr
Dev(Y)
disp