Sei sulla pagina 1di 10

ANLISIS DE REGRESIN SIMPLE

INDICE
1. Idea de Dependencia
2. Interpretacin de la Regresin
2.1. Forma Terica
2.2. Forma Prctica
2.2.1. Seleccin inicial del modelo
2.2.2. Estimar los parmetros que caracterizan la funcin de regresin
Regresin Lineal Mnimo Cuadrtica. Rectas de Regresin
2.2.3. Comprobacin de la adecuacin del modelo
3. Correlacin entre variables aleatorias.
3.1. Coeficiente de Correlacin Lineal
4.Ajuste a otras curvas
4.1. Ajuste Exponencial
4.2. Ajuste Hiperblico
4.3. Ajuste Polinmico

1. Idea de Dependencia
Sea una v.a. bidimensional ( X , Y ) con funcin de densidad conjunta f ( x, y ) . La distribucin

condicionada de ( y x ) es aquella a la que corresponde la funcin de densidad:


f (y x) =

f ( x, y )
f X ( x)

Esa distribucin condicionada proporciona la probabilidad correspondiente a los valores que


puede tomar la v.a. Y cuando la otra toma un determinado valor x. Por lo tanto, el tipo de
relacin o dependencia entre las variables es una relacin x ( y x ) , es decir, x f ( y x ) .
Cuando es f ( y x ) = f Y ( y ) , X e Y son v.a. independientes, se dice que Y no depende
estocsticamente de X.

2. Interpretacin de la Regresin
2.1. Forma Terica
Surge de la distribucin condicionada de probabilidad e implica disponer de todos los
elementos necesarios para determinar las variables a estudio.
Se denomina funcin de regresin de Y sobre X a la funcin x E [Y x ] . Esta funcin hace
corresponder a cada valor de X = x un valor:

E [Y x ] = y f ( y x ) dy = y ( x )
+

-1-

Cuando ( X , Y ) es de tipo continuo esta funcin determina una curva en el plano ( X , Y ) que
recibe el nombre de curva general de regresin de Y sobre X.
De la misma forma se define funcin de regresin de X sobre Y a la funcin y E [X y ]. Esta
funcin hace corresponder a cada valor de Y = y un valor:

E [X y ] = x f (x y ) dx = x ( y )
+

La funcin de regresin permite hacer una prediccin de tipo probabilstico: dado un valor
x0 de una de las variables se puede determinar el valor medio y ( x 0 ) correspondiente a la
distribucin de la otra variable aleatoria.
EJEMPLO 1: Considerando la siguiente funcin de densidad conjunta de (X,Y), obtener
las curvas generales de regresin de Y sobre X y de X sobre Y.
f ( x, y ) = 6 x ,
0 < x < y <1

y ( x) = E (Y x ) = y f (Y x ) dy =
f (Y x ) =

1
1 y2
1
1+ x
x2
y
dy =
=

1 x
(1 x) 2 x 2(1 x) 2(1 x)
2

f ( x, y )
6x
1
=
=
,
f X ( x) 6 x(1 x) 1 x

f X ( x) =

x < y <1

f ( x, y )dy = 6 x dy = 6 xy ]x = 6 x(1 x) ,
1

x ( y ) = E ( X y ) = x f ( X y ) dx =
+

f (X y ) =

f Y ( y) =

f ( x, y ) 6 x
2x
= 2 = 2 ,
f Y ( y) 3 y
y

0 < x <1

x2
x3
2
2 2 dx = 2 2 = y
y
3y 0 3

0< x< y
y

f ( x, y )dx =

x2
6 x dx = 6 = 3 y 2 ,
2 0

0 < y <1

2.2. Forma Prctica


Experimentalmente, no es fcil disponer de los elementos necesarios para determinar la
curva de regresin general. Sin embargo, resulta ms sencillo recoger del fenmeno un
conjunto de datos de cuya representacin se intuye una forma funcional para la funcin de
regresin. Se trata de ajustar un conjunto de datos observados a esa funcin. El
procedimiento prctico consta de tres pasos.

-2-

2.2.1. Seleccin inicial del modelo


Consiste en representar los datos experimentales grficamente y observar su tendencia. Si
revelan una tendencia lineal, la funcin a la que debern ajustarse los datos ser una recta.
Si se observa alguna curvatura, la funcin de regresin a ajustar deber ser polinmica,
exponencial u otra.

2.2.2. Estimar los parmetros que caracterizan la funcin de regresin


Consideramos el caso ms sencillo en el que la funcin propuesta para el ajuste de los datos
de Y sobre los de X es una recta: Y = + X .
Como la relacin buscada es entre variables que son aleatorias y cualquier variabilidad en la
respuesta que no pueda explicarse mediante la ecuacin de la recta debe ser debida a un
error aleatorio, es ms riguroso representar la funcin de regresin as:
Y = + X +

donde es el error aleatorio que se distribuye normalmente con media 0 y varianza 2 .


El mtodo de los mnimos cuadrados consiste en estimar los parmetros de esta funcin,
y , minimizando la suma de cuadrados de las diferencias entre los valores observados de la
variable respuesta y de aquellos proporcionados por la ecuacin de la recta, es decir, deben
calcularse con la condicin de que el error sea mnimo:

[ ]

E 2 = min E (Y X ) 2
,

Por lo tanto, han de verificarse las igualdades:

[ ]

E 2
=0

[ ]

E 2
=0

Se puede expresar la primera de ellas como:

[ ]

Luego:

2
E 2
= E
= E[ 2 (Y X )] = 0


E [Y X ] = 0 Y X = 0 Y = + X (1)

La ecuacin (1) expresa que el punto ( X , Y ) pertenece a la recta de regresin.


De la segunda igualdad:

-3-

[ ]

2
E 2
= E
= E [ 2 X (Y X )] = 0


Luego:

E XY X X 2 = 0 11 X 20 = 0 (2)

Sustituyendo la expresin de obtenida de (1) en la expresin (2), se deduce que:

11 X Y 11
= 2
20 X2
X

donde 11 = Cov( X , Y )

Se denomina coeficiente de regresin de Y sobre X al coeficiente que representa la


pendiente de la recta de Y sobre X:

YX = 112
X
Teniendo en cuenta que la recta pasa por el punto ( X , Y ) la ecuacin de la recta de
regresin de Y sobre X puede expresarse de la siguiente manera:

Y Y = 112 ( X X )
X
De la misma forma la ecuacin de la recta de regresin de X sobre Y ser:

X X = 112 (Y Y )
Y
Siendo el coeficiente de regresin de X sobre Y:

XY =

11
Y2

Observaciones importantes a tener en cuenta en todo ajuste de regresin lineal:

Con la expresin ( x , y ) se indica un punto sobre la recta de regresin y no un valor


cualquiera de la v.a. ( X , Y ) . Sin embargo, es corriente por comodidad no poner el
circunflejo ^ en las variables indicadas.

La diferencia entre la observacin y y su valor estimado y es un estimador del


correspondiente error :
e = y y
donde e se conoce con el nombre de residuo.

A partir de las expresiones de los coeficientes de correlacin se obtiene que

YX XY =

112
= 2
2
2
XY

relacin que liga a los coeficientes de regresin.

-4-

EJEMPLO 2: Un estudiante realiza un estudio sobre empresas que empiezan a cotizar en


bolsa por primera vez. Siente curiosidad por saber si existe o no una relacin
significativa entre el tamao de la empresa (T, en millones) y el precio de la accin (A).
Teniendo en cuenta los siguientes datos, obtener la recta que mejor se ajuste a ellos:

T
A
T
A

10800
1200
550
500

440
400
37500
1500

350
500
1200
600

360
600
5100
1200

3900
1300
6600
1200

6840
1900
1040
650

750
850
400
300

Sea X el precio por accin (en unidades) e Y el tamao de la empresa (en millones).
1 14
1 14
x
=
907
,
1428

=
y i = 5416,4285
i
Y
14 i =1
14 i =1
1 14 14
11 = xi y j = 7450821,43 11 = 11 X Y = 2537347,3
14 i =1 j =1

X =

20

1 14 2
= x i = 1034642,857
14 i =1

X = 20 X2 = 460,1463

02

1 14 2
= y i = 118460564,3
14 i =1

Y = 02 Y2 = 9440,491

11
= 11,9837
X2
La ecuacin de la recta de regresin de Y sobre X es:
Se tiene pues que:

YX =

(Y Y ) = YX ( X X )
y sustituyendo los valores anteriormente obtenidos se llega a:

Y = 11,9837 X 5454,5

2.2.3. Comprobacin de la adecuacin del modelo


Se ha supuesto como hiptesis del modelo que el componente del error, , se distribuye
normalmente con media 0 y varianza 2 , = N (0, ) , y que los errores asociados con
distintas observaciones deben ser independientes.
Existen diversas tcnicas para probar la validez de esta hiptesis. La ms frecuente sera
considerar los residuos correspondientes, es decir, las estimaciones de los errores y mediante
un test de bondad de ajuste comprobar su normalidad.

3. Correlacin entre variables aleatorias.


Adems de la funcin que relaciona dos variables aleatorias X e Y, conviene estudiar tambin
el grado de asociacin que existe entre las dos variables, su correlacin.
Sea g(X) una funcin de la v.a. X. Se define la diferencia de la v.a. Y respecto de g(X):

-5-

DY = DY ( X , Y ) = Y g ( X )
Cada valor (x,y) de la v.a. bidimensional DY ( X , Y ) indica la
diferencia entre el valor de y real y el de g(x) considerada en
el sentido de la y.
Teniendo en cuenta que (X,Y) es una v.a., la diferencia
definida es una funcin de la v.a. bidimensional.
Se define la diferencia cuadrtica media o valor cuadrtico medio de Y respecto de g(x):

[ ] [

E DY2 = E (Y g ( x) )

Entre todas las funciones g(x) que se pueden considerar, se demuestra que la funcin de
regresin y ( x) es a la que corresponde el mnimo error cuadrtico medio. Es decir:

[ ]

] [

min E DY2 = min E (Y g ( x) ) = E (Y Y ( X ) )


g

Se llama error de ajuste o varianza residual o varianza del error al valor cuadrtico medio:

e2 = E (Y g ( X ) )2

Esta medida puede considerarse como medida de correlacin puesto que cuanto menor es la
varianza del error e2 menores sern los errores y, por lo tanto, mayor la correlacin entre las
variables X e Y.
Pearson propuso otra medida de correlacin, el coeficiente general de correlacin:

G = 1

e2
Y2

De aqu se deduce que e2 = Y2 (1 G2 ) . Como las varianzas son siempre valores no negativos,
necesariamente (1 G2 ) ha de ser una cantidad positiva. As:

(1 ) 0
2
G

0 G2 1

1 G 1

Implicaciones del coeficiente general de correlacin:

Si G2 = 0 , no existe relacin funcional entre X e Y y, por lo tanto, la varianza residual


coincide con la varianza de Y.

Cuanto ms cerca de la unidad est G2 indica que ms fuerte es la relacin funcional


entre la variables X e Y a travs de la funcin g(X).

G2 = 1 indica que Y = g ( X ) .

-6-

3.1. Coeficiente de Correlacin Lineal

En el caso que la funcin de regresin es lineal, el valor de la varianza residual es:

] [

] [

e2 = E (Y X )2 = E (Y ( Y X ) X )2 = E ((Y Y ) ( X X ) )2
= E [(Y Y ) 2 (Y Y )( X X ) + ( X X ) ] = 2 11 +
2
e

Sustituyendo el valor de =

2
Y

2
X

11
en la ecuacin anterior, se obtiene que:
X2
2

= +
2
e

2
Y

2
X

11 2
11
112
2
2 11 = + 2 X 2 2 11 = Y 2
X
X
X
2
Y

Se tiene pues que el coeficiente de correlacin lineal es:

= 1

e2
Y2

112
2
X
112
11
Cov ( X , Y )
1
1
= 1
=

+
=
=
2
2
2
Y X
Y
Y X Y X
2
Y

Implicaciones del coeficiente de correlacin lineal:

Cuando = 1 entonces la distribucin bidimensional (X,Y) est sobre la recta de


regresin. La dependencia lineal entre las dos variables X e Y es completa.

Cuando = 0 las variables estn incorrelacionadas linealmente.

Se puede considerar que las v.a. tienen una dependencia ms o menos lineal segn que
se aproxime ms o menos a uno de sus valores extremos. > 0 supone una
correlacin positiva y < 0 una correlacin negativa.

-7-

EJEMPLO 3: Calcular el coeficiente de correlacin para comprobar la adecuacin del


modelo lineal del EJEMPLO 2.

11
2537347,3
=
= 0,5841
X Y 460,1463 9440,5

La relacin entre las variables X e Y no es muy fuerte (para serlo el valor absoluto del
coeficiente de correlacin debera estar prximo a la unidad), por lo que sera
arriesgado efectuar previsiones a partir de la recta de regresin calculada.

4.Ajuste a otras curvas


En la prctica, ocurre a menudo que el conjunto de datos experimentales presenta cierta
curvatura pudindose observar entonces que la recta no es la funcin que mejor se ajusta a
esos datos. Algunas de las funciones que frecuentemente se utilizan en la prctica son las
funciones polinmicas, la funcin exponencial y la hiperblica.
4.1. Ajuste Exponencial

La funcin propuesta para el ajuste de los datos de Y sobre los de X es:


Y = ab X +

a, b

Hay que calcular los valores de los parmetros a y b para que el error cuadrtico medio sea
mnimo. Se realizar linealizando la ecuacin con un cambio de variable. As, tomando
logaritmos:
Y = ab X

log Y = log a + X log b

Z = + X

Con los valores de X y los valores de log Y se construye la recta de regresin de log Y sobre X
calculando los parmetros y . Tomando exponenciales se obtienen los parmetros a y b
necesarios para la funcin exponencial:

= log a a = 10
= log b b = 10
Anlogamente se puede calcular la regresin exponencial de X sobre Y.
4.2. Ajuste Hiperblico

La funcin propuesta para el ajuste de los datos de Y sobre los de X es:


Y=

1
+
a + bX

a, b

El siguiente cambio de variable permite linealizar la funcin:

-8-

Y =

1
a + bX

1
Z = = a + bX
Y

Con los valores de X y los valores de 1/Y se construye la recta de regresin de 1/Y sobre X.
Los parmetros a y b obtenidos de estos clculos sern los parmetros a y b del denominador
de la funcin hiperblica.
Anlogamente se puede calcular la regresin exponencial de X sobre Y.
4.3. Ajuste Polinmico

Para curvaturas distintas de la exponencial o hiperblica se intenta un ajuste de los datos


experimentales a funciones de tipo Polinmico de grado n:
Y = a 0 + a1 X + a 2 X 2 + ... + a n X n +

a i i = 0,1,..., n

Esta ecuacin no puede reducirse al caso lineal por lo que el ajuste por mnimos cuadrados no
es tan directo. Una manera de calcular los parmetros ai consiste en resolver las ecuaciones
normales del sistema. Para el caso del ajuste a una parbola sera:

Y = a 0 + a1 X + a 2 X 2

i =1
i =1
i =1

n
n
n
n
3
2
y i x i = a 0 x i + a1 xi + a 2 x i Despejar a 0 , a1 , a 2

i =1
i =1
i =1
i =1

n
n
n
n
4
3
2
2
y i x i = a 0 x i + a1 xi + a 2 x i

i =1
i =1
i =1
i =1

y i = a 0 n + a1 xi + a 2 xi2

Esta tcnica para el clculo de los parmetros de la funcin parablica es igualmente vlida
para funciones polinmicas en general.

EJEMPLO 4: La siguiente tabla presenta los valores experimentales de la presin P de


una masa dada de gas correspondiente a varios valores de volumen V:
V(pulg3)
54,3
2
P(libras/pulg ) 61,2

61,8
49,5

72,4
37,6

88,7
28,4

118,6
19,2

194
10,1

Escribir la ecuacin que relaciona P y V y estimar la presin del gas cuando V=100 pulg3.

De acuerdo a las leyes de la Termodinmica, la ecuacin que relaciona la presin y el


volumen del gas debe seguir la siguiente forma:
PV a = b

a, b

-9-

Se debe calcular a y b de forma que se ajuste a los datos experimentales. La ecuacin


que relaciona P y V puede reducirse a una recta si tomamos logaritmos:
log P + a log V = log b

log P = a log V + log b

Haciendo el cambio de variables Y = log P y X = log V se tendr:


Y = cX + d

c = a

d = log b

Transformando los datos se tiene:

X=logV
Y=logP

1,7348 1,7910 1,8597 1,9479 2,0741 2,2878


1,7868 1,6946 1,5752 1,4533 1,2833 1,0043

1 6
1 6
x
=
1
,
9492

=
i
y i = 1,4662
Y
6 i =1
6 i =1
1 6 6
11 = xi y j = 2,81 11 = 11 X Y = 0,049
6 i =1 j =1
1 6
1 6
20 = x 2i = 3,8344
02 = y 2i = 2,2188
6 i =1
6 i =1

X =

X = 20 X2 = 0,1867

Y = 02 Y2 = 0,2626

Datos
Ecuacin
600
500
400
V
300
200

Se tiene pues que:


YX = 112 = 1,40
X
La ecuacin de la recta de regresin de Y sobre X es:

100
0

P
0

(Y Y ) = YX ( X X )

De aqu:

20

40

60

80

Y = 1,40 X + 4,20

c = a = 1,40 a = 1,40
d = log b = 4,20 b = 15952,6

Por lo tanto, los datos originales se ajustarn a la ecuacin:

PV 1, 40 = 15952,6

Puesto que la funcin es linealizable, la correlacin entre P y V puede calcularse


obteniendo el coeficiente de correlacin lineal entre log P y log V :

11
0,049
= 0,9994
=
X Y 0,1867 0,2626

El grado de dependencia entre ambas variables es alto por lo que las previsiones que se
efecten a partir de la funcin de regresin sern bastante fiables.
Para

V = 100 pu lg 3

P(100)1, 40 = 15952,6

P = 25,28 lb / pu lg 2

Quedara la comprobacin de la hiptesis del modelo, la normalidad de los residuos.


- 10 -

Potrebbero piacerti anche