Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
INDICE
1. Idea de Dependencia
2. Interpretacin de la Regresin
2.1. Forma Terica
2.2. Forma Prctica
2.2.1. Seleccin inicial del modelo
2.2.2. Estimar los parmetros que caracterizan la funcin de regresin
Regresin Lineal Mnimo Cuadrtica. Rectas de Regresin
2.2.3. Comprobacin de la adecuacin del modelo
3. Correlacin entre variables aleatorias.
3.1. Coeficiente de Correlacin Lineal
4.Ajuste a otras curvas
4.1. Ajuste Exponencial
4.2. Ajuste Hiperblico
4.3. Ajuste Polinmico
1. Idea de Dependencia
Sea una v.a. bidimensional ( X , Y ) con funcin de densidad conjunta f ( x, y ) . La distribucin
f ( x, y )
f X ( x)
2. Interpretacin de la Regresin
2.1. Forma Terica
Surge de la distribucin condicionada de probabilidad e implica disponer de todos los
elementos necesarios para determinar las variables a estudio.
Se denomina funcin de regresin de Y sobre X a la funcin x E [Y x ] . Esta funcin hace
corresponder a cada valor de X = x un valor:
E [Y x ] = y f ( y x ) dy = y ( x )
+
-1-
Cuando ( X , Y ) es de tipo continuo esta funcin determina una curva en el plano ( X , Y ) que
recibe el nombre de curva general de regresin de Y sobre X.
De la misma forma se define funcin de regresin de X sobre Y a la funcin y E [X y ]. Esta
funcin hace corresponder a cada valor de Y = y un valor:
E [X y ] = x f (x y ) dx = x ( y )
+
La funcin de regresin permite hacer una prediccin de tipo probabilstico: dado un valor
x0 de una de las variables se puede determinar el valor medio y ( x 0 ) correspondiente a la
distribucin de la otra variable aleatoria.
EJEMPLO 1: Considerando la siguiente funcin de densidad conjunta de (X,Y), obtener
las curvas generales de regresin de Y sobre X y de X sobre Y.
f ( x, y ) = 6 x ,
0 < x < y <1
y ( x) = E (Y x ) = y f (Y x ) dy =
f (Y x ) =
1
1 y2
1
1+ x
x2
y
dy =
=
1 x
(1 x) 2 x 2(1 x) 2(1 x)
2
f ( x, y )
6x
1
=
=
,
f X ( x) 6 x(1 x) 1 x
f X ( x) =
x < y <1
f ( x, y )dy = 6 x dy = 6 xy ]x = 6 x(1 x) ,
1
x ( y ) = E ( X y ) = x f ( X y ) dx =
+
f (X y ) =
f Y ( y) =
f ( x, y ) 6 x
2x
= 2 = 2 ,
f Y ( y) 3 y
y
0 < x <1
x2
x3
2
2 2 dx = 2 2 = y
y
3y 0 3
0< x< y
y
f ( x, y )dx =
x2
6 x dx = 6 = 3 y 2 ,
2 0
0 < y <1
-2-
[ ]
E 2 = min E (Y X ) 2
,
[ ]
E 2
=0
[ ]
E 2
=0
[ ]
Luego:
2
E 2
= E
= E[ 2 (Y X )] = 0
E [Y X ] = 0 Y X = 0 Y = + X (1)
-3-
[ ]
2
E 2
= E
= E [ 2 X (Y X )] = 0
Luego:
E XY X X 2 = 0 11 X 20 = 0 (2)
11 X Y 11
= 2
20 X2
X
donde 11 = Cov( X , Y )
YX = 112
X
Teniendo en cuenta que la recta pasa por el punto ( X , Y ) la ecuacin de la recta de
regresin de Y sobre X puede expresarse de la siguiente manera:
Y Y = 112 ( X X )
X
De la misma forma la ecuacin de la recta de regresin de X sobre Y ser:
X X = 112 (Y Y )
Y
Siendo el coeficiente de regresin de X sobre Y:
XY =
11
Y2
YX XY =
112
= 2
2
2
XY
-4-
T
A
T
A
10800
1200
550
500
440
400
37500
1500
350
500
1200
600
360
600
5100
1200
3900
1300
6600
1200
6840
1900
1040
650
750
850
400
300
Sea X el precio por accin (en unidades) e Y el tamao de la empresa (en millones).
1 14
1 14
x
=
907
,
1428
=
y i = 5416,4285
i
Y
14 i =1
14 i =1
1 14 14
11 = xi y j = 7450821,43 11 = 11 X Y = 2537347,3
14 i =1 j =1
X =
20
1 14 2
= x i = 1034642,857
14 i =1
X = 20 X2 = 460,1463
02
1 14 2
= y i = 118460564,3
14 i =1
Y = 02 Y2 = 9440,491
11
= 11,9837
X2
La ecuacin de la recta de regresin de Y sobre X es:
Se tiene pues que:
YX =
(Y Y ) = YX ( X X )
y sustituyendo los valores anteriormente obtenidos se llega a:
Y = 11,9837 X 5454,5
-5-
DY = DY ( X , Y ) = Y g ( X )
Cada valor (x,y) de la v.a. bidimensional DY ( X , Y ) indica la
diferencia entre el valor de y real y el de g(x) considerada en
el sentido de la y.
Teniendo en cuenta que (X,Y) es una v.a., la diferencia
definida es una funcin de la v.a. bidimensional.
Se define la diferencia cuadrtica media o valor cuadrtico medio de Y respecto de g(x):
[ ] [
E DY2 = E (Y g ( x) )
Entre todas las funciones g(x) que se pueden considerar, se demuestra que la funcin de
regresin y ( x) es a la que corresponde el mnimo error cuadrtico medio. Es decir:
[ ]
] [
Se llama error de ajuste o varianza residual o varianza del error al valor cuadrtico medio:
e2 = E (Y g ( X ) )2
Esta medida puede considerarse como medida de correlacin puesto que cuanto menor es la
varianza del error e2 menores sern los errores y, por lo tanto, mayor la correlacin entre las
variables X e Y.
Pearson propuso otra medida de correlacin, el coeficiente general de correlacin:
G = 1
e2
Y2
De aqu se deduce que e2 = Y2 (1 G2 ) . Como las varianzas son siempre valores no negativos,
necesariamente (1 G2 ) ha de ser una cantidad positiva. As:
(1 ) 0
2
G
0 G2 1
1 G 1
G2 = 1 indica que Y = g ( X ) .
-6-
] [
] [
e2 = E (Y X )2 = E (Y ( Y X ) X )2 = E ((Y Y ) ( X X ) )2
= E [(Y Y ) 2 (Y Y )( X X ) + ( X X ) ] = 2 11 +
2
e
Sustituyendo el valor de =
2
Y
2
X
11
en la ecuacin anterior, se obtiene que:
X2
2
= +
2
e
2
Y
2
X
11 2
11
112
2
2 11 = + 2 X 2 2 11 = Y 2
X
X
X
2
Y
= 1
e2
Y2
112
2
X
112
11
Cov ( X , Y )
1
1
= 1
=
+
=
=
2
2
2
Y X
Y
Y X Y X
2
Y
Se puede considerar que las v.a. tienen una dependencia ms o menos lineal segn que
se aproxime ms o menos a uno de sus valores extremos. > 0 supone una
correlacin positiva y < 0 una correlacin negativa.
-7-
11
2537347,3
=
= 0,5841
X Y 460,1463 9440,5
La relacin entre las variables X e Y no es muy fuerte (para serlo el valor absoluto del
coeficiente de correlacin debera estar prximo a la unidad), por lo que sera
arriesgado efectuar previsiones a partir de la recta de regresin calculada.
a, b
Hay que calcular los valores de los parmetros a y b para que el error cuadrtico medio sea
mnimo. Se realizar linealizando la ecuacin con un cambio de variable. As, tomando
logaritmos:
Y = ab X
Z = + X
Con los valores de X y los valores de log Y se construye la recta de regresin de log Y sobre X
calculando los parmetros y . Tomando exponenciales se obtienen los parmetros a y b
necesarios para la funcin exponencial:
= log a a = 10
= log b b = 10
Anlogamente se puede calcular la regresin exponencial de X sobre Y.
4.2. Ajuste Hiperblico
1
+
a + bX
a, b
-8-
Y =
1
a + bX
1
Z = = a + bX
Y
Con los valores de X y los valores de 1/Y se construye la recta de regresin de 1/Y sobre X.
Los parmetros a y b obtenidos de estos clculos sern los parmetros a y b del denominador
de la funcin hiperblica.
Anlogamente se puede calcular la regresin exponencial de X sobre Y.
4.3. Ajuste Polinmico
a i i = 0,1,..., n
Esta ecuacin no puede reducirse al caso lineal por lo que el ajuste por mnimos cuadrados no
es tan directo. Una manera de calcular los parmetros ai consiste en resolver las ecuaciones
normales del sistema. Para el caso del ajuste a una parbola sera:
Y = a 0 + a1 X + a 2 X 2
i =1
i =1
i =1
n
n
n
n
3
2
y i x i = a 0 x i + a1 xi + a 2 x i Despejar a 0 , a1 , a 2
i =1
i =1
i =1
i =1
n
n
n
n
4
3
2
2
y i x i = a 0 x i + a1 xi + a 2 x i
i =1
i =1
i =1
i =1
y i = a 0 n + a1 xi + a 2 xi2
Esta tcnica para el clculo de los parmetros de la funcin parablica es igualmente vlida
para funciones polinmicas en general.
61,8
49,5
72,4
37,6
88,7
28,4
118,6
19,2
194
10,1
Escribir la ecuacin que relaciona P y V y estimar la presin del gas cuando V=100 pulg3.
a, b
-9-
c = a
d = log b
X=logV
Y=logP
1 6
1 6
x
=
1
,
9492
=
i
y i = 1,4662
Y
6 i =1
6 i =1
1 6 6
11 = xi y j = 2,81 11 = 11 X Y = 0,049
6 i =1 j =1
1 6
1 6
20 = x 2i = 3,8344
02 = y 2i = 2,2188
6 i =1
6 i =1
X =
X = 20 X2 = 0,1867
Y = 02 Y2 = 0,2626
Datos
Ecuacin
600
500
400
V
300
200
100
0
P
0
(Y Y ) = YX ( X X )
De aqu:
20
40
60
80
Y = 1,40 X + 4,20
c = a = 1,40 a = 1,40
d = log b = 4,20 b = 15952,6
PV 1, 40 = 15952,6
11
0,049
= 0,9994
=
X Y 0,1867 0,2626
El grado de dependencia entre ambas variables es alto por lo que las previsiones que se
efecten a partir de la funcin de regresin sern bastante fiables.
Para
V = 100 pu lg 3
P(100)1, 40 = 15952,6
P = 25,28 lb / pu lg 2