Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
de
tal manera que los valores de
0 1
, a a minimizan dicha suma.
Por tanto, siendo
0 1
y a a x = + la funcin de regresin estimada, la estimacin de mnimos cuadrados de los coeficientes de dicha recta
es
( )( )
( )
1 1 1 1
1 2
2
2
1
1 1
n n n n
i i i i
i i i i
n
n n
i i
i
i i
i i
n x y x y x x y y
a
x x
n x x i
= = = =
=
= =
| || |
| |
\ \
= =
| |
|
\
1
1 1
0 1
n n
i i
i i
y a x
a y a x
n
= =
= =
x a a y
1 0
+ =
i
Consideremos los datos del ejemplo 1 para estimar los parmetros de la funcin de regresin.
n 1 2 3 4 5 6 7 8 9 10
x 12 14 19 21 28 35 49 54 56 63
y 6,2 7,3 8,9 8,1 9,2 8,1 9,6 10,0 10,2 10,0
Solucin
n x y x
2
y
2
xy
1
12 6,2
144 38,4 74,4
2
14 7,3
196 53,3 102,2
3
19 8,9
361 79,2 169,1
4
21 8,1
441 65,6 170,1
5
28 9,2
784 84,6 257,6
6
35 8,1
1225 65,6 283,5
7
49 9,6
2401 92,2 470,4
8
54 10,0
2916 100,0 540,0
9
56 10,2
3136 104,0 571,2
10
63 10,0
3969 100,0 630,0
Suma 351 87,6 15573 783 3268,5
Aplicando las frmulas dadas se obtienen los siguientes resultados.
1 2
10 3268, 5 351 87, 6 1937, 4
0, 05955
10 15573 351 32529
a
= = =
0
87, 6 0, 05955 351
6, 669
10
a
= =
Las funcin de regresin muestral viene dada por 6, 669 0, 05955 y x = + .
Modelo de regresin lineal: Supuestos del modelo
Como dentro de los objetivos del anlisis de regresin estn realizar inferencias sobre los verdaderos parmetros de la recta de regresin as
como determinar qu tan cerca se encuentra cada
i
y de la verdadera
i
y es necesario conocer la manera en como se generan las
i
x y las
i
, ya que mientras no se especifique estos detalles no existe forma alguna de realizar las inferencias antes planteadas. Por tanto, para
lograr una interpretacin vlida de los valores estimados de la regresin el modelo gaussiano (el Modelo Clsico de Regresin Lineal
desarrollado en 1821) plantea los siguientes supuestos.
1. El modelo de regresin es lineal en los parmetros.
2. Los valores de x son fijos en muestreo repetido
3. El valor medio del error
i
es igual a cero, esto es ( ) / 0
i i
E x = .
4. Homocedasticidad o igual varianza: Dado un valor
i
x , la varianza de
i
es la misma para todas las observaciones.
5. No existe autocorrelacin entre las desviaciones
i
, esto es que dos valores cualesquiera de x,
i
x
,
j
x
,
i j, la correlacin
entre
i
y
j
es cero.
6. La covariancia entre
i
y
i
x es cero.
7. El nmero de observaciones n debe ser mayor que el nmero de parmetros a estimar.
8. Variabilidad en los valores de x. Dada una muestra cualquiera, no todos los valores de x son iguales.
9. El modelo de regresin est correctamente especificado.
10. No existe multicolinealidad perfecta. Es decir, no hay relaciones perfectamente lineales entre las variables explicativas.
Como el objetivo de este trabajo es realizar un estudio de las propiedades del Modelo Clsico de Regresin Lineal, no se tratarn a fondo
cada uno de los supuestos anteriores y por ende la forma de proceder si alguno de los mismos no se cumple. El estudio pretende hacer
referencias a las propiedades numricas del modelo y no profundiza sobre las propiedades estadsticas del mismo. Sin embargo, vale la
pena resaltar que la realizacin de una investigacin debe estar orientada por el anlisis de los supuestos mencionados ya que la validez de
las estimaciones y de todas las conclusiones que se realizan depender de la correcta manipulacin de los datos recolectados.
El coeficiente de determinacin
El coeficiente de determinacin es valor denotado por
2
R y definido por
2
1 1
sumadecuadrados delos residuos SSE
R
sumadecuadradostotal SST
= =
donde
2
1 2
1
n
i
n
i
i
i
y
SST y
n
=
=
=
| |
|
\
y
2
0 1
1 1 1
n n n
i i i i
i i i
SSE y a y a x y
= = =
=
Dicho valor se interpreta como el porcentaje de la variabilidad de la variable dependiente que es explicado por el modelo de regresin que
se est estimando.
El significado de este coeficiente hace que entre ms alto sea su valor, mejor se puede considerar el modelo obtenido para explicar la
variabilidad de y. Sin embargo, debe ponerse mucha atencin sobre el contexto y origen de los datos que se analizan, pues para un
investigador de una determinada rea (sociologa, psicologa por ejemplo) el coeficiente de determinacin cercano al 50 % puede significar
un gran logro dentro de su anlisis. Por tanto, la determinacin del mejor modelo no debe ajustarse solamente a sus propiedades numricas
sino que tambin debe ser valorado en funcin del fenmeno (variable) que pretende ser explicado.
El coeficiente de correlacin muestral
El coeficiente de correlacin muestral r es una medida que permite determinar que tan fuerte es el grado de relacin que presentan dos
variables. Asimismo indica el tipo de relacin existente, directa o inversa.
Dada dos variables x, y, un conjunto de n observaciones, el coeficiente de correlacin muestral r viene dado por
( )( )
( ) ( )
1
2 2
1 1
n
i i
i
n n
i i
i i
x x y y
r
x x y y
=
= =
=
Segn su definicin el coeficiente de correlacin oscila entre 1 y 1. Por tanto, un valor de r cercano a 1 indica la existencia de una
relacin fuerte entre las variables pero en forma inversa, esto es, que conforme una variable aumenta, la otra disminuye. Por otro lado, un
valor de r cercano 1 muestra una relacin fuerte entre las variables. En este caso, la relacin se dice directa, es decir, conforme una variable
aumenta, la otra tambin lo hace.
Un valor de r cercano a cero indica la posibilidad de que no existe relacin entre las variables o que por lo menos la relacin no es lineal.
r cercano a cero, sin aparente relacin r cercano a 1
r cercano a 1
Figura 4. Diagrama de dispersin para distintos valores de r
Anlisis de regresin en el SPSS
Primero cree su archivo de datos e introduzca los valores respectivos de las variables en estudio. Seguidamente del men Analizar, escoja
Regresin y luego seleccione Lineal.
La siguiente ventana muestra el cuadro de dilogo Regresin Lineal. Seguidamente identifique la variable dependiente y la independiente y
trasldelas a los cuadros respectivos.
Aceptando las especificaciones, el visor de resultados ofrece la siguiente informacin.
Tabla 1. Resumen del modelo
Modelo R R cuadrado
R cuadrado
corregida
Error tp. de la
estimacin
1
,859(a) ,739 ,706 ,71458
a Variables predictoras: (Constante), x
La primera informacin que aparece corresponde al resumen del modelo y en ella se muestran el coeficiente de correlacin R y el
coeficiente de determinacin
2
R . El valor R = 0,859 indica que existe una relacin lineal directa y relativamente fuerte entre las variables.
Como bien sabemos, hasta este momento slo podemos hablar de relacin y de grado de relacin y no podemos afirmar causalidad.
El valor
2
0, 739 R = nos indica que el 73,9% de la variabilidad de la variable y es explicada por el modelo de regresin que se est
estimando. Recordemos que
2
1
sumadecuadrados delos residuos
R
sumadecuadradostotal
=
La expresin
2
R corregida es una correccin a la baja de
2
R basada en el nmero de casos y de variables independientes que participan en
el estudio.
( )
2
2
2
1
1
p R
R egida R
n p
corr
=
donde p designa el nmero de variables independientes.
Cuando el nmero de casos es pequeo y el nmero de variables independientes aumenta
2
R corregida es considerado un buen estimador
del valor poblacional. En este ejemplo, como slo participa una variable independiente el valor
2
R y
2
R corregida son relativamente
similares.
Tabla 2. ANOVA (b)
Modelo
Suma de
cuadrados gl
Media
cuadrtica F Sig.
Regresin
11,539 1 11,539 22,598 ,001(a)
Residual
4,085 8 ,511
1
Total
15,624 9
a. Variables predictoras: (Constante), x
b. Variable dependiente: y
La tabla del Anova presenta informacin sobre la existencia o no de relacin significativa entre la variable dependiente y la independiente.
La prueba F permite evaluar la hiptesis nula de que el valor R poblacional es cero (R = 0), equivalente a decir que la pendiente de la recta
de regresin es igual a cero. El nivel de significancia Sig. = 001 indica que no existen evidencias significativas, al nivel del 5%, para
afirmar que R = 0, o de la misma manera que la pendiente de la recta de regresin es 0 y, en consecuencia, puede asumirse que las variables
en estudio estn linealmente relacionadas.
Tabla 3. Coeficientes(a)
Modelo
Coeficientes no
estandarizados
Coeficientes
estandarizados t Sig.
B Error tp. Beta B Error tp.
1 (Constante)
6,669 ,494 13,489 ,000
x
,060 ,013 ,859 4,754 ,001
a Variable dependiente: y
La tabla anterior muestra los coeficientes de la recta de regresin. La columna de coeficientes no estandarizados presenta los coeficientes
de regresin que definen la recta de regresin en puntuaciones directas. En dicha tabla se observa la constante de regresin y el coeficiente
no estandarizado correspondiente a x que representa la pendiente de la recta de regresin (
1
a ). Recordemos que
1
a expresa el cambio
medio que experimenta la variable dependiente (y) por cada unidad de cambio de la variable independiente (x). En este sentido, por cada
unidad que vare x, la variable y vara en aproximadamente 0,060 unidades. Como bien se ilustr anteriormente, la ecuacin de regresin
estimada se expresa como 6, 669 0, 05955 y x = + .
Los coeficientes estandarizados que se muestran en la tabla, son aquellos que definen la ecuacin de regresin una vez estandarizadas las
variables originales. En regresin simple, slo aparece el coeficiente estandarizado correspondiente a x (nica variable independiente en el
modelo) y ste coincide con el coeficiente de correlacin de Pearson.
Por otro lado, los estadsticos t y su nivel crtico sig. permiten evaluar la hiptesis nula de que los coeficientes de regresin de la poblacin
son iguales a cero. Segn la tabla 3, los datos muestrales indican que no existen evidencias significativas, al nivel del 5%, para afirmar que
los coeficientes de regresin de la poblacin son iguales a cero. Vale la pena resaltar que estos coeficientes se obtienen
0
0
0
a
a
a
t
S
= y
1
1
1
a
a
a
t
S
=
donde
( )
0
2
2
1
1
a e n
i
i
x
S S
n
x x
=
+ =
y
( )
1
2
1
e
a
n
i
i
S
S
x x
=
=
Como en el anlisis de regresin simple slo se trabaja con una variable independiente, el cuadrado del valor del estadstico t es equivalente
al valor del estadstico F de la tabla del ANOVA (Tabla 2). No olvidemos que en regresin simple
2
t F = .
Retomando el resultado de los estadsticos t, no existen evidencias significativas para afirmar que la pendiente de regresin poblacional es
igual a cero, por lo que se puede afirmar que las variables estudiadas (x, y) presentan una relacin lineal significativa.
Es importante sealar que la significancia o no que presente la constante de regresin pierde relevancia en la determinacin de la relacin
que puedan presentar las variables del estudio ya que, este coeficiente no proporciona informacin sobre ello; sin embargo, debe ponerse
mucha atencin si su valor es cero pues esto puede provocar que el coeficiente
2
R del modelo sea negativo. (Regresin por el origen).
3. BIBLIOGRAFA (REFERENCIAS)
Devore, Jay (1998). Probabilidad y Estadstica para Ingeniera y Ciencias. Cuarta Edicin. International Thomson Editores. Mxico,
D.F.
Ferrn, M 2001. SPSS para Windows anlisis estadstico. McGraw -Hill Interamericana de Espaa S.A. Madrid.
Gujarati, D 2004. Econometra. McGraw - Hill /Interamericana Editores S.A. Mxico, DF.
Pardo, A y Ruiz, M 2002. SPSS 11 Gua para el anlisis de datos. McGraw - Hill Interamericana de Espaa S.A. Mxico, DF.
Susan, j y Arnold, J 2004. Probabilidad y estadstica con aplicaciones para ingeniera y ciencias computacionales. McGraw - Hill
/Interamericana Editores S.A. Mxico, DF.