Sei sulla pagina 1di 10

Regresin Lineal Simple con SPSS

Jos Andrey Zamora Araya


Universidad Nacional
Heredia
Costa Rica
jzamo@una.ac.cr
Eduardo Aguilar Fernndez
Universidad Nacional
Heredia
Costa Rica
eaguilar2@gmail.com




RESUMEN

Mediante un taller se pretende ejemplificar la tcnica de regresin lineal para el anlisis de datos como una herramienta bsica utilizada en
las ciencias exactas y naturales. Con ayuda de un programa estadstico como el SPSS, se trabajar en problemas donde se requiera para su
resolucin la aplicacin de la tcnica de regresin lineal verificando para ello el cumplimiento de supuestos y la manera de analizar los
datos arrojados por el programa enfatizando en su debida interpretacin.

Palabras claves
Estadstica, Regresin Lineal, Anlisis de datos y SPSS

1. OBJETIVOS DEL TALLLER

Al finalizar el taller se espera que los participantes sean capaces de

Manipular los comandos bsicos del SPPS -15 para la captura y anlisis de datos

Realizar un anlisis de regresin simple utilizando los comandos correspondientes del SPSS

Verificar los supuestos subyacentes en el anlisis de regresin lineal simple.

Interpretar las salidas que el programa SPSS arroja cuando se realiza un anlisis de regresin lineal

Tomar la (as) decisin (es) respecto al problema (s) planteado (s) en el anlisis de regresin lineal

2. METODOLOGA

Se realiza una presentacin terica acerca del anlisis de regresin lineal sus principales usos, caractersticas, ventajas, limitaciones y los
supuestos subyacentes para poder realizar el anlisis.

Posteriormente, se ambienta a los y las participantes del taller en el manejo de los comandos bsicos del SPSS, los principales mens, como
definir variables, tipos de escalas, etc. Seguidamente, se presenta una situacin donde se requiera la utilizacin del anlisis de regresin
lineal y para ello se dispondr de una base de datos para poder realizar los clculos respectivos en el computador.

Con ayuda de los comandos del SPSS, se indicaran los procedimientos a seguir para el chequeo de supuestos, clculos de coeficientes,
pruebas de hiptesis e interpretacin de los resultados.

Anlisis de regresin lineal mediante SPSS

Muchas de las investigaciones se dedican a estudiar variables de manera tal que pueda determinarse la existencia de cierta relacin entre
ellas con el fin de realizar a cabo explicaciones ms precisas sobre la naturaleza de cierto fenmeno.
Por ejemplo, un agrnomo podra estar interesado determinar si la produccin de una cosecha especfica puede estar estrechamente
relacionada con la temperatura, tipo de suelo, el clima y el tipo de abono aplicado.
Por otro lado, investigadores en salud podran estar interesados en determinar si el desarrollo de una enfermedad coronaria del corazn
puede estar asociada, y en que grado, a la edad, nivel de catecolamina, nivel de colesterol, anormalidad en el electrocardiograma, fumado y
estado de hipertensin.

De esta manera pueden elaborarse una serie de ejemplos en los que puede identificarse la dependencia de una variable; la cual es conocida
como variable dependiente, explicada, predicha, regresada, entre otras, con respecto a una o ms variables que se denominan
independientes, explicativas, predictoras, regresadas.

Para el tratamiento de estos ejemplos existe en Estadstica el procedimiento conocido como anlisis de regresin, el cual se encarga de
investigar la relacin de dos o ms variables de manera determinista. De tal manera que si se estudia la dependencia de una variable con
respecto a otra variable, dicho estudio es conocido como anlisis de regresin simple; mientras que si el estudio muestra la relacin de una
variable con respecto a un conjunto de dos o ms variables el anlisis se conoce como anlisis de regresin mltiple

Ejemplo 1

Supongamos la existencia de dos variables x, y de manera que se obtienen 10 observaciones durante un proceso de investigacin. Los
resultados obtenidos se muestran a continuacin.

n 1 2 3 4 5 6 7 8 9 10
x 12 14 19 21 28 35 49 54 56 63
y 6,2 7,3 8,9 8,1 9,2 8,1 9,6 10,0 10,2 10,0

Para realizar el anlisis, construimos inicialmente un diagrama de dispersin para los datos observados, de manera que cada par de
observaciones son presentadas como un punto de la forma (x, y) dentro de un plano coordenado de dos dimensiones. La figura siguiente nos
muestra la distribucin de los valores hipotticos de y correspondientes al conjunto de valores dados o fijos de x.


Figura 1: Grfica de dispersin para los datos del ejemplo 1

Como se puede observar en la grfica, pareciera existir una relacin directa de la variable y con respecto a la variable x en el sentido de que
conforme x aumenta, la variable y tambin aumenta.

El modelo de regresin lineal simple

El anlisis de regresin trata del estudio de la dependencia de una variable respecto a una o ms variables con el objetivo de predecir o
estimar la media poblacional de la primera en trminos de los valores conocidos de las otras.
As, dentro de las relaciones matemticas que se establecen entre dos variables se tiene la lineal, de tal forma que para dos variables x, y se
puede establecer la relacin
0 1
y a a x = + , que grficamente determina una lnea recta de pendiente
1
a y de interseccin
0
a .


Figura 2. Puntos correspondientes a las observaciones del modelo de regresin lineal

x a a y
1 0
+ =
La relacin anterior indica que y es una funcin lineal de x de tal manera que para un valor x fijo el valor real esperado de y es
0 1
a a x + .
Sin embargo, en una relacin como la observada en la tabla anterior la variable y segn x fijo difiere de su valor esperado en una cantidad
aleatoria.

Por lo anterior, es posible indicar que para cualquier valor fijo x, el valor de la variable dependiente y puede obtenerse a travs del modelo
0 1
y a a x = + + donde es una variable aleatoria que se supone normalmente distribuida (es decir ( ) 0 E = y
2
( ) V = ). Dicho
valor se conoce como trmino de error o error aleatorio del modelo e indica la desviacin del valor
i
y observado respecto a su valor
real
i
y esperado segn el modelo.


Figura 3. Error relativo para la observacin i.


Estimacin de parmetros del modelo

Como ya se ha mencionado, la funcin
0 1
y a a x = + expresa que el valor esperado de la distribucin de y dado x est relacionado
funcionalmente con x. La ecuacin anterior se conoce como funcin de regresin poblacional. Sin embargo, en la prctica los valores
0 1
, a a no son conocidos por el investigador, por lo que deben ser estimados a partir de los datos muestrales y definir as la recta de
regresin estimada o la funcin de regresin muestral.

La recta de regresin estimada debe ser aquella que permita obtener un buen ajuste de los puntos observados dentro de la investigacin. En
este sentido, una recta que proporciona un buen ajuste a los datos es aquella en la que la distancia vertical (desviacin) entre el punto de la
recta y el punto observado es la menor posible para cada par de puntos. Este principio se denomina mnimos cuadrados. La suma de los
cuadrados de estas desviaciones se denomina bondad de ajuste. Por tanto, la recta de mejor ajuste es la que proporciona la ms pequea
suma posible de desviaciones al cuadrado.

Si la funcin de regresin poblacional viene dada por
0 1
y a a x = + , sta es posible estimarla a partir de la funcin de regresin muestral
representada por
0 1
y a a x = + . De esta forma, dado el punto ( ) ,
i i
x y y la recta
0 1
y a a x = + la distancia entre dicho punto y la recta
viene dada por ( )
0 1

i i
y a a x + . Segn el principio mnimos cuadrados, la bondad de ajuste viene dado por ( )
2
0 1
1

n
i i
i
y a a x
=
+ (

de
tal manera que los valores de
0 1
, a a minimizan dicha suma.

Por tanto, siendo
0 1
y a a x = + la funcin de regresin estimada, la estimacin de mnimos cuadrados de los coeficientes de dicha recta
es
( )( )
( )
1 1 1 1
1 2
2
2
1
1 1

n n n n
i i i i
i i i i
n
n n
i i
i
i i
i i
n x y x y x x y y
a
x x
n x x i
= = = =
=
= =

| || |
| |
\ \
= =
| |

|
\



1
1 1
0 1


n n
i i
i i
y a x
a y a x
n
= =

= =


x a a y
1 0
+ =
i

Consideremos los datos del ejemplo 1 para estimar los parmetros de la funcin de regresin.

n 1 2 3 4 5 6 7 8 9 10
x 12 14 19 21 28 35 49 54 56 63
y 6,2 7,3 8,9 8,1 9,2 8,1 9,6 10,0 10,2 10,0

Solucin
n x y x
2
y
2
xy
1
12 6,2
144 38,4 74,4
2
14 7,3
196 53,3 102,2
3
19 8,9
361 79,2 169,1
4
21 8,1
441 65,6 170,1
5
28 9,2
784 84,6 257,6
6
35 8,1
1225 65,6 283,5
7
49 9,6
2401 92,2 470,4
8
54 10,0
2916 100,0 540,0
9
56 10,2
3136 104,0 571,2
10
63 10,0
3969 100,0 630,0
Suma 351 87,6 15573 783 3268,5

Aplicando las frmulas dadas se obtienen los siguientes resultados.

1 2
10 3268, 5 351 87, 6 1937, 4
0, 05955
10 15573 351 32529
a

= = =


0
87, 6 0, 05955 351
6, 669
10
a

= =


Las funcin de regresin muestral viene dada por 6, 669 0, 05955 y x = + .

Modelo de regresin lineal: Supuestos del modelo

Como dentro de los objetivos del anlisis de regresin estn realizar inferencias sobre los verdaderos parmetros de la recta de regresin as
como determinar qu tan cerca se encuentra cada
i
y de la verdadera
i
y es necesario conocer la manera en como se generan las
i
x y las
i
, ya que mientras no se especifique estos detalles no existe forma alguna de realizar las inferencias antes planteadas. Por tanto, para
lograr una interpretacin vlida de los valores estimados de la regresin el modelo gaussiano (el Modelo Clsico de Regresin Lineal
desarrollado en 1821) plantea los siguientes supuestos.
1. El modelo de regresin es lineal en los parmetros.
2. Los valores de x son fijos en muestreo repetido
3. El valor medio del error
i
es igual a cero, esto es ( ) / 0
i i
E x = .
4. Homocedasticidad o igual varianza: Dado un valor
i
x , la varianza de
i
es la misma para todas las observaciones.
5. No existe autocorrelacin entre las desviaciones
i
, esto es que dos valores cualesquiera de x,
i
x
,

j
x
,
i j, la correlacin
entre
i
y
j
es cero.
6. La covariancia entre
i
y
i
x es cero.
7. El nmero de observaciones n debe ser mayor que el nmero de parmetros a estimar.
8. Variabilidad en los valores de x. Dada una muestra cualquiera, no todos los valores de x son iguales.
9. El modelo de regresin est correctamente especificado.
10. No existe multicolinealidad perfecta. Es decir, no hay relaciones perfectamente lineales entre las variables explicativas.

Como el objetivo de este trabajo es realizar un estudio de las propiedades del Modelo Clsico de Regresin Lineal, no se tratarn a fondo
cada uno de los supuestos anteriores y por ende la forma de proceder si alguno de los mismos no se cumple. El estudio pretende hacer
referencias a las propiedades numricas del modelo y no profundiza sobre las propiedades estadsticas del mismo. Sin embargo, vale la
pena resaltar que la realizacin de una investigacin debe estar orientada por el anlisis de los supuestos mencionados ya que la validez de
las estimaciones y de todas las conclusiones que se realizan depender de la correcta manipulacin de los datos recolectados.

El coeficiente de determinacin
El coeficiente de determinacin es valor denotado por
2
R y definido por

2
1 1
sumadecuadrados delos residuos SSE
R
sumadecuadradostotal SST
= =
donde
2
1 2
1
n
i
n
i
i
i
y
SST y
n
=
=
=
| |
|
\

y
2
0 1
1 1 1

n n n
i i i i
i i i
SSE y a y a x y
= = =
=



Dicho valor se interpreta como el porcentaje de la variabilidad de la variable dependiente que es explicado por el modelo de regresin que
se est estimando.

El significado de este coeficiente hace que entre ms alto sea su valor, mejor se puede considerar el modelo obtenido para explicar la
variabilidad de y. Sin embargo, debe ponerse mucha atencin sobre el contexto y origen de los datos que se analizan, pues para un
investigador de una determinada rea (sociologa, psicologa por ejemplo) el coeficiente de determinacin cercano al 50 % puede significar
un gran logro dentro de su anlisis. Por tanto, la determinacin del mejor modelo no debe ajustarse solamente a sus propiedades numricas
sino que tambin debe ser valorado en funcin del fenmeno (variable) que pretende ser explicado.

El coeficiente de correlacin muestral

El coeficiente de correlacin muestral r es una medida que permite determinar que tan fuerte es el grado de relacin que presentan dos
variables. Asimismo indica el tipo de relacin existente, directa o inversa.

Dada dos variables x, y, un conjunto de n observaciones, el coeficiente de correlacin muestral r viene dado por
( )( )
( ) ( )
1
2 2
1 1
n
i i
i
n n
i i
i i
x x y y
r
x x y y
=
= =

=




Segn su definicin el coeficiente de correlacin oscila entre 1 y 1. Por tanto, un valor de r cercano a 1 indica la existencia de una
relacin fuerte entre las variables pero en forma inversa, esto es, que conforme una variable aumenta, la otra disminuye. Por otro lado, un
valor de r cercano 1 muestra una relacin fuerte entre las variables. En este caso, la relacin se dice directa, es decir, conforme una variable
aumenta, la otra tambin lo hace.



Un valor de r cercano a cero indica la posibilidad de que no existe relacin entre las variables o que por lo menos la relacin no es lineal.


r cercano a cero, sin aparente relacin r cercano a 1


r cercano a 1
Figura 4. Diagrama de dispersin para distintos valores de r


Anlisis de regresin en el SPSS

Primero cree su archivo de datos e introduzca los valores respectivos de las variables en estudio. Seguidamente del men Analizar, escoja
Regresin y luego seleccione Lineal.


La siguiente ventana muestra el cuadro de dilogo Regresin Lineal. Seguidamente identifique la variable dependiente y la independiente y
trasldelas a los cuadros respectivos.



Aceptando las especificaciones, el visor de resultados ofrece la siguiente informacin.

Tabla 1. Resumen del modelo

Modelo R R cuadrado
R cuadrado
corregida
Error tp. de la
estimacin
1
,859(a) ,739 ,706 ,71458
a Variables predictoras: (Constante), x

La primera informacin que aparece corresponde al resumen del modelo y en ella se muestran el coeficiente de correlacin R y el
coeficiente de determinacin
2
R . El valor R = 0,859 indica que existe una relacin lineal directa y relativamente fuerte entre las variables.
Como bien sabemos, hasta este momento slo podemos hablar de relacin y de grado de relacin y no podemos afirmar causalidad.

El valor
2
0, 739 R = nos indica que el 73,9% de la variabilidad de la variable y es explicada por el modelo de regresin que se est
estimando. Recordemos que
2
1
sumadecuadrados delos residuos
R
sumadecuadradostotal
=
La expresin
2
R corregida es una correccin a la baja de
2
R basada en el nmero de casos y de variables independientes que participan en
el estudio.
( )
2
2
2
1
1
p R
R egida R
n p
corr

=


donde p designa el nmero de variables independientes.

Cuando el nmero de casos es pequeo y el nmero de variables independientes aumenta
2
R corregida es considerado un buen estimador
del valor poblacional. En este ejemplo, como slo participa una variable independiente el valor
2
R y
2
R corregida son relativamente
similares.


Tabla 2. ANOVA (b)

Modelo
Suma de
cuadrados gl
Media
cuadrtica F Sig.
Regresin
11,539 1 11,539 22,598 ,001(a)
Residual
4,085 8 ,511
1
Total
15,624 9
a. Variables predictoras: (Constante), x
b. Variable dependiente: y

La tabla del Anova presenta informacin sobre la existencia o no de relacin significativa entre la variable dependiente y la independiente.
La prueba F permite evaluar la hiptesis nula de que el valor R poblacional es cero (R = 0), equivalente a decir que la pendiente de la recta
de regresin es igual a cero. El nivel de significancia Sig. = 001 indica que no existen evidencias significativas, al nivel del 5%, para
afirmar que R = 0, o de la misma manera que la pendiente de la recta de regresin es 0 y, en consecuencia, puede asumirse que las variables
en estudio estn linealmente relacionadas.


Tabla 3. Coeficientes(a)

Modelo
Coeficientes no
estandarizados
Coeficientes
estandarizados t Sig.
B Error tp. Beta B Error tp.
1 (Constante)
6,669 ,494 13,489 ,000
x
,060 ,013 ,859 4,754 ,001
a Variable dependiente: y


La tabla anterior muestra los coeficientes de la recta de regresin. La columna de coeficientes no estandarizados presenta los coeficientes
de regresin que definen la recta de regresin en puntuaciones directas. En dicha tabla se observa la constante de regresin y el coeficiente
no estandarizado correspondiente a x que representa la pendiente de la recta de regresin (
1
a ). Recordemos que
1
a expresa el cambio
medio que experimenta la variable dependiente (y) por cada unidad de cambio de la variable independiente (x). En este sentido, por cada
unidad que vare x, la variable y vara en aproximadamente 0,060 unidades. Como bien se ilustr anteriormente, la ecuacin de regresin
estimada se expresa como 6, 669 0, 05955 y x = + .
Los coeficientes estandarizados que se muestran en la tabla, son aquellos que definen la ecuacin de regresin una vez estandarizadas las
variables originales. En regresin simple, slo aparece el coeficiente estandarizado correspondiente a x (nica variable independiente en el
modelo) y ste coincide con el coeficiente de correlacin de Pearson.
Por otro lado, los estadsticos t y su nivel crtico sig. permiten evaluar la hiptesis nula de que los coeficientes de regresin de la poblacin
son iguales a cero. Segn la tabla 3, los datos muestrales indican que no existen evidencias significativas, al nivel del 5%, para afirmar que
los coeficientes de regresin de la poblacin son iguales a cero. Vale la pena resaltar que estos coeficientes se obtienen
0
0
0
a
a
a
t
S
= y
1
1
1
a
a
a
t
S
=
donde

( )
0
2
2
1
1
a e n
i
i
x
S S
n
x x
=
+ =

y
( )
1
2
1
e
a
n
i
i
S
S
x x
=
=


Como en el anlisis de regresin simple slo se trabaja con una variable independiente, el cuadrado del valor del estadstico t es equivalente
al valor del estadstico F de la tabla del ANOVA (Tabla 2). No olvidemos que en regresin simple
2
t F = .

Retomando el resultado de los estadsticos t, no existen evidencias significativas para afirmar que la pendiente de regresin poblacional es
igual a cero, por lo que se puede afirmar que las variables estudiadas (x, y) presentan una relacin lineal significativa.
Es importante sealar que la significancia o no que presente la constante de regresin pierde relevancia en la determinacin de la relacin
que puedan presentar las variables del estudio ya que, este coeficiente no proporciona informacin sobre ello; sin embargo, debe ponerse
mucha atencin si su valor es cero pues esto puede provocar que el coeficiente
2
R del modelo sea negativo. (Regresin por el origen).


3. BIBLIOGRAFA (REFERENCIAS)

Devore, Jay (1998). Probabilidad y Estadstica para Ingeniera y Ciencias. Cuarta Edicin. International Thomson Editores. Mxico,
D.F.

Ferrn, M 2001. SPSS para Windows anlisis estadstico. McGraw -Hill Interamericana de Espaa S.A. Madrid.

Gujarati, D 2004. Econometra. McGraw - Hill /Interamericana Editores S.A. Mxico, DF.

Pardo, A y Ruiz, M 2002. SPSS 11 Gua para el anlisis de datos. McGraw - Hill Interamericana de Espaa S.A. Mxico, DF.

Susan, j y Arnold, J 2004. Probabilidad y estadstica con aplicaciones para ingeniera y ciencias computacionales. McGraw - Hill
/Interamericana Editores S.A. Mxico, DF.

Potrebbero piacerti anche