Sei sulla pagina 1di 19

Regresión y Correlación Lineal usando SPSS

Objetivos
• Representar el diagrama de dispersión
• Ajustar una recta de regresión a las observaciones
• Analizar la bondad del ajuste lineal
• Ajustar una curva parabólica a las observaciones
• Analizar la bondad del ajuste parabólico
• Comparar el ajuste lineal y el parabólico.

Introducción
• En esta práctica estudiamos dos tipos de problemas. El primero es el de
encontrar una función que se ajuste lo mejor posible a un conjunto de puntos
observados, gráficamente equivale a encontrar una curva que aunque no pase
por todos los puntos esté lo más próxima posible de dichos puntos. El segundo
es medir el grado de ajuste entre la función teórica (función ajustada) y la nube
de puntos. Distinguimos así, entre Teoría de Regresión y Teoría de
Correlación.
• Teoría de Regresión: Consiste en la búsqueda de una "función" que exprese lo
mejor posible el tipo de relación entre dos o más variables. Esta práctica sólo
estudia la situación de dos variables.
Una de las aplicaciones más interesante que tiene la Regresión es la de
Predecir, es decir, conocido el valor de una de las variables, estimar el valor que
presentará la otra variable relacionada con ella.
• Teoría de Correlación: Estudia el grado de dependencia entre las variables es
decir, su objetivo es medir el grado de ajuste existente entre la función teórica
(función ajustada) y la nube de puntos.
Cuando la relación funcional que liga las variables X e Y es una recta entonces
la regresión y correlación reciben el nombre de Regresión Lineal y Correlación
Lineal. Una medida de la Correlación Lineal la da el Coeficiente de
Correlación Lineal de Pearson.

Regresión y Correlación Lineal


• En primer lugar se plantea el ajuste de una recta entre dos variables. Sea Y la variable
dependiente (variable cuyos valores se desea predecir), y X la variable independiente
(también llamada variable explicativa y que se utiliza para predecir el valor de la variable
dependiente).
Datos
En primer lugar, antes de realizar la regresión vamos a visualizar la nube de puntos.
Para ello se selecciona en el menú principal Graphs/Legacy Dialogs/Scatter/Dot
Se selecciona la opción que se desee representar, que en nuestro caso es Simple
Scatter y se pulsa el botón Define.

En la ventana correspondiente se sitúan las variables X e Y en su lugar


correspondiente. Se pulsa Aceptar (Ok) y se muestra el gráfico de dispersión
El gráfico muestra una posible adecuación del modelo lineal o cuadrático

Para obtener la recta de regresión mínima cuadrática de Y sobre X , y = b0 + b1 x, se


debe elegir el procedimiento Regresión lineal. Para ello se selecciona
Analizar/Regresión/Lineales...

Se desplazan las variables X e Y a su campo correspondiente


Se pulsa el botón Estatistics y luego continúe
Se pulsa el botón Plots y luego se pulsa Continúe

• Las representaciones gráficas son una forma de juzgar visualmente la bondad


de ajuste y de detectar comportamientos extraños de observaciones
individuales, valores atípicos. Una visión global de la gráfica nos puede orientar
sobre el cumplimiento de los supuestos del modelo: Normalidad, Linealidad y
Homocedasticidad (Igualdad de las Varianzas) e Independencia de los Residuos.
Además de representar un Histograma y un Gráfico Probabilístico Normal,
también se pueden confeccionar diversos gráficos que aportan información
sobre el cumplimiento de las hipótesis del modelo. Así se pueden realizar
Diagramas de Dispersión para cualquier combinación de las siguientes
variables: la variable dependiente, los valores pronosticados (ajustados o
predichos), residuos tipificados (estandarizados), los residuos eliminados (sin
considerar el caso), ajustados en función de los valores pronosticados, residuos
standardized, o residuos studentized eliminados (sin considerar el caso).

• Gráfico de Residuos tipificados/Valores pronosticados tipificados o


simplemente Residuos/Valor predicho: Este gráfico se utiliza para comprobar
las hipótesis de Linealidad y de Homocedasticidad y estudiar si el modelo es
adecuado o no. Si en el gráfico observamos alguna tendencia, ésta puede ser
indicio de auto correlación, de heterocedasticidad o falta de linealidad. En
general no se debe observar ninguna tendencia ni comportamiento anómalo.
• Gráfico de Valores Observados/Valores predichos: Este gráfico incluye una
línea de pendiente 1. Si los puntos están sobre la línea indican que todas las
predicciones son perfectas. Como el gráfico anterior, también se utiliza para
comprobar la hipótesis de igualdad de varianzas, así se detecta los casos en
que la varianza no es constante y se determina si es preciso efectuar una
transformación de los datos que garantice la homocedasticidad.

• Se pulsa el botón Save, luego continúe y OK

En la ventana del Editor de datos se han creado dos variables con los nombres ZPR_1
(para los valores pronosticados tipificados) y ZRE_1 (para los residuos tipificados) y
ADJ-1 (Variable y Pronosticada o ajustada).
Esta tabla muestra los resultados del ajuste del modelo de regresión. El valor de R
cuadrado, que corresponde al coeficiente de determinación, mide la bondad del ajuste
de la recta de regresión a la nube de puntos, el rango de valores es de 0 a 1. Valores
pequeños de R cuadrado indican que el modelo no se ajusta bien a los datos. R
cuadrado = 0.958 indica que el 95.8% de la variabilidad de Y es explicada por la
relación lineal con X. El valor R (0.917) representa el valor absoluto del Coeficiente de
Correlación, es decir es un valor entre 0 y 1. Valores próximos a 1 indican una fuerte
relación entre las variables. La penúltima columna nos muestra el Error típico de la
estimación (raíz cuadrada de la varianza residual) con un valor igual a 4.39653

Auto correlación: Independencia de los residuos: Contraste


de Durbin-Watson
• La hipótesis de independencia de los residuos la realizaremos mediante el
contraste de Durbin-Watson. Para ello se selecciona
Analizar/Regresión/Lineal... y en la ventana emergente pulsamos el botón
Estadísticos... En el Cuadro de diálogo resultante elegimos en Residuos
Durbin-Watson y hacemos Clik en Continuar y Aceptar

• SPSS proporciona el valor del estadístico de Durbin-Watson pero no muestra el


p-valor asociado por lo que hay que utilizar las tablas correspondientes. El
estadístico de Durbin-Watson mide el grado de autocorrelación entre el residuo
correspondiente a cada observación y la anterior. Si su valor está próximo a 2,
entonces los residuos están incorrelados, si se aproxima a 4, estarán
negativamente autocorrelados y si su valor está cercano a 0 estarán
positivamente autocorrelados. En nuestro caso, toma el valor 2.729, próximo a 2
≠lo que indica la incorrelación de los residuos.

En la Tabla ANOVA, se muestra la descomposición de la Variabilidad Total (SCT =


2557,769) en la Variabilidad debida a la Regresión (SCR_{reg = 2345.145) y la
Variabilidad Residual (SCR = 212.624) es decir en Variabilidad explicada por el modelo
de regresión y la Variabilidad no explicada. SCT = SCR_{eg} + SCR. La Tabla de
Ánalisis de la Varianza (Tabla ANOVA) se construye a partir de esta descomposición y
proporciona el valor del estadístico F que permite contrastar la hipótesis nula de que la
pendiente de la recta de regresión es igual a cero contra la alternativa de que la
pendiente es distinta de cero, es decir:

Ho:β1 = 0
H1:β1 ≠ 0
Donde H0 se conoce, en general, como hipótesis de no linealidad entre X e Y

• La Tabla ANOVA muestra el valor del estadístico de contraste, F = 121.325, que


se define como el cociente entre el Cuadrado medio debido a la regresión
(CMR_{eg} y el Cuadrado medio residual, por tanto cuanto mayor sea su valor,
mejor será la predicción mediante el modelo lineal. El p-valor asociado a F, en la
columna Sig, es menor 0.00, menor que el nivel de significación α = 0.05, lo que
conduce a rechazar la hipótesis nula, es decir existe una relación lineal
significativa entre Y y X. Esto indica que es válido el modelo de regresión
considerado, en este caso el modelo lineal simple. Sin embargo, esto no
significa que este modelo sea el único válido, puesto que pueden existir otros
modelos también válidos para predecir la variable dependiente.

• La siguiente tabla muestra las estimaciones de los parámetros del modelo de


regresión lineal simple, la ordenada en el origen, ß0=8.285 y la pendiente ß1=
2.778

Por tanto, la ecuación de la recta estimada o ajustada es: y =8.285 + 2.778 x. Así
mismo, en esta tabla se presentan los resultados de los dos contrastes individuales de
la significación de cada uno de estos parámetros.

Ho:βo = 0 Ho:β1 = 0
H1:βo ≠ 0 H1:β1 ≠ 0
• El primero de estos contrastes representa el corte de la recta de regresión con
el eje de ordenadas (ordenada en el origen) será el punto (0,0). En nuestro caso,
la interpretación de ß0 indica el valor de Y que correspondería a un valor de X
igual a 0.
• El segundo contraste, el contraste de la pendiente de la recta. El estadístico de
contraste que aparece en la columna t vale 2.345 tiene un p-valor asociado,
columna Sig, igual 0.00, menor que el nivel de significación alpha /2= 0.025 que
conduce al rechazo de la hipótesis nula y podemos afirmar que existe una
relación lineal significativa entre Y y X. En la última columna de la tabla se
muestran los intervalos de confianza para ß0 y ß1, al 95%. El intervalo para ß1
es (2.223, 3.333), puesto que el cero no pertenece al intervalo, hay evidencia
empírica para concluir que X influye en Y y por tanto al nivel de confianza del
95% el parámetro ß1 no podría considerarse igual a cero.

Validación y diagnosis del modelo


• En este apartado vamos a comprobar que se verifican los supuestos del modelo
de regresión lineal (normalidad, homocedasticidad (igualdad de varianzas),
linealidad y autocorrelación) estos supuestos resultan necesarios para validar la
inferencia respecto a los parámetros. Utilizaremos el análisis de los residuos
para realizar los contrastes a posteriori de dichas hipótesis del modelo. Los
residuos se definen como la diferencia entre el valor observado y el valor
predicho por el modelo.

• Normalidad
• El análisis de normalidad de los residuos lo realizaremos gráficamente
(Histograma y gráfico de probabilidad normal) y analíticamente (Contraste de
Kolmogorov-Smirnov)

• Histograma
Representaremos los residuos mediante un histograma superponiendo sobre él
una curva normal de media cero. Si los residuos siguen una distribución normal
las barras del histograma deberán representar un aspecto similar al de dicha
curva.

A continuación representamos el histograma, para ello elegimos Graphs/Legacy


Dialogs/Histogram... y en la ventana emergente seleccionamos la variable que
representa los residuos tipificados y marcamos
Se pulsa OK y se muestra el siguiente histograma con la curva normal superpuesta.
Podemos apreciar, en este gráfico, que los datos no se aproximan razonablemente a
una curva normal, puede ser consecuencia de que el tamaño muestral considerado es
muy pequeño (Esta representación no es aconsejable en tamaños muéstrales
pequeños).
Gráfico probabilístico normal
Es el procedimiento gráfico más utilizado para comprobar la normalidad de un conjunto
de datos. Para obtener dicho gráfico seleccionamos Analize/Descriptive Statistics /Q-
Q Plots... en el Cuadro de diálogo resultante se selecciona la variable que representa
los residuos tipificados.
Se muestra el Gráfico siguiente que representa las funciones de distribución teórica y
empírica de los residuos tipificados. En el eje de ordenadas se representa la función
teórica bajo el supuesto de normalidad y en el eje de abscisas, la función empírica.
Desviaciones de los puntos del gráfico respecto de la diagonal indican alteraciones de
la normalidad. Observamos la ubicación de los puntos del gráfico, estos puntos se
aproximan razonablemente bien a la diagonal lo que confirma la hipótesis de
normalidad.

Contraste de normalidad: Prueba de Kolomogorov-Smirnov


El estudio analítico de la normalidad de los residuos lo realizaremos mediante el
contraste no-paramétrico de Kolmogorov-Smirnov. Seleccionamos
Analize/Noparametrics Tests/ 1 Sample K-S...

Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que
los residuos surgieran de una distribución normal y los valores observados. Se
distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la
mayor diferencia negativa. Se muestra el valor del estadístico Z (0.648) y el valor del p-
valor asociado (0.796). Por lo tanto no se puede rechazar la hipótesis de normalidad de
los residuos. Comprobamos el nivel de significación, si es menor que 0.05 la
distribución no es normal, si es mayor que 0.05 la distribución es normal.
Homocedasticidad

• Comprobamos la hipótesis de homogeneidad de las varianzas gráficamente


representando los residuos tipificados frente a los tiempos de incubación
estimados tipificados. El análisis de este gráfico puede revelar una posible
violación de la hipótesis de homocedasticidad, por ejemplo si detectamos que el
tamaño de los residuos aumenta o disminuye de forma sistemática para algunos
valores ajustados de la variable Y, si observamos que el gráfico muestra forma
de embudo... Si por el contario dicho gráfico no muestra patrón alguno, entonces
no podemos rechazar la hipótesis de igualdad de varianzas.

Se selecciona Analize/Regresión/Lineal... se pulsa el botón Plots... y en el Cuadro de


diálogo correspondiente se selecciona la variable *ZRESID para el eje Y (dicha variable
representa los residuos tipificados) y la variable *ZPRED (variable que representa los
valores predichos tipificados) para el eje X
Se pulsa Continuar y Aceptar y se muestra el siguiente gráfico
Si trazamos una línea horizontal a la altura de 0, la variación de los residuos sobre esta
línea, si las varianzas son iguales, debería ser semejante para los diferentes valores de
Y. En el gráfico podemos observar, razonablemente, dicho comportamiento si
exceptuamos algún residuo atípico que está cerca de 2. No apreciamos tendencia clara
en este gráfico, los residuos no presentan estructura definida respecto de los valores
predichos por el modelo por lo que no debemos rechazar la hipótesis de
homocedasticidad.
Regresión Cuadrática y Correlación
Para ajustar un modelo cuadrático o parabólico, y = b0 + b1 x + b2 x^2, se selecciona
Analize/Regression/Curve Estimation...
El modelo ajustado tiene la siguiente expresión y = -4.063+ 4.719 x – 0.067 x^2.
La representación gráfica de la función ajustada junto con el diagrama de dispersión es:

Se aprecia que la función curvilínea se ajusta moderadamente al diagrama de


dispersión.

IBM SPSS Regression 19 Copyright SPSS Inc. 1989, 2010.


Martínez Miranda Dolores El Análisis de la Regresión a través de SPSS Dpto. Estadística e I.O.
Universidad de Granada

Potrebbero piacerti anche