Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Objetivos
• Representar el diagrama de dispersión
• Ajustar una recta de regresión a las observaciones
• Analizar la bondad del ajuste lineal
• Ajustar una curva parabólica a las observaciones
• Analizar la bondad del ajuste parabólico
• Comparar el ajuste lineal y el parabólico.
Introducción
• En esta práctica estudiamos dos tipos de problemas. El primero es el de
encontrar una función que se ajuste lo mejor posible a un conjunto de puntos
observados, gráficamente equivale a encontrar una curva que aunque no pase
por todos los puntos esté lo más próxima posible de dichos puntos. El segundo
es medir el grado de ajuste entre la función teórica (función ajustada) y la nube
de puntos. Distinguimos así, entre Teoría de Regresión y Teoría de
Correlación.
• Teoría de Regresión: Consiste en la búsqueda de una "función" que exprese lo
mejor posible el tipo de relación entre dos o más variables. Esta práctica sólo
estudia la situación de dos variables.
Una de las aplicaciones más interesante que tiene la Regresión es la de
Predecir, es decir, conocido el valor de una de las variables, estimar el valor que
presentará la otra variable relacionada con ella.
• Teoría de Correlación: Estudia el grado de dependencia entre las variables es
decir, su objetivo es medir el grado de ajuste existente entre la función teórica
(función ajustada) y la nube de puntos.
Cuando la relación funcional que liga las variables X e Y es una recta entonces
la regresión y correlación reciben el nombre de Regresión Lineal y Correlación
Lineal. Una medida de la Correlación Lineal la da el Coeficiente de
Correlación Lineal de Pearson.
En la ventana del Editor de datos se han creado dos variables con los nombres ZPR_1
(para los valores pronosticados tipificados) y ZRE_1 (para los residuos tipificados) y
ADJ-1 (Variable y Pronosticada o ajustada).
Esta tabla muestra los resultados del ajuste del modelo de regresión. El valor de R
cuadrado, que corresponde al coeficiente de determinación, mide la bondad del ajuste
de la recta de regresión a la nube de puntos, el rango de valores es de 0 a 1. Valores
pequeños de R cuadrado indican que el modelo no se ajusta bien a los datos. R
cuadrado = 0.958 indica que el 95.8% de la variabilidad de Y es explicada por la
relación lineal con X. El valor R (0.917) representa el valor absoluto del Coeficiente de
Correlación, es decir es un valor entre 0 y 1. Valores próximos a 1 indican una fuerte
relación entre las variables. La penúltima columna nos muestra el Error típico de la
estimación (raíz cuadrada de la varianza residual) con un valor igual a 4.39653
Ho:β1 = 0
H1:β1 ≠ 0
Donde H0 se conoce, en general, como hipótesis de no linealidad entre X e Y
Por tanto, la ecuación de la recta estimada o ajustada es: y =8.285 + 2.778 x. Así
mismo, en esta tabla se presentan los resultados de los dos contrastes individuales de
la significación de cada uno de estos parámetros.
Ho:βo = 0 Ho:β1 = 0
H1:βo ≠ 0 H1:β1 ≠ 0
• El primero de estos contrastes representa el corte de la recta de regresión con
el eje de ordenadas (ordenada en el origen) será el punto (0,0). En nuestro caso,
la interpretación de ß0 indica el valor de Y que correspondería a un valor de X
igual a 0.
• El segundo contraste, el contraste de la pendiente de la recta. El estadístico de
contraste que aparece en la columna t vale 2.345 tiene un p-valor asociado,
columna Sig, igual 0.00, menor que el nivel de significación alpha /2= 0.025 que
conduce al rechazo de la hipótesis nula y podemos afirmar que existe una
relación lineal significativa entre Y y X. En la última columna de la tabla se
muestran los intervalos de confianza para ß0 y ß1, al 95%. El intervalo para ß1
es (2.223, 3.333), puesto que el cero no pertenece al intervalo, hay evidencia
empírica para concluir que X influye en Y y por tanto al nivel de confianza del
95% el parámetro ß1 no podría considerarse igual a cero.
• Normalidad
• El análisis de normalidad de los residuos lo realizaremos gráficamente
(Histograma y gráfico de probabilidad normal) y analíticamente (Contraste de
Kolmogorov-Smirnov)
• Histograma
Representaremos los residuos mediante un histograma superponiendo sobre él
una curva normal de media cero. Si los residuos siguen una distribución normal
las barras del histograma deberán representar un aspecto similar al de dicha
curva.
Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de que
los residuos surgieran de una distribución normal y los valores observados. Se
distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y la
mayor diferencia negativa. Se muestra el valor del estadístico Z (0.648) y el valor del p-
valor asociado (0.796). Por lo tanto no se puede rechazar la hipótesis de normalidad de
los residuos. Comprobamos el nivel de significación, si es menor que 0.05 la
distribución no es normal, si es mayor que 0.05 la distribución es normal.
Homocedasticidad