Estadistica II

Estadística II- Análisis de Regresión Prof.
Julia Marcano 2018
REGRESIÓN LINEAL SIMPLE

1. INTRODUCCIÓN
Si sabemos que existe una relación entre una variable denominada dependiente y otras denominadas
independientes (como por ejemplo las existentes entre: la experiencia profesional de los trabajadores y sus
respectivos sueldos, las estaturas y pesos de personas, la producción agraria y la cantidad de fertilizantes
utilizados, etc.), puede darse el problema de que la dependiente asuma múltiples valores para una combinación
de valores de las independientes.
La dependencia a la que hacemos referencia es relacional matemática y no necesariamente de causalidad. Así,

para un mismo número de unidades producidas, pueden existir niveles de costo, que varían empresa a empresa.
Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresión en los cuales se obtiene una nueva
relación, pero de un tipo especial denominado función, en la cual la variable independiente se asocia con un
indicador de tendencia central de la variable dependiente. Cabe recordar que, en términos generales, una función
es un tipo de relación en la cual para cada valor de la variable independiente le corresponde uno y sólo un valor
de la variable dependiente.
2. REGRESIÓN SIMPLE Y CORRELACIÓN
La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para solucionar problemas
comunes en los negocios.
REGRESIÓN. -
Se define como un procedimiento mediante el cual se trata de determinar si existe o no relación de dependencia
entre dos o más variables. Es decir, conociendo los valores de una variable independiente, se trata de estimar los
valores, de una o más variables dependientes.
La regresión en forma gráfica, trata de lograr que una dispersión de las frecuencias sea ajustada a una línea recta
o curva.
Clases de Regresión
La regresión puede ser Lineal y Curvilínea o no lineal, ambos tipos de regresión pueden ser a su vez:
Regresión Simple: Este tipo se presenta cuando una variable independiente ejerce influencia sobre otra variable
dependiente. Ejemplo: Y = f(x)
Esta regresión se utiliza con mayor frecuencia en las ciencias económicas, y sus disciplinas tecnológicas. Cualquier
función no lineal, es linealizada para su estudio y efectos prácticos en las ciencias económicas, modelos no lineales
y lineales multiecuacionales.
Objetivo: Se utiliza la regresión lineal simple para:
1.- Determinar la relación de dependencia que tiene una variable respecto a otra.
2.- Ajustar la distribución de frecuencias de una línea, es decir, determinar la forma de la línea de regresión.
1
Estadística II- Análisis de Regresión Prof. Julia Marcano 2018
3.- Predecir un dato desconocido de una variable partiendo de los datos conocidos de otra variable.
Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre
dos o más variables, donde una variable depende de la otra variable.
Se puede decir que, Y depende de X, en donde Y y X son dos variables cualesquiera en un modelo de Regresión
Simple.
Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable
independiente.
En el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente, razón
por la cual se le denomina también Regresión Divariada porque sólo hay dos variables, una dependiente y otra
independiente.
La variable dependiente es la variable que se desea explicar, predecir. También se le llama regresando ó variable
de respuesta.
La variable Independiente X se le denomina variable explicativa ó regresor y se le utiliza para explicar Y.
En el estudio de la relación funcional entre dos variables poblacionales, una variable x, llamada independiente,
explicativa o de predicción y una variable Y, llamada dependiente o variable respuesta. Supóngase que la
verdadera relación entre Y e X es una línea recta, y que la observación Y en cada nivel x es una variable aleatoria.
, el valor esperado de Y para cada valor de x es
𝐸(𝑌⁄𝑥 ) = 𝛽0 + 𝛽1 𝑥
Donde β0 y β1 son los coeficientes desconocidos de la regresión. Se supone que cada observación, y, puede
describirse por el modelo:
Y = 0 + 1x + 
Donde:
0 es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.

1 es el coeficiente de regresión poblacional (pendiente de la línea recta).
 es un error aleatorio con media cero y varianza σ2. También se supone que los errores
aleatorios que corresponden a observaciones diferentes son variables aleatorias no
correlacionadas
2
SUPOSICIONES DE LA REGRESIÓN LINEAL
1. Los valores de la variable independiente X son fijos, medidos sin error.

2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y)
4. Las variancias de las subpoblaciones Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y están sobre la recta.
6. Los valores de Y están normalmente distribuidos y son estadísticamente independientes.
ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN MUESTRAL
Consiste en determinar los valores de “0” y “1” a partir de la muestra, es decir, encontrar los valores de 0 y 1
con los datos observados de la muestra. El método de estimación es el de Mínimos Cuadrados. Las n
observaciones de la muestra es
𝑌𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜖𝑖 i = 1,2,…,n
Y la suma de cuadrados de las desviaciones de las observaciones con respecto a las rectas de regresión es
𝑛 𝑛
𝐿= ∑ 𝑒𝑖2 = ∑(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖 )2
𝑖 𝑖
Los estimadores de mínimos cuadrados de 0 y 1 se obtienen de la siguiente manera:

𝑛
𝜕𝐿
= −2 ∑(𝑦𝑖 − 𝛽̂0 − 𝛽̂1 𝑥𝑖 ) = 0
𝜕𝛽0
𝑖
𝑛
𝜕𝐿
= −2 ∑(𝑦𝑖 − 𝛽̂0 − 𝛽̂1 𝑥𝑖 )𝑥𝑖 = 0
𝜕𝛽1
𝑖
Simplificando la primera ecuación se obtiene la primera ecuación normal:

𝑛
−2 ∑(𝑦𝑖 − 𝛽̂0 − 𝛽̂1 𝑥𝑖 ) = 0

𝑖
𝑛 𝑛 𝑛
− ∑(𝑦𝑖 ) + ∑ 𝛽̂0 + ∑ 𝛽̂1 𝑥𝑖 = 0

𝑖 𝑖 𝑖
𝑛 𝑛
− ∑(𝑦𝑖 ) + 𝑛𝛽̂0 + 𝛽̂1 ∑ 𝑥𝑖 = 0

𝑖 𝑖
3
𝑛 𝑛
∑(𝑦𝑖 ) = 𝑛𝛽̂0 + 𝛽̂1 ∑ 𝑥𝑖

𝑖 𝑖
Despejando 𝛽̂0
𝑛 𝑛
∑(𝑦𝑖 ) = 𝑛𝛽̂0 + 𝛽̂1 ∑ 𝑥𝑖

𝑖 𝑖
∑𝑛𝑖 𝑦𝑖 ∑𝑛𝑖 𝑥𝑖
𝛽̂0 = − 𝛽̂1
𝑛 𝑛
𝛽̂0 = 𝑦̅ − 𝛽̂1 𝑥̅
Simplificando la segunda ecuación se obtiene la segunda ecuación normal:
𝑛
−2 ∑(𝑦𝑖 − 𝛽̂0 − 𝛽̂1 𝑥𝑖 )𝑥𝑖 = 0

𝑖
𝑛 𝑛 𝑛
− ∑(𝑦𝑖 𝑥𝑖 ) + ∑ 𝛽̂0 𝑥𝑖 + ∑ 𝛽̂1 𝑥𝑖2 = 0

𝑖 𝑖 𝑖
𝑛 𝑛 𝑛
− ∑(𝑦𝑖 𝑥𝑖 ) + 𝛽̂0 ∑ 𝑥𝑖 + 𝛽̂1 ∑ 𝑥𝑖2 = 0

𝑖 𝑖 𝑖
𝑛 𝑛 𝑛
∑(𝑦𝑖 𝑥𝑖 ) = 𝛽̂0 ∑ 𝑥𝑖 + 𝛽̂1 ∑ 𝑥𝑖2

𝑖 𝑖 𝑖
Sustituyendo 0 y despejando 1 se tiene:

𝑛 𝑛 𝑛
∑(𝑦𝑖 𝑥𝑖 ) = (𝑦̅ − 𝛽̂1 𝑥̅ ) ∑ 𝑥𝑖 + 𝛽̂1 ∑ 𝑥𝑖2

𝑖 𝑖 𝑖
𝑛 𝑛 𝑛 𝑛
∑(𝑦𝑖 𝑥𝑖 ) = 𝑦̅ ∑ 𝑥𝑖 − 𝛽̂1 𝑥̅ ∑ 𝑥𝑖 + 𝛽̂1 ∑ 𝑥𝑖2

𝑖 𝑖 𝑖 𝑖
𝑛 𝑛 𝑛 𝑛
∑(𝑦𝑖 𝑥𝑖 ) = 𝛽̂1 (∑ 𝑥𝑖2 − 𝑥̅ ∑ 𝑥𝑖 ) + 𝑦̅ ∑ 𝑥𝑖

𝑖 𝑖 𝑖 𝑖
𝑛 𝑛 𝑛 𝑛
𝛽̂1 (∑ 𝑥𝑖2 − 𝑥̅ ∑ 𝑥𝑖 ) = ∑ 𝑥𝑖 𝑦𝑖 − 𝑦̅ ∑ 𝑥𝑖
𝑖 𝑖 𝑖 𝑖
4
∑𝑛𝑖 𝑥𝑖 𝑦𝑖 − 𝑦̅ ∑𝑛𝑖 𝑥𝑖
𝛽̂1 = =
∑𝑛𝑖 𝑥𝑖2 − 𝑥̅ ∑𝑛𝑖 𝑥𝑖
∑𝑛𝑖 𝑥𝑖 𝑦𝑖 −
𝛽̂1 = 𝑛
𝑛 2 ∑𝑖 𝑥𝑖 ∑𝑛𝑖 𝑥𝑖
𝑛
∑𝑖 𝑥𝑖 −
𝑛
Luego, la ecuación de regresión muestral estimada es
𝑌̂ = 𝛽̂0 + 𝛽̂1 𝑋
Que se interpreta como:
0 es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.

1 es el coeficiente de regresión poblacional (pendiente de la línea recta). Está expresado
en las mismas unidades de Y por cada unidad de X. Indica el número de unidades en
que varía Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta
de regresión).
Un valor negativo de b sería interpretado como la magnitud del decremento en Y por
cada unidad de aumento en X.
Medida de Bondad del Ajuste
Una medida del ajuste absoluto de la recta de regresión muestral a los puntos muéstrales se llama error estándar
de la estimación y otra medida es un índice de bondad del ajuste relativo de una recta de regresión muestral, que
recibe el nombre de coeficiente de determinación.
La diferencia entre yi y la media de estos valores (𝑦̅) se llama desviación total de y (𝑦𝑖 − 𝑦̅). Representa la
discrepancia o desvío de la i-ésima observación respecto a la media de todos los valores y. Está formada por las
desviaciones imprevisibles o aleatorias llamadas desviación no explicada (𝑦𝑖 − 𝑦̂𝑖 ) y por las desviaciones
explicadas por la recta de regresión (𝑦̂𝑖 − 𝑦̅). La desviación no explicada se denomina residuo (𝑒𝑖 = (𝑦𝑖 − 𝑦̂𝑖 )) y
describe el error en el ajuste del modelo en el i-ésimo punto de los datos.
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 = 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 + 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
(𝑦𝑖 − 𝑦̅) = (𝑦𝑖 − 𝑦̂𝑖 ) + (𝑦̂𝑖 − 𝑦̅)
Si se tiene n observaciones la variación total o suma de cuadrados total (SCT) se expresa en función de la variación
no explicada o la suma de cuadrados del error (SCE) y la variación explicada o la suma de cuadrados de la regresión
(SCR) de la siguiente manera:
𝑆𝐶𝑇 = 𝑆𝐶𝐸 + 𝑆𝐶𝑅
5
𝑛 𝑛 𝑛
∑(𝑦𝑖 − 𝑦̅)2 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 + ∑(𝑦̂𝑖 − 𝑦̅)2

𝑖 𝑖 𝑖
La ventaja de descomponer la variación total en estas dos componentes consiste en que se puede hablar de la
bondad del ajuste en términos de la magnitud de SCE. Si la recta se ajusta perfectamente a los datos, se tendrá
que SCE = 0. Por lo general, el ajuste de la recta no es perfecto, y en ese caso SCE ≠ 0.
El error estándar de la estimación se denota por Se y se define de la siguiente manera:
𝑛
1 𝑆𝐶𝐸
𝜎̂ = 𝑆𝑒 = √ ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = √
𝑛−2 𝑛−2
𝑖
La segunda medida (el coeficiente de determinación) se basa en la magnitud relativa de SCR respecto a SCT.
La proporción de la variación total explicada por la recta de regresión es la medida relativa de la bondad del ajuste
llamado coeficiente de determinación:
𝑆𝐶𝑅 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎

𝑟2 = =
𝑆𝐶𝑇 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙
Si la recta de regresión se ajusta perfectamente a todos los puntos muéstrales, todos los residuos serán iguales a
cero, y también lo será SCE.
El ajuste perfecto de una recta siempre da como resultado r2 = 1. A medida que el ajuste se hace menos preciso,
va disminuyendo la variación de y que está explicada por la relación con x. Un valor r2 = 0 significa que ninguna
parte de la variación de y esta explicada por x. r2 = 0.70 indica que el 70% de la variación total está explicada por
la regresión.
Correlación Lineal Simple
El concepto de relación o correlación se refiere al grado de parecido o variación conjunta existente entre dos o
más variables.
El coeficiente de correlación de Pearson de dos variables correlacionadas:
𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑥 𝑒 𝑦
𝑟𝑥𝑦 =
(𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟 𝑑𝑒 𝑥)(𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟 𝑑𝑒 𝑦)
𝑆𝑥𝑦
𝑟𝑥𝑦 =
𝑆𝑥 𝑆𝑦
Sx y Sy son las desviaciones típicas de cada variable.
6
La covarianza de x e y es:
𝑛
1
𝑆𝑥𝑦 = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑛−1
𝑖
La varianza de x es:
𝑛
1
𝑆𝑥2 = ∑(𝑥𝑖 − 𝑥̅ )2
𝑛−1
𝑖
La varianza de y es:
𝑛
1
𝑆𝑦2 = ∑(𝑦𝑖 − 𝑦̅)2
𝑛−1
𝑖
El coeficiente de correlación muestral se puede expresar:
1
𝑆𝑥𝑦 ∑𝑛𝑖(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑟𝑥𝑦 = = 𝑛 − 1
𝑆𝑥 𝑆𝑦 ( 1 ∑𝑛(𝑥 − 𝑥̅ )2 ) ( 1 ∑𝑛(𝑦 − 𝑦̅)2 )
𝑛−1 𝑖 𝑖 𝑛−1 𝑖 𝑖
𝟏
∑𝒏𝒊 𝒙𝒊 𝒚𝒊 − (∑𝒏𝒊 𝒙𝒊 )(∑𝒏𝒊 𝒚𝒊 )
𝒓𝒙𝒚 = 𝒏
√∑𝒏𝒊 𝒙𝟐𝒊 − 𝟏 (∑𝒏𝒊 𝒙𝒊 )𝟐 √∑𝒏𝒊 𝒚𝟐𝒊 − 𝟏 (∑𝒏𝒊 𝒚𝒊 )𝟐
𝒏 𝒏
Interpretación del coeficiente de correlación (rxy):

Este coeficiente mide el grado de asociación lineal entre x e y. Los valores cercanos a 0 indican una relación débil.
𝑟𝑥𝑦 = +1 Indica una relación lineal negativa perfecta. Todos los pares de valores de x e y
estarán sobre una recta de pendiente negativa
𝑟𝑥𝑦 = −1 Indica una relación lineal positiva perfecta. Todos los pares de valores de x e y
estarán sobre una recta de pendiente positiva.
𝑟𝑥𝑦 = 0 Indica que x e y no están relacionadas linealmente, o sea son variables
aleatorias independientes.
Intervalo de confianza para pendiente 𝜷𝟏 y la ordenada al origen 𝜷𝟎
Bajo la hipótesis de que las observaciones están distribuidas de manera normal e independiente, el intervalo de
confianza para 𝛽1 de 100(1- α) por ciento en una regresión lineal simples es
𝜎̂ 2 𝜎̂ 2
𝛽̂1 − 𝑡(𝛼⁄ √ ̂
< 𝛽1 < 𝛽1 + 𝑡(𝛼⁄ √
2,𝑛−2) 𝑆𝑥𝑥 2,𝑛−2) 𝑆𝑥𝑥
𝜎̂ 𝜎̂
𝛽̂1 − 𝑡(𝛼⁄ < 𝛽1 < 𝛽̂1 + 𝑡(𝛼⁄
2,𝑛−2) √𝑆𝑥𝑥 2,𝑛−2) √𝑆𝑥𝑥
El intervalo de confianza para 𝛽0 de 100(1- α) por ciento en una regresión lineal simples es
7
1 𝑥̅ 2 1 𝑥̅ 2
𝛽̂0 − 𝑡(𝛼⁄ √𝜎̂ 2 [ + ] < 𝛽0 < 𝛽̂0 + 𝑡(𝛼⁄ √𝜎̂ 2 [ + ]
2,𝑛−2) 𝑛 𝑆𝑥𝑦 2,𝑛−2) 𝑛 𝑆𝑥𝑦
donde
tα/2 es un valor de la distribución t con n – 2 grados de libertad.
Prueba de Hipótesis en la Regresión lineal simple
Para evaluar la adecuación de un modelo de regresión lineal es la prueba de hipótesis sobre los parámetros del
modelo y la construcción de ciertos intervalos de confianza. Para probar hipótesis sobre la pendiente y la ordenada
al origen del modelo de regresión, debe hacerse la hipótesis adicional de que el componente de error en el
modelo, 𝜖, tiene una distribución normal. Es así como las hipótesis completas son que los errores están
distribuidos de manera normal e independiente con media cero y varianza σ2.
1. Usos de prueba t
Supóngase que se desea probar la hipótesis de que la pendiente es igual a una constante, por ejemplo 𝛽1,0. Las
hipótesis apropiadas son
𝐻0 : 𝛽1 = 𝛽1,0
𝐻1 : 𝛽1 ≠ 𝛽1,0
El estadístico de prueba es:
𝛽̂1 − 𝛽1,0 𝛽̂1 − 𝛽1,0
𝑡= =
𝜎̂ 2 𝑠𝑒(𝛽̂1 )
√
𝑆𝑥𝑥
Donde 𝑠𝑒(𝛽̂1 ) es el error estándar de la pendiente
H0 puede rechazarse si |𝑡| > 𝑡(𝛼⁄
2,𝑛−2)
Supóngase que se desea probar la hipótesis de que la ordenada es igual a una constante, por ejemplo 𝛽0,0. Las
hipótesis apropiadas son
𝐻0 : 𝛽0 = 𝛽0,0
𝐻1 : 𝛽0 ≠ 𝛽0,0
𝛽̂0 − 𝛽0,0 𝛽̂1 − 𝛽1,0
𝑡= =
𝑠𝑒(𝛽̂0 )
1 𝑥̅ 2
√𝜎̂ 2 [𝑛 + 𝑆 ]
𝑥𝑦
Donde 𝑠𝑒(𝛽̂0 ) es el error estándar de la ordenada al origen

2,𝑛−2)
8
Un caso especial muy importante de las hipótesis es:

𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
Estas hipótesis están relacionadas con la significación de la regresión. La falla al rechazar 𝐻0 : 𝛽1 = 0 es
equivalente a concluir que no hay ninguna relación lineal entre x e y.
𝛽̂1 − 0 𝛽̂1 − 0
𝑡= =
𝜎̂ 2 𝑠𝑒(𝛽̂1 )
√
𝑆𝑥𝑥
Donde 𝑠𝑒(𝛽̂1 ) es el error estándar de la pendiente
2,𝑛−2)
2. Análisis de Varianza para la prueba de significancia de la regresión
Para probar la significancia de una regresión simple se utiliza el análisis de varianza. El procedimiento particiona
la variabilidad total en la variable de respuesta en componentes más manejable. La identidad del análisis de
varianza es la siguiente:
𝑛 𝑛 𝑛
∑(𝑦𝑖 − 𝑦̅)2 = ∑(𝑦̂𝑖 − 𝑦̅)2 + ∑(𝑦𝑖 − 𝑦̂𝑖 )2

𝑖 𝑖 𝑖
SSR =∑𝑛𝑖(𝑦̂𝑖 − 𝑦̅)2 : Suma de los cuadrados de la regresión
SSE =∑𝑛𝑖(𝑦𝑖 − 𝑦̂𝑖 )2 : Suma de los cuadrados de los errores
SSyy =∑𝑛𝑖(𝑦𝑖 − 𝑦̅)2 : Suma total de cuadrados corregidos de y
𝑆𝑆𝑦𝑦 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸
𝑆𝑆𝐸 = 𝑆𝑦𝑦 − 𝛽̂1 𝑆𝑥𝑦
𝑆𝑆𝑅 = 𝛽̂1 𝑆𝑥𝑦

La suma cuadrados de 𝑆𝑦𝑦 tiene n-1 grados de libertad, 𝑆𝑆𝑅 tiene 1 grado de libertad y 𝑆𝑆𝐸 tiene n-2 grados de
libertad.
𝑆𝑆𝐸 𝑆𝑆 𝑆𝑆
El 𝐸 [ ⁄(𝑛 − 2)] = 𝜎 2 , 𝐸(𝑆𝑆𝑅 ) = 𝜎 2 + 𝛽12 𝑆𝑥𝑥 y 𝐸⁄𝜎 2 y 𝑅⁄𝜎 2
Son variables aleatorias chi-cuadrados independientes con n-2 y un grado de libertad, respectivamente. Por tanto,
𝐻0 : 𝛽1 = 0 es verdadera, el estadístico de contraste sigue a la distribución 𝐹1,𝑛−2 con lo que H0 debe rechazarse
si 𝐹 > 𝐹𝛼,1,𝑛−2
9
Las hipótesis son:

𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
Estas hipótesis están relacionadas con la significación de la regresión.

𝑆𝑆𝑅⁄
𝐹= 1 = 𝑀𝑆𝑅
𝑆𝑆𝐸⁄ 𝑀𝑆𝐸
𝑛−2
La media de cuadrados de la regresión es:
𝑆𝑆𝑅
𝑀𝑆𝑅 =
1
La media de cuadrados del error es:
𝑆𝑆𝐸
𝑀𝑆𝐸 =
𝑛−2
Los cálculos se resumen en la siguiente tabla de Análisis de varianza:
Fuente de Suma de cuadrados Grados de Media de F

variación libertad cuadrados
Regresión 𝑆𝑆𝑅 = 𝛽̂1 𝑆𝑥𝑦 1 𝑆𝑆𝑅 𝑀𝑆𝑅
𝑀𝑆𝑅 = 𝐹=
1 𝑀𝑆𝐸
Error 𝑆𝑆𝐸 = 𝑆𝑦𝑦 − 𝛽̂1 𝑆𝑥𝑦 n-2 𝑆𝑆𝐸
𝑀𝑆𝐸 =
𝑛−2
Total 𝑆𝑦𝑦 n-1
10
Ejemplo. Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y, kg) de una muestra de 12
hombres adultos. Para cada estatura fijada previamente se observó el peso de una persona seleccionada de entre
el grupo con dicha estatura, resultando:
X 152 155 152 155 157 152 157 165 162 178 183 178
Y 50 61.5 54.5 57.5 63.5 59 61 72 66 72 84 82
Con estos datos plantear una ecuación de regresión simple que permita pronosticar los pesos conociendo las
tallas. Utilizar  = 0.05, y contrastar hipótesis con la prueba F.
DESARROLLO
• Representación gráfica y matemática de los datos:

Representación Gráfica
Representación Matemática
datos x y xy x2 𝑦̂
1 152 50 7600 23104 56,192
2 155 61,5 9532,5 24025 58,79
3 152 54,5 8284 23104 56,192
4 155 57,5 8912,5 24025 58,79
5 157 63,5 9969,5 24649 60,522
6 152 59 8968 23104 56,192
7 157 61 9577 24649 60,522
8 165 72 11880 27225 67,45
9 162 66 10692 26244 64,852
10 178 72 12816 31684 78,708
11 183 84 15372 33489 83,038
12 178 82 14596 31684 78,708
Total 1946 783 128199,5 316986 779.956
promedio 162,17 65,25
11
∑𝑛𝑖 𝑥𝑖 𝑦𝑖 −
𝑛 128199,5 − (783 ∗ 1946⁄12)
𝛽̂1 = = = 0.8676
𝑛 2 ∑𝑛𝑖 𝑥𝑖 ∑𝑛𝑖 𝑥𝑖 316986 − ( 1946 ∗ 1946⁄ )
∑𝑖 𝑥𝑖 − 12
𝑛
∑𝑛𝑖 𝑦𝑖 ∑𝑛𝑖 𝑥𝑖 783 1976
𝛽̂0 = − 𝛽̂1 = − 0,8676 ∗ = −75.4427
𝑛 𝑛 12 12
𝑌̂ = −75.44 + 0.8676𝑋
Interpretación:
El valor de 𝛽̂1 = 0.8676 indica el incremento del peso en kilogramos, en promedio, por cada centímetro de aumento
en la estatura de los hombres adultos.
El valor de 𝛽̂0 , no tiene interpretación práctica en el ejemplo, se interpretaría como el valor obtenido, en
promedio, para el peso Y, cuando la estatura es 0.
Evaluación de la adecuación del modelo

Para evaluar la adecuación de un modelo de regresión lineal ese realiza la prueba de hipótesis sobre los
parámetros del modelo. Las hipótesis sobre la pendiente y la ordenada al origen del modelo de regresión están
relacionadas con la significación de la regresión.
Las hipótesis para probar si es:
𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
El estadístico de prueba es (aplicando el Análisis de Varianza):
𝑆𝑆𝑅⁄
𝑛−2
H0 debe rechazarse si 𝐹 > 𝐹𝛼,1,𝑛−2 (𝐹 > 𝐹0.05,1,10 = 4.96)
Fuente de Suma de Grados de Media de cuadrados F

variación cuadrados libertad
Regresión 𝑆𝑆𝑅 = 96.46 1 96.46 𝑀𝑆𝑅 96.46
𝑀𝑆𝑅 = = 96.46 𝐹= = = 73.08
1 𝑀𝑆𝐸 1.32
Error 𝑆𝑆𝐸 = 13.2 n-2 = 10 13.2 p-valor= 6,55 E-06
𝑀𝑆𝐸 = = 1.32
10
Total 𝑆𝑦𝑦 = 109.66 n-1= 11
12
𝑛
1 1223
𝑆𝑥𝑦 = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) = = 111.18
𝑛−1 11
𝑖
𝑛
1 1206.25
𝑆𝑦𝑦 = ∑(𝑦𝑖 − 𝑦̅)2 = = 109.66
𝑛−1 11
𝑖
𝑆𝑆𝑅 = 𝛽̂1 𝑆𝑥𝑦 = 0.8676 ∗ 111.18 = 96.46
𝑆𝑆𝐸 = 𝑆𝑦𝑦 − 𝛽̂1 𝑆𝑥𝑦 = 109.66 − 0.8676 ∗ 111.18 = 13.2
𝑆𝑆𝑅 96.46
𝑀𝑆𝑅 = = = 96.46
1 1
𝑆𝑆𝐸 13.2
𝑀𝑆𝐸 = = = 1.32
𝑛−2 10
𝑀𝑆𝑅 96.46
𝐹= = = 73.08
𝑀𝑆𝐸 1.32
datos x y (𝑥𝑖 − 𝑥̅ )2 (𝑦𝑖 − 𝑦̅)2 (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)

1 152 50 103,4289 232,5625 155,0925
2 155 61,5 51,4089 14,0625 26,8875
3 152 54,5 103,4289 115,5625 109,3275
4 155 57,5 51,4089 60,0625 55,5675
5 157 63,5 26,7289 3,0625 9,0475
6 152 59 103,4289 39,0625 63,5625
7 157 61 26,7289 18,0625 21,9725
8 165 72 8,0089 45,5625 19,1025
9 162 66 0,0289 0,5625 -0,1275
10 178 72 250,5889 45,5625 106,8525
11 183 84 433,8889 351,5625 390,5625
12 178 82 250,5889 280,5625 265,1525
Total 1946 783 1409,6668 1206,25 1223
promedio 162,17 65,25
Fuente de Suma de Grados de Media de F

variación cuadrados libertad cuadrados
Regresión 𝑆𝑆𝑅 = 1061.1 1 𝑀𝑆𝑅 = 1061.1 𝑀𝑆𝑅 1061.1
𝐹= = = 73.08
𝑀𝑆𝐸 14.52
Error 𝑆𝑆𝐸 = 145.2 n-2 = 10 𝑀𝑆𝐸 = 14.52 p-valor= 6,55 E-06
Total 𝑆𝑦𝑦 =1206.3 n-1= 11
13
datos x y SSR =∑𝑛𝑖(𝑦̂𝑖 − 𝑦̅)2 SSE =∑𝑛𝑖(𝑦𝑖 − 𝑦̂𝑖 )2 SSyy =∑𝑛𝑖(𝑦𝑖 − 𝑦̅)2
1 152 50 77,70 41,41 232,56
2 155 61,5 38,59 6,06 14,06
3 152 54,5 77,70 3,74 115,56
4 155 57,5 38,59 2,37 60,06
5 157 63,5 20,04 7,44 3,06
6 152 59 77,70 6,58 39,06
7 157 61 20,04 0,05 18,06
8 165 72 6,07 18,37 45,56
9 162 66 0,02 0,79 0,56
10 178 72 188,86 48,90 45,56
11 183 84 326,92 0,45 351,56
12 178 82 188,86 9,04 280,56
Total 1946 783 1061,10 145,20 1.206,25
promedio 162,17 65,25
Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hipótesis nula y aceptamos que la variable estatura
está relacionada con la variable peso con un 95% de confianza.
14
Ejemplo 2. Los datos de la siguiente tabla representan el desgaste del acero dulce y la viscosidad del aceite (x =
viscosidad del aceite y y = volumen de desgaste (10-4 mm3).
X 240 181 193 155 172 110 113 75 94

Y 1.6 9.4 15.5 20.0 22.0 35.5 43.0 40.5 33.0
a. Construya una gráfica de dispersión de los datos
b. Ajuste un modelo de regresión lineal utilizando la técnica de mínimos cuadrados.
c. Prueba la significancia de la regresión utilizando  = 0.05. ¿Puede concluirse que el modelo especifica una
relación lineal útil entre las dos variables?
d. Haga una predicción sobre el desgaste cuando la viscosidad es 30 y calcule el residuo correspondiente.
e. ¿Qué proporción de la variabilidad total en el volumen del desgaste esta explicada por la viscosidad del
aceite?
Parte a: Diagrama de dispersión:
Desgaste del Acero dulce y Viscosidad del aceite

50
Volumen de desgaste
40
30
20
10 y
0
0 50 100 150 200 250 300
Viscosidad del aceite
a. Ajuste un modelo de regresión lineal utilizando la técnica de mínimos cuadrados.

Representación Matemática
datos x y xy X2 Y2 𝑦̂
1 240 1,6 384 57600 2,56 1,48
2 181 9,4 1701,4 32761 88,36 16,26
3 193 15,5 2991,5 37249 240,25 13,26
4 155 20 3100 24025 400 22,78
5 172 22 3784 29584 484 18,52
6 110 35,5 3905 12100 1260,25 34,06
7 113 43 4859 12769 1849 33,31
8 75 40,5 3037,5 5625 1640,25 42,83
9 94 33 3102 8836 1089 38,07
Total 1333 220,5 26864,4 220549 7053,67 220,56
promedio 148,11 24,5
15
∑𝑛𝑖 𝑥𝑖 𝑦𝑖 − 26864,4 − (220,5 ∗ 1333⁄9)
𝛽̂1 = 𝑛 = = −0,25
𝑛 2 ∑𝑛𝑖 𝑥𝑖 ∑𝑛𝑖 𝑥𝑖 220549 − ( 1333 ∗ 1333⁄ )
∑𝑖 𝑥𝑖 − 9
𝑛
𝑛 𝑛
∑𝑖 𝑦𝑖 ∑𝑖 𝑥𝑖 220,5 1333
𝛽̂0 = − 𝛽̂1 = − 0,25 ∗ = 61,62
𝑛 𝑛 9 9
𝑌̂ = 61,623 − 0,25064𝑋
Interpretación:
El valor de 𝛽̂1 = -0.25064 indica la disminución de la viscosidad del aceite, en promedio, por cada mm3 de
aumento del volumen del desgaste.
El valor de 𝛽̂0 , se interpretaría como el valor obtenido, en promedio, para el volumen de desgaste Y,
cuando la viscosidad del aceite es 0.
b. Prueba la significancia de la regresión utilizando  = 0.05. ¿Puede concluirse que el modelo especifica
una relación lineal útil entre las dos variables?
Para evaluar la adecuación de un modelo de regresión lineal, se realiza la prueba de hipótesis sobre los
parámetros del modelo. Las hipótesis sobre la pendiente y la ordenada al origen del modelo de regresión
están relacionadas con la significación de la regresión
Las hipótesis para probar si es:
𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
𝑆𝑆𝑅⁄
𝑛−2
H0 debe rechazarse si 𝐹 > 𝐹𝛼,1,𝑛−2 (𝐹 > 𝐹0.05,1,7 = 5.59)
Fuente de Suma de Grados de Media de cuadrados F

variación cuadrados libertad
Regresión 𝑆𝑆𝑅 = 1452.21 1 𝑀𝑆𝑅 = 1452.21 𝑀𝑆𝑅 1452.21
𝐹= = = 51.04
𝑀𝑆𝐸 28.45
Error 𝑆𝑆𝐸 = 199.17 n-2 = 7 𝑀𝑆𝐸 = 28.45 p-valor= 0,000186
Total 𝑆𝑦𝑦 =1651.38 n-1= 8
16
SCR= SSR SCE= SSE SCT= SSyy

𝑛 𝑛
datos x 2
y =∑𝑖 (𝑦̂𝑖 − 𝑦̅) =∑𝑖 (𝑦𝑖 − 𝑦̂𝑖 )2
=∑𝑛𝑖(𝑦𝑖 − 𝑦̅)2
1 240 1,6 530,40 0,01 524,41
2 181 9,4 67,94 47,12 228,01
3 193 15,5 126,57 5,03 81,00
4 155 20 2,98 7,73 20,25
5 172 22 35,84 12,11 6,25
6 110 35,5 91,25 2,08 121,00
7 113 43 77,45 93,99 342,25
8 75 40,5 335,81 5,42 256,00
9 94 33 183,95 25,67 72,25
Total 1333 220,5 1452,21 199,17 1.651,42
Se obtiene un valor F = 51.04 > 5.59, con lo cual se rechaza la hipótesis nula y aceptamos que la variable viscosidad
del aceite está relacionada con la variable volumen de desgaste con un 95% de confianza.
Salida utilizando SPSS:
ANOVAb
Suma de
Modelo cuadrados gl Media cuadrática F Sig.
1 Regresión 1452,254 1 1452,254 51,042 ,000a
Residual 199,166 7 28,452
Total 1651,420 8
a. Variables predictoras: (Constante), Viscosidad del aceite

b. Variable dependiente: Volumen del desgaste
c. Haga una predicción sobre el desgaste cuando la viscosidad es 75 y calcule el residuo correspondiente.
Para X = 75, el desgaste es
𝑌̂ = 61,623 − 0,25064𝑋 = 61,623 − 0,250644(75) = 42,8247 ≈ 42,8
Residuo es:
𝑟𝑒𝑠𝑖𝑑𝑢𝑜 = 𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖 = 40,5 − 42,8 = −2,3
d. ¿Qué proporción de la variabilidad total en el volumen del desgaste esta explicada por la viscosidad del
aceite?
El coeficiente de correlación muestral es:
𝑆𝐶𝑅 1492,21
𝑟2 = = = 0,8794
𝑆𝐶𝑇 1651,38
17
1 𝑛
∑𝑛𝑖 𝑥𝑖 𝑦𝑖 − (∑𝑖 𝑥𝑖 )(∑𝑛𝑖 𝑦𝑖 )
𝑟𝑥𝑦 = 𝑛
√∑𝑛𝑖 𝑥𝑖2 − 1 (∑𝑛𝑖 𝑥𝑖 ) √∑𝑛𝑖 𝑦𝑖2 − 1 (∑𝑛𝑖 𝑦𝑖 )
2 2
𝑛 𝑛
1333 ∗ 220,5
26864,4 − ( 9 )
𝑟𝑥𝑦 = = −0,9377
2 2
√220549 − 1333 √7053,67 − 220,5
9 9
𝑟 2 = (−0,9377)2 = 0,8794
r2 = 0,8794 indica que el 87,94% de la variación total está explicada por la regresión.
CONCLUSIÓN
La ecuación de Regresión Lineal estimada para las variables viscosidad del aceite y volumen de desgaste muestran,
de acuerdo a la prueba F, relación.
Esta relación se ha estimado en un R = 93.7, que indica una fuerte relación positiva.
Además, si consideramos el coeficiente de determinación R² = 87.94 podemos indicar que el 87.94% de las
variaciones que ocurren en la viscosidad del aceite se explicarían por las variaciones en la variable volumen de
desgaste.
(x = viscosidad del aceite y y = volumen de desgaste (10-4 mm3).
Residuos
18
REGRESIÓN MÚLTIPLE
Este tipo de regresión se presenta cuando dos o más variables independientes influyen sobre una variable
dependiente. Ejemplo: Y = f(x, w, z).
Por ejemplo: Podría ser una regresión de tipo múltiple:
Una Empresa de desarrollo de software establece relacionar sus Ventas en función del número de pedidos de los
tipos de software que desarrolla (Sistemas, Educativos y Automatizaciones Empresariales), para atender 10
proyectos en el presente año.
En la Tabla representa Y (Ventas miles de S/.) e X (Nº pedidos de sistemas), W (Nº de pedidos de Aplicaciones
Educativas) y Z (Nº de pedidos de Automatizaciones empresariales).
Y 440 455 470 510 506 480 460 500 490 450
X 50 40 35 45 51 55 53 48 38 44
W 105 140 110 130 125 115 100 103 118 98
Z 75 68 70 64 67 72 70 73 69 74
Se presentará primero el análisis de regresión múltiple al desarrollar y explicar el uso de la ecuación de regresión
múltiple, así como el error estándar múltiple de estimación. Después se medirá la fuerza de la relación entre las
variables independientes, utilizando los coeficientes múltiples de determinación.
19
Resumen del modelob

Estadísticos de cambio
R Error típ. de Cambio en Sig.
Model R cuadrado la R Cambio Cambi
o R cuadrado corregida estimación cuadrado en F gl1 gl2 o en F Durbin-Watson
1 ,671a ,450 ,175 22,558 ,450 1,635 3 6 ,278 2,241
a. Variables predictoras: (Constante), Pedidos de Automatizaciones empresariales, Pedidos de sistemas,
Pedidos de Aplicaciones Educativas
b. Variable dependiente: Ventas
20
Correlaciones
Pedidos de Pedidos de
Pedidos de Aplicaciones Automatizaciones
Ventas sistemas Educativas empresariales
Correlación de
Ventas 1,000 ,051 ,358 -,620
Pearson Pedidos de ,051 1,000 -,263 ,232
sistemas
Pedidos de ,358 -,263 1,000 -,768
Aplicaciones
Educativas
Pedidos de -,620 ,232 -,768 1,000
Automatizacione
s empresariales
Sig. (unilateral) Ventas . ,444 ,155 ,028
Pedidos de ,444 . ,231 ,260
sistemas
Pedidos de ,155 ,231 . ,005
Aplicaciones
Educativas
Pedidos de ,028 ,260 ,005 .
Automatizacione
s empresariales
N Ventas 10 10 10 10
Pedidos de 10 10 10 10
sistemas
Aplicaciones
Educativas
Automatizacione
s empresariales
21
Análisis de Regresión Múltiple
Dispone de una ecuación con dos variables independientes adicionales:
Se puede ampliar para cualquier número “m” de variables independientes:
Para poder resolver y obtener a,b1 y b2 en una ecuación de regresión múltiple el cálculo se presenta muy tediosa
porque se tiene atender 3 ecuaciones que se generan por el método de mínimo de cuadrados:
Para poder resolver se puede utilizar programas informáticos como AD+, SPSS y Minitab y Excel.
El error estándar de la regresión múltiple ( S xy )
22
Es una medida de dispersión la estimación se hace más precisa conforme el grado de dispersión alrededor del
plano de regresión se hace más pequeño.
Para medirla se utiliza la fórmula:
Y : Valores observados en la muestra
Y : Valores estimados a partir a partir de la ecuación de regresión

n : Número de datos
m : Número de variables independientes
El coeficiente de determinación múltiple (r )

2
Mide la tasa porcentual de los cambios de Y que pueden ser explicados por x1 , x2 y x3
simultáneamente.
APLICACION DE REGRESION MULTIPLE
Mediante el siguiente problema podremos ilustrar la aplicación de Regresión Multiple:
En la Facultad de Ingeniería de Sistemas y Computo de la Universidad “Inca Garcilaso de la Vega” se quiere

entender los factores de aprendizaje de los alumnos que cursan la asignatura de PHP, para lo cual se escoge al
azar una muestra de 15 alumnos y ellos registran notas promedias en las asignaturas de Algoritmos, Base de Datos
y Programación como se muestran en el siguiente cuadro.
23
Base de
Alumno PHP Algoritmos Datos Programación
1 13 15 15 13
2 13 14 13 12
3 13 16 13 14
4 15 20 14 16
5 16 18 18 17
6 15 16 17 15
7 12 13 15 11
8 13 16 14 15
9 13 15 14 13
10 13 14 13 10
11 11 12 12 10
12 14 16 11 14
13 15 17 16 15
14 15 19 14 16
15 15 13 15 10
Lo que buscamos es construir un modelo para determinar la dependencia que exista de aprendizaje reflejada en
las notas de la asignatura de PHP, conociendo las notas de las asignaturas Algoritmos, Base de Datos y
Programación.
Se presentará la siguiente ecuación a resolver:
Utilizando las fórmulas de las ecuaciones normales a los datos obtendremos los coeficientes de regresión o
utilizando Regresión de Análisis de datos, en la Hoja de Cálculo de Excel podemos calcular también los coeficientes
de regresión:
Por lo tanto podemos construir la ecuación de regresión que buscamos:
24
El Error Estándar de Regresión Múltiple (S x, y )

Mediante esta medida de dispersión se hace más preciso el grado de dispersión alrededor del plano de regresión,
se hace más pequeño.
Para calcularla se utiliza la formula siguiente:
En los resultados de Excel se llama error típico y para explicar la relación del aprendizaje de PHP que se viene
desarrollando es de 0.861
El coeficiente de determinación múltiple (r2)
Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables múltiples, utilizando la
siguiente formula:
SCregresiòn
r2 =
SCTotal
18.7737874
r2 = = 0.69704656
26.9333333
IV.- CONCLUSIONES
25
El 69.70% del aprendizaje del Curso de PHP puede ser explicado mediante las notas obtenidas por las asignaturas
de Algoritmos, Base de Datos y Programación.
26
Correlaciones
ALGORITMO BASE DE PROGRAM
PHP S DATOS ACION
Correlación de PHP 1,000 ,715 ,593 ,669
Pearson ALGORITMOS ,715 1,000 ,286 ,918
BASE DE DATOS ,593 ,286 1,000 ,421
PROGRAMACION ,669 ,918 ,421 1,000
Sig. (unilateral) PHP . ,001 ,010 ,003
ALGORITMOS ,001 . ,150 ,000
BASE DE DATOS ,010 ,150 . ,059
PROGRAMACION ,003 ,000 ,059 .
N PHP 15 15 15 15
ALGORITMOS 15 15 15 15
BASE DE DATOS 15 15 15 15
PROGRAMACION 15 15 15 15
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 18,774 3 6,258 8,436 ,003a
Residual 8,160 11 ,742
Total 26,933 14
a. Variables predictoras: (Constante), PROGRAMACION, BASE DE DATOS, ALGORITMOS
b. Variable dependiente: PHP
27
Correlaciones de los coeficientesa

BASE DE
Modelo PROGRAMACION DATOS ALGORITMOS
1 Correlaciones PROGRAMACION 1,000 -,415 -,917
BASE DE DATOS -,415 1,000 ,277
ALGORITMOS -,917 ,277 1,000
Covarianzas PROGRAMACION ,073 -,016 -,066
BASE DE DATOS -,016 ,021 ,011
ALGORITMOS -,066 ,011 ,071
a. Variable dependiente: PHP
Coeficientesa
Coeficientes Coefici
no entes Intervalo de
estandarizad tipifica confianza de Estadísticos de
os dos 95,0% para B Correlaciones colinealidad
Límite Límite Semi
Error inferio superi Orden parci Toler
Modelo B típ. Beta t Sig. r or cero Parcial al ancia FIV
1 (Constante) 2,551 2,369 1,077 ,305 -2,663 7,766
ALGORITMOS ,583 ,267 ,950 2,186 ,051 -,004 1,169 ,715 ,550 ,363 ,146 6,857
BASE DE ,373 ,144 ,493 2,589 ,025 ,056 ,691 ,593 ,615 ,430 ,760 1,316
DATOS
PROGRAMACI -,242 ,270 -,410 -,893 ,391 -,837 ,354 ,669 -2,600E- -,148 ,131 7,650
ON 1
28
Coeficientesa
Coefici
entes Intervalo de
Coeficientes no tipifica confianza de
estandarizados dos 95,0% para B
Límite
Error Límite superio
Modelo B típ. Beta t Sig. inferior r
1 (Constante) 2,551 2,369 1,077 ,305 -2,663 7,766
ALGORITMOS ,583 ,267 ,950 2,186 ,051 -,004 1,169
BASE DE DATOS ,373 ,144 ,493 2,589 ,025 ,056 ,691
PROGRAMACIO -,242 ,270 -,410 -,893 ,391 -,837 ,354
N
29
30
31

Estadistica II

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Estadistica II

Caricato da

Copyright:

Formati disponibili

Estadística II- Análisis de Regresión Prof.

Julia Marcano 2018

REGRESIÓN LINEAL SIMPLE

La dependencia a la que hacemos referencia es relacional matemática y no necesariamente de causalidad. Así,

2. REGRESIÓN SIMPLE Y CORRELACIÓN

Objetivo: Se utiliza la regresión lineal simple para:

La variable Independiente X se le denomina variable explicativa ó regresor y se le utiliza para explicar Y.

0 es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.

SUPOSICIONES DE LA REGRESIÓN LINEAL

1. Los valores de la variable independiente X son fijos, medidos sin error.

ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN MUESTRAL

Los estimadores de mínimos cuadrados de 0 y 1 se obtienen de la siguiente manera:

Simplificando la primera ecuación se obtiene la primera ecuación normal:

−2 ∑(𝑦𝑖 − 𝛽̂0 − 𝛽̂1 𝑥𝑖 ) = 0

− ∑(𝑦𝑖 ) + ∑ 𝛽̂0 + ∑ 𝛽̂1 𝑥𝑖 = 0

− ∑(𝑦𝑖 ) + 𝑛𝛽̂0 + 𝛽̂1 ∑ 𝑥𝑖 = 0

∑(𝑦𝑖 ) = 𝑛𝛽̂0 + 𝛽̂1 ∑ 𝑥𝑖

∑(𝑦𝑖 ) = 𝑛𝛽̂0 + 𝛽̂1 ∑ 𝑥𝑖

−2 ∑(𝑦𝑖 − 𝛽̂0 − 𝛽̂1 𝑥𝑖 )𝑥𝑖 = 0

− ∑(𝑦𝑖 𝑥𝑖 ) + ∑ 𝛽̂0 𝑥𝑖 + ∑ 𝛽̂1 𝑥𝑖2 = 0

− ∑(𝑦𝑖 𝑥𝑖 ) + 𝛽̂0 ∑ 𝑥𝑖 + 𝛽̂1 ∑ 𝑥𝑖2 = 0

∑(𝑦𝑖 𝑥𝑖 ) = 𝛽̂0 ∑ 𝑥𝑖 + 𝛽̂1 ∑ 𝑥𝑖2

Sustituyendo 0 y despejando 1 se tiene:

∑(𝑦𝑖 𝑥𝑖 ) = (𝑦̅ − 𝛽̂1 𝑥̅ ) ∑ 𝑥𝑖 + 𝛽̂1 ∑ 𝑥𝑖2

∑(𝑦𝑖 𝑥𝑖 ) = 𝑦̅ ∑ 𝑥𝑖 − 𝛽̂1 𝑥̅ ∑ 𝑥𝑖 + 𝛽̂1 ∑ 𝑥𝑖2

∑(𝑦𝑖 𝑥𝑖 ) = 𝛽̂1 (∑ 𝑥𝑖2 − 𝑥̅ ∑ 𝑥𝑖 ) + 𝑦̅ ∑ 𝑥𝑖

0 es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.

Medida de Bondad del Ajuste

𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 = 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 + 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎

(𝑦𝑖 − 𝑦̅) = (𝑦𝑖 − 𝑦̂𝑖 ) + (𝑦̂𝑖 − 𝑦̅)

𝑆𝐶𝑇 = 𝑆𝐶𝐸 + 𝑆𝐶𝑅

∑(𝑦𝑖 − 𝑦̅)2 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 + ∑(𝑦̂𝑖 − 𝑦̅)2

El error estándar de la estimación se denota por Se y se define de la siguiente manera:

𝑆𝐶𝑅 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎

Correlación Lineal Simple

El coeficiente de correlación de Pearson de dos variables correlacionadas:

Interpretación del coeficiente de correlación (rxy):

tα/2 es un valor de la distribución t con n – 2 grados de libertad.

Prueba de Hipótesis en la Regresión lineal simple

Donde 𝑠𝑒(𝛽̂0 ) es el error estándar de la ordenada al origen

Un caso especial muy importante de las hipótesis es:

2. Análisis de Varianza para la prueba de significancia de la regresión

∑(𝑦𝑖 − 𝑦̅)2 = ∑(𝑦̂𝑖 − 𝑦̅)2 + ∑(𝑦𝑖 − 𝑦̂𝑖 )2

SSR =∑𝑛𝑖(𝑦̂𝑖 − 𝑦̅)2 : Suma de los cuadrados de la regresión

SSE =∑𝑛𝑖(𝑦𝑖 − 𝑦̂𝑖 )2 : Suma de los cuadrados de los errores

SSyy =∑𝑛𝑖(𝑦𝑖 − 𝑦̅)2 : Suma total de cuadrados corregidos de y

𝑆𝑆𝑦𝑦 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸

𝑆𝑆𝐸 = 𝑆𝑦𝑦 − 𝛽̂1 𝑆𝑥𝑦

𝑆𝑆𝑅 = 𝛽̂1 𝑆𝑥𝑦

Las hipótesis son:

Estas hipótesis están relacionadas con la significación de la regresión.

Los cálculos se resumen en la siguiente tabla de Análisis de varianza:

Fuente de Suma de cuadrados Grados de Media de F

• Representación gráfica y matemática de los datos:

Evaluación de la adecuación del modelo

El estadístico de prueba es (aplicando el Análisis de Varianza):

H0 debe rechazarse si 𝐹 > 𝐹𝛼,1,𝑛−2 (𝐹 > 𝐹0.05,1,10 = 4.96)

Los cálculos se resumen en la siguiente tabla de Análisis de varianza:

Fuente de Suma de Grados de Media de cuadrados F

𝑆𝑆𝑅 = 𝛽̂1 𝑆𝑥𝑦 = 0.8676 ∗ 111.18 = 96.46

𝑆𝑆𝐸 = 𝑆𝑦𝑦 − 𝛽̂1 𝑆𝑥𝑦 = 109.66 − 0.8676 ∗ 111.18 = 13.2

datos x y (𝑥𝑖 − 𝑥̅ )2 (𝑦𝑖 − 𝑦̅)2 (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)

Fuente de Suma de Grados de Media de F

X 240 181 193 155 172 110 113 75 94