Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Lineal Múltiple
Sergio Alcayaga
Elena Araya
M. Fernanda Sandoval
Métodos Cuantitativos
2015
Índice
Introducción ........................................................................................................................................ 3
Regresión lineal ................................................................................................................................... 4
Historia ............................................................................................................................................ 4
Tipos de modelos de regresión lineal ................................................................................................. 5
Análisis de Regresión Múltiple ............................................................................................................ 6
Diagnosis y validación de un modelo de regresión lineal múltiple ..................................................... 9
1. Multicolinealidad......................................................................................................................... 9
2. Análisis de residuos ................................................................................................................... 10
3. Valores de influencia (leverage) ................................................................................................ 11
4. Contrastando las hipótesis básicas ........................................................................................... 12
5. Errores que deben de evitarse .................................................................................................. 13
APLICACION DE REGRESION MULTIPLE ............................................................................................. 14
Ejercicio Regresión Múltiple.......................................................................................................... 14
2º Ejercicio Regresión Múltiple ..................................................................................................... 16
3 er Ejercicio Regresión Múltiple .................................................................................................. 18
Introducción
Abordaremos en este trabajo el modelo de regresión lineal múltiple, una vez que la
mayor parte de las técnicas básicas han sido presentadas y desarrolladas en el
modelo de regresión lineal simple. Por supuesto, también se pueden considerar
extensiones a modelos no lineales, mediante transformaciones de las variables,
como se indicó en el capítulo anterior. En general, el objetivo de la regresión
múltiple es tratar de expresar una variable respuesta (numérica) en función de
varias posibles variables explicativas (todas ellas numéricas).
Regresión lineal
Historia
Etimología
Pero bien, como se ha dicho, podemos usar el término lineal para distinguir
modelos basados en cualquier clase de aplicación.
Es una técnica que sirve para investigar y modelar la relación entre variables.
Aplicaciones de regresión son numerosas y ocurren en casi todos los campos.
Incluyendo ingeniería, física, ciencias económica, Ciencias biológicas y de la
salud, como también en lo social.
Tipos de modelos de regresión lineal
Ejemplo: Y = f(x)
La regresión lineal permite trabajar con una variable a nivel de intervalo o razón,
así también se puede comprender la relación de dos o más variables y permitirá
relacionar mediante ecuaciones, una variable en relación a otras variables
llamándose Regresión múltiple. O sea, la regresión lineal múltiple es cuando dos o
más variables independientes influyen sobre una variable dependiente.
Análisis de Regresión Múltiple
Dispone de una ecuación con dos variables independientes adicionales:
Para poder resolver se puede utilizar programas informáticos como AD+, SPSS y
Minitab y Excel.
, y simultáneamente.
En definitiva, y al igual que en regresión lineal simple, vamos a considerar que los
valores de la variable dependiente Y han sido generados por una combinación
lineal de los valores de una o más variables explicativas y un término aleatorio:
Los coeficientes son elegidos de forma que la suma de cuadrados entre los
valores observados y los pronosticados sea mínima, es decir, que se va a
minimizar la varianza residual.
En base a estos datos, vamos a construir un modelo para predecir el peso de una
persona (Y). Esto equivale a estudiar la relación existente entre este conjunto de
1. Multicolinealidad
Si las variables explicativas se pueden expresar como una combinación lineal:
2. Análisis de residuos
Definimos como residuo del i-esimo caso a: i i i u = y − yˆ
Los residuos son variables aleatorias que siguen una distribución normal. Los
residuos tienen unidades de medida y, por tanto no se puede determinar si es
grande o pequeño a simple vista.
Se considera que un residuo tiene un valor alto, y por lo tanto puede influir
negativamente en el análisis, si su residuo estandarizado es mayor de 3 en valor
absoluto.
Podemos observar que hay un caso que tiene un residuo anormal, pues su valor
tipificado es 3.49.
Base de
Alumno PHP Algoritmos Datos Programación
1 13 15 15 13
2 13 14 13 12
3 13 16 13 14
4 15 20 14 16
5 16 18 18 17
6 15 16 17 15
7 12 13 15 11
8 13 16 14 15
9 13 15 14 13
10 13 14 13 10
11 11 12 12 10
12 14 16 11 14
13 15 17 16 15
14 15 19 14 16
15 15 13 15 10
En los resultados de Excel se llama error típico y para explicar la relación del
aprendizaje de “X” que se viene desarrollando es de 0.861
El coeficiente de determinación múltiple (r2)
Utilizaremos para determinar la tasa porcentual de Y para ser explicados las
variables múltiples, utilizando la si siguiente formula:
2º Ejercicio Regresión Múltiple
El Servicio Interno de Contribuciones (IRS) de EE.UU. está tratando de estimar la
cantidad mensual de impuestos no pagados descubiertos por su departamento de
auditorías. En el pasado, el IRS estimaba esta cantidad con base en el número
esperado de horas de trabajo de auditorías de campo. En los últimos años, sin
embargo, las horas de trabajo de auditorías de campo se han convertido en un
pronosticador errático de los impuestos no pagados reales. Como resultado, la
dependencia está buscando otro factor para mejorar la ecuación de estimación.
El departamento de auditorías tiene un registro del número de horas que usa sus
computadoras para detectar impuestos no pagados. ¿Podríamos combinar esta
información con los datos referentes a las horas de trabajo de auditorías de campo
y obtener una ecuación de estimación más precisa para los impuestos no pagados
descubiertos por cada mes?
Solución Ejercicio
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,85377
Coeficiente de determinación R^2 0,72892322
R^2 ajustado 0,65147271
Error típico 1,07063884
Observaciones 10
En regresión multiple se le da importancia a R^2 ajustado
ANÁLISIS DE VARIANZA
Grados de Suma de Valor crítico
libertad cuadrados Prom. de los cuadrados F de F
Regresión 2 21,5761273 10,78806366 9,411471 0,010371059
Residuos 7 8,02387268 1,146267526
Total 9 29,6
y= 28,00928382 “X1”
y= 28.009.283,82 millones “X2”
3 er Ejercicio Regresión Múltiple
Como parte de un estudio para investigar la relación entre la tensión nerviosa
(estrés) y otras variables (tamaño de la empresa, número de años en la posición
actual, salario anual en miles de dólares, edad en años), se reunieron los
siguientes datos a partir de una muestra aleatoria simple de quince ejecutivos de
una empresa.
Pendiente de Años: Por cada año en posición actual, el estrés del ejecutivo
disminuye en 1,563 puntos.
Pendiente de Salario: Por cada mil dólares que aumenta el salario, el estrés del
ejecutivo aumenta en 1,575 puntos.
Pendiente de la edad: por cada año de edad, el estrés del ejecutivo aumenta en
1,629 puntos.
Este coeficiente nos indica que las variables usadas en el modelo explican en un
77,9% la variabilidad total del estrés.
Ho: Bj = 0
Al examinar los valores p correspondientes a cada uno de los tests nos damos
cuenta que casi todas las pendientes son significativas (distintas de cero), salvo la
de la variable Años en posición actual, cuyo valor p es 0,455, por lo tanto
aceptamos la hipótesis nula, y concluimos que la pendiente es igual a cero.
Por lo tanto este no sería un modelo adecuado para describir el estrés de los
ejecutivos, deberíamos ajustar otro modelo sin la variable "Años en posición
actual".
El estimador de la desviación estándar poblacional es 24,031 o la raíz de la media
cuadrática residual: raíz de 577,493= 24,03