Sei sulla pagina 1di 20

Trabajo Regresión

Lineal Múltiple

Sergio Alcayaga

Elena Araya

M. Fernanda Sandoval

Docente: Juan Garrido

Métodos Cuantitativos

2015
Índice
Introducción ........................................................................................................................................ 3
Regresión lineal ................................................................................................................................... 4
Historia ............................................................................................................................................ 4
Tipos de modelos de regresión lineal ................................................................................................. 5
Análisis de Regresión Múltiple ............................................................................................................ 6
Diagnosis y validación de un modelo de regresión lineal múltiple ..................................................... 9
1. Multicolinealidad......................................................................................................................... 9
2. Análisis de residuos ................................................................................................................... 10
3. Valores de influencia (leverage) ................................................................................................ 11
4. Contrastando las hipótesis básicas ........................................................................................... 12
5. Errores que deben de evitarse .................................................................................................. 13
APLICACION DE REGRESION MULTIPLE ............................................................................................. 14
Ejercicio Regresión Múltiple.......................................................................................................... 14
2º Ejercicio Regresión Múltiple ..................................................................................................... 16
3 er Ejercicio Regresión Múltiple .................................................................................................. 18
Introducción

Abordaremos en este trabajo el modelo de regresión lineal múltiple, una vez que la
mayor parte de las técnicas básicas han sido presentadas y desarrolladas en el
modelo de regresión lineal simple. Por supuesto, también se pueden considerar
extensiones a modelos no lineales, mediante transformaciones de las variables,
como se indicó en el capítulo anterior. En general, el objetivo de la regresión
múltiple es tratar de expresar una variable respuesta (numérica) en función de
varias posibles variables explicativas (todas ellas numéricas).
Regresión lineal

Historia

La primera forma de regresión lineal documentada fue el método de los mínimos


cuadrados que fue publicada por Liendre en 1805, y en dónde se incluía una
versión del teorema de Gauss-Márkov.

Etimología

El término regresión se utilizó por primera vez en el estudio de variables


antropométricas: al comparar la estatura de padres e hijos, donde resultó que los
hijos cuyos padres tenían una estatura muy superior al valor medio, tendían a
igualarse a éste, mientras que aquellos cuyos padres eran muy bajos tendían a
reducir su diferencia respecto a la estatura media; es decir, "regresaban"
al promedio. La constatación empírica de esta propiedad se vio reforzada más
tarde con la justificación teórica de ese fenómeno.

El término lineal se emplea para distinguirlo del resto de técnicas de regresión,


que emplean modelos basados en cualquier clase de función matemática. Los
modelos lineales son una explicación simplificada de la realidad, mucho más
ágiles y con un soporte teórico mucho más extenso por parte de la matemática y
la estadística.

Pero bien, como se ha dicho, podemos usar el término lineal para distinguir
modelos basados en cualquier clase de aplicación.

Es una técnica que sirve para investigar y modelar la relación entre variables.
Aplicaciones de regresión son numerosas y ocurren en casi todos los campos.
Incluyendo ingeniería, física, ciencias económica, Ciencias biológicas y de la
salud, como también en lo social.
Tipos de modelos de regresión lineal

Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus


parámetros:

Regresión lineal simple

La regresión lineal simple se basa en estudiar los cambios en una variable, no


aleatoria, afectan a una variable aleatoria, en el caso de existir una relación
funcional entre ambas variables que puede ser establecida por una expresión
lineal, es decir, su representación gráfica es una línea recta. Es decir, se está en
presencia de una regresión lineal simple cuando una variable independiente ejerce
influencia sobre otra variable dependiente.

Ejemplo: Y = f(x)

Regresión lineal múltiple

La regresión lineal permite trabajar con una variable a nivel de intervalo o razón,
así también se puede comprender la relación de dos o más variables y permitirá
relacionar mediante ecuaciones, una variable en relación a otras variables
llamándose Regresión múltiple. O sea, la regresión lineal múltiple es cuando dos o
más variables independientes influyen sobre una variable dependiente.
Análisis de Regresión Múltiple
Dispone de una ecuación con dos variables independientes adicionales:

Se puede ampliar para cualquier número "m" de variables independientes:

Para poder resolver y obtener y en una ecuación de regresión múltiple


el cálculo se presenta muy tediosa porque se tiene atender 3 ecuaciones que se
generan por el método de mínimo de cuadrados:

Para poder resolver se puede utilizar programas informáticos como AD+, SPSS y
Minitab y Excel.

El error estándar de la regresión múltiple


Es una medida de dispersión la estimación se hace más precisa conforme el grado
de dispersión alrededor del plano de regresión se hace más pequeño.
Para medirla se utiliza la fórmula:

Y : Valores observados en la muestra

: Valores estimados a partir a partir de la ecuación de regresión


n : Número de datos
m : Número de variables independientes
El coeficiente de determinación múltiple
Mide la tasa porcentual de los cambios de Y que pueden ser explicados por

, y simultáneamente.

En la regresión lineal múltiple vamos a utilizar más de una variable explicativa;


esto nos va a ofrecer la ventaja de utilizar más información en la construcción del
modelo y, consecuentemente, realizar estimaciones más precisas.

Al tener más de una variable explicativa (no se debe de emplear el término


independiente) surgirán algunas diferencias con el modelo de regresión lineal
simple.

Una cuestión de gran interés será responder a la siguiente pregunta: de un vasto


conjunto de variables explicativas: x1, x2, …, xk, cuáles son las que más influyen
en la variable dependiente Y.

En definitiva, y al igual que en regresión lineal simple, vamos a considerar que los
valores de la variable dependiente Y han sido generados por una combinación
lineal de los valores de una o más variables explicativas y un término aleatorio:

Los coeficientes son elegidos de forma que la suma de cuadrados entre los
valores observados y los pronosticados sea mínima, es decir, que se va a
minimizar la varianza residual.

Esta ecuación recibe el nombre de hiperplano, pues cuando tenemos dos


variables explicativas, en vez de recta de regresión tenemos un plano:
Con tres variables explicativas tendríamos un espacio de tres dimensiones, y así
sucesivamente. Vamos a ir introduciendo los elementos de este análisis a través
de un sencillo ejemplo.

Consideramos una muestra de personas como la que sigue a continuación:

En base a estos datos, vamos a construir un modelo para predecir el peso de una
persona (Y). Esto equivale a estudiar la relación existente entre este conjunto de

variables y la variable peso (Y).

En primer lugar tenemos que la variable dependiente es el peso; y las variables


que vamos a utilizar para predecir el peso reciben el nombre de variables
independientes o explicativas.

En la práctica deberemos de elegir cuidadosamente qué variables vamos a


considerar como explicativas. Algunos criterios que deben de cumplir serán los
siguientes:

 Tener sentido numérico. ƒ


 No deberá de haber variables repetidas o redundantes ƒ
 Las variables introducidas en el modelo deberán de tener una cierta
justificación teórica.
 La relación entre variables explicativas en el modelo y casos debe de ser
como mínimo de 1 a 10. ƒ
 La relación de las variables explicativas con la variable dependiente debe
de ser lineal, es decir, proporcional.
Diagnosis y validación de un modelo de regresión lineal múltiple

1. Multicolinealidad
Si las variables explicativas se pueden expresar como una combinación lineal:

Se dice que tenemos un problema de multicolinealidad.

En general, este problema va a afectar incrementando la varianza de los


estimadores. Este problema se detecta fácilmente:

• Solicitando el determinante de la matriz de varianzas-covarianzas, que estará


cercano a cero.

• Calculando el cociente entre el primer y último autovalor de la matriz de


varianzas-covarianzas que será mayor de 50.

• Calculando para cada variable el coeficiente de determinación ( 2 R ) de dicha


variable con el resto.

La solución es eliminar del modelo aquellas variables explicativas que dependen


unas de otras. En general, los métodos de selección de variables solucionan
automáticamente este problema.
En esta tabla se muestra el valor de los estimadores del hiperplano de regresión.

La columna denominada tolerancia es: “2 1− R”, donde la variable correspondiente


entra como variable dependiente y el resto de las variables explicativas actúan
como regresoras.

A la vista de estos resultados, la variable estatura esta provocando problemas de


multicolinealidad.

Es interesante observar que si bien el contraste de regresión es significativo,


ninguna de las variables explicativas lo es.

2. Análisis de residuos
Definimos como residuo del i-esimo caso a: i i i u = y − yˆ

Los residuos son variables aleatorias que siguen una distribución normal. Los
residuos tienen unidades de medida y, por tanto no se puede determinar si es
grande o pequeño a simple vista.

Para solventar este problema se define el residuo estandarizado como:

Se considera que un residuo tiene un valor alto, y por lo tanto puede influir
negativamente en el análisis, si su residuo estandarizado es mayor de 3 en valor
absoluto.

Para evitar la dependencia entre numerador y denominador de la expresión


anterior, también se utilizan los residuos estudentizados.
Donde

es la varianza residual calculada sin considerar el i-esimo caso.

El análisis descriptivo y el histograma de los residuos nos indicarán si existen


casos que no se adapten bien al modelo lineal.

Podemos observar que hay un caso que tiene un residuo anormal, pues su valor
tipificado es 3.49.

3. Valores de influencia (leverage)


Se considera que una observación es influyente a priori si su inclusión en el
análisis modifica sustancialmente el sentido del mismo. Una observación puede
ser influyente si es un outlayer respecto a alguna de las variables explicativas:
Para detectar estos problemas se utiliza la medida de Leverage:

Este estadístico mide la distancia de un punto a la media de la distribución.


Valores cercanos a 2/n indican casos que pueden influir negativamente en la
estimación del modelo introduciendo un fuerte sesgo en el valor de los
estimadores.

4. Contrastando las hipótesis básicas


Normalidad de los residuos.

Para verificar esta hipótesis se suele utilizar el histograma de los residuos y en


caso necesario el test de Kolgomorov Smirnov.

En este caso no se detecta falta de normalidad, el pvalue del test KS es de 0.852,


por lo tanto se concluye que:

No se encuentran diferencias estadísticamente significativas para rechazar la


hipótesis de normalidad.
5. Errores que deben de evitarse
Errores que son fáciles pasar por alto al realizar un modelo de regresión lineal
múltiple son los siguientes:

• No controlar el factor tamaño.

• Si hay un factor de ponderación, no tenerlo en cuenta.

• Al calcular los grados de libertad en los contrastes de hipótesis.

• No incluir una variable relevante en el modelo.

• Incluir una variable irrelevante.

• Especificar una relación lineal que no lo es.


APLICACION DE REGRESION MULTIPLE

Ejercicio Regresión Múltiple

Mediante el siguiente problema podremos ilustrar la aplicación de Regresión


Multiple:

Aquí daremos a conocer los pasos necesarios para resolver un ejercicio de


regresión multiple:

Se quiere entender los factores de aprendizaje de los alumnos que cursan la


asignatura “X”, para lo cual se escoge al azar una muestra de 15 alumnos y ellos
registran notas promedios en las asignaturas de Algoritmos, Base de
Datos y Programación como se muestran en el siguiente cuadro.

Base de
Alumno PHP Algoritmos Datos Programación
1 13 15 15 13
2 13 14 13 12
3 13 16 13 14
4 15 20 14 16
5 16 18 18 17
6 15 16 17 15
7 12 13 15 11
8 13 16 14 15
9 13 15 14 13
10 13 14 13 10
11 11 12 12 10
12 14 16 11 14
13 15 17 16 15
14 15 19 14 16
15 15 13 15 10

Lo que buscamos es construir un modelo para determinar la dependencia que


exista de aprendizaje reflejada en las notas de la asignatura de “X”, conociendo
las notas de las asignaturas Algoritmos, Base de Datos y Programación.
Se presentara la siguiente ecuación a resolver:
Utilizando las formulas de las ecuaciones normales a los datos obtendremos los
coeficientes de regresión o utilizando Regresión de Análisis de datos, en la Hoja
de Calculo de Excel podemos calcular también los coeficientes de regresión:

Por lo tanto podemos construir la ecuación de regresión que buscamos:

El Error Estándar de Regresión Múltiple

Mediante esta medida de dispersión se hace más preciso el grado de dispersión


alrededor del plano de regresión, se hace más pequeño.
Para calcularla se utiliza la formula siguiente:

En los resultados de Excel se llama error típico y para explicar la relación del
aprendizaje de “X” que se viene desarrollando es de 0.861
El coeficiente de determinación múltiple (r2)
Utilizaremos para determinar la tasa porcentual de Y para ser explicados las
variables múltiples, utilizando la si siguiente formula:
2º Ejercicio Regresión Múltiple
El Servicio Interno de Contribuciones (IRS) de EE.UU. está tratando de estimar la
cantidad mensual de impuestos no pagados descubiertos por su departamento de
auditorías. En el pasado, el IRS estimaba esta cantidad con base en el número
esperado de horas de trabajo de auditorías de campo. En los últimos años, sin
embargo, las horas de trabajo de auditorías de campo se han convertido en un
pronosticador errático de los impuestos no pagados reales. Como resultado, la
dependencia está buscando otro factor para mejorar la ecuación de estimación.

El departamento de auditorías tiene un registro del número de horas que usa sus
computadoras para detectar impuestos no pagados. ¿Podríamos combinar esta
información con los datos referentes a las horas de trabajo de auditorías de campo
y obtener una ecuación de estimación más precisa para los impuestos no pagados
descubiertos por cada mes?

Horas de trabajo Horas en Impuestos reales


de auditoría de Computadora no pagados
Mes
campo (dos ceros (dos ceros descubiertos
omitidos) omitidos) (Millones de $)
Enero 45 16 29
Febrero 42 14 24
Marzo 44 15 27
Abril 45 13 25
Mayo 43 13 26
Junio 46 14 28
Julio 44 16 30
Agosto 45 16 28
Septiembre 44 15 28
Octubre 43 15 27

Solución Ejercicio

Resumen

Estadísticas de la regresión
Coeficiente de correlación múltiple 0,85377
Coeficiente de determinación R^2 0,72892322
R^2 ajustado 0,65147271
Error típico 1,07063884
Observaciones 10
En regresión multiple se le da importancia a R^2 ajustado

ANÁLISIS DE VARIANZA
Grados de Suma de Valor crítico
libertad cuadrados Prom. de los cuadrados F de F
Regresión 2 21,5761273 10,78806366 9,411471 0,010371059
Residuos 7 8,02387268 1,146267526
Total 9 29,6

Coeficientes Error típico Estadístico t


-
Intercepción 13,8196286 13,3232999 -1,037252689
Variable X 1 0,56366048 0,30327388 1,858585632
Variable X 2 1,0994695 0,31313901 3,511122694

Superior Inferior Superior


Probabilidad Inferior 95% 95% 95,0% 95,0%
-
0,334114812 -45,3242267 17,6849694 45,3242267 17,6849694
0,105430154 -0,1534683 1,28078925 -0,1534683 1,28078925
0,009844498 0,359013391 1,8399256 0,35901339 1,8399256

Que pasaría si la variable X1 asumiera el valor de 4300(millones), y X2 el valor de


1600(millones)
𝑦 = 𝑏0 + 𝑏1𝑥1 +𝑏2 𝑥2

Ecuación principal para el cálculo.

Reemplazamos los valores desde la tabla de coeficientes nos queda la ecuación


de la siguiente manera:
𝑦 = −13,82 + 0,56𝑥1 +1,10𝑥2

Si consideramos los valores que tomaría X1 y X2 nos queda:

y= 28,00928382 “X1”
y= 28.009.283,82 millones “X2”
3 er Ejercicio Regresión Múltiple
Como parte de un estudio para investigar la relación entre la tensión nerviosa
(estrés) y otras variables (tamaño de la empresa, número de años en la posición
actual, salario anual en miles de dólares, edad en años), se reunieron los
siguientes datos a partir de una muestra aleatoria simple de quince ejecutivos de
una empresa.

a) Variables predictoras: (Constante), Edad, Tamaño empresa, Salario anual,


Años en posición
b) Variable dependiente: Estrés

a. Variable dependiente: Estrés


Solución Ejercicio

La recta de regresión es:

Estrés = −126,505+0,176 “Tamaño” –1,563 “Años” +1,575 “Salario” +1,629 “Edad”

Interpretación de los coeficientes de regresión:

Intercepto =-126,505 Si el tamaño de la empresa, el número de años, el salario y


la edad fueran cero, es decir, si todas las variables explicativas fueran cero, el
puntaje de estrés del ejecutivo sería menos 126,505

Pendiente de Tamaño: Por cada unidad que aumenta el tamaño de la empresa, el


estrés del ejecutivo aumenta en 0,176 unidades.

Pendiente de Años: Por cada año en posición actual, el estrés del ejecutivo
disminuye en 1,563 puntos.

Pendiente de Salario: Por cada mil dólares que aumenta el salario, el estrés del
ejecutivo aumenta en 1,575 puntos.

Pendiente de la edad: por cada año de edad, el estrés del ejecutivo aumenta en
1,629 puntos.

El coeficiente de determinación que se usa en regresión lineal múltiple es el R 2


ajustado, que en este caso es de 0,779.

Este coeficiente nos indica que las variables usadas en el modelo explican en un
77,9% la variabilidad total del estrés.

Los test t de los coeficientes de regresión sirven para docimar la hipótesis:

Ho: Bj = 0

Bj H1: ≠ 0 En este problema tenemos 4 tests de esta forma (j=1,2,3,4).

Al examinar los valores p correspondientes a cada uno de los tests nos damos
cuenta que casi todas las pendientes son significativas (distintas de cero), salvo la
de la variable Años en posición actual, cuyo valor p es 0,455, por lo tanto
aceptamos la hipótesis nula, y concluimos que la pendiente es igual a cero.

Por lo tanto este no sería un modelo adecuado para describir el estrés de los
ejecutivos, deberíamos ajustar otro modelo sin la variable "Años en posición
actual".
El estimador de la desviación estándar poblacional es 24,031 o la raíz de la media
cuadrática residual: raíz de 577,493= 24,03

Este es un estimador de la variabilidad del estrés considerando las variables


explicativas del modelo, y lo podemos contrastar con el estimador de la
variabilidad del estrés de 51,164 que es la desviación estándar del estrés sin
tomar en cuenta estas variables.

Potrebbero piacerti anche