Investigaci

INSTITUTOTECNOLOGICO
INSTITUTO TECNOLOGICO SUPERIOR DESUPERIOR

ALVARADO
DE ALVARADO – Campus Medellín
INGENIERÍA INDUSTRIAL
Materia:
ESTADÍSTICA INFERENCIAL II
Semestre Grupo Sistema:

to.
4 Semestre UNICO SEMIESCOLARIZADO
Producto Académico:
REGRESIÓN LINEAL SIMPLE Y MULTIPLE
Presenta:
LENIN MANUEL HERNÁNDEZ JIMÉNEZ
Docente:
ING. XÓCHITL DEL CARMEN ROMERO HIPÓLITO
MEDELLIN DE BRAVO, VER. A 27 DE ABRIL DE 2017

INSTITUTO TECNOLOGICO SUPERIOR DE ALVARADO
INTRODUCCIÓN
En la industria con mucha frecuencia es necesario resolver problemas que

implican conjuntos de variables, cuando se sabe que existe alguna relación
inherente entre ellas. A partir de lo anterior, es necesario establecer modelos que
expliquen dicha relación. Cuando, simultáneamente, contemplamos dos
variables continuas, aunque por extensión se pueden emplear para variables
discretas cuantitativas, surgen preguntas y problemas específicos.
Esencialmente, se emplearán estadísticos descriptivos y técnicas de estimación
para contestar esas preguntas, y técnicas de contraste de hipótesis específicos
para resolver dichos problemas. La mayoría de estos métodos están
encuadrados en las técnicas regresión y correlación
REGRESIÓN LINEAL SIMPLE
La finalidad de una ecuación de regresión es estimar los valores de una variable

con base en los valores conocidos de la otra. Otra forma de emplear una
ecuación de regresión es para explicar los valores de una variable en términos
de otra. El análisis de regresión únicamente indica qué relación matemática
podría haber, de existir una. Las suposiciones que se realizan al aplicar las
técnicas de regresión lineal son:
• El modelo propuesto es lineal (es decir existe relación entre la variable

explicativa y la variable explicada, y esta relación es lineal). Es decir se asume
que: Var respuesta = βo + variable explicativa. β1+ ε siendo β 0 el término
independiente (constante) β1el coeficiente de regresión de la variable explicativa
(pendiente) y ε es una variable aleatoria que se llama error residual.
• La variable explicativa se ha medido sin error.
• El valor esperado de e del modelo es cero.
• La varianza de e (y por lo tanto de la variable respuesta) es constante.
• Los ε son independientes entre sí.
• Si se desean realizar contrastes de hipótesis sobre los parámetros

(coeficientes) o sobre el modelo, también es necesario que la distribución de ε
sea normal.
Para estudiar la validez del modelo es necesario confirmar estas hipótesis

mediante el estudio de los residuos (valores observados - valores predichos):
normalidad, tendencias, etc. Cuando no se cumplen los criterios de aplicación es
necesario realizar transformaciones a las variables, o bien para obtener una
relación lineal o bien para homogeneizar la varianza. La regresión lineal simple
comprende el intento de desarrollar una línea recta o ecuación matemática lineal
que describa la relación entre dos variables. La regresión puede ser utilizada de
diversas formas. Se emplean en situaciones en la que las dos variables miden
aproximadamente lo mismo, pero en las que una variable es relativamente
costosa, o por el contrario, es poco interesante trabajar con ella, mientras que
con la otra variable no ocurre lo mismo.
Ecuación Lineal Simple
Dos características importantes de una ecuación lineal:
• La independencia de la recta
• La localización de la recta en algún punto. Una ecuación lineal tiene la forma:
Forma general de la ecuación de regresión lineal simple
Y´= a + Bx
Donde: Y´ se lee Y prima, es el valor pronosticado de la variable Y para un valor

seleccionado de X.
a es la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y

cuando X = 0. Dicho de otra forma, corresponde al valor estimado de Y, donde
la recta de regresión cruza el eje Y, cuando X = 0.
B es la pendiente de la recta, o el cambio promedio en Y´ por unidad de cambio

(incremento o decremento) en la variable independiente X.
x es cualquier valor seleccionado de la variable independiente.
Con esta expresión se hace referencia al proceso matemático que sirve para
ajustar una línea recta a través de un conjunto de datos bivariables asentados
en una gráfica de dispersión. Dicha línea se conoce como línea de regresión
simple. El primer paso es recoger datos experimentales correspondientes a n
individuos con información de dos variables cuantitativas: una de ellas se
considera variable explicativa (Variable x) y la otra se considera variable
respuesta (Variable y). El modelo que se asume es:
y = βo + x β1 + ε
Los coeficientes βo y β1 se estiman por b0 y por b1 a través del método de

mínimos cuadrados.
Método de mínimos cuadrados
Es el procedimiento más utilizado por adaptar una recta aun conjunto de punto
se le que conoce como método de mínimos cuadrados. La recta resultante
presenta 2 característica importantes: • Es nula la suma de desviaciones

verticales en los puntos a partir de la recta • Es mínima la suma de los cuadrados
de dichas desviaciones Para un valor dado de X, por ejemplo, X1, habrá una
diferencia entre el valor Y1 y el correspondiente valor de la curva C. Esta
diferencia se denota por D1, que se conoce como desviación, error o residuo.
REGRESIÓN LINEAL MULTIPLE
En la Regresión lineal múltiple modelizamos la relación entre una variable

dependiente y dos o más variables independientes mediante una función lineal,
una función que será, ahora, no una recta, como sucedía con la Regresión lineal
simple, sino un plano (si tenemos dos variables independientes) o un hiperplano
(si tenemos más de dos variables independientes).
En la Regresión lineal múltiple el punto de partida es el mismo que en la

Regresión lineal simple. Se pretende modelizar la relación entre unas variables
con la finalidad última de poder pronosticar una de ellas: la variable dependiente,
a partir del conocimientos de las otras: las variables independientes. En la
Regresión lineal múltiple se introducen nuevas variables independientes con la
finalidad de reducir la dispersión de la predicción, con la finalidad de disminuir el
residuo.
El modelo matemático es, ahora:
y=a1x1+a2x2+…+adxd+b+e
donde a1, a2,…, ad y b son los coeficientes del modelo y donde e es el residuo,
que, como en la Regresión lineal simple, supondremos que sigue una
distribución normal N(0, DE).
Aunque la Regresión lineal múltiple es, en buena parte, una generalización de la

Regresión lineal simple, tiene unas particularidades que conviene precisar.
Una de sus peculiaridades es la tendencia a llenar excesivamente el modelo.

Hay la tendencia a ir introduciendo variables, hinchando el modelo y esto es muy
perjudicial. Para que las cosas funcionen lo mejor posible conviene trabajar con
variables que sean independientes entre ellas.
Observemos que en el punto anterior he usado la noción de independencia entre

variables para referirme a las variables que se denominan independientes en el
modelo de regresión. Recordemos que de esas variables tendremos, en el futuro,
valores concretos para un individuo y a partir de ellos trataremos de pronosticar
el valor de una variable dependiente que desconoceremos su valor para ese
individuo.
Pueden observarse dos nociones de independencia distintas, pues, en lo que

estamos diciendo ahora. Una cosa es la posición de las variables en el modelo
de Regresión y otra es el que las variables sean independientes entre ellas, que
significa que la correlación entre ellas sea cero.
Cuando no se cumple esta relación de independencia entre las variables

independientes se produce un fenómeno de colinealidad. Esto es perjudicial para
el modelo. El perjuicio representa que las estimaciones de los parámetros del
modelo (los coeficientes), que son los elementos básicos para la construcción de
los pronósticos de la variable dependiente, tienen más Error estándar. Y el Error
estándar, como Desviación estándar de una predicción, es uno de los principales
criterios de calidad de una estimación.
Hay distintos mecanismos para comprobar si tenemos un exceso de

colinealidad. El Test de Belsey, Kuh y Welsch (Ver Herbario de técnicas) es uno
de los más usados para comprobar si tenemos ese exceso de colinealidad. Ante
un exceso de colinealidad conviene hacer una revisión y una nueva
consideración de las variables independientes a usar en el modelo de Regresión,
eliminando alguna de ellas o haciendo una Análisis de componentes principales
(Técnica multivariante que veremos más adelante).
De hecho, parece lógico, en una Regresión lineal múltiple, pedirle a las variables
independientes que sean independientes entre ellas. Pensemos que si no lo son,
si tienen un cierto grado de dependencia, es porque de alguna forma comparten
aspectos entre ellas, en cierta forma dicen cosas similares esas variables. Por lo
tanto, a la hora de ser usadas para predecir una variable dependiente se produce
un fenómeno de redundancia: estamos usando varias veces lo mismo para
pronosticar algo. Y esto se paga con más imprecisión en las estimaciones.
Otra peculiaridad de la Regresión lineal múltiple es la posibilidad de construir el

modelo paso a paso. Es el procedimiento denominado, en inglés, Stepwise.
Al realizar una Regresión lineal múltiple hay, pues, tres modalidades de

estimación del modelo:
a. Forzando la entrada en el modelo de todas las variables elegidas.
b. Mediante un Stepwise hacia delante. La Regresión entonces se denomina

Fordward Stepwise Regression.
c. Mediante un Stepwise hacia atrás. La Regresión entonces se denomina

Backward Stepwise Regression.
Expliquemos las dos variantes últimas, puesto que la primera no precisa ninguna
explicación.
El Stepwise hacia delante lo que hace es, paso a paso, ir introduciendo, en el

modelo de Regresión lineal, como dice su nombre: paso a paso, variables
independientes, hasta completar el mejor modelo posible.
En primer lugar crea un modelo con una única variable independiente. En

realidad, pues, el primer paso es crear una Regresión lineal simple. Pero lo hace
eligiendo entre todas las variables independientes la que consigue un mejor
modelo, si es que lo consigue. En este primer paso debe existir entre las
variables independientes una variable que tenga una relación significativa con la
variable dependiente. De lo contrario el procedimiento acabaría aquí y no
tendríamos modelo matemático para relacionar esas variables.
En el segundo paso se prueba de introducir, entre las variables independientes

que quedan, cuál es la que consigue un modelo mejor, si es que alguna lo
consigue. Se trata de establecer unos criterios de calidad mínimos. Lo que se
denomina un Criterio de entrada. Si no se alcanzan nos quedamos con una
Regresión lineal simple y se rechazan las otras variables.
Si hemos conseguido introducir en el modelo una segunda variable

independiente se valora, probando con todas las variables independientes que
quedan, la posibilidad de introducir una tercera. De nuevo se aplican unos

criterios de entrada que si no se alcanzan no se introduce ninguna variable más.
Y así se va haciendo hasta alcanzar el mejor modelo. Es importante tener en

cuenta que en cualquiera de estos pasos hay la posibilidad de extraer una
variable que anteriormente se había introducido. Y cambiar así la disposición
inicial. Por ejemplo, supongamos que en los pasos anteriores se habían
introducido las variables x3 y x5 y, al probar una nueva introducción, al ensayar
con, por ejemplo, x7, el procedimiento observa que consigue mejores resultados
sacando del modelo la variable x3 que había sido la primera que había
introducido, quedando, entonces, el modelo con x5 y x7.
El Stepwise hacia atrás es lo mismo pero ahora partiendo que hemos empezado
forzando la entrada de todas las variables dentro del modelo y, a continuación,
en el siguiente paso, mirar de sacar una de las variables independientes: una
variable que al sacarla alteremos la calidad del modelo menos que un valor
umbral establecido, lo que se denomina, ahora, un Criterio de salida. Si es así,
si podemos extraer sin perjudicar por encima de ese valor preestablecido,
reducimos el modelo.
Y así, paso a paso, pero en sentido contrario, vamos creando el mejor modelo
posible, la mejor ecuación posible que relacione una variable dependiente con
varias variables independientes.
Los criterios de entrada y de salida, que en muchas ocasiones son el mismo

valor, generalmente vienen dados por el valor de un estadístico, por el valor de
la F de Fisher. Puede verse en el Herbario de técnicas, en concreto, la técnica
“Contraste de hipótesis de la pendiente de Regresión” que valores de F
pequeños implican buena relación entre la variable dependiente y la
independiente. Y valores grandes implican mala relación. Pues el criterio de
entrada será que el valor de la F esté por debajo de cierto valor y el de salida
que esté por encima de también de cierto valor, que suele ser el mismo. En otras
ocasiones el criterio de entrada o de salida es un determinado p-valor prefijado
asociado al parámetro de la variable que se decide si entra o no en el modelo.
Dados unos datos muestrales de una serie de individuos donde tengamos de

ellos los valores tanto de la variable dependiente como de todas las variables
independientes, cualquiera de los tres procedimientos estima los coeficientes del
modelo y el valor de la Desviación estándar del residuo; o sea, de ese elemento
que sumamos a cualquier procedimiento de Regresión.
Todos estos coeficientes debe decidirse si son coeficientes significativos, valores

fiables que nos proporcionan una modelo asentado, estable, que refleja una
realidad no sólo muestral, sino una realidad poblacional.
Para que todas estas estimaciones y estas significaciones proporcionadas,

mediante p-valores, por técnicas estadística, sean fiables es necesario que se
cumplan algunas condiciones que ahora comentaré.
No olvidemos que toda la llamada Estadística paramétrica se construye con

procedimientos cuyas decisiones y cuyas construcciones se basan en unas
suposiciones, bastante exigentes, que deben cumplirse.
Por otro lado las suposiciones que ahora comentaré son condiciones
compartidas con la Regresión lineal simple. Habitualmente la mayor parte de
software estadísticos que realizan Regresión lineal, tanto la simple como la
múltiple, y, en ésta última, tanto los dos tipos de Stepwise como la que fuerza la
entrada de todas las variables independientes, sus inferencias se basan en estas
suposiciones.
Una de las comprobaciones necesarias a hacer en estos modelos es que

realmente los residuos sigan la distribución normal N(0, DE). Suposición nuclear
en la Estadística paramétrica. Y fundamental para el buen funcionamiento de la
mayor parte módulos de Regresión lineal en los distintos software comerciales.
Una de las técnicas para comprobar esta normalidad es el Test de la ji-cuadrado

de bondad de ajuste a una distribución. Otra muy utilizada es el Test de
Kolmogorov.
Otra comprobación importante es la Homogeneidad de varianzas. Esto significa

que el residuo tienen una dispersión homogénea, igual, sean cuales sean los
valores de las variables independientes. Hay diversas pruebas que se han
desarrollado para comprobar si se cumple o no esta condición. Una es el Test

de Glesjer.
Otra comprobación importante es que no haya autocorrelación entre los valores

en su orden de obtención. Que sean valores independientes uno respecto a otro.
El Test de Durbin-Watson es el apropiado en estos casos. La independencia de
los datos entre sí es una suposición también del modelo de Regresión lineal.
Otra consideración importante a investigación en una Regresión es la influencia

de cada punto. No todo punto tiene la misma influencia. Es importante que no
haya puntos excesivamente influyentes. Que las estimaciones de los parámetros
del modelo queden demasiado en manos de esos puntos. Entre muchos criterios
existentes uno de los más usados es el criterio de Cook (Ver Herbario de
técnicas) para la detección de influencia.
Cuando alguna o varias de las condiciones necesarias no se cumplen una de las

opciones más usuales es la Regresión no paramétrica. En este ámbito los
métodos más usados se basan en la utilización de estimaciones de funciones de
densidad no paramétricas.
De hecho, los diferentes procedimientos de Regresión no paramétrica, tanto

simple como múltiple, se basan en procedimientos de construcción, sobre el
terreno, partiendo de la muestra, donde habrá una enorme flexibilidad que
vendrá dada porque la función irá siempre a remolque de la posición de los
valores muestrales que tengamos.
Posiblemente el modelo de Regresión no paramétrica más utilizado es el

Estimador de Nadaraya-Watson que se puede consultar en la sección Herbario
de técnicas.
Finalmente un criterio de calidad de una Regresión lineal múltiple, como sucede

también en la Regresión lineal simple, es el Coeficiente de determinación, la
R2 (Ver Herbario de técnicas). Aunque el valor de este coeficiente es un número
que va del 0 al 1 es frecuente expresarlo en tanto por ciento. Es una forma de
expresar el grado de determinación de la variable dependiente por parte de las
independientes.
CONCLUSIONES
El análisis de regresión y correlación lineal constituyen métodos que se emplean

para conocer las relaciones y significación entre series de datos. Lo anterior, es
de suma importancia para la industria ya que es aquí en donde se presentan
variables de respuesta e independientes las cuales interactúan para originar las
características de un proceso en particular y por ende; analizar, predecir valores
de la variable dependiente y examinar el grado de fuerza con que se relacionan
dichas variables. La regresión lineal simple y la regresión múltiple, analiza la
relación de dos o más variables continuas, cuando analiza dos variables a esta
se le conoce como variable bivariantes que pueden corresponder a variables
cualitativas. La finalidad de una ecuación de regresión es la de estimar los
valores de una variable con base en los valores conocidos de la otra. Del mismo
modo, una ecuación de regresión explica los valores de una variable en términos
de otra. Es decir, se puede intuir una relación de causa y efecto entre dos o más
variables. El análisis de regresión únicamente indica qué relación matemática
podría haber, de existir una.

Investigaci

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Investigaci

Caricato da

Copyright:

Formati disponibili

INSTITUTOTECNOLOGICO

INSTITUTO TECNOLOGICO SUPERIOR DESUPERIOR

DE ALVARADO – Campus Medellín

Semestre Grupo Sistema:

MEDELLIN DE BRAVO, VER. A 27 DE ABRIL DE 2017

En la industria con mucha frecuencia es necesario resolver problemas que

REGRESIÓN LINEAL SIMPLE

La finalidad de una ecuación de regresión es estimar los valores de una variable

• El modelo propuesto es lineal (es decir existe relación entre la variable

• La variable explicativa se ha medido sin error.

• El valor esperado de e del modelo es cero.

• La varianza de e (y por lo tanto de la variable respuesta) es constante.

• Los ε son independientes entre sí.

• Si se desean realizar contrastes de hipótesis sobre los parámetros

Para estudiar la validez del modelo es necesario confirmar estas hipótesis

Ecuación Lineal Simple

Dos características importantes de una ecuación lineal:

• La localización de la recta en algún punto. Una ecuación lineal tiene la forma:

Forma general de la ecuación de regresión lineal simple

Donde: Y´ se lee Y prima, es el valor pronosticado de la variable Y para un valor

a es la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y

B es la pendiente de la recta, o el cambio promedio en Y´ por unidad de cambio

x es cualquier valor seleccionado de la variable independiente.

Los coeficientes βo y β1 se estiman por b0 y por b1 a través del método de

Método de mínimos cuadrados

presenta 2 característica importantes: • Es nula la suma de desviaciones

REGRESIÓN LINEAL MULTIPLE

En la Regresión lineal múltiple modelizamos la relación entre una variable

En la Regresión lineal múltiple el punto de partida es el mismo que en la

El modelo matemático es, ahora:

Aunque la Regresión lineal múltiple es, en buena parte, una generalización de la

Una de sus peculiaridades es la tendencia a llenar excesivamente el modelo.

Observemos que en el punto anterior he usado la noción de independencia entre

Pueden observarse dos nociones de independencia distintas, pues, en lo que

Cuando no se cumple esta relación de independencia entre las variables

Hay distintos mecanismos para comprobar si tenemos un exceso de

Otra peculiaridad de la Regresión lineal múltiple es la posibilidad de construir el

Al realizar una Regresión lineal múltiple hay, pues, tres modalidades de

a. Forzando la entrada en el modelo de todas las variables elegidas.

b. Mediante un Stepwise hacia delante. La Regresión entonces se denomina

c. Mediante un Stepwise hacia atrás. La Regresión entonces se denomina

El Stepwise hacia delante lo que hace es, paso a paso, ir introduciendo, en el

En primer lugar crea un modelo con una única variable independiente. En

En el segundo paso se prueba de introducir, entre las variables independientes

Si hemos conseguido introducir en el modelo una segunda variable

quedan, la posibilidad de introducir una tercera. De nuevo se aplican unos

Y así se va haciendo hasta alcanzar el mejor modelo. Es importante tener en

Los criterios de entrada y de salida, que en muchas ocasiones son el mismo

Dados unos datos muestrales de una serie de individuos donde tengamos de

Todos estos coeficientes debe decidirse si son coeficientes significativos, valores

Para que todas estas estimaciones y estas significaciones proporcionadas,

No olvidemos que toda la llamada Estadística paramétrica se construye con

Una de las comprobaciones necesarias a hacer en estos modelos es que

Una de las técnicas para comprobar esta normalidad es el Test de la ji-cuadrado

Otra comprobación importante es la Homogeneidad de varianzas. Esto significa

desarrollado para comprobar si se cumple o no esta condición. Una es el Test

Otra comprobación importante es que no haya autocorrelación entre los valores

Otra consideración importante a investigación en una Regresión es la influencia

Cuando alguna o varias de las condiciones necesarias no se cumplen una de las

De hecho, los diferentes procedimientos de Regresión no paramétrica, tanto

Posiblemente el modelo de Regresión no paramétrica más utilizado es el

Finalmente un criterio de calidad de una Regresión lineal múltiple, como sucede

El análisis de regresión y correlación lineal constituyen métodos que se emplean