Sei sulla pagina 1di 11

INSTITUTOTECNOLOGICO

INSTITUTO TECNOLOGICO SUPERIOR DESUPERIOR


ALVARADO

DE ALVARADO – Campus Medellín

INGENIERÍA INDUSTRIAL

Materia:
ESTADÍSTICA INFERENCIAL II

Semestre Grupo Sistema:


to.
4 Semestre UNICO SEMIESCOLARIZADO

Producto Académico:
REGRESIÓN LINEAL SIMPLE Y MULTIPLE

Presenta:
LENIN MANUEL HERNÁNDEZ JIMÉNEZ

Docente:
ING. XÓCHITL DEL CARMEN ROMERO HIPÓLITO

MEDELLIN DE BRAVO, VER. A 27 DE ABRIL DE 2017


INSTITUTO TECNOLOGICO SUPERIOR DE ALVARADO

INTRODUCCIÓN

En la industria con mucha frecuencia es necesario resolver problemas que


implican conjuntos de variables, cuando se sabe que existe alguna relación
inherente entre ellas. A partir de lo anterior, es necesario establecer modelos que
expliquen dicha relación. Cuando, simultáneamente, contemplamos dos
variables continuas, aunque por extensión se pueden emplear para variables
discretas cuantitativas, surgen preguntas y problemas específicos.
Esencialmente, se emplearán estadísticos descriptivos y técnicas de estimación
para contestar esas preguntas, y técnicas de contraste de hipótesis específicos
para resolver dichos problemas. La mayoría de estos métodos están
encuadrados en las técnicas regresión y correlación
INSTITUTO TECNOLOGICO SUPERIOR DE ALVARADO

REGRESIÓN LINEAL SIMPLE

La finalidad de una ecuación de regresión es estimar los valores de una variable


con base en los valores conocidos de la otra. Otra forma de emplear una
ecuación de regresión es para explicar los valores de una variable en términos
de otra. El análisis de regresión únicamente indica qué relación matemática
podría haber, de existir una. Las suposiciones que se realizan al aplicar las
técnicas de regresión lineal son:

• El modelo propuesto es lineal (es decir existe relación entre la variable


explicativa y la variable explicada, y esta relación es lineal). Es decir se asume
que: Var respuesta = βo + variable explicativa. β1+ ε siendo β 0 el término
independiente (constante) β1el coeficiente de regresión de la variable explicativa
(pendiente) y ε es una variable aleatoria que se llama error residual.

• La variable explicativa se ha medido sin error.

• El valor esperado de e del modelo es cero.

• La varianza de e (y por lo tanto de la variable respuesta) es constante.

• Los ε son independientes entre sí.

• Si se desean realizar contrastes de hipótesis sobre los parámetros


(coeficientes) o sobre el modelo, también es necesario que la distribución de ε
sea normal.

Para estudiar la validez del modelo es necesario confirmar estas hipótesis


mediante el estudio de los residuos (valores observados - valores predichos):
normalidad, tendencias, etc. Cuando no se cumplen los criterios de aplicación es
necesario realizar transformaciones a las variables, o bien para obtener una
relación lineal o bien para homogeneizar la varianza. La regresión lineal simple
comprende el intento de desarrollar una línea recta o ecuación matemática lineal
que describa la relación entre dos variables. La regresión puede ser utilizada de
diversas formas. Se emplean en situaciones en la que las dos variables miden
aproximadamente lo mismo, pero en las que una variable es relativamente
costosa, o por el contrario, es poco interesante trabajar con ella, mientras que
con la otra variable no ocurre lo mismo.
INSTITUTO TECNOLOGICO SUPERIOR DE ALVARADO

Ecuación Lineal Simple

Dos características importantes de una ecuación lineal:

• La independencia de la recta

• La localización de la recta en algún punto. Una ecuación lineal tiene la forma:

Forma general de la ecuación de regresión lineal simple

Y´= a + Bx

Donde: Y´ se lee Y prima, es el valor pronosticado de la variable Y para un valor


seleccionado de X.

a es la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y


cuando X = 0. Dicho de otra forma, corresponde al valor estimado de Y, donde
la recta de regresión cruza el eje Y, cuando X = 0.

B es la pendiente de la recta, o el cambio promedio en Y´ por unidad de cambio


(incremento o decremento) en la variable independiente X.

x es cualquier valor seleccionado de la variable independiente.

Con esta expresión se hace referencia al proceso matemático que sirve para
ajustar una línea recta a través de un conjunto de datos bivariables asentados
en una gráfica de dispersión. Dicha línea se conoce como línea de regresión
simple. El primer paso es recoger datos experimentales correspondientes a n
individuos con información de dos variables cuantitativas: una de ellas se
considera variable explicativa (Variable x) y la otra se considera variable
respuesta (Variable y). El modelo que se asume es:

y = βo + x β1 + ε

Los coeficientes βo y β1 se estiman por b0 y por b1 a través del método de


mínimos cuadrados.

Método de mínimos cuadrados

Es el procedimiento más utilizado por adaptar una recta aun conjunto de punto
se le que conoce como método de mínimos cuadrados. La recta resultante
INSTITUTO TECNOLOGICO SUPERIOR DE ALVARADO

presenta 2 característica importantes: • Es nula la suma de desviaciones


verticales en los puntos a partir de la recta • Es mínima la suma de los cuadrados
de dichas desviaciones Para un valor dado de X, por ejemplo, X1, habrá una
diferencia entre el valor Y1 y el correspondiente valor de la curva C. Esta
diferencia se denota por D1, que se conoce como desviación, error o residuo.

REGRESIÓN LINEAL MULTIPLE

En la Regresión lineal múltiple modelizamos la relación entre una variable


dependiente y dos o más variables independientes mediante una función lineal,
una función que será, ahora, no una recta, como sucedía con la Regresión lineal
simple, sino un plano (si tenemos dos variables independientes) o un hiperplano
(si tenemos más de dos variables independientes).

En la Regresión lineal múltiple el punto de partida es el mismo que en la


Regresión lineal simple. Se pretende modelizar la relación entre unas variables
con la finalidad última de poder pronosticar una de ellas: la variable dependiente,
a partir del conocimientos de las otras: las variables independientes. En la
Regresión lineal múltiple se introducen nuevas variables independientes con la
finalidad de reducir la dispersión de la predicción, con la finalidad de disminuir el
residuo.

El modelo matemático es, ahora:

y=a1x1+a2x2+…+adxd+b+e

donde a1, a2,…, ad y b son los coeficientes del modelo y donde e es el residuo,
que, como en la Regresión lineal simple, supondremos que sigue una
distribución normal N(0, DE).

Aunque la Regresión lineal múltiple es, en buena parte, una generalización de la


Regresión lineal simple, tiene unas particularidades que conviene precisar.

Una de sus peculiaridades es la tendencia a llenar excesivamente el modelo.


Hay la tendencia a ir introduciendo variables, hinchando el modelo y esto es muy
perjudicial. Para que las cosas funcionen lo mejor posible conviene trabajar con
variables que sean independientes entre ellas.
INSTITUTO TECNOLOGICO SUPERIOR DE ALVARADO

Observemos que en el punto anterior he usado la noción de independencia entre


variables para referirme a las variables que se denominan independientes en el
modelo de regresión. Recordemos que de esas variables tendremos, en el futuro,
valores concretos para un individuo y a partir de ellos trataremos de pronosticar
el valor de una variable dependiente que desconoceremos su valor para ese
individuo.

Pueden observarse dos nociones de independencia distintas, pues, en lo que


estamos diciendo ahora. Una cosa es la posición de las variables en el modelo
de Regresión y otra es el que las variables sean independientes entre ellas, que
significa que la correlación entre ellas sea cero.

Cuando no se cumple esta relación de independencia entre las variables


independientes se produce un fenómeno de colinealidad. Esto es perjudicial para
el modelo. El perjuicio representa que las estimaciones de los parámetros del
modelo (los coeficientes), que son los elementos básicos para la construcción de
los pronósticos de la variable dependiente, tienen más Error estándar. Y el Error
estándar, como Desviación estándar de una predicción, es uno de los principales
criterios de calidad de una estimación.

Hay distintos mecanismos para comprobar si tenemos un exceso de


colinealidad. El Test de Belsey, Kuh y Welsch (Ver Herbario de técnicas) es uno
de los más usados para comprobar si tenemos ese exceso de colinealidad. Ante
un exceso de colinealidad conviene hacer una revisión y una nueva
consideración de las variables independientes a usar en el modelo de Regresión,
eliminando alguna de ellas o haciendo una Análisis de componentes principales
(Técnica multivariante que veremos más adelante).

De hecho, parece lógico, en una Regresión lineal múltiple, pedirle a las variables
independientes que sean independientes entre ellas. Pensemos que si no lo son,
si tienen un cierto grado de dependencia, es porque de alguna forma comparten
aspectos entre ellas, en cierta forma dicen cosas similares esas variables. Por lo
tanto, a la hora de ser usadas para predecir una variable dependiente se produce
un fenómeno de redundancia: estamos usando varias veces lo mismo para
pronosticar algo. Y esto se paga con más imprecisión en las estimaciones.
INSTITUTO TECNOLOGICO SUPERIOR DE ALVARADO

Otra peculiaridad de la Regresión lineal múltiple es la posibilidad de construir el


modelo paso a paso. Es el procedimiento denominado, en inglés, Stepwise.

Al realizar una Regresión lineal múltiple hay, pues, tres modalidades de


estimación del modelo:

a. Forzando la entrada en el modelo de todas las variables elegidas.

b. Mediante un Stepwise hacia delante. La Regresión entonces se denomina


Fordward Stepwise Regression.

c. Mediante un Stepwise hacia atrás. La Regresión entonces se denomina


Backward Stepwise Regression.

Expliquemos las dos variantes últimas, puesto que la primera no precisa ninguna
explicación.

El Stepwise hacia delante lo que hace es, paso a paso, ir introduciendo, en el


modelo de Regresión lineal, como dice su nombre: paso a paso, variables
independientes, hasta completar el mejor modelo posible.

En primer lugar crea un modelo con una única variable independiente. En


realidad, pues, el primer paso es crear una Regresión lineal simple. Pero lo hace
eligiendo entre todas las variables independientes la que consigue un mejor
modelo, si es que lo consigue. En este primer paso debe existir entre las
variables independientes una variable que tenga una relación significativa con la
variable dependiente. De lo contrario el procedimiento acabaría aquí y no
tendríamos modelo matemático para relacionar esas variables.

En el segundo paso se prueba de introducir, entre las variables independientes


que quedan, cuál es la que consigue un modelo mejor, si es que alguna lo
consigue. Se trata de establecer unos criterios de calidad mínimos. Lo que se
denomina un Criterio de entrada. Si no se alcanzan nos quedamos con una
Regresión lineal simple y se rechazan las otras variables.

Si hemos conseguido introducir en el modelo una segunda variable


independiente se valora, probando con todas las variables independientes que
INSTITUTO TECNOLOGICO SUPERIOR DE ALVARADO

quedan, la posibilidad de introducir una tercera. De nuevo se aplican unos


criterios de entrada que si no se alcanzan no se introduce ninguna variable más.

Y así se va haciendo hasta alcanzar el mejor modelo. Es importante tener en


cuenta que en cualquiera de estos pasos hay la posibilidad de extraer una
variable que anteriormente se había introducido. Y cambiar así la disposición
inicial. Por ejemplo, supongamos que en los pasos anteriores se habían
introducido las variables x3 y x5 y, al probar una nueva introducción, al ensayar
con, por ejemplo, x7, el procedimiento observa que consigue mejores resultados
sacando del modelo la variable x3 que había sido la primera que había
introducido, quedando, entonces, el modelo con x5 y x7.

El Stepwise hacia atrás es lo mismo pero ahora partiendo que hemos empezado
forzando la entrada de todas las variables dentro del modelo y, a continuación,
en el siguiente paso, mirar de sacar una de las variables independientes: una
variable que al sacarla alteremos la calidad del modelo menos que un valor
umbral establecido, lo que se denomina, ahora, un Criterio de salida. Si es así,
si podemos extraer sin perjudicar por encima de ese valor preestablecido,
reducimos el modelo.

Y así, paso a paso, pero en sentido contrario, vamos creando el mejor modelo
posible, la mejor ecuación posible que relacione una variable dependiente con
varias variables independientes.

Los criterios de entrada y de salida, que en muchas ocasiones son el mismo


valor, generalmente vienen dados por el valor de un estadístico, por el valor de
la F de Fisher. Puede verse en el Herbario de técnicas, en concreto, la técnica
“Contraste de hipótesis de la pendiente de Regresión” que valores de F
pequeños implican buena relación entre la variable dependiente y la
independiente. Y valores grandes implican mala relación. Pues el criterio de
entrada será que el valor de la F esté por debajo de cierto valor y el de salida
que esté por encima de también de cierto valor, que suele ser el mismo. En otras
ocasiones el criterio de entrada o de salida es un determinado p-valor prefijado
asociado al parámetro de la variable que se decide si entra o no en el modelo.
INSTITUTO TECNOLOGICO SUPERIOR DE ALVARADO

Dados unos datos muestrales de una serie de individuos donde tengamos de


ellos los valores tanto de la variable dependiente como de todas las variables
independientes, cualquiera de los tres procedimientos estima los coeficientes del
modelo y el valor de la Desviación estándar del residuo; o sea, de ese elemento
que sumamos a cualquier procedimiento de Regresión.

Todos estos coeficientes debe decidirse si son coeficientes significativos, valores


fiables que nos proporcionan una modelo asentado, estable, que refleja una
realidad no sólo muestral, sino una realidad poblacional.

Para que todas estas estimaciones y estas significaciones proporcionadas,


mediante p-valores, por técnicas estadística, sean fiables es necesario que se
cumplan algunas condiciones que ahora comentaré.

No olvidemos que toda la llamada Estadística paramétrica se construye con


procedimientos cuyas decisiones y cuyas construcciones se basan en unas
suposiciones, bastante exigentes, que deben cumplirse.

Por otro lado las suposiciones que ahora comentaré son condiciones
compartidas con la Regresión lineal simple. Habitualmente la mayor parte de
software estadísticos que realizan Regresión lineal, tanto la simple como la
múltiple, y, en ésta última, tanto los dos tipos de Stepwise como la que fuerza la
entrada de todas las variables independientes, sus inferencias se basan en estas
suposiciones.

Una de las comprobaciones necesarias a hacer en estos modelos es que


realmente los residuos sigan la distribución normal N(0, DE). Suposición nuclear
en la Estadística paramétrica. Y fundamental para el buen funcionamiento de la
mayor parte módulos de Regresión lineal en los distintos software comerciales.

Una de las técnicas para comprobar esta normalidad es el Test de la ji-cuadrado


de bondad de ajuste a una distribución. Otra muy utilizada es el Test de
Kolmogorov.

Otra comprobación importante es la Homogeneidad de varianzas. Esto significa


que el residuo tienen una dispersión homogénea, igual, sean cuales sean los
valores de las variables independientes. Hay diversas pruebas que se han
INSTITUTO TECNOLOGICO SUPERIOR DE ALVARADO

desarrollado para comprobar si se cumple o no esta condición. Una es el Test


de Glesjer.

Otra comprobación importante es que no haya autocorrelación entre los valores


en su orden de obtención. Que sean valores independientes uno respecto a otro.
El Test de Durbin-Watson es el apropiado en estos casos. La independencia de
los datos entre sí es una suposición también del modelo de Regresión lineal.

Otra consideración importante a investigación en una Regresión es la influencia


de cada punto. No todo punto tiene la misma influencia. Es importante que no
haya puntos excesivamente influyentes. Que las estimaciones de los parámetros
del modelo queden demasiado en manos de esos puntos. Entre muchos criterios
existentes uno de los más usados es el criterio de Cook (Ver Herbario de
técnicas) para la detección de influencia.

Cuando alguna o varias de las condiciones necesarias no se cumplen una de las


opciones más usuales es la Regresión no paramétrica. En este ámbito los
métodos más usados se basan en la utilización de estimaciones de funciones de
densidad no paramétricas.

De hecho, los diferentes procedimientos de Regresión no paramétrica, tanto


simple como múltiple, se basan en procedimientos de construcción, sobre el
terreno, partiendo de la muestra, donde habrá una enorme flexibilidad que
vendrá dada porque la función irá siempre a remolque de la posición de los
valores muestrales que tengamos.

Posiblemente el modelo de Regresión no paramétrica más utilizado es el


Estimador de Nadaraya-Watson que se puede consultar en la sección Herbario
de técnicas.

Finalmente un criterio de calidad de una Regresión lineal múltiple, como sucede


también en la Regresión lineal simple, es el Coeficiente de determinación, la
R2 (Ver Herbario de técnicas). Aunque el valor de este coeficiente es un número
que va del 0 al 1 es frecuente expresarlo en tanto por ciento. Es una forma de
expresar el grado de determinación de la variable dependiente por parte de las
independientes.
INSTITUTO TECNOLOGICO SUPERIOR DE ALVARADO

CONCLUSIONES

El análisis de regresión y correlación lineal constituyen métodos que se emplean


para conocer las relaciones y significación entre series de datos. Lo anterior, es
de suma importancia para la industria ya que es aquí en donde se presentan
variables de respuesta e independientes las cuales interactúan para originar las
características de un proceso en particular y por ende; analizar, predecir valores
de la variable dependiente y examinar el grado de fuerza con que se relacionan
dichas variables. La regresión lineal simple y la regresión múltiple, analiza la
relación de dos o más variables continuas, cuando analiza dos variables a esta
se le conoce como variable bivariantes que pueden corresponder a variables
cualitativas. La finalidad de una ecuación de regresión es la de estimar los
valores de una variable con base en los valores conocidos de la otra. Del mismo
modo, una ecuación de regresión explica los valores de una variable en términos
de otra. Es decir, se puede intuir una relación de causa y efecto entre dos o más
variables. El análisis de regresión únicamente indica qué relación matemática
podría haber, de existir una.

Potrebbero piacerti anche