Sei sulla pagina 1di 9

REGRESIÓN LINEAL

Los modelos estadísticos lineales describen cómo


cambian las medias de varias poblaciones al
modificarse algún factor que define a las poblaciones.
Para describir las mediciones de los elementos de la
población, se utiliza un modelo sencillo, dado por:

Yi = μ + i

Donde Yi es la medición en el elemento i-ésimo de la


población. μ es el promedio de todos lo valores
teóricos y i es un error aleatorio originado por los
aspectos específicos del elemento i-ésimo.
MODELOS DE REGRESIÓN LINEAL SIMPLE

El caso de la regresión lineal simple considera sólo un regresor o


predictor x, y una variable independiente o repuesta Y. Supóngase
que la verdadera relación entre Y y x es una línea recta y que la
observación Y en cada nivel x es una variable aleatoria, el valor
esperado de y para cada valor de x es:

E(Yx) = 0 + 1 + i

Donde la ordenada al origen 0 y la pendiente 1 son los coeficientes


desconocidos de la regresión. Se supone que cada observación Y,
puede describirse por el modelo

Yi = 0 + 1 Xi+ 

Donde  es un error aleatorio con media cero y varianza 2. También


se supone que los errores aleatorios corresponden a
observaciones diferentes son variables aleatorias no
correlacionadas.
El modelo se refiere a poblaciones con un número de elementos muy
grande o infinito, no es posible conocer con certeza los valores de 0
y 1. Para estimar los valores de 0 , 1 y 2 es necesario tomar
muestras aleatorias de algunas de las poblaciones para diferentes
valores de x. De tal manera que la muestra estará constituida por n
elementos con varios valores de x. Al efectuar las mediciones
obtenemos n parejas de valores (Xi, Yi).

Con las n parejas de valores, podemos encontrar la ecuación de una


línea recta que mejor represente a esos n puntos. Se considera mejor
una recta que produzca discrepancias entre los puntos y la recta de
menor magnitud, midiendo las discrepancias en términos de los
valores de Y y no discrepancias para X. Es decir, si una posible recta
Yi = a + bXi las discrepancias son Yi – Yi.

Como estas discrepancias o desviaciones podrán ser positivas o


negativas, su promedio no tiene ningún valor para medir si la recta
da una buena representación o no; para evitar esto, tradicionalmente
se consideran los cuadrados de esas discrepancias. En estas
condiciones se buscan los valores de a y b que determinan una recta
que minimice la suma de cuadrados de las discrepancias, lo que se
conoce como la recta de mínimos cuadrados.
El problema de determinar los valores a y b de la recta
de mínimos cuadrados, consiste en encontrar los
valores que minimicen la expresión:

Debemos tener presente que los valores de a y b estiman a los


valores de 0 y 1. Entonces las estimaciones de mínimos
cuadrados de la ordenada en el origen y la pendiente del modelo
de regresión lineal simple son:
 n  n 
n
  y i   xi 
 i 1  i 1 
 y x
i i 
n
1  i 1
2
 n

n
  xi 
 i 1 

i 1
x 2
i 
n

Donde:
 n 
y 1
n
y
i 1 i
y  n 
x 1
n
i 1
xi
Por tanto, la línea de regresión estimada o ajustada es:

y = 0 + 1 x

Nótese que cada par de observaciones satisface a la relación

yi = 0 + 1 xi + i

donde i = yi – yi recibe el nombre de residuo. El residuo describe el


error en el ajuste del modelo en la i-ésima observación yi. Los
residuos se utilizan para proporcionar información sobre la
adecuación del modelo ajustado.

Se dice que a estima el valor de 0 y que b estima 1

Como 1 es el coeficiente que determina el cambio de las medias de


Y, al cambiar una unidad de X, es importante evaluar, mediante una
prueba de hipótesis si 1 = 0 a pesar de tener una b distinta de
cero. Esto es, si 1 = 0 las medias de las poblaciones de Y no
cambian al variar los valores de X; se dice que la regresión no es
significativa.
El procedimiento para evaluar la prueba de hipótesis 1 = 0 se puede
hacer mediante una prueba F. La idea básica de la prueba es
descomponer en dos partes la variación de los valores de Y
alrededor de su medias Y, una parte explicada o debida a la
regresión y la otra no explicada o aleatoria debida al error. Si la
parte explica por la regresión es “mayor” que la aleatoria,
concluiremos que la regresión es significativa o real. Para
determinar qué tanto mayor debe ser la variación debida a la
regresión que la aleatoria o error, se recupera la distribución F y se
evalúa en términos de probabilidades.

La comparación de la variación explicada por la regresión y la no


explicada o error se hace mediante un cociente de las Sumas de
Cuadrados (SC) correspondientes divididas cada una de ellas entre
los llamados grados de libertad. A este cociente se le conoce como
la F calculada (Fc) y resulta ser una variable aleatoria que tomará
diferentes valores para distintas muestras, considerando que la
hipótesis 1 = 0 es cierta.
SCregresió n
1 
 iY  Y  2

Fc  
SCerror  Yi  Yi  2

1  n2

Este estadístico toma valores cercanos a 1


cuando la hipótesis 1 = 0 es cierta y valores
mayores que 1 cuando la hipótesis no es cierta.
Análisis de varianza. Regresión lineal Simple
Fuente de Grados Sumas de Cuadrados Cuadrado F
variabilida de SC medio
d F.V. libertad CM
g.l.
 Y  Y 
2
Debida a
 Y  Y 
2 i

 Y  Y   b  X i  X  Yi  Y   b 2   X i  X 
 
2 2

la  i
2
1 i i Y  Y
regresión  n  2
Error n 2

 Y  Y    Y  Y    Y  Y 
2
(No i i i
 Y  Y 
2
i 1
explicada n-2 SC total - SC regresión i

n2
por la
regresión)
Total
alrededor
de la
n-1 
 iY  Y  2
 i
Y 2
 n  Y  2

media

Potrebbero piacerti anche