Unidad I PDF

1.
2 Regresin lineal mltiple

Muchas aplicaciones del anlisis de regresin involucran situaciones en donde se tiene
ms de una variable de regresin. Un modelo de regresin que contiene ms de un
regresor recibe el nombre de modelo de regresin mltiple.
Como ejemplo, supngase que la vida eficaz de una herramienta de corte depende de la
velocidad de corte y del ngulo de la herramienta. Un modelo de regresin mltiple que
puede describir esta relacin es el siguiente
Y 0 1 x1 2 x2
1-28
donde Y representa la vida media de la herramienta; x1 , la velocidad de corte; x2 , el

ngulo de la herramienta, y es un trmino de error aleatorio. Este es un modelo de
regresin lineal mltiple con dos regresores se utiliza el trmino lineal porque la ecuacin
1-28 es una funcin lineal de los parmetros desconocidos 0 , 1 y 2 .
El modelo de regresin de la ecuacin describe un plano en el espacio tridimensional
formado por Y, x1 y x2 . El parmetro 0 es la interseccin del plano. En ocasiones, los
parmetros 1 y 2 se conocen como coeficientes de regresin parciales, ya que 1
mide el cambio esperado en Y por unidad de cambio x1 cuando x2 se mantiene
constante, y 2 mide el cambio esperado en Y por unidad de cambio en x2 cuando x1 se
mantiene constante.
En general, la variable dependiente o respuesta y puede estar relacionada con k
variables independientes o regresores. El modelo
Y 0 1 x1 2 x2 k xk
1-29
recibe el nombre de modelo de regresin lineal mltiple con k variables de regresin. Los
parmetros j j 0, 1, , k , se conocen como coeficientes de regresin. Este modelo
describe un hiperplano en el espacio de dimensin k formado por variables de regresin
x j . El parmetro j representa el cambio esperado en la respuesta de Y por unidad de
cambio en x j cuando todos los dems regresores x j (i j ) se mantienen constantes.
Frecuentemente los modelos de regresin lineal mltiple se emplean como funciones de
aproximacin. Esto es, se desconoce la verdadera relacin funcional entre Y y
x1 , x2 , , xk pero sobre ciertos rangos de las variables independientes el modelo de
regresin lineal constituye una aproximacin adecuada.
Estimacin de los parmetros por mnimos cuadrados
El mtodo de mnimos cuadrados puede emplearse para estimar los coeficientes de
regresin del modelo lineal mltiple de la ecuacin 1-29
Ecuaciones normales de mnimos cuadrados

n
i 1
i 1
i 1
i 1
n 0 1 xi1 2 xi 2 k xik yi
n
i 1
i 1
i 1
i 1
i 1
0 xi1 1 xi21 2 xi1 xi 2 k xi1 xik xi1 yi
i 1
i 1
i 1
i 1
i 1
0 xik 1 xik xi1 2 xik xi 2 k xik2 xik yi
Ntese que existen p k 1 ecuaciones normales, una para cada coeficiente de

regresin desconocido. La solucin de las ecuaciones normales son los estimadores de
mnimos cuadrados de los coeficientes de regresin 0 , 1 ,, k . La solucin de las
ecuaciones normales pueden obtenerse con cualquier mtodo apropiado para la solucin
de sistemas de ecuaciones lineales.
Enfoque matricial para la regresin lineal mltiple
Al ajustar el modelo de regresin mltiple es mucho ms conveniente expresar las
operaciones matemticas en forma matricial. Supngase que existen k variables de
regresin y n observaciones ( xi1, xi 2 , , xik , yi ) , i 1, 2, , n , y que el modelo que
relaciona los regresores con la respuesta es
yi 0 1xi1 2 xi 2 k xik i , i 1, 2, , , n
Este modelo es un sistema de n ecuaciones que puede expresarse en notacin matricial
como
y X
1-30
donde
y1
y
y 2

yn
1 x11
1 x
21
X

1 x n1
x1x
x 2 k

x nk
x12
x 22
xn 2
0

1
y
1

2
En general, es un vector de observaciones de (n 1) , es una matriz de (n p) de los

niveles de las variables independientes, es un vector de ( p 1) formado por los
coeficientes de regresin y es un vector de (n 1) de errores aleatorios.
Se desea encontrar el vector de estimadores de mnimos cuadrados, , que minimiza
El estimador de mnimos cuadrados es la solucin para
en las ecuaciones
No se darn detalle sobre cmo realizar las derivadas anteriores; sin embargo. Las
ecuaciones resultantes que es necesario resolver son
X X Xy
1-31
Las ecuaciones (1-31) son las ecuaciones normales de mnimos cuadrados en forma
matricial, y son idnticas a la forma escalar que se vieron ya con anterioridad. Para
resolver las ecuaciones normales se multiplican ambos miembros de las ecuaciones
anteriores por la inversa X X . Por consiguiente, el estimador de mnimos cuadrados de
es
1-32
Ntese que existen p k 1 ecuaciones normales y p k 1 incgnitas (los valores de

0 , 1 , , k ) .
1.2.1 Pruebas de hiptesis en regresin lineal mltiple
En problemas de regresin lineal mltiple, existen ciertas pruebas de hiptesis sobre los
parmetros del modelo que son tiles para medir la adecuacin del mismo. En este tema
se describirn varios procedimientos importantes en las pruebas de hiptesis. Al igual que
en el caso de la regresin lineal simple, la prueba de hiptesis requiere que los trminos
3
de error i del modelo de regresin tenga distribuciones normales e independientes con

media cero y varianza 2 .
Tabla 1-3 Anlisis de la varianza para la prueba de significancia de la regresin mltiple
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Media de
cuadrados
Regresin
Error
Total
Prueba sobre la significancia regresin
La prueba para la significancia de la regresin es una prueba para determinar si existe una
relacin lineal entre las variables de respuesta y y un subconjunto de variables de
regresin x1 , x2 ,, xk . Las hiptesis apropiadas son
H 0 : 1 2 k 0
al menos para una j
H1 : j 0
El rechazo de H 0 : 1 2 k 0 implica que al menos una de las variables de

regresin x1 , x2 ,, xk tiene una distribucin efectiva en el modelo.
La prueba de significancia de la regresin es una generalizacin del procedimiento
utilizado en la regresin lineal simple. La suma de cuadrados S yy se divide en una suma de
cuadrados debida a la regresin y una suma de cuadrados debida al error, digamos,
S yy SS R SS E
y si H 0 : 1 2 k 0 es verdadera, entonces SS R / 2 es una variable aleatoria

ji cuadrada con k grados de libertad. Ntese que el nmero de grados de libertad para
esta variable aleatoria ji cuadrada es igual al nmero de variables de regresin del
modelo. El estadstico de prueba para H 0 : 1 2 k 0 es
1-33
Debe rechazarse H 0 si el valor del estadstico de prueba de la ecuacin anterior, f 0 es

mayor que f ,k ,n p . En general, el procedimiento se resume en una tabla de anlisis de
varianza, tal como la tabla1-3.
4
Definicin
Las frmulas para el clculo de la suma de cuadrados para el anlisis de varianza, son
1-34
1-35
La suma de cuadrados del error se obtiene por sustraccin, y es

1-36
Pruebas sobre los coeficientes individuales de regresin y sobre subconjuntos de

coeficientes
A menudo se tiene inters en hacer prueba de hiptesis sobre los coeficientes de
regresin. Tales pruebas son tiles para determinar el valor potencial de cada una de las
variables de regresin del modelo de regresin. Por ejemplo, el modelo puede ser ms
eficaz con la inclusin de variables adicionales, o quiz con la eliminacin de uno o ms
regresores presentes en el modelo.
La adicin de una variable a un modelo de regresin siempre hace que la suma de los
cuadrados de la regresin aumente y que la suma de los cuadrados del error disminuya.
Por tanto, debe decidirse si el aumento en la suma de cuadrados de la regresin es
suficientemente grande como para justificar el uso de una variable ms en el modelo. Por
otra parte, la adicin de una variable sin importancia puede aumentar el error cuadrtico
medio, lo que constituye un indicador de que tal variable disminuye la calidad con la que
el modelo ajusta los datos.
Las hiptesis para la prueba de la significancia de cualquier coeficiente de regresin
individuales, por ejemplo j , son
H0 :
j 0
H1 :
j 0
Si no se rechaza H 0 : j 0 , entonces esto indica que el regresor x j puede eliminarse

del modelo. El estadstico de prueba para esta hiptesis es
1-37
donde C ij es el elemento de la diagonal de (XX) -1 que corresponde a j . Ntese que el

denominador de la ecuacin anterior es el error estndar de coeficiente de regresin j .
La hiptesis nula H 0 : j 0 se rechaza si t0 t / 2, n p . Esto se conoce como prueba
parcial o marginal, debido a que el coeficiente de regresin j depende de las dems
variables x j (i j ) que estn en el modelo.
Cuando un modelo tiene
define como:
variables de regresin la inversa de la matriz (XX) -1 se
(XX) -1
1.2.2 Intervalos de confianza y prediccin en la regresin lineal mltiple

Intervalos de confianza para los coeficientes de regresin
En los modelos de regresin mltiple, a menudo es til construir estimaciones de
intervalos de confianza para los coeficientes de regresin j . El desarrollo de un
procedimiento para obtener estos intervalos de confianza requiere que los errores j
estn distribuidos de manera normal e independiente, con media cero y varianza 2 . Esta
es la misma suposicin que se requiere para la prueba de hiptesis. Por consiguiente, las
observaciones Y j estn distribuidas de manera normal e independiente con media
k
0 j xij y varianza 2 . Puesto que el estimador de mnimos cuadrados tiene una

j 1
distribucin normal con un vector promedio y matriz de covarianza 2 ( X X ) 1 .

Entonces, cada uno de los estadsticos
tiene una distribucin
1-38
con n p grados de libertad, donde C jj es el jj simo
elemento de la matriz ( X X ) 1 , y 2 es la estimacin de la varianza del error. Lo anterior

conduce a la definicin siguiente de un intervalo de confianza del 100(1 ) por ciento
para los coeficientes de regresin
Definicin
Un intervalo de confianza del
por ciento para el coeficiente de regresin
en el modelo de regresin lineal mltiple est dado por
1-39
Prediccin de nuevas observaciones

Un modelo de regresin puede emplearse para predecir observaciones futuras de las
variables de respuesta , correspondiente a valores particulares de las variables
{
}, entonces una
independientes, por ejemplo,
estimacin puntual de la observacin futura en el ponto
es
Un intervalo de prediccin del
1-40
para esta observacin futura es
1-41
Al predecir nuevas observaciones y estimar la respuesta promedio en un punto dado

se debe tener cuidado al tratar de extrapolar ms all de la regin que
contiene las observaciones originales. Existe una posibilidad alta de que un modelo que
ajusta bien los datos originales dentro de una regin, ya no lo haga del mismo modo fuera
de dicha regin.
1.3 Regresin no lineal
Si las dos variables x y y se relacionan segn un modelo de lnea recta, se habla de
regresin lineal simple
1-42
Cuando dos variables x y y se relacionan segn una lnea curva, se habla de regresin no
lineal curvilnea. Aqu se puede distinguir una relacin parablica, exponencial, potencial
etc.
Supongamos que al hacer una representacin grfica correspondiente a la distribucin
bidimensional Se observa una clara relacin entre dos variables, pero desde luego, no es
una relacin lineal.
Por tanto, debemos buscar la funcin que ha de describir la dependencia entre esas dos
variables.
Nos limitaremos al estudio de las ms utilizadas: la funcin parablica, la logartmica, la
exponencial y la potencial.
7
Parbola de regresin
En muchos casos, es una funcin de segundo grado la que se ajusta lo suficiente a la
situacin real dada.
La expresin general de un polinomio de segundo grado es:
1-43
donde a, b y c son los parmetros.
El problema consiste, por tanto, en determinar dichos parmetros para una distribucin
dada. Seguiremos para ello, un razonamiento similar al que hicimos en el caso del modelo
de regresin lineal simple, utilizando el procedimiento de ajuste de los mnimos
cuadrados, es decir, haciendo que la suma de cuadrados de las desviaciones con respecto
a la curva de regresin sea mnima:
Donde, siguiendo la notacin habitual,

son los valores observados de la variable
dependiente, los valores estimados segn el modelo; por tanto, podemos escribir D de
la forma:
Para encontrar los valores a, b y c que hacen mnima la expresin anterior, deberemos
igualar las derivadas parciales de D con respecto a dichos parmetros a cero y resolver el
sistema resultante. Las ecuaciones que forman dicho sistema se conocen como
ecuaciones normales de Gauss (igual que en la regresin lineal simple)
Funcin exponencial, potencial y logartmica

El problema de ajustar un modelo potencial, de la forma
se reduce al de la funcin lineal, con solo tomar logaritmos.
y uno exponencial
Modelo potencial
Si tomamos logaritmos en la expresin de la funcin potencial, obtendremos:
Tambin se trata de la ecuacin de una recta

, pero ahora ajustndola a
y
a x; de modo que, para obtener el parmetro de a del modelo exponencial, basta con
hacer el antilogaritmo de a, y el parmetro b se obtiene tomando antilogaritmo de b.
Modelo logartmico
La curva logartmica
es tambin una recta, pero en lugar de estar referida
a las variables originales x y y, est referida a logx y a y.
Hemos visto, como, a pesar de ser inicialmente modelos mucho ms complejos que el de
una recta, estos tres ltimos se reducen al modelo lineal sin ms que transformar
adecuadamente los datos de partida.

Unidad I PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Unidad I PDF

Caricato da

Copyright:

Formati disponibili

1.

2 Regresin lineal mltiple

donde Y representa la vida media de la herramienta; x1 , la velocidad de corte; x2 , el

Ecuaciones normales de mnimos cuadrados

0 xi1 1 xi21 2 xi1 xi 2 k xi1 xik xi1 yi

0 xik 1 xik xi1 2 xik xi 2 k xik2 xik yi

Ntese que existen p k 1 ecuaciones normales, una para cada coeficiente de

En general, es un vector de observaciones de (n 1) , es una matriz de (n p) de los

El estimador de mnimos cuadrados es la solucin para

Ntese que existen p k 1 ecuaciones normales y p k 1 incgnitas (los valores de

de error i del modelo de regresin tenga distribuciones normales e independientes con

El rechazo de H 0 : 1 2 k 0 implica que al menos una de las variables de

y si H 0 : 1 2 k 0 es verdadera, entonces SS R / 2 es una variable aleatoria

Debe rechazarse H 0 si el valor del estadstico de prueba de la ecuacin anterior, f 0 es

La suma de cuadrados del error se obtiene por sustraccin, y es

Pruebas sobre los coeficientes individuales de regresin y sobre subconjuntos de

Si no se rechaza H 0 : j 0 , entonces esto indica que el regresor x j puede eliminarse

donde C ij es el elemento de la diagonal de (XX) -1 que corresponde a j . Ntese que el

variables de regresin la inversa de la matriz (XX) -1 se

1.2.2 Intervalos de confianza y prediccin en la regresin lineal mltiple

0 j xij y varianza 2 . Puesto que el estimador de mnimos cuadrados tiene una

distribucin normal con un vector promedio y matriz de covarianza 2 ( X X ) 1 .

tiene una distribucin

con n p grados de libertad, donde C jj es el jj simo

elemento de la matriz ( X X ) 1 , y 2 es la estimacin de la varianza del error. Lo anterior

Prediccin de nuevas observaciones

Un intervalo de prediccin del

para esta observacin futura es

Al predecir nuevas observaciones y estimar la respuesta promedio en un punto dado

Donde, siguiendo la notacin habitual,

Funcin exponencial, potencial y logartmica

Tambin se trata de la ecuacin de una recta

Potrebbero piacerti anche