Sei sulla pagina 1di 61

UNIVERSIDAD DE PANAM VICERRECTORA DE INVESTIGACIN Y POSTGRADO PROGRAMA CENTROAMERICANO DE MAESTRA EN MATEMTICA

EL MODELO DE REGRESIN LINEAL MULTIVARIADO Y SU APLICACIN.

POR:
ALBERTO CASTILLO PORTUGAL

TESIS PRESENTADA COMO UNO DE LOS REQUISITOS PARA OPTAR POR EL TITULO DE MAESTRO EN CIENCIAS CON ESPECIALIZACIN EN ESTADSTICA MATEMTICA.

PANAM, REP. DE PANAM 2002

= APROBADO POR :

M . en C. GLADYS E. SEGURA PRESIDENTE

M . en C. JOSE OCHOA MIEMBRO

AN LA VICERRECTORIA STIG CION Y POSTGRADO

DEDICATORIA

Dedico este trabajo de graduacin, permanentemente a Dios Todopoderoso, como muestra de gratitud por la oportunidad que me ha brindado de superarme en mi vida profesional, a mis padres y esposa por su apoyo y comprensin, a mis hijos Katherine, Jess y Alexis, como ejemplo de la constancia en el esfuerzo por ser mejor cada da.

AGRADECIMIENTO

Agradezco infinitamente a Dios, por darme la oportunidad, fuerza y conocimiento para culminar mis estudios ; a mi asesora la Profesora Gladys Segura por sus empeo y constancia durante la realizacin de este trabajo .

INDICE GENERAL

Pg. RESUMEN INTRODUCCIN 1 2

CAPTULO

I.

EL MODELO DE REGRESIN MUL TI VARIADO

LINEAL 5 6 7 11 12 12 14 18 28

La Ecuacin de Regresin Matrices del Modelo La Funcin de Verosimilitud del modelo Propiedades del Modelo Propiedades de la matriz P Estimadores de mxima verosimilitud de B y E Propiedad de los estimadores de B Distribucin de
B y E

CAPTULO 11. PRIJEBAS DE HIPTESIS 'Tipo de prueba segn las matrices La distribucin Wishart Centrada Distribucin de
M 1 Y' + P2 Y, M i

31 32 34 40 43 44

Prueba de Razn de Verosimilitud El Estadstico de Wilk's

El estadstico de prueba dado por LnA Pruebas de unin e interseccin Intervalo de confianza para y la Correlacin Mltiple Correlacin Mltiple Coeficiente de Correlacin Mltiple Correlacin para muestras Grandes CAPTULO M . ANLISIS E INTERPRETACIN DE LOS RESULTADOS Anlisis de los Resultados Obtenidos en el rea Urbana Anlisis de Regresin Multivariado de la Variable Salario para el rea Urbana Anlisis de Regresin Multivariado de la Variable Ingreso para el rea Urbana Anlisis de los Resultados Obtenidos en el rea Indgena Anlisis de Regresin Multivariado de la Variable Salario para el rea Indgena Anlisis de Regresin Multivariado de la Variable Ingreso para el rea Indgena CONCLUSIONES Y RECOMENDACIONES BIBLIOGRAFA ANEXO

45 53 58 64 65 68

'71 72

73

74 83

83

84 93 95 98

INDICE DE CUADROS

Pg. Cuadro 1. Estadstica descriptiva, muestra los valores promedios y las desviaciones estndar de cada una de las variables en el estudio sobre niveles de vida en el rea Urbana, 1997 . 78 Cuadro II . Anlisis de varianza para el modelo de regresin lineal multivariado de la variable explicada salario con respecto a las variables explicativas en el estudio de niveles de vida en el rea urbana, 1997 Cuadro 111 . Estimacin de parmetros, el estadstico para la unificacin de la hiptesis nula y las respectivas probabilidades en cada uno de los casos para las variables en estudio con respecto a la variable salario en rea urbana, 1997 Cuadro IV . Anlisis de varianza para el modelo de regresin multivariado de la variable explicada ingreso, con respecto a las variables explicativas en . estudio sobre niveles de vida en el rea urbana, 1997 Cuadro V . Cuadro V . Estimacin de parmetros, el estadstico t para la verificacin de la hiptesis nula y las respectivas probabilidades en cada uno de los casos para las variables en estudio con respecto a la variable Ingreso en rea urbana, 1997 82 81 80 79

Pg. Cuadro VI . Estadstica descriptiva, muestra los valores promedios y las desviaciones estndar de cada una de las variables en el estudio sobre niveles de vida en el rea indgena, 1997 88

Cuadro VII . Anlisis de varianza para el modelo de regresin lineal multivariado de la variable explicada salario con respecto a las variables explicativas en el estudio de niveles de vida en el rea indgena, 1997 Cuadro VIII . Estimacin de parmetros, el estadstico para la unificacin de la hiptesis nula y las respectivas probabilidades en cada uno de los casos para las variables en estudio con respecto a la variable salario en rea indgena, 1997 Cuadro IX . Anlisis de varianza para el modelo de regresin multivariado de la variable explicada ingreso, con respecto a las variables explicativas en estudio sobre niveles de vida en el rea indgena, 1997 Cuadro X. Cuadro V . Estimacin de parmetros, el estadstico t para la verificacin de la hiptesis nula y las respectivas probabilidades en cada uno de los casos para las variables en estudio con respecto a la variable Ingreso en rea indgena, 1997 92 91 90 89

RESUMEN En el presente trabajo definimos el modelo de regresin lineal multivariado, en su forma matricial, demostrndose algunas de las propiedades de los estimadores, tanto en el insesgamiento como en la verosimilitud. Se plantean las pruebas de hiptesis referente a la matriz de parmetros, para comprobar la correlacin existente entre las variables explicativas y las explicadas, con el uso de la distribucin Wishart, donde se demuestran algunas proposiciones de esta distribucin . Tambin considerarnos dentro de este modelo la prueba de razn de verosimilitud y el estadstico de Wilks, utilizado en la realizacin de pruebas de hiptesis. Contemplamos los intervalos de confianza para un valor numrico, con el apoyo de las distribucin Wishart, T 2 y F. Adems se consider el. Coeficiente de Correlacin multivariado, para la base de datos proporcionada por el M.1.P.P.E . (Ministerio de Planificacin y Poltica Econmico), sobre los niveles de vida en Panam, en la que se determin la ecuacin de regresin multivariada, se realizan pruebas de hiptesis para verificar las influencia de las variables explicativas. SUMMARY Present work defined the model of multivaried lineal regression, in their matricial form, demonstrating some of the properties of the estimators, so much in the unbiasing like in the verisimilitude. We are expounded the hypothesis taste with respect to the womb of parameters, in order to check the existent correlation between the explanatory variables and explained variables, with the use of the Wishart Distribution, where some propositions of these distribution are demonstrated. We also considered within this model taste reason of verisimilitude and the Statistic of Wilk's, utilized in the realization of you taste hypothesis. We contemplated the intervals of trust for a numerie courage, with the support of the Wishart Distribution, T2 and F. were Also considered the multivaried correlation coefficient, for the base of data proportioned by the M.I.P.P.E . (Ministry of Planning and Economical Politics), on the levels of life in Panama, they in the one which was determined the equation of multivaried regression, are carried out taste hypothesis in order to verify the influence of the explanatory variables.

INTRODUCCIN

Es normal encontrar en la realizacin de investigaciones muchas variables explicativas y explicadas, que influyen en cierto grado dentro de un fenmeno dado, por tal razn es de gran utilidad trabajar con todas ellas.

Una forma de estudiar estas variables en conjunto, es a travs del Modelo de Regresin Lineal Multivariado y de la correlacin de las mismas con las que se puede hacer las interrelaciones, estimando la matriz de los parmetros de todos las variables explicativas y explicadas, adems ver las interrelaciones de dos a dos .

La regresin fue utilizada por primera vez en el ao 1880 por el cientfico ingls Sir Francis Galton, dedicado a investigaciones genticas, quien trataba de establecer las caractersticas trasmitidas de padres a hijos a travs de sus estaturas.

El modelo de regresin nos permite eliminar aquellas variables que producen poco o ningn efecto en la regresin, esto por medio de las pruebas de hiptesis o de la correlacin. Realizar estimaciones es esencial en el modelo de regresin, donde se ha de comprobar la significancia de la ecuacin por medio del coeficiente de determinacin .

Los intervalos de confianza tambin son considerados en la regresin como un elemento que ayuda a fortalecer los resultados con el coeficiente de determinacin como una forma de evaluar la ecuacin de regresin por medio de la proximidad del ajuste a los valores observados. Este trabajo contempla tres captulos con los siguientes contenidos: En el primer captulo se considera la ecuacin de regresin, matrices del modelo, algunas propiedades del modelo y de la matriz P, adems de los estimadores de las matrices B y E.

El segundo captulo hace referencia a las pruebas de hiptesis segn las matrices, la distribucin Wishart centrada con sus propiedades, se definen algunos estadsticos, adems de los intervalos de confianza, la correlacin mltiple y el coeficiente de determinacin, con lo que termina la parte terica. El captulo tercero considera el anlisis e interpretacin de los resultados, en el que se determina la ecuacin de regresin, se hacen estimaciones, adems se realizan pruebas de hiptesis y se calcula el coeficiente de correlacin sobre una base de datos, referente a una encuesta de niveles de vida en Panam, en el ao 1997 .

CAPTULO I EL MODELO DE REGRESIN LINEAL MULTIVARIADO

La Ecuacin de Regresin. Consideramos el modelo definido por Y = XB + E , donde las matrices Y, X, B y E son tales que Y (,,,,p) es una matriz observada, de p variables respuestas en cada uno de los n vectores de variables aleatorios;
Xcn,,.q>

una matriz de valores fijos, q variables independientes observadas en

cada uno de los n vectores filas ; donde estos vectores filas son mutuamente independientes, cada una con matriz de media cero (0) y matriz de varianza covarianza comn E ; B(qxp) es una matriz de parmetros desconocidos, afectados por las filas de X y desconocidos (matriz de error). La ecuacin lineal Y = XB + E (1) es llamada Modelo de Regresin Lineal Multivariado . En el caso de que X sea una matriz aleatoria, entonces la distribucin de E se asume que no est relacionada con X. En particular las variables X X 2 , . . ., Xq predicen cada una de las Y's . Las columnas de la matriz Y representan variables dependientes que estn explicadas en trminos de las variables independientes o explicativas dadas por las columnas de X . E(mcp) es una matriz aleatoria de valores

Matrices del Modelo. As, el modelo lineal Y = XB + E en su forma matricial es:


_

1
QI I

YII
Y21

Y12 Y22

Ylp Y2p

X11 X

X,2 . . . X 22

X 14

1
Y/{12 . . .

e 12
e22
+

1P

21

.. .

X 24

RI P

...

e2P

YnI

Yn2 . . . Yn

[1

x ,a

x,a . . . x

As

en,

e,2

...

enP

nxp = nx(q + 1) * [(q + 1)xp]+ nxp Aqu, cada columna de la matriz X representa un vector de variables unitarias; cada uno de los n vectores filas de Y contiene los valores de las p variables medidas en un sujeto. Cada una de las columnas de Y consiste de las observaciones en cada una de las p variables que corresponden a un vector unitario Y (). Para cada columna de Y tenemos una columna de parmetros de (3's . Las columnas de (3's forman una matriz a la que llamamos B. El modelo tambin puede ser expresado en trminos de los vectores columnas, en el caso de que los vectores de la matriz respuesta estn dados en columna; para la i-sima respuesta, el modelo se puede escribir como Y(;1=XB O +epa ; 15- i5p .

donde Y(), B (i)

F .o

) son vectores columnas.

En este caso el modelo as definido recibe el nombre de modelo de Regresin Lineal Mltiple. Por otro lado los n vectores de orden (pxl) de la matriz E, estn distribuidos normalmente con matriz de media (0) y matriz de covarianza E. Definicin I.1 Diremos que la matriz de error E~) _ (s, , E2 )' en donde para cada

1 < n el e; corresponde a un vector fila de orden lxp que representa el i-simo vector aleatorio de error, tiene distribucin normal con matriz de media (0) y matriz de varianza covarianza E . Adems E N p(0, I0 E) , donde I es la matriz identidad de orden (nxn) y IE denota el producto de Kronecker de la matriz I y la matriz E. Aqu las filas de E son normalmente independientes. Definicin 1.2 Diremos que el producto de Kronecker definido por IE representa el producto de los n vectores columnas de una matriz que son mutuamente

independientes, cada uno con matriz de varianza covarianza E y el producto de Kronecker dado por EI, se refiere a la matriz de covarianza del vector X" de orden [(nq)x 1] obtenido por la colocacin de los vectores uno sobre el otro. Proposicin 1.1 En el modelo Y se tiene que Tr[(Y-XB)E-'(Y-XB)'] es igual a Tr[Y1(Y-XB)'(Y-XB)]. Demostracin: Sea Y la variable aleatoria del modelo dada por la ecuacin (1) y .J(Y) su funcin de densidad, consideremos a Y = [Y son mutuamente independientes. Por otro lado como E tiene una distribucin normal con matriz de media (0) y matriz de varianza covarianza IE, entonces para cada 1 _< n, los n vectores filas tienen una distribucin igualmente normal con media B'X1 y matriz de varianza covarianza E, por lo tanto como Y, = B "X, +s; es una combinacin lineal de e; que tambin tiene una distribucin normal con media (0) y matriz de varianza covarianza E, esto es Y 1Np (B'X; ,E). , donde las filas

lo

Sabemos adems que Y - XB = [Y, - B' X Y, - B' X,, . . . Y. - B. X. ]'. Realizando el producto (Y-XB)' (Y-XB) tenemos que

(YXB)'(YXB)=E (YiB'Xi)(YB'Xi

por otro lado tenemos que E (Y; - B'Xi)'Z ' (Yi - B'Xi)
:=t

Luego: 1(D Tr[E(Y,B'X ;)':-'(Y;B'X )J i


=

i=i

TrFY,B'X,)'E' (Y,B'X, )1

(YiB'Xi)(YiB'Xi)']

por propiedad de traza


=Tr~ ' (YXB)'(YXB)J

por lo tanto la Tr [(Y - XB)E - '(Y - XB)' ]= Tr [E -' (Y - XB)'(Y - XB) ]

Richard y Wichern (1982) .

11

La funcin de verosimilitud del Modelo. Definicin 1 .3 La funcin de verosimilitud de Y, est dada por 1
(270'2

f(B ' E) =

1
I/2-

e -2 (Yi-B'XiYE"' (Yi-B'Xi)

donde Y, es un vector fila con media B ' Xi y matriz de varianza covarianza E,

En el modelo lineal, tenemos que la funcin de densidad de Y es f(Y) = ( 1 1

e2 .2

_l(Y-)ffi)T,(Y-XB) y

considerando las suposiciones de que

la matriz X tiene rango q y que la covarianza de (X' X) existe. Definicin 1.4 La funcin log de verosimilitud para Y en trminos de los parmetros B y E, est dado por

Lf(B,E)=-- nlogi27tE --Tr(YXB)E-'(YXB)' 2 2 donde XB es la media de Y .


12

Propiedades del Modelo. Definicin 1 .5 En el modelo de re g resin lineal Y . se cumplen las propiedades a. E(E)= O 1
s:1 __

E(Y,)= h . [3 X, c. COV (Y) `

n. 0

b i = 1 .2

donde Y, es la i-esima tila de Y d. COV(Y,.Y )=0 Vi 4 j

siendo YYJ tilas de la matriz Y.

Propiedades de la Matriz P. Proposicin 1 .2 La matriz P~fl,fl, definida por P = [1 X (X' X) - ' X' J es simtrica e idemponente y de rango (n-q)_ donde las matrices 1 v X(X'X) -' X' son de orden (nxn)_ Demostracin: Sea P una matriz de orden (nxn) tal que P = [1 X (X' X) -' X' J . consideramos primero si P es simtrica, esto es P= P' .

13

Si P = j I X (X' X) ' X'1, luego su traspuesta P ' es:

P ' = [1X(X'X)-'X]'
P= 1[X(X'X)'X'] por definicin de traspuesta P=[IX (X'X)" ' X'] dado que (X'X) -' simtrica. Luego como P = P', entonces la matriz P es simtrica. Veamos ahora la idempotencia de P , esto es PP' P . As este producto es [1-X(X'X)y'X'][1 - X(X"X)"IX"]', puesto que PP'=P entonces [1es una matriz cuadrada de orden (q x q), que es

x(x'xy'x'] [1- x(x'x)'x']

realizando los productos 1- IX(X'X)-'X' X (X'XY ' X'I + X(X'X)"'(X'X)(X'XY'X'


I - X(X"X)X .X(x .x)y'x"

+XI(x"X)-'X'

P-- 1X(X X) 'X ]

14

por lo tanto P es una matriz simtrica y luego P es idempotente. Calculemos ahora el rango de P Ran [1 - X(X'X)-'X']= Tr[I - X(X'X)''X'] puesto que P es idempotente y como I es de orden (nxn) y X(X'X)''X' es de orden (nxn) de rango q. Se tiene que Tr[I - X(X'X)''X'] = Tr(I) - Tr[X(X'X)''X] por propiedad de traza. Luego Tr(I) = n y Tr[X(X'XY'X']= q Por lo tanto la Tr[I - X(X'X)' IX']=(n-q). As, P[I - X(X'X)-1X] es una matriz simtrica indempotente y de rango (n-q). Estimadores de Mxima Verosimilitud de B y E. Proposicin 1 .3 En el modelo multivariado de rango completo q donde ENp (O,1E) y Y Np (XB ; 1E), los estimadores de mxima verosimilitud de 13 y E son B = (X 'X) 1 X 'Y y E = n-1 Y ' PY , o bien E = n - ' E A'E A donde P = [1 X(X'X)"'X'] .

15

Demostracin: Si en el modelo de rango completo, E-Np (O ; IE) y de acuerdo al modelo de regresin Y = [Y Y2 , Yn }', donde las filas de Y son

independientes con distribucin Y iNp (B'Xi, E), consideremos ahora (Y-XB)= [Y, B'X, ., Yz B' X 2, . . ., Yn B'Xn] as, (Y-XB)'(Y-XB) = (YiB'X ; ) (YiB'X ; y tambin se tiene que (YiB'Xi)'E-` (yiB'Xi) = 1 Tr[E-'(Yi B'Xi) (Yi B'Xi)

Trt' (Yi B'Xi)(Yi B'Xi)']

=Tr l-' (Y XB)'(Y XB)] Por Proposicin I.1, obtenemos que


n n

S E= Y X B, entonces E+ X B= Y E+ (X .B XB I = Y XB

16

E+ XI B- B) = Y - XB Si la funcin de verosimilitud de Y es 1
-~

f(B,E) = 11[ --

1
/2

-ZTr(Y1-B'Xi)t 1 (Yi-B'Xi)

(27) ,

1 }z (2n)"PZ

Tr(Yi-B'Xi)'E -1 (Yi-B'Xi)

desarrollando el producto (Y-XB)' (Y-XB) 1l = [E+ X(B B)]


AA

[1+ X(B B)]


AA

= [E+ (B- B)' X'] [+ X(B- B)] = [E' E+ E' X(B- B) + (B- B)' X'
A A A A A A

(B- B)' X' X(B- B)]


A A

= E'E+(B- B)'X'X(B- B) + EX'(B- B)+(B- B)'X'E Consideremos E' X(B- B) s E = PY que es igual a E'= Y ' P
A A A

puesto que P es simtrica entonces E' X(B- B) = Y' PX(B- 13), pero PX es la matriz cero (0) . Por lo tanto E' X(B- B) = 0

17

De igual forma (B B)' X' E = 0


A A A A

1 1 entonces f(B,E)_(2n~o,/ u, e /2 11" E

-2Tr E1(E'E+(BB)'X'X'(BB))

a travs de la funcin log ., obtenemos que Lf(B, E) = 2 np log 2n n logIE] Tr[E (E' E + (l B)' X' XO?I B)]
'

esta funcin alcanza su valor mximo cuando B = B, luego Lf(B,E) = - 2 nplog2n - 2 nloglEl - - TrE
A A -

' E' E

donde FE = n E, entonces i= n E' E


-'

Lf(B,E) = - 2-np log 2n -

n(log El+TrE

-'

E)

(2) y

la expresin (2) alcanza su valor mximo cuando E = E 1 As, Lf (B, E) = 2 n log 2nE
A A

2 nTr E E

A -1

= nlogi2nE A

Lf(B,E)=-2nlog2nE

18

Tendremos que el valor mximo de la funcin de verosimilitud, se obtiene cuando E = E por lo tanto B , E son los estimadores de mxima verosimilitud de B y E . Como E tiene una distribucin normal, entonces Y = XB + E ; como combinacin lineal de E, tambin tiene distribucin normal, con matriz de media XB y matriz de covarianza, IE, esto es YNp(XB,1E),

Propiedades de los Estimadores de B y E. Proposicin 1.4 Para el modelo Y = XB + E con una distribucin normal multivariada, donde la matriz de error E se distribuye Np , (O, 101), se cumple que:
A

a) B es un estimador insesgado de B

b)

no es un estimador Sesgado de E

c) E (E) =0

d) B y E son matrices con distribuciones normales y multivariado

e) La matriz B es estadsticamente independiente E y tambin de .

19

Demostracin: Dado que B = (X' X)' X' Y y si Y = XB + E el modelo


A

multivariado, al reemplazar Y en B tenemos que: B = (X' X)-' X' (XB + E)

=(X'X)- ' X' XB+(X'X)-'x'E

B = B+(X'XY' X'E El valor esperado de ambas expresiones E(B)=E[B+(X'X)1X'E] =E(B)+E(X'X)-'X'E) = B+ (X' X)' X' E(E) = B+O puesto que E(E) = 0

Tenemos que B es un estimador Sesgado de B y por la Proposicin I.3 . B es un estimador de mxima verosimilitud de B, con lo que se demuestra (a) . El estimador de mxima verosimilitud de E es, t el cual puede ser expresado como n- ' E' PE o bien n-' E' E donde E es una matriz de datos distribuidos N,(O, 10 E) .
nn

20

Para E as definido, resulta no ser un estimador insesgado de E ; para


A

que este ocurra se debe hacer un . arreglo sobre t dado por n-


A

E +) el (q

A E cual es el estimador insesgado de E, esto es E n(q+1) =E

Con lo que se demuestra que E no es un estimador insesgado de E , demostrndose la parte (b). En el siguiente caso:
A A A

Si E = Y X B , consideramos E (E) entonces


A

E(E) = E(Y X B)
A

= E(Y)E(XB) =XBXB =0
A A

por lo tanto E (E) = 0, en consecuencia E(s, ) = 0, para cada


A A

E; , i 5

n.

En la parte (d), mostramos que B y E sonnormales multivariados. Si tenemos que PE=[IX(X'X)-'X']E. En consecuencia ambos estimadores B y E son funciones lineales de
n n

E= Y X B = PY , adems

PY = PE y

E . Luego tenemos que E tiene una distribucin normal y como B y E son

21

funciones lineales de E, entonces B y E tienen distribuciones normales multivariadas. Para la parte (c), tenemos que A B es estadsticamente independiente de E y por lo tanto de E.
A A

Por la parte (e) obtenemos que E = PY y


A

B= B+(X'X)-'X'E.

Si X es otra matriz tal que tiene una distribucin de N q (g,E) y si Y = AXB y Z = CXD , entonces los elementos de Y son independientes de los elementos de Z si y solamente si AC'= 0. As, B = (X' X ) X' YI , E = PYI, adems Y es una matriz de datos, donde Y - N,,(XB,I E), luego (X' X )-' X'= A , y P=C, donde P=P'=C'. Entonces AC' = (X' X)-' X' [I X(X'X)-' X']' = (XtX)-' X' I (X'X)-' X' (X'X)(X'X)-' X' = (XI X)-' X'(X' )(Y' X'
=o
A P

as, B y E son estadsticamente independientes. Consideremos ahora B y E , dado que B = (X' X) -' X' YI y E = n -' Y'PY.

22

Tambin E = n-'(XB + E)'PYI Ahora multiplicando AC' t )


2

tenemos que AC' = (X' X) X' n P(XB + E)


-' -'

= n-'(X'X)-'X'P(XB+E) =n-'(X'X)''X'[IX(X'X)'](XB+E)
= n -' [(X' X)-' I (X' X)" ' X'X(X ' X) ' X'](XB + E)

=n O(XB+E)
' =

0
A

En consecuencia, B es estadsticamente independiente de E lo que demuestra la parte (d). Proposicin I .5 :


A

En la matriz de parmetros estimados de B, si (3(;) es un vector columna, entonces el valor esperado de (3 (0 es (3o) para cada i <_ p. Demostracin: Sea B el estimador insesgado de 13, si, Yo) = XI30) + s(h) , por cada
i5p.
A

= (X'X)' X' Yo) donde

Luego R (;) = (X'X)' X' [X(3( ;) + col

(2)

Martha et al (1979).

23

= ()e X)-'(X'X)p(i) +(X'X)-'X's( )


= +(X'X)-'X'E(;,

As E(Ro ) ) = E[R 0 ,

+( X'X)-'X'st]

= E[(iloj+E[(X'X)-'X' + (X'X)-'X'E(s( ;,) =


=Ro, Por lo tanto E(p (;) ) = p (; , para cada i < p demostrando que el vector
A

(X' X) -' X' ('0)

columna estimado p o , es un estimador insesgado del vector columna p o Proposicin 1.6: En el Modelo de Regresin Lineal Multivariado de rango completo, la
A A A

covarianza entre dos vectores columnas de B es cov i, -' k V i = k, = donde 1, G= (X' X) 2, todo i  k . Demostracin:
A A

, pa,) =o;k G, para = 0 para

3, . . ., n y

cov (O.,

Sean (3(,, y p( k)

dos vectores columnas de B, tales que

pk=(X'X)-'X'Yo, donde E(t ) = R(, para cada isp

24

Si Y ( ;) = X(3 o ,

+ s H) entonces

= (X'X)-'X'[XR(,,+En,l = ao, + ( X' ))-' X ' E m

Sea

A = (X' X) -' X'

una matriz (qxn) as :


A A

R =

A s, ; , . por

Consideremos definicin de covarianza

la

cov (R (; ) , ( k ) ) = E [(L)R(;>)&(k) p (k) )' 1

E[(AE6;))(Ae(k))'1= E[(AE))(E'(k)A')]
=

AE [(c(0E'(k))JA'

= S,k 6 ,k lAA'

= ;kak(X'X)-'

entonces, para cada l <_ i <_ p, Cov((3 t;) , R (k,) (1 Donde 8,k = 0 jl

1 <_ k

<_

p.

6,k(XIX)-',
=

0 si i=k si isk

si i = k , si i~k

Es conocido como el delta de Kronecker, por lo tanto la covarianza de R (; , y (3 (k, es :


25

COV(33(;), r(k))=ik (X' X) ' , cov(f3 1, 13( k ) ) = O, no correlacionado . Para 15 Proposicin 1.7:

si i=k,lSiSp,

1Sk5p y

si i ~ k p, 1 k p .

La covarianza entre dos filas (3 ; , Rk

de la matriz B est dada por

g ikE , donde g, k = (X' X)-' para i p, k p . Demostracin:

Sean

P i , (3k

dos filas cualesquiera de la matriz de parmetros

estimadosB, sea adems R; = (X'X)-' X'Y , donde Y. = X(3; + e l As, 13, = (x' X) -' X' (x(3, + ci ) =pi + (XI X).4 X'

entonces

= (x ' X) X ' E ; ,

sea A = (X' X) -' X' una matriz de orden (qxn) y (X' X) ' es simtrica de orden (qxq), luego (3 ; (3 = As ;

26

por otro lado E ((3 ;) = E [(3 ; + (X' X)-' X' e ; ] =R ; +( X 'X )- X ' E(c,)

Consideremos ahora la cov

R ;xFk

Rk) '

= E(E i lAk )] = E [(AE ; XE' k A')] = AE (E E ' k )A ' = AEA' = AA' E, pero AA'= (X'X) -' X' [X(X' X) ' ] = (X'X)' (X' X)(X' X)-, AA'= (X' X)-' que es una matriz simtrica por lo que AA' 2, = g, k E, donde g ;, _ (X' X) ;k .
.1 .1

En consecuencia, co v (R;,Rk) = g ,k E = (X'X )k E 1<_i5q, l<k<q .

27

Proposicin 1 .8. La covarianza entre un elemento de [3 (i) coy y otro del J3 (k) , esto es

es 6 j,g ;k , donde g k es un elemento de la matriz G = (X'X) ;k' .

Demostracin: Si (3 j , p k, son dos elementos de B, si adems R,, es insesgado, esto es E ((3 j )


=

(3

tendremos

entonces

que

su

covarianza

es

A A

Cov([i ;) ,(3 k,)=E

(Nij - Yij)(fl kl - Pkl)

puesto que B B = AE , donde

A=(X'X -' )X luego (3(3, ;=a',EO)


A A

Por lo tanto la cov([3j,{3k,)=E[{s,j)} {a' k s o) }]' = E[{a'; is, j) }


{C' )

a k }]

= a ; ' E [ s, )) s' ( , ) ] a k = a;
6 j s ; Ia k

=a ; ' 6 ;,Ia k
cr

,I(AA' );k donde AA'= (X'X) '

28

Si adems g;, es el i-simo elemento correspondiente a la k-sima columna de G = (XX) 4 ; por lo que g ik = (X' X) ;,' , esto demuestra que

COY ( ,F'u)=6 ;1gik

j <_ q,

Distribucin de B. Proposicin 1.9: En el modelo Y, si E Np (0,1E) y adems Y = X B , se tiene entonces que B Np [ B, (X' X) -' E ].

Demostracin: Sea Y el modelo, con la matriz de error E Np (0,1 E), dado que Y = X B entonces por la Proposicin 1 .5; en su parte (a) tenemos que 13 es un estimador insesgado de B, esto es E(B) = B .
A

Por otro lado veamos la cov( B ), por definicin la cov( ) = E[(1 B)( A By].
A

Si B = ( X ' X ' X ' y entonces en trminos de B y E est dada por B = B+(X'X)"'X'E .

29

Luego A B = (X X) - ' X' E Por lo tanto, E ($Bxl3B)] L EJ }

= E{ [(x' x )-'

x'

E} [(x' x

)_' x'

= E { [(X' X )-' X' E] [E' X (X' X = (X'X)-'X'E(EE')X(X'X)-'


= (x'x)-'x'(i

r] }

E)x(x'x)-'
x)-'

(x'

x)(x'

(I E)

=(x'x)-'(IE),
= (ny

Dado que (X' X)-' I = (X' X)-' , por propiedad de matriz identidad. Por lo tanto la covarianza de B es (X' X) -' E . Como E se distribuye normalmente, entonces B = B + (X' X) -' X' E , tambin se distribuye normalmente con matriz de media B y matriz de covarianza (X' X) -` E .

Esto es B N r [B,(X'X) -'

0 E].


30

Por el resultado anterior para cada uno de los vectores 13 ( o, 1 p , estos son independientes entre si, con matriz de

covarianza E y con distribucin normal, coincidiendo ste con los resultados anteriores .

CAPITULO II PRUEBAS DE HIPTESIS

32

Pruebas de Hiptesis. El anlisis de regresin lineal multivariado, contempla varios tipos de pruebas de hiptesis con las que se pueden hacer inferencias de investigaciones. Estas hiptesis estarn compuestas por el producto de matriz de la forma C,BM, = D, donde C,,, M,, y son tales que C, y M I ,

tienen rango g y r respectivamente ; y C 1 , es una particin de C, esto es y C'= (C1 ',C 2 ') . La hiptesis as planteada es llamada la hiptesis lineal general, con varias alternativas para las matrices
M, y D,

estas alternativas incorporan las posibles hiptesis de inters en el modelo lineal multivariado para la realizacin de las inferencias estadsticas. Tipos de Prueba segn las Matrices Los tipos de prueba, dependern primeramente de lo que se tenga inters de comprobar en la investigacin, luego se hace la escogencia del producto de matrices adecuadas que formarn dichas hiptesis. De esta forma se presentan los siguientes casos. a). Ho: C,B = 0 Contra Ha: C 1 B  0

33

donde M I = I,

D = 0.

Esta hiptesis nula es equivalente a probar la hiptesis Ho : 13 = 0. En este caso se considera el hecho, que el efecto de la combinacin lineal no est afectada por la matriz M I y que la misma es una matriz identidad, adems que no hay influencia de las variables independientes en el modelo. b). Ho: C, B = D Contra Ha: C, B ~ D

Aqu M I = I, no hay influencia de esta matriz, pero si hay influencia de las variables independientes en el modelo, indicando que existe por lo menos una variable independiente que est influyendo en el modelo, y que la matriz B es distinta de la matriz cero. c) . Ho : C,BM, = D Contra Ha: C,BM, ~ D

En este caso M, ~ I, y la combinacin lineal indica que si hay influencia de las variables independientes en el modelo generando la matriz D; que la matriz B no es matriz nula. En estos casos las filas de la matriz C 1 , influyen sobre el efecto en las combinaciones lineales de la regresin de las variables independientes, las

34

columnas de MI , son focos de atencin en particular de las combinaciones lineales de las variables independientes. Distribucin Wishart Centrada. Definicin I1.1 Si E es una matriz de datos tal que E Np(O, I E) y P es una matriz idempotente, si M es una matriz que puede ser escrita como M = E' PE , diremos que M tiene un distribucin Wishart centrada con matriz escalar E, y (n-q) grados de libertad, esto es M Wq(E, n q) . Algunas Propiedades de la Distribucin Wishart. Proposicin 11.1 Si (n-q) es el nmero de columnas independiente de la matriz simtrica e independiente P, y E si es el estimador de mxima verosimilitud
A

de E, entonces n E Wq(E, n q) . Demostracin :


A

Sea P una matriz simtrica e idempotente y E el estimador de mxima


A A

verosimilitud de E, si E = PY , adems PY = PE, donde E = n -' E' E por


35

otro lado n E = E' E y como E' E = E' PE donde P = [1 X(X' X) -' XI y de rango (n-q), por Proposicin 1.2. Por definicin E Np(0, I E), como P es matriz idempotente y E es normal, multivariada, adems como la TrP = rango P = n - q por la Proposicin I.2, entonces E' PE Wp(E, n q) , pero como n E = E' P E
A

entonces n E Wp(E, n q) lo que se quera demostrar. Proposicin 11.2 Si E - Np(0, I E), entonces la matriz de datos

Z = EM, Np(0, I M,' EM, ), donde M j( ,), y adems E y MI son matrices independientes. Demostracin: Sea E Np(0, 1 ), y M, una matriz de orden (pxr) de constantes. Como E y M l son matrices independientes entonces

E(Z) = E(EM,) = E(E)E(M, ), pero E tiene matriz de media cero (0). Luego E(E)E(M,) = O(E)(M,) = 0 Por lo tanto E(Z)=0 .
UNIVERSIDAD DE PANAMA

BIBLIOTECA

36

Por otro lado podemos escribir EM, = IEM, Entonces cov (EM,) = cov(IEM, )

= E[(IEM, OXIEM, 0)' J = E[(IEM, OXM,' E'0)l = E[(IEM,M, 'El)]

= I IM, EM, ('')

=IIM,EM, por lo tanto la matriz de covarianza de Z es I M,' EM, . Como E se distribuye normal, entonces Z = EM tambin se distribuye normal con matriz de media cero (0) y matriz de covarianza I M,' EM, , esto es Z Np(O, I M,' EM,). Lo cual se quera demostrar.

` 3) Marcha et al (1979) .

37

Proposicin II.3 Si una matriz X(,,,,v tiene distribucin multivariante

Np(0, I 0 M,' EM,) y a es un n-vector fijo, entonces X'a Nq[0, (a'a)E], donde V = X'a. Demostracin: Consideremos E(V) = E(X' a) . = E(X')a = [E(X)]'a = 0.a =0 por lo tanto E(V) = 0 .
n

Adems si V= X' a entonces V= E X a ; , j=1,2,. . ., q La cov(Z) = Eh' a 0XX' a o)] = E[(X'aXX'a)] = E[(X' aXa' X}] EEXa (Ea' X1 j ) J J
J" i _(
11

=E[La' .a.(XJX )] = Ea'1 a E(X 1; X 1 ) = i=I E a' aE' ,


=

(a' a)E

38

por lo tanto la matriz de covarianza de V es (a'a)E como X se distribuye normal, entonces V = X' a tambin se distribuye normal con matriz de media cero (0) y matriz de covarianza (a' a)E esto es V Np(O, (a' a)E). Proposicin II.4 Si M, es una matriz de orden (pxr) y P es idempotente de rango n-q, entonces la forma M,' Y' PYM, Wp(M,' EM, , n q), donde Y est dado por la ecuacin (1). Demostracin: Si P es una matriz idempotente y de rango n-q y adems Y'PY=E'PE, donde ENp(O,IE), R=M,'Y'PYM, y por otro lado tenemos que EM, Np(0, I M,' EM,) por Proposicin II .2. Por lo tanto como P es idempotente y EM, tiene distribucin normal Np(O, I M,EM, ), entonces M,' E' PEM, Wp(M,' EM, , n q) pero M,' E' PEM = M,' Y' PYM, , luego R Wp(M,' EM, , n q) . Proposicin 11.5 En el modelo Y, = Y - XB o , donde B0 es una matriz de orden (qxp), si adems, C,B = D y C 1 B0, = D se cumple que


39

Y ' P2

' Y, = E' P2 E Wp(E, g) donde P2 es simtrica idempotente y de rango

g
Demostracin: Sea Y+ = Y - XB0 , el modelo dado, y P2 = X(X' X )' C,' [C, (X' X)-' C,']-' C, (X' x)' X' idempotente y de rango g. Por hiptesis C 1B = D y C,Bo = D consideramos ahora Y,' PZ Y , donde Y+ = Y XBo. As : Y, =XB+E XBo =X(BBo)+E Luego Y,'PZ Y4 =[X(BBo)+E]'P2 1X(BBo)+ E] = [(B - Bo)' X'+E]P2 [X(B BO)+ E] = (BBo)'X'PZ X(BBo)+(BBo)X'P2E+E'PZX(BBo)+E'PE puesto que C 1 B = D C, B = D entonces C, (B - Bo) = 4 (B-Bo)C,'=0 una matriz simtrica

40

Luego tendremos que: Y+ ' P, Y+ _ (B Bo}' C,' [C, (X' X)-' C, ' C, (B Bo) + (B Bo)'C,'CC,(X'X)-'C,'1'C,(X'X)-'X'E + E' X(X')}-`C,'IC,(X'X)-'C,C,(BBo)+E'P,E =E'PI E. Dado que los dems trminos son cero, con lo que se demuestra que Y,'P,Y+=E'P2E. Por otro lado como E Np(0, I 0 E) y tambin que P 2 es una matriz idempotente de rango g. Entonces Y, 'P2 Y+ E'P2 E Wp(E,g) lo que es equivalente a

Wp (E , g )

Distribucin deM,'Y+ 'P2 Y+M,. Proposicin II .6 Si H = Y+ ' P2 Y+M, donde MI es una matriz de orden (pxr), Y+ = Y XBo, Bo una matriz de orden (qxp) y Y + ' P2Y+ Wp(E,g), entonces M,' Y+ ' P2 Y+M, Wp(M,' EM g) .

41

Demostracin: Sea H = M,' Y,' P2 Y+ M, y M I es una matriz (pxr), adems

Y,'P2 Y+ Wp(E',g) por Proposicin II.5, puesto que Y,'I,Y, = E'P2 E, donde E Np(0,1E) entonces M,' Y,' P, Y, M, = M,' E' P,EM, tambin EM, Np(0, I 0 M,' EM,) por Proposicin 11.2 y como P2 es idempotente, de rango g, se tiene entonces que M,' E' P,EM Wp(M,' EM , g), por lo tanto como M,' E' P2EM, = M,' Y, ' P2 Y.,M, entonces M,' Y,' P2 Y,M,
e-

Wp(M,EM,, g) lo que se requiere demostrar.

Proposicin I1.7 En el modelo Y, = ZA + E , donde Y, = Y XBo, Z = XC ' y A = (A,'A 2 ')', probar la hiptesis C,Bo = D es equivalente a demostrar que

Demostracin: Sea Y, = ZA + E, donde Z = XC -' y A = (A,' A 2 ')' por lo tanto reemplazando estas expresiones en el modelo obtendremos que: XB XBo E = XC -' (A,' A2 ')'+E X(B Bo) = XC -' (A,' A 2 ')' puesto que X tiene inversa,

42

entonces X -' X(B Bo) = X -` XC -' (A,' A2 ') (B Bo) = C ' (A,' A 2 ')' C(BBo)= CC'(A,'A2')' C(B Bo) = I(A,' A,')' C(B Bo) = 4 luego para la hiptesis C 1 B=D dado que C ' _ (C;,Ci) y adems C' = C,',Cz2 ') por otro lado tenemos que
'C

c(B Bo) =
.

SW

C2

(B Bo)

\ (9-e)

Xll

y tambin A = (A,' A 2 ')' = C(B Bo) =

(B Bo)

/ C(B Bo) C , (B Bo) )

para la hiptesis C ) B 0=D, entonces


C (BBa ) = iC )(BD) 0 (A A , c2( BB0 ), \c2(13-Bo),, a C,
= ~] =

(B-D)

\ 2/ \ C2( BBo) l

43

lo que equivale a: A, =C,B D y O =Cz(BB .)


Z

pero A l = 0 Luego, C 1 B = D por lo tanto la hiptesis C1 B = D es equivalente a A l = 0 . La Prueba de Razn de Verosimilitud. Si se selecciona una muestra aleatoria de una distribucin y L(o) es tma funcin tanto de parmetros inconvenientes desconocidos como de O . Si la hiptesis nueva He especfica que H cae en un conjunto particular de posibles valores de St o , esto es H . : 0 = O, y la hiptesis alternativa especificada que 0 cae en otro conjunto de posibles valores de S2 n , tal como 1 l : 0 > 0 , donde O, no se traslapa con Q ( y 12 0 U n = S2 . Sea L(0 0 ) la funcin de verosimilitud con todos los parmetros desconocidos reemplazados por sus estimadores de mxima verosimilitud, sujetos a la restriccin de que 0
E 0,,.

De manera similar se tiene L(a) pero con la restriccin de que H E Qo . La prueba de razn de verosimilitud se basa entonces en la razn

L(S2)


44

Esta prueba utiliza el estadstico k como estadstico de prueba y la regin de rechazo se determina poro, k, donde el valor de k se escoge de tal forma que a queda a un nivel predeterminado. Definicin II.2 La prueba de razn de verosimilitud (P .R.V.) de tamao a para probar la hiptesis Ho contra Ha tiene como regin de rechazo K = {w a (w) < c}, donde c es determinado por SupP0 (wek)=a ocf2o

Estadstico de Wilk's. Definicin I1.3 Si M Wp(I, m) y N Wp(I, n) son dos Wishart independientes, m p, decimos que A = M = I + M -' N ' 0(p, m, n) , tiene una {

M Ni

distribucin Lambda Wilk's con parmetro p, m y n. Donde m representa los grados de libertad del error, n los grados de libertad de la hiptesis ; por lo que m + n representan el total de los grados de libertad.

45

El Estadstico de Prueba dado por Ln A. Corolario II.1 El estadstico de prueba, para la (P .R.V.) de la hiptesis nula Ho : C 1 B 2 = O, bajo el modelo Y = XB + E , esta dado por,

n InA= -In 2

donde E y E, son los estimadores de mxima

verosimilitud de E, y E que tienen distribuciones Wishart. Demostracin: La (P .R.V) de la hiptesis He : C 1B O, es equivalente a probar la hiptesis H0: B(2) = O, donde

B=

B(1) (r+l)xp B(2) (qr)xp-

paraX=

[X 1 'X 2 ] nx(r+l) nx(qr)

El modelo general puede ser escrito como Y = X,B } + X 2 B(2, + E, para la hiptesis B (2) = 0 se tiene , Y = X,B ( + E . Esta prueba de razn de verosimilitud de la hiptesis nula est basada en la suma de cuadrados y productos cruzados, el cual es
n ,,

(YX,Bo))'(YX,&I>)(YXB)'(YXB)

46

donde B ( I )

(X,' X, X,' Y ;

(YX B(o) ' ( YX, E o)) n (YXB)'(YXB) n

que son los estimadores de mximo verosimilitud de E l y E, adems tenemos que L(B, E) =
A

p 1 np log 2R - - log 1 E --np 2 2

= Z n1og I 2irE

L B,E =log2n

y tambin: 1 ._ np
2

L(Bo), Ei) = log 2nt El

por lo tanto

/2

47

L
(2n)

la razn de verosimilitud A puede ser

expresada en trminos de la varianza generalizada. As,


A

max L
Ni,ir.

(D,E I

max L( B, E) B,y.
/A \

L Bo) ,E,

L B, E

' (210 /
ei/

ii A 2

r%

1 iE
1

np/.1 A i -"!?' 2

(2E)

/2

donde A ser el estadstico

48

lo que se quera demostrar. Proposicin I1 .8 La (P.R.V) de la hiptesis nula Ho: C 1B = D para el modelo = ZA + E tiene como estadstica de prueba

El cual tiene distribucin A(p, n q, g) , bajo la hiptesis nula. Demostracin: Sea Ho: C 1 B=D la hiptesis considerada, Y, = ZA + E el modelo .

49

Si LB E = 2 -1og 2cE verosimilitud de B y E.

-n2

2 np es el valor mximo de la funcin de

(A y LB2,E2 \ = log 2ir E2' 1 np es el valor de mximo de la funcin i 2


A A

de verosimilitud ; B 2 y E2 estimadores de mximo verosimilitud de B, y E2 respectivamente. La razn de verosimilitud puede expresarse en trminos de la va lanza generalizada como:
A

maxl u1 n s,
13 .E

B2,

E2 J

max l B, E

n 'Y2 n e ,2 /k2 .Trj E2'

e z 42ir) /2
por lo tanto

E2

Potrebbero piacerti anche