Sei sulla pagina 1di 37

Universidad de Chile.

Facultad de Ciencias Físicas y Matemáticas.


Departamento de Ingeniería Matemática.

MÉTODOS ESTADÍSTICOS
PREDICTIVOS

Nancy Lacourly.

2008
2
PREFACIO
El curso de métodos estadísticos predictivos, obligatorio para los alumnos de ingeniería matemá-tica, pro-
fundiza y complementa los temas de análisis multivariados vistos en el curso de estadística. Se trata de dar
justificaciones matemáticas de los métodos así como aspectos aplicados.

Los modelos pretenden representar estructuras de un fenómeno descrito mediante datos. Todo modelo es-
tadístico se basa en supuestos y simplifica la realidad. Es entonces importante verificar la validez del modelo,
tanto los supuestos en los cuales se basa el modelo así como la calidad de la aproximación que el modelo
hace del fenómeno.

3
4
Índice general

1. FUNDAMENTOS MATEMÁTICOS 7

1.1. Derivación matricial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.1.1. Definiciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.1.2. Aplicaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2. Inversa generalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3. Elementos relacionados con formas cuadráticas . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3.1. M-simetría. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3.2. Proyectores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.3.3. Matriz de varianza-covarianza de un vector aleatorio . . . . . . . . . . . . . . . 13

1.3.4. Esperanza de una forma cuadrática . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.4. Distribución normal multivariada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.4.1. Definiciones y propiedades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.4.2. Varianza de una forma cuadrática. . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.5. Distribuciones derivadas de la normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.5.1. La distribución χ2n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.5.2. La distribución Fm,n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.5.3. La distribución de Wishart Wp (n, Γ). . . . . . . . . . . . . . . . . . . . . . . . . 23

1.5.4. La distribución T 2 de Hotelling . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.5.5. La distribución Λ p,m,n de Wilks. . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.6. Inferencia Estadística. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

5
1.6.1. Desigualdad de Cramer-Rao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

1.6.2. Test de hipótesis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

1.7. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

1.8. BIBLIOGRAFÍA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

6
Capítulo 1

FUNDAMENTOS MATEMÁTICOS

7
8
En este capítulo se ven algunos resultados matemáticos o estadísticos útiles para los capítulos siguientes.

1.1. Derivación matricial.

1.1.1. Definiciones.

Sea f una variable dependiente de un vector X ∈ IR p de componentes xi . Se define el vector gradiente ∇ f


como el vector de las derivadas de f con respecto a los elementos de X:
 
∂f
 ∂x1 
∂f  .
..

∇f = = .
∂X  ∂f


∂x p

Se define el Hessiano H como la matriz simétrica de las segundas derivadas:

∂2 f ∂2 f ∂2 f
 
...
 ∂x12 ∂x1 ∂x2 ∂x1 ∂x p 
∂2 f ∂2 f ∂2 f
 
 
 2 
∂ f ∂∇ f  ...
∂x22

Hf = = = ∂x2 ∂x1 ∂x2 ∂x p
.
 
∂xi ∂x j i, j ∂X .. .. .. ..
.
 
 . . . 
∂2 f ∂2 f
 
 
... ...
∂x p ∂x1 ∂x2p

∂f ∂f
Si f depende de una matriz A = (ai j )i, j , entonces es una matriz de término general .
∂A ∂ai j

1.1.2. Aplicaciones.

Sean u y X ∈ IR p , Y ∈ IRr , A ∈ Mr,p y B ∈ M p,r :

f = ut X = X t u ∂ f /∂X = u
f = AX ∂ f /∂X = A
f= X t BY ∂ f /∂X = BY ∂2 f /∂X∂Y = B
f = X t AX (p = r) ∂ f /∂X = (A + At )X ∂2 f /∂X 2 = A + At
f = X t AX (p = r) ∂ f /∂A = XX t
f = X t AX (A = At ) ∂ f /∂X = 2AX ∂2 f /∂X 2 = 2A
f = Traza(BA) ∂ f /∂A = Bt
f = Traza(BAAt ) (p = r) ∂ f /∂A = (B + Bt )A

9
Se denotan |A| al determinante de A y Ai j al menor de ai j afectando su signo en (−1)i+ j

p
|A| = ∑ ai j Ai j
j=1

∂|A| A ji
entonces = |A|(At )−1 dado que (A−1 )i j = .
∂A |A|

1.2. Inversa generalizada

En un sistema de ecuaciones: Γx = y, si la matriz Γ es invertible (Γ−1 ), entonces x = Γ−1 y. Con el con-


cepto de inversa generalizada o g-inversa queremos definir el conjunto de soluciones y las propiedades
asociadas.

Sea Γ de orden p y de rango r. Si r = p, entonces Γ es invertible, si no, existen matrices Γ− , g-inversa de


Γ tales que ΓΓ− Γ = Γ. Es decir: x = Γ− y es una solución de Γx = y. Se observará que Γ− Γ no es igual a la
identidad salvo si Γ es invertible, pero se tiene:

(ΓΓ− )2 = ΓΓ− y (Γ− Γ)2 = Γ− Γ.

La matriz g-inversa no es invertible ni única. Para definir una g-inversa única se puede imponer que la
g-inversa de Γ− sea Γ y que ΓΓ− y Γ− Γ sean simétricas. Tal inversa generalizada única1 es la inversa
generalizada de Penrose que se denotará Γ+ .

Propiedades: Sea X(nxp) de rango incompleto r < p y G una g-inversa de X t X. Muestre que

Gt es una g-inversa de X t X.

GX t es una g-inversa de X. Mostramos que XGX t X = X. Como G es una g-inversa de X t X, se tiene:


X t XGX t X = X t X. Luego X t XGX t X − X t X = 0 ⇒ (GX t X − I)(X t XGX t X − X t X) = 0 ⇒ (XGX t X −
X)t (XGX t X − X) = 0 ⇒ XGX t X − X = 0.

XGX t es invariante para cualquier g-inversa G de X t X. Del resultado anterior se deduce que si G1 y
G2 son g-inversas de X t X, XG1 X t X = XG2 X t X, o sea XG1 X t = XG2 X t .

XGX t es simétrica aún si G no lo es. Si G1 es una g-inversa simétrica de X t X entonces XG1 X t es


simétrica. De la propiedad de invarianza se deduce el resultado.

Se nota que las segunda y tercera propiedades anteriores se basan en el siguiente resultado:
1 Ver página 35, ejercicio 5.

10
Proposición 1.1 Sea A(mxn)

(a) Para toda matriz B(nxp) y C(nxp), se tiene

AB = AC ⇔ At AB = At AC

(b) Para toda matriz E(pxn) y F(pxn), se tiene

EAt = FAt ⇔ EAt A = FAt A

Demostración
(a) Si AB = AC ⇒ At AB = At AC.
Recíprocamente, si At AB = At AC ⇒ At AB − At AC = 0
Luego (Bt −Ct )(At AB − At AC) = 0 ⇒ (AB − AC)(AB − AC) = 0 ⇒ AB − AC = 0.
La parte (b) es similar.

1.3. Elementos relacionados con formas cuadráticas

1.3.1. M-simetría.

Sea F un espacio vectorial real (e.v.r) de dimensión n (F = IRn ) y M una matriz simétrica definida positiva
(f.c.d.p.s.) sobre F. A todo x e y de F se le asocia el producto escalar M, que define una metrica euclideana
en F:
< x, y >M = M(x, y) = xt My = yt Mx

Se obtiene entonces la distancia euclidiana entre x e y:



d(x, y) = < x − y, x − y >M = kx − ykM

Se define también la M-ortogonalidad: x ⊥ y ⇐⇒ < x, y >M = 0.


M

Definición 1.1 Se dice que una aplicación lineal A de F en F es M-simétrica si y solo si M es simétrica,
definida positiva y ∀x, y ∈ F :< x, A(y) >M =< A(x), y >M .

Se deduce que si A es M-simétrica, entonces (M ◦ A)t = M ◦ A. En particular, si M = In se obtiene la métrica


usual y entonces A es simétrica. En ese caso los valores propios de la matriz A, que es simétrica, son reales y
existe una base ortonormal de F formada de vectores propios de A. Si A es M-simétrica, se extienden estos
resultados:

11
Proposición 1.2 Si A es M-simétrica, sus valores propios son reales y existe una base M-ortonormal de F
formada de vectores propios de A. Si λ1 , λ2 ,. . . , λn son los valores propios de A, entonces existe una matriz
U tal que si U1 , U2 ,. . . , Un son las columnas de U entonces AU j = λ jU j con U t MU = In .

1.3.2. Proyectores.

Se definen los proyectores en un e.v.r. F a partir de la descomposición en suma directa de F:

F = H ⊕ G ssi ∀x ∈ F ∃!(u, v) ∈ H × G tq x = u+v

El vector u es la proyección de x sobre H paralelamente a G y v es la proyección de x sobre G paralelamente


a H. Sean P el proyector sobre H paralelamente a G: u = P(x) y Q el proyector sobre G paralelamente a H:
v = Q(x).
Los operadores P y Q son lineales e idempotentes de orden 2 (P ◦ P = P y Q ◦ Q = Q). La imagen de P:
Im(P) = H = Ker(Q) y Im(Q) = G = Ker(P). El rango de P es la dimensión de H y el rango de Q es la
dimensión de G. Además P + Q = In y P ◦ Q = 0n . Los operadores P y Q tienen dos valores propios distintos:
el valor propio 1 de espacio propio igual a H para P (y G para Q) y el valor propio 0 de espacio propio igual
a G para P (y H para Q).
Consideremos ahora el caso particular en que H y G son M-ortogonales: < u, v >M = 0. En este caso se habla
de proyecciones M-ortogonales y los proyectores P y Q tienen además la propiedad de ser M-simétricos. En
efecto, si x = P(x) + Q(x) e y = P(y) + Q(y), entonces:

< x, P(y) >M =< P(x) + Q(x), P(y) >M =

< P(x), P(y) >M =< P(x), P(y) + Q(y) >M =< P(x), y >M .

Luego, si P es un proyector M-ortogonal, existe una base M-ortonormal de vectores propios de M ◦ P.


Sea y ∈ IRn y H un s.e.v. de IRn . La proyección M-ortogonal Py de y sobre H es el punto de H lo más cercano
de y en el sentido de la métrica M.
Buscamos la expresión de un proyector M-ortogonal a partir de un conjunto generador {x1 , . . . , xr } de H. La
proyección Py es tal que (y − Py) ⊥ H, por lo tanto ∀ j : (y − Py) ⊥ x j . Luego si M es la matriz formada de los
M M
vectores x j en columnas, X t M(y − Py) = 0, o sea

X t My = X t MPy

Ahora bien Py ∈ H, luego existe un vector b ∈ IRr tal que Py = Xb. De aquí se obtienen las ecuaciones
normales:
X t MXb = X t My

12
Si X es de rango r, entonces se obtiene el vector b y la expresión del proyector:

b = (X t MX)−1 X t My

P = X(X t MX)−1 X t M

Si X no es de rango r (los x j no forman una base de H) se pueden suprimir columnas de X hasta extraer una
base de H.

1.3.3. Matriz de varianza-covarianza de un vector aleatorio

Sea Y un vector real aleatorio de dimensión p de media µ y matriz de varianza-covarianza Γ:


   
y1 µ1
y2 µ2
   
   
Y = .. , E(Y ) =  ..  = µ,
. .
   
   
yp µp

Γ = Var(Y ) = (γi j )i j = E{(Y − µ)(Y − µ)t } = E(YY t ) − µµt

con γi, j = Cov(yi , y j ) si i 6= j y γi,i = Var(yi ). La matriz Γ es semi-definida positiva. En efecto ut Γu es una
forma cuadrática igual a la varianza de la variable aleatoria ut Y .

Si Z = AY en que A es una transformación lineal, se tiene:

E(Z) = AE(Y ) = Aµ

Var(Z) = E(ZZ t ) − (Aµ)(Aµ)t = AΓAt


p.s.
Sea K = Ker(Γ) el núcleo de Γ. Si u ∈ K, entonces Var(ut Y ) = 0 y ut (Y − µ) = 0. Si Γ es de rango r, K es
de dimensión p − r y Y − µ pertenece (p.s.) a un s.e.v. S de dimensión r.

Sea Γ invertible. Se asocia al vector Y el elipsoide de concentración:

{Z ∈ IR p |(Z − µ)t Γ−1 (Z − µ) = c}

en que c es una constante dada.

Sea la diagonalización de Γ: Γ = UDU t = T T t . En las columnas de U se tienen los vectores propios de Γ y


D es la matriz diagonal con los valores propios asociados. Se tiene entonces:

T = UD1/2

13
Si Γ es de rango r (r < p) y la matriz Λ restricción de T a los r vectores asociados a los valores propios
no nulos, entonces: Γ = ΛΛT . Si el vector aleatorio Z es un vector de media nula y matriz de varianza-
covarianza igual a Ip , entonces µ + ΛZ es un vector de media µ y matriz de varianza-covarianza Γ = ΛΛt .
Existen una infinidad de descomposiciones de Γ, pero si se pide que T sea triangular inferior, se obtiene la
descomposición de Choleski.

Si Γ es de rango p, Γ = T es invertible, entonces Z = Λ−1 (Y − µ) es un vector aleatorio de dimensión p


de media nula y matriz de varianza-covarianza Ip . El cambio de variables X = Λ−1Y permite pasar de la
métrica Γ−1 a la métrica Ip :

p
kXk2Ip = ∑ xi2 = X t X = Y t (Λt )−1 Λ−1Y = Y t Γ−1Y = kY k2Γ−1
i=1

|Zk2Ip = kY − µk2Γ−1

Calculemos la media y la varianza de kY − µk2Γ−1 .

p p
E(kY − µk2Γ−1 ) = E(kZk2Ip ) = ∑ E(z2i ) = ∑ Var(zi ) = p
i=1 i=1
!
p
Var(kY − µk2Γ−1 ) = Var(kZk2Ip ) = Var ∑ z2i .
i=1

Las p v.a. zi son no correlacionadas entre si y todas de varianza igual a 1. Entonces

Var(kY − µk2Γ−1 ) = p.

1.3.4. Esperanza de una forma cuadrática

Sea la matriz simétrica A ∈ Mn,n y X ∈ IRn . Se define la forma cuadrática:

Q = X T AX = Traza(X T AX) = Traza(AXX T ).

Entonces: E(Q) = Traza(AVar(X)) + E(X)T AE(X). En efecto:

E(X T AX) = E((X − E(X))T A(X − E(X))) + E{E(X)T AX + X T AE(X) − E(X)T AE(X)}

luego:
E(X T AX) = E((X − E(X))T A(X − E(X))) + E(X)T AE(X)

14
el resultado buscado2 .

1.4. Distribución normal multivariada.

1.4.1. Definiciones y propiedades.

Se supone ahora que el vector Y ∈ IR p es un vector normal. Se puede definir de dos maneras equivalentes la
distribución normal multivariada.
Definición 1.2 Se dice que Y es un vector normal multivariado de orden p de vector de media µ y de
matriz de varianza-covarianza Γ (se denota Y ∼ Np (µ, Γ)), si y sólo si:

∀u ∈ IR p → IR : uT Y ∼ N(uT µ, uT Γu).

Es decir que si Y es un vector normal entonces toda combinación lineal de Y es una variable aleatoria
normal.

Definición 1.3 Se dice que Y ∼ Np (µ, Γ) si y sólo si su función característica es:


 
p 1 T
T
∀v ∈ IR : ΨY (v) = exp iv µ − v Γv .
2
Propiedades:

Tomando como vector u a los distintos vectores canónicos, se obtienen que las leyes marginales de
Y son normales, pero la recíproca es falsa: un vector formado de variables normales no es necesaria-
mente un vector normal.

Sea A ∈ Mq,p : Y ∼ Np (µ, Γ) ⇒ X = AY ∼ Nq (Aµ, AΓAT ).

Las v.a. yi son independientes ⇐⇒ Γ es diagonal.

Si Γ es de rango r, existe una matriz Λ ∈ M p,r tal que Γ = ΛΛT entonces

Y ∼ Np (µ, Γ) ⇐⇒ Y = µ + ΛX con X ∼ Nr (0, Ir )

es decir que las componentes del vector X son centradas, normalizadas e independientes entre si.

Si Γ es invertible, Λ es invertible también y X = Λ−1 (Y −µ). Se puede escribir también X = Γ−1/2 (Y −


µ) (es la transformación de Mahalanobis ).
2 Concluya usted.

15
Esta última propiedad permite calcular la densidad del vector X en el caso que Γ es invertible. En efecto, se
puede calcular la densidad del vector X ∼ Np (0, Ip ):
 2p !  2p
p
1 p
 
1 1 1 TX
f (X) = ∏ fi (xi ) = exp − ∑ xi2 = e− 2 X .
i=1 2π 2 i=1 2π

Como X T X = (Λ−1 (Y − µ))T Λ−1 (Y − µ) = (Y − µ)T Γ−1 (Y − µ), el jacobiano de la transformación es:

1 1
|J(X −→ Y )| = =p .
|Λ| |Γ|

Luego la densidad de Y es:


 
1 1 T −1
h(Y ) = p exp − (Y − µ) Γ (Y − µ) .
(2π) p/2 |Γ| 2

Entonces se observará que la densidad de la distribución Np (0, Ip ) es constante sobre los elipsoides de la
forma: (Y − µ)T Γ−1 (Y − µ) = d 2 .
Proposición 1.3 Sean dos vectores normales Y1 ∼ Np1 (µ1 , Γ11 ) e Y2 ∼ Np2 (µ2 , Γ22 ), con Γ12 como la matriz
de covarianza entre Y1 e Y2 . Entonces la distribución condicional de Y1 dado Y2 es una normal:

Y1 |Y2 ∼ Np1 µ1 − Γ12 Γ−1 T −1 T



22 Γ12 (Y2 − µ2 ), Γ11 − Γ12 Γ22 Γ12

Demostración: Considerando las particiones siguientes:


! ! " #
Y1 µ1 Γ11 Γ12
Y= , µ= , Γ=
Y2 µ2 Γ21 Γ22

Se denota como p a la dimensión de Y (p = p1 + p2 ). Tenemos las equivalencias:


" #
Γ11 0
Y1 es independiente de Y2 ⇐⇒ Cov(Y1 ,Y2 ) = 0 ⇐⇒ Γ = .
0 Γ22

Determinemos
! la ley condicional de!Y1 dado Y2 cuando la matriz Γ2,2 es invertible: sea el cambio de variables
T1 Y1 − Γ12 Γ−1
22 Y2
T= = y calculemos su esperanza y su matriz de varianza-covarianza:
T2 Y2
!
µ1 − Γ12 Γ−1
22 µ2
E(T ) =
µ2
" # " #
Γ11 − Γ12 Γ−1 T −1
22 Γ12 Γ12 − Γ12 Γ22 Γ22 Γ11 − Γ12 Γ−1 T
22 Γ12 0
Var(T ) = =
ΓT12 − ΓT12 Γ−1
22 Γ22 Γ22 0 Γ22

16
Se deduce que los vectores T1 y T2 son normales e independientes entre si. La densidad conjunta de Y1 e Y2
puede escribirse a partir de la densidad de T1 y T2 : si llamamos f como la función densidad de la variable T
y φ la función densidad de la variable Y entonces

φ(Y ) = f (T (Y ))|J(T −→ Y )|

en donde J(T −→ Y ) es el jacobiano de la transformación de T a Y que es igual a:



4T Ip1 −Γ12 Γ−1
22
|J(T −→ Y )| = = =1
4Y 0 Ip2

Si denotamos ϕ(T1 ) y ϕ(T2 ) como las funciones de densidad de T1 y T2 respectivamente y g(•) como la
función densidad de su argumento (•), entonces tenemos que

φ(Y ) f (T (Y ))
f (T ) = ϕ(T1 )ϕ(T2 ) ⇒ g(Y1 |Y2 ) = = = ϕ(T1 (Y1 ,Y2 ))
g(Y2 ) ϕ(T2 )

Sabemos ahora que Y1 |Y2 posee una distribución normal. Calculemos su esperanza y su matriz de varianza-
covarianza:
E(Y1 |Y2 ) = E T1 + Γ12 Γ−1 −1

22 T2 |T2 = µ1 + Γ12 Γ22 (Y2 − µ2 )

Var(Y1 |Y2 ) = Var(T1 ) = Γ11 − Γ12 Γ−1 t


22 Γ12

Notas:

La esperanza condicional E(Y1 |Y2 ) = E(T1 + Γ12 Γ−1 −1


22 T2 |T2 ) = µ1 + Γ12 Γ22 (Y2 − µ2 ) es una función
lineal de Y2 .

La matriz de varianza condicional Var(Y1 |Y2 ) = Γ11•2 = Γ11 − Γ12 Γ−1 T


22 Γ12 es independiente de Y2 .

La siguiente propiedad es importante ya que será usada más adelante:

Proposición 1.4 Sea Y ∼ Np (µ, Γ) y Γ regular, entonces si u y v ∈ IR p , A y B son dos matrices simétricas
de orden p, se tienen las propiedades de independencia siguientes:

1. uT Y y vT Y son independientes ⇐⇒ uT Γv = 0

2. uT Y y Y T AY son independientes ⇐⇒ uT ΓA = 0

3. Y T AY y Y T BY son independientes ⇐⇒ AΓB = 0.

17
1.4.2. Varianza de una forma cuadrática.

Sea la matriz simétrica A ∈ Mn,n y X ∈ IRn . Se define la forma cuadrática:

Q = X T AX = Traza(X T AX) = Traza(AXX T ).

Calcularemos la varianza de la forma cuadrática cuando el vector X sea una normal multivariada (x1 , x2 , . . . , xn ) ∼
Nn (θ, σ2 In ). Estos cálculos nos dará:

Var(Q) = Var(X T AX) = 2σ4 Traza(A2 ) + 4σ2 θT A2 θ.

En efecto,
Q = (X − θ)T A(X − θ) + 2θT A(X − θ) + θT Aθ,

entonces
Q2 = {(X − θ)T A(X − θ)}2 + 4{θT A(X − θ)}2 + (θT Aθ)2 +

2θT Aθ{(X − θ)T A(X − θ) + 2θT A(X − θ)} + 4θT A(X − θ)(X − θ)T A(X − θ).

Consideremos el cambio de variable Y = X − θ. Calculemos la esperanza de cada sumando de Q2 por


separado: ( )
T 2 T 2
E{((X − θ) A(X − θ)) } = E{(Y AY ) } = E ∑ ai, j ak,l YiY jYkYl .
i, j,k,l

En el caso de la distribución normal se tiene:



4 i= j=k=l
 3σ si

E(YiY jYkYl ) = σ4 si (i = j 6= k = l) o (i = l 6= j = k) o (i = k 6= j = l)

0 si no

" #
n
.·. E{(Y T AY )2 } = 3σ4 ∑ a2ii + σ4 ∑ aii akk + ∑ ai j a ji + ∑ a2i j
i=1 i6=k i6= j i6= j
" ! !#
n n
= σ4 ∑ a2ii + ∑ aii akk +2 ∑ a2ii + ∑ a2i j = σ4 [(Traza(A))2 + 2Traza(A2 )]
i=1 i6=k i=1 i6= j

Dado que !
AT = A ⇒ Traza(A2 ) = ∑ a2i, j ⇒ E[(θT AY )2 ] = E ∑ bi b jYiY j con b = Aθ
i, j i, j

n
⇒ E[(θT AY )2 ] = σ2 ∑ b2i = σ2 bT b = σ2 θT A2 θ.
i=1

18
Como3 E[(θT AY )(Y T AY )] = 0 y E(Q) = E(X T AX) = σ2 Traza(A) + θT Aθ, entonces

Var(Q) = 2σ4 Traza(A2 ) + 4σ2 θT A2 θ.

Además si θ = 0, entonces Var(Q) = 2σ4 Traza(A2 ). Para el caso general4 Y ∼ Np (µ, Γ) ⇒ Var(Y T AY ) =
2Traza((AΓ)2 ) + 4µT AΓAµ.

1.5. Distribuciones derivadas de la normal.

Se repasan aquí las distribuciones univariadas clásicas derivadas de la normal, algunas aplicaciones y se
introducen nuevas distribuciones que las generalizan y que utilizaremos más adelante.

1.5.1. La distribución χ2n .

Si X ∼ Nn (0, In ), entonces:
n
kXk2 = ∑ xi2 ∼ χ2n .
i=1

Cuando X ∼ Nn (µ, In ), se define la distribución χ2n decentrada:


n
kXk2 = ∑ xi2 ∼ χ2n (δ2 )
i=1

con el decentramiento n
δ2 = ∑ µ2i = kµk2 .
i=1

Algunos autores definen el decentramiento como 12 kµk2 .

Se observa que kXk2 ∼ χ2n (kµk2 ) si sólo si kX − µk2 ∼ χ2n . Se deduce que:

E(kXk2 ) = n + kµk2 y Var(kXk2 ) = 2n + 4kµk2 .

La función de densidad de la variable U ∼ χ2n es:


n u
u 2 −1 e− 2
f (u) = n n  1{u>0} .
22 Γ 2

La función de distribución de U: F(U) = IP(U ≤ u) define el interior de la esfera centrada en el origen de



IRn y de radio u. En el caso de decentramiento U ∼ χ2n (kµk2 ) la esfera es de centro µ.

Propiedades:
3 Por qué?
4 Ver página 36, ejercicio 7.

19
!
La suma de variables χ2ri independientes ∑ ri = n tiene una distribución χ2n (con un número de
i
grados de libertad igual a la suma de los grados de libertad).

Relación con la distribución Gamma: χ2n = Gamma n2 , 12 .




Su distribución asintótica es normal; se tiene entonces como aproximación: para n grande χ2n ≈
N(n, 2n).

Proposición 1.5 Si Y ∼ Np (µ, Γ) con Γ de rango r, entonces kY − µk2Γ+ ∼ χ2r , en donde Γ+ es la inversa
generalizada de Penrose de Γ.

Demostración: Como Γ = ΛΛT , con Λ de mismo rango r que Γ, existe X tal que Y = µ + ΛX, con X ∼
Nr (0, Ir ). Pero
r
kXk2 = ∑ xi2 ∼ χ2r .
i=1

Como se puede escribir X = (ΛT Λ)−1 ΛT (Y − µ), luego:

kXk2 = kY − µk2Γ+ ∼ χ2r

en que Γ+ = Λ(ΛT Λ)−2 ΛT es la inversa de Penrose5 de Γ. Si Γ es invertible, Γ+ = Γ−1 .

El siguiente teorema tiene muchas aplicaciones en el estudio de los modelos lineales.


Teorema 1.1 Si Y ∼ Nn (0, Γ) con Γ regular, A una matriz simétrica de rango r, entonces

Q = Y T AY ∼ χ2r ⇐⇒ AΓ es idempotente de orden 2.

Demostración: Se presentan dos demostraciones:

Demostración por matrices:

Demostración por función característica:

Condición suficiente: sea AΓ idempotente, tiene rango r, entonces AΓ tiene sus valores propios λi
iguales a 1 con multiplicidad r y 0 con multiplicidad n − r. Consideremos ahora la función generatriz
de los momentos (f.g.m.) o función característica de Q:
  n2
1
Z Z
tQ − 12 1 T Γ−1Y
etQ− 2 Y

E e = |Γ| ··· dy1 . . . dyn con t ∈] − ∞, 1/2]
2π IR IR

1
n 1 r
E etQ = |In − 2tAΓ|− 2 = ∏(1 − 2tλi )− 2 = (1 − 2t)− 2

i=1
5 Compruébelo.

20
que es la f.g.m. de χ2r
Nota: si la media de Y es µ, se obtiene una χ2r con un decentramiento µT Aµ.
r 1
Condición necesaria: sea Q ∼ χ2r , entonces E etQ = (1−2t)− 2 = |In −2tAΓ|− 2 . Sea u = 2t, entonces


n
(1 − u)r = |In − uAΓ| = ∏(1 − uλi ) con u ∈] − ∞, 1].
i=1

Tal ecuación no puede tener más de r términos no nulos. Luego


r
(1 − u)r = ∏(1 − uλi )
i=1

y pasando a
r
r ln(1 − u) = ∑ ln(1 − uλi )
i=1

se obtiene que ∀i = 1, . . . , r : λi = 1. Como los otros valores propios son nulos, entonces AΓ es idem-
potente de rango r.

Se deduce un teorema muy importante en el estudio de las formas cuadráticas.


Teorema 1.2 Dado el vector aleatorio Y ∼ Nn (µ, Γ) con Γ regular, se considera la forma cuadrática Q =
Y T AY con A simétrica de rango r y las p formas cuadráticas Qh = Y T AhY con Ah simétrica de rango rh
(1 ≤ h ≤ p) tales que !
p p
Q= ∑ Qh , A= ∑ Ah .
h=1 h=1

Sean las cuatro proposiciones siguientes:

1. Q ∼ χ2r (µT Aµ)

2. Qh ∼ χ2rh (µT Ah µ)

3. ∀h 6= k : Qh y Qk son independientes

4.
p
∑ rh = r.
h=1

Entonces dos de las proposiciones, salvo las dos últimas que son equivalentes, implican las dos otras.

Demostración: Del teorema 1.1, página 20, se deduce que:

La proposición (1) es equivalente a decir que AΓ es un operador idempotente de rango r y AΓA = A,


y

21
la proposición (2) es equivalente a decir que los Ah Γ son operadores idempotentes de rango rh y
Ah ΓAh = Ah .

Además la proposición (3) es equivalente6 a decir que ∀h 6= k : Ah ΓAk = 0. Utilizaremos estas equivalencias
para la demostración:

Las proposiciones (3) y (4) son equivalentes: si


p p p
A= ∑ Ah ⇒ AΓ = ∑ Ah Γ ⇒ Im(AΓ) = ∑ Im(AΓ).
h=1 h=1 h=1

Entonces se tiene las equivalencias siguientes:

∀h 6= k : Ah ΓAk = 0 ⇐⇒ ∀h 6= k : Ah ΓAk Γ = 0 ⇐⇒ ∀h 6= k : Im(Ah Γ) ∩ Im(Ak Γ) = {0}


p
M p
⇐⇒ Im(AΓ) = Im(Ah Γ) ⇐⇒ ∑ rh = r.
h=1 h=1

Las proposiciones (1)+(2) ⇒ (3) (y (4)): en efecto:

kΓAY k2Γ−1 = Y T AΓΓ−1 ΓAY = Y T AΓAY = Y T AY = Q.

Como
p p p p p
A= ∑ Ah ⇒ kΓAY k2Γ−1 = ∑ Y T AhY = ∑ Qh = ∑ Y T Ah ΓAhY = ∑ kΓAhY k2Γ
−1 .
h=1 h=1 h=1 h=1 h=1

Luego ∀h 6= k :< ΓAhY, ΓAkY >Γ−1 = 0 ⇒ ∀h 6= k : Y T Ah ΓΓ−1 ΓAkY = Y T Ah ΓAkY = 0 ⇒ ∀h 6= k :


Ah ΓAk = 0 ⇒ ∀h 6= k : Qh y Qk son independientes7

Las proposiciones (1)+(3) ⇒ (2):


(1) ⇐⇒ AΓ es idempotente y (3) ⇐⇒ ∀h 6= k : Ah ΓAk Γ = 0. Para mostrar (2) hay que mostrar que
los Ah Γ son idempotentes. Como se tiene
p
Im(AΓ) = ∑ Im(Ah Γ) ⇒ Im(Ah Γ)⊂Im(AΓ).
h=1

Luego si Z = Ah ΓY ⇒ Z ∈ Im(AΓ) y
p
Ah ΓY = AΓZ = AΓAh ΓY = ∑ Ak ΓAh ΓY = (Ah Γ)2Y.
k=1
6 Ver 36, ejercicio 8(c).
7 Ver 36, ejercicio 8(c).

22
Corolario 1.1 (Teorema de Cochran) Dado el vector aleatorio Y ∼ Nn (0, Γ) con Γ regular, se considera
la forma cuadrática Q = Y T AY con A simétrica de rango r y las p formas cuadráticas Qh = Y T AhY con Ah
simétrica de rango rh (1 ≤ h ≤ p) tales que
!
p p
Q= ∑ Qh , A= ∑ Ah .
h=1 h=1

Entonces:
p
AΓ idempotente orden 2 y ∑ rh = r ⇐⇒ Qh ∼ χ2rh ∧ ∀h 6= k : Qh y Qk independientes.
h=1

1.5.2. La distribución Fm,n .

Se estudia el cociente de dos formas cuadráticas independientes: si U ∼ χ2m y V ∼ χ2n con U y V independi-
nU
entes, se dice que F = sigue una forma distribución F de Fisher a m y n grados de libertad (se denota
mV
Fm,n ).
Propiedades:

n
E(Fm,n ) = (n > 2).
n−2

2n2 (m + n − 2)
Var(Fm,n ) = (n > 4).
m(n − 4)(n − 2)2

F1,n = tn2 .

Se define Fm,n no centrada cuando el numerador es no centrado.

1.5.3. La distribución de Wishart Wp (n, Γ).

La distribución de Wishart es la distribución de una matriz de varianza-covarianza empírica. Generaliza la


distribución χ2n . Si {x1 , x2 , . . . , xn } es una m.a.s. de la N(µ, σ2 ) con σ > 0 , entonces

1 n
∑ (xi − µ)2 ∼ χ2n
σ2 i=1

y si
1 n 1 n
x̄n = ∑ xi ⇒ 2 ∑ (xi − x̄n )2 ∼ χ2n−1 .
n i=1 σ i=1

23
Consideremos una muestra aleatoria simple de tamaño n de un vector aleatorio de IRn de distribución
Np (µ, Γ). Sea X ∈ Mn,p la matriz que tiene en fila las realizaciones independientes Xi ∼ Np (µ, Γ), o sea
 
X1T
 T 
 X2 
X =
 .. 

 . 
XnT

n
Consideremos D = (X −1n µT )T (X −1n µT ) = ∑ (Xi −µ)(Xi −µ)T es decir la matriz de las sumas y productos
i=1
de las observaciones centradas en las medias de la población.

Propiedades:

De la misma manera que en el caso p = 1,

1 n
∑ (xi − µ)2
n i=1

es una estimación insesgada de la varianza σ2 de la población cuando la media µ es conocida, muestre8


que n1 D es una estimación insesgada de Γ cuando el vector de medias µ es conocido.

La matriz D es semi-definida positiva; es definida positiva (p.s.) cuando Γ es invertible.

Se llama distribución de Wishart y se denota Wp (n, Γ) a la distribución de la matriz D. Se muestra que


cuando la matriz D es definida positiva, su función de densidad es:

1
q
1 −1
f (D) = |D|n−p−1 e− 2 Traza(Γ D)
K

donde K es una constante:


p
K = 2np/2 π p(p−1)/4 |Γ|n/2 ∏ Γ((n + j − 1)/2).
j=1

1
Se puede mostrar que E(D) = nΓ y E(D−1 ) = Γ−1 si n − p − 1 > 0.
n− p−1
Notas:

Para p = 1
n
W1 (n, σ2 ) = ∑ (xi − µ)2 ∼ σ2 χ2n .
i=1
8 Ver página 36, ejercicio 10.

24
Si D ∼ Wp (n, Γ), entonces ∀u ∈ IR p \ Ker(Γ) : uT Du ∼ W1 (n, uT Γu).

Proposición 1.6 La suma de matrices mutuamente independientes Dk ∼ Wp (nk , Γ), n = ∑ nk , sigue una
k
distribución de Wishart Wp (n, Γ).
Demostración: Se deja la demostración como ejercicio.
Proposición 1.7 Sea el vector de medias empíricas

1 n
g= ∑ Xi ,
n i=1

entonces g ∼ Np µ, 1n Γ y V = (X − 1n gT )T (X − 1n gT ) ∼ Wp (n − 1, Γ).


Demostración: Se observa que V = D − n(q − µ)(g − µ)T y que n(q − µ)(g − µ)T ∼ Wp (1, Γ) y se aplica la
proposición 1.4.
Proposición 1.8 Sea D ∼ Wp (n, Γ), entonces para todo vector constante u ∈ IR p , se tiene

uT Du
∼ χ2n .
ut T Γu
u Du
Demostración: Como ut Du ∼ W1 (n, uT Γu), t ∼ W1 (n, 1) = χ2n . Se puede demostrar también que
u Γu
ut Γ−1 u
∼ χ2n−p+1 ; estos resultados, que se generalizan para vectores u aleatorios, son delicados a demostrar.
ut D−1 u

1.5.4. La distribución T 2 de Hotelling


N(0, 1)
Esta distribución generaliza la distribución t-Student. La v.a. tn = p sigue una distribución de Student
χ2n /n
a n grados de libertad cuando el numerador y el denominador son independientes, por ejemplo

n(x̄n − µ)
s ∼ tn
1 n
∑ (xi − µ)2
n i=1

n(x̄n − µ)
s ∼ tn−1 .
1 n
∑ (xi − x̄n )2
n − 1 i=1

Definición 1.4 Si X ∼ Np (0, Ip ), D ∼ Wp (n, Ip ) y X independiente de D, entonces nX T D−1 X sigue


una distribución de T 2 de Hotelling de parámetro n denotada Tp2 (n).
Se deduce la proposición:
Proposición 1.9 Si X ∼ Np (µ, Γ), D ∼ Wp (n, Γ) y X independiente de D, entonces n(X − µ)T D−1 (X − µ)
sigue una distribución de Hotelling Tp2 (n).
Demostración: Existe A tal que las filas Ai de A son realizaciones independientes de Np (0, Γ) y B =

25
1 1
AΓ− 2 tiene en filas los vectores Γ− 2 Ai que son realizaciones independientes de Np (0, Ip ). Luego BT B =
1 1 1
Γ− 2 DΓ− 2 ∼ Wp (n, Ip ). Por otro lado Γ− 2 (X − µ) ∼ Np (0, Ip ). Se deduce entonces de la definición que
n(X − µ)T D−1 (X − µ) sigue una distribución de Hotelling Tp2 (n).

Proposición 1.10 Se puede escribir la Tp2 (n) de Hotelling en función de una F de Fisher:

np
Tp2 (n) =
Fp,n−p+1 .
n− p+1
Demostración: En efecto: X ∼ Np (µ, Γ), entonces se puede escribir:

n(X − µ)T D−1 (X − µ)


Tp2 (n) = (X − µ)T Γ−1 (X − µ)
(X − µ)T Γ−1 (X − µ)

uT Γ−1 u 2 T Γ−1 (X −µ) ∼ χ2 , luego se escribe que T 2 = n


χ2p
Por otro lado vimos que ∼ χn−p+1 y (X −µ) p p ,
uT D−1 u χ2n−p+1
np
como X y D son independientes, se concluye que Tp2 (n) = Fp,n−p+1 . En particular si p = 1: Tp2 (n) =
n− p+1
F1,n = tn2 .
np np
De la proposición 1.8 se deduce que E(Tp2 (n)) = E(Fp,n−p+1 ) = .
n− p+1 n− p−1
1.5.5. La distribución Λ p,m,n de Wilks.

Esta distribución, que generaliza la distribución F de Fisher, es la distribución del cociente de determinantes
de matrices de varianzas con distribución de Wishart.
|A|
Definición 1.5 Sean A ∼ Wp (m, Γ) y B ∼ Wp (n, Γ) dos matrices independientes, entonces Λ =
|A + B|
tiene la distribución de Wilks de parámetros p, m, n (se denota Λ p,m,n ).

Propiedades:

|A| 1
Λ= = −1 .
|A + B| |A B + Ip |

Λ p,m,n y Λn,m+n−p,p tienen la misma distribución.

La distribución de Λ no depende de la matriz Γ.

Si A y B son definidas-positivas, entonces Λ ∈ [0, 1], además se expresa en función de los valores
propios: sean λ1 , . . . , λ p de A−1 B:
p
1
Λ=∏ .
i=1 1 + λi

No es fácil obtener la función de densidad exacta de Λ p,m,n , salvo para n = 1 ó 2 ó m = 1 ó 2. Para

26
calcularla se usan en general aproximaciones. La más usada es la de Bartlett, cuando m es grande:
 
1
− m − (p − n + 1) ln(Λ p,m,n ) ∼
= χ2np .
2

1 − Λ p,m,1 p
= Fp,m−p+1 .
Λ p,m,1 m− p+1

1 − Λ1,m,n n
= Fn,m .
Λ1,m,n m

1.6. Inferencia Estadística.

1.6.1. Desigualdad de Cramer-Rao.

La desigualdad de Cramer-Rao, que vamos a establecer, permite dar una cota inferior de la varianza de un
estimador. Esta cota se basa en la cantidad de la información de Fisher.

Cantidad de información de Fisher.

Sea una v.a. X de función de densidad o función de probabilidad f (x|θ) en donde θ es un parámetro de-
sconocido en el conjunto Ω.

Definición 1.6 Se llama cantidad de información de Fisher dada por X sobre el parámetro θ a la
cantidad " 2 #
∂ ln f
I(θ) = E .
∂θ

Se puede dar dos otras formas a la cantidad de información de Fisher:


Teorema 1.3 Si el dominio S de X no depende de θ, entonces
 
∂ ln f
I(θ) = Var .
∂θ
Demostración: Sea S el dominio de X, entonces como
Z Z
∀θ ∈ Ω : f (x|θ)dx = 1 ⇒ ∀θ ∈ Ω : f 0 (x|θ)dx = 0.
S S

f0
   
∂ ln f ∂ ln f ∂ ln f
Además = , luego E = 0 y ∀θ ∈ Ω : I(θ) = Var .
∂θ f ∂θ ∂θ
El teorema siguiente nos da otra expresión para I(θ), que a menudo es más fácil de determinar.

27
Teorema 1.4 Si el dominio S de X no depende de θ, entonces:

∂2 ln f
 
I(θ) = −E
∂θ2

si esta cantidad existe.


∂2 f ∂2 f
 
Demostración: Si ∀θ ∈ Ω : 2 existe, entonces E = 0. Además
∂θ ∂θ2

∂2 ln f f f 00 − ( f 0 )2 f 00 ∂ ln f 2
 
= = − .
∂θ2 f2 f ∂θ

Como
∂2 ln f
  Z
E = f 00 (x|θ)dx − I(θ),
∂θ2 S

se deduce que
∂2 ln f
 
I(θ) = −E .
∂θ2

Sea una m.a.s. {x1 , x2 , . . . , xn }, xi de función de densidad o función de probabilidad f (x|θ) en donde θ es un
parámetro desconocido en el conjunto Ω. Sea L la función de verosimilitud de la muestra.

Definición 1.7 Se llama cantidad de información de Fisher de una muestra aleatoria de tamaño n
sobre el parámetro θ a la cantidad
" 2 #
∂ ln L
In (θ) = E .
∂θ

Se tienen las dos otras formas de expresar In (θ) como en el caso de una v.a. X:

∂2 ln L
   
∂ ln L
In (θ) = Var = −E .
∂θ ∂θ2

Es fácil deducir de lo anterior que:

Teorema 1.5 Si I(θ) es la cantidad de Fisher dada por cada xi sobre el parámetro θ, entonces

In (θ) = nI(θ).

La desigualdad de información.

Sea una m.a.s. {x1 , x2 , . . . , xn }, xi con función de densidad o función de probabilidad f (x|θ). Se tiene la
desigualdad de Cramer-Rao:

28
Teorema 1.6 Si el dominio S de X no depende de θ, para todo estimador T insesgado de θ se tiene:

1
Var(T ) ≥ .
In (θ)

Además si T es un estimador insesgado de h(θ), entonces

(h0 (θ))2
Var(T ) ≥ .
In (θ)
Demostración: Como
      Z
∂ ln L ∂ ln L ∂ ln L ∂ ln L
Z
∂L
E = 0 ⇒ Cov T, =E T = T Ldx = T dx
∂θ ∂θ ∂θ S ∂θ S ∂θ

 
∂ ln L ∂E(T )
Cov T, = = h0 (θ).
∂θ ∂θ
Por otro lado, de la desigualdad de Schwartz se obtiene:
  2  
∂ ln L ∂ ln L
Cov T, ≤ Var(T )Var .
∂θ ∂θ

Es decir que
(h0 (θ))2 ≤ Var(T )In (θ).

La pregunta que se plantea entonces es si se puede alcanzar la cota mínima de la varianza. Un tal estimador
se llama eficaz. Se estudian las condiciones para obtener un estimador eficaz en Inferencia Estadística.
1.6.2. Test de hipótesis.

Generalidades.

Sea un vector aleatorio x = {x1 , x2 , . . . , xn } ∈ IR p de función distribución conjunta Fn (x1 , x2 , . . . , xn ; θ) en


donde θ es un parámetro vectorial de dimensión r que toma valores en Ω, una región abierta de IRr . Si θ0
es el valor verdadero de θ en la población Ω0 , un subconjunto de Ω, se plantean las hipótesis estadísticas: la
hipótesis nula H0 : θ0 ∈ Ω0 contra la hipótesis alternativa H1 : θ0 ∈ Ω \ Ω0 . Cuando Ω0 está reducido a un
solo punto se habla de hipótesis simple, sino de hipótesis compuesta. Se trata de decidir si se acepta o si se
rechaza la hipótesis nula H0 .
Con qué grado de desacuerdo uno tiene que abandonar la hipótesis nula para adoptar la hipótesis
alternativa?

Para decidir, se necesita una regla de decisión. Cualquier regla de decisión debería tratar de minimizar los
errores de decisión. Si δ es la regla de decisión adoptada y α(δ) la probabilidad de equivocarse cuando la

29
hipótesis nula es cierta y β(δ) la probabilidad de equivocarse cuando la hipótesis alternativa es cierta, uno
buscará minimizar ambas probabilidades de error.

Dada una hipótesis nula H0 , α(δ) es la probabilidad condicional de rechazar la hipótesis H0 con la regla δ
cuando H0 es cierta. Ahora bien la regla δ se basa en los valores muestrales: si la muestra es de tamaño n y
los valores muéstrales en IR, una regla de decisión δ consiste en dividir el dominio IRn del conjunto de todas
las muestras de tamaño n en dos partes disjuntas: la parte Wn en donde se rechaza la hipótesis nula H0 y la
parte Wn en donde no se rechaza H0 . La parte Wn se llama región de rechazo de H0 o región crítica del test.
Como la región crítica del test es aquella en donde se rechaza H0 , debería tomarse en cuenta la hipótesis
alternativa. Una regla de decisión consiste entonces en determinar la región crítica del test en función de las
dos hipótesis.

Definición 1.8 La función Z


π(θ) = dFn = IP(rechazar H0 |θ)
W0

se llama función de potencia del test.

La región crítica ideal es aquella que produce una función de potencia tal que:
(
0 si θ ∈ Ω0
π(θ) = .
1 si θ ∈ Ω \ Ω0

En efecto, para todo θ ∈ Ω0 la decisión de rechazar H0 es una decisión equivocada, entonces π(θ) es una
probabilidad de error de tipo I (o riesgo de primer especie). Por otro lado, para todo θ ∈ Ω\Ω0 , la decisión
de rechazar H0 es una decisión correcta, entonces 1−π(θ) es una probabilidad de error de tipo II (o riesgo
de segundo especie).

El problema es que tal región crítica ideal no existe. Entonces se busca en general propiedades más débiles,
como un test insesgado o consistente y se fija un nivel de error aceptable.

Definición 1.9 Se llama nivel de significación del test al valor que uno se fija como cota máxima del
error de tipo I.

Definición 1.10 Se dice que un test es insesgado si dado un nivel de significación α se tiene a la vez
IP(x ∈ Wn |θ ∈ Ω0 ) ≤ α y IP(x ∈ Wn |θ ∈ Ω \ Ω0 ) > α. Es decir que el error de tipo I está controlado y
no está sobrepasado por el error de tipo II.

Definición 1.11 Se llama tamaño del test a α0 = sup{π(θ)|θ ∈ Ω0 }.

Definición 1.12 Si
∀θ ∈ Ω \ Ω0 : lı́m IP(x ∈ Wn |θ) = 1
n→+∞

entonces se dice que el test es consistente de tamaño α para la hipótesis H0 contra la hipótesis H1 .

30
Si Wn y Wn∗ son dos regiones críticas para la hipótesis H0 contra la hipótesis H1 con un tamaño del test igual
a α, se dice que Wn∗ es uniformemente más potente que Wn para H0 contra H1 si y sólo si

∀θ ∈ Ω \ Ω0 : IP(x ∈ Wn∗ |θ) > IP(x ∈ Wn |θ)

Caso de dos hipótesis simples.

Consideramos aquí el caso de Ω0 reducido a un solo punto: Ω0 = {θ0 } y Ω \ Ω0 = {θ1 } reducido a un punto
también: es decir Ω = {θ0 , θ1 }. Bajo ciertas condiciones, existe un test insesgado y más potente para la
hipótesis H0 contra la hipótesis H1 .
Lema 1.1 (Lema de Neyman-Pearson) Sea {x1 , x2 , . . . , xn } una m.a.s. de función de verosimilitud
fn (x1 , x2 , . . . , xn |θ) y el espacio muestral Ω de θ con dos puntos θ0 y θ1 . Para un cα > 0, llamemos Wn
el subconjunto de IRn tal que

fn (x1 , x2 , . . . , xn |θ1 ) ≥ cα fn (x1 , x2 , . . . , xn |θ0 )

y IP(x ∈ Wn |θ0 ) = α. Si Wn∗ es un subconjunto de IRn tal que IP(x ∈ Wn∗ |θ0 ) ≤ α, entonces

IP(x ∈ Wn |θ1 ) ≥ IP(x ∈ Wn∗ |θ1 ).

Es decir que la región crítica Wn es insesgada y la más potente que cualquier Wn∗ para H0 : θ = θ0 contra
H1 : θ = θ1 de nivel α.
Propiedades:

El test es insesgado.

El test es consistente.

Cuando existe un estadístico suficiente T para θ, fn (x1 , x2 , . . . , xn |θ) = g(T, θ)h(x1 , x2 , . . . , xn ), en-
tonces el test se reduce a
g(T, θ1 )
> cα .
g(T, θ0 )

Test uniformemente más potente (UMP).

Queremos aquí construir una región crítica más potente con hipótesis no simples.
Definición 1.13 Se dice que un test es UMP (uniformemente más potente) cuando existe una región
crítica óptima común para todo valor de la hipótesis alternativa H1 .
Sea la hipótesis nula H0 : θ = θ0 y la hipótesis alternativa H1 : θ > θ0 (o H1 : θ 6= θ0 ). La región crítica
óptima de nivel de significación α no cambia para todo θ > θ0 pero si cambia para θ 6= θ0 .

31
La existencia de un test UMP está dada por el teorema de Lehmann:
Teorema 1.7 Existe un test UMP si para un estadístico T el cociente

fn (x1 , x2 , . . . , xn |θ1 )
fn (x1 , x2 , . . . , xn |θ2 )

es una función monótona creciente cuando θ1 > θ2 .


Esta condición está asegurada con estadísticos suficientes T con una distribución de tipo exponencial.

Test de razón de verosimilitudes.

Este test permite extender el caso anterior cuando no existe un test UMP. Sea la hipótesis nula H0 : θ ∈ Ω0
contra la hipótesis alternativa H1 : θ ∈ Ω1 con Ω = Ω0 ∪ Ω1 . Se define la razón de verosimilitudes:

L(x, Ω0 )
Λ=
L(x, Ω)

en donde
L(x, Ω0 ) = sup fn (x1 , x2 , . . . , xn |θ)
θ∈Ω0

L(x, Ω) = sup fn (x1 , x2 , . . . , xn |θ).


θ∈Ω

Propiedades:

Λ ∈ [0, 1]. Mientras más cerca Λ de 1, más verosímil es la hipótesis Ho .

La región crítica es de la forma Λ ≤ cα , dado que H0 es más aceptable cuando Λ se acerca a 1.

Ejemplo 1.1 Sea una m.a.s. {x1 , x2 , . . . , xn } con ∀i : xi ∼ N(µ, σ2 ). Se considera las hipótesis H0 : µ = µ0
contra H1 : µ 6= µ0 . Aquí Ω = IR y Ω0 = {µ0 }.
 n2 ( )
1 n

2 1
L(x|µ, σ ) = exp − 2 ∑ (xi − µ)2
2πσ2 2σ i=1

máx L(x|µ, σ2 )
Ω0 L(x|µ0 , s20 )
Λ= =
máx L(x|µ, σ2 ) L(x|x̄, s2n )

con
1 n
s2n = ∑ (xi − x̄)2
n i=1

1 n
s20 = ∑ (xi − µ0 )2
n i=1

32
 n  2n  n − n2  − n2
2 2
 ∑ (xi − x̄)   ∑ (xi − µ0 )   1 + n(x̄ − µ )2 
i=1  i=1 0 
⇒Λ=  = n = n =
   
n  
∑ (xi − µ0 )2 ∑ (xi − x̄)2 ∑ (xi − x̄)2 
    
i=1 i=1 i=1
− n2 − n2
(x̄ − µ0 )2 a2
  
1+ = 1+
s2n n−1
en donde a sigue una distribución t de Student a n − 1 grados de libertad. El test de razón de verosimilitudes
equivale en este caso al test t de Student.

Ejemplo 1.2 Sea el vector Y formado de una m.a.s. {y1 , y2 , . . . , yn } con ∀i : yi ∼ N(µ, σ2 ). Sea la matriz
! de vectores constantes X ∈ Mn,p con X = (X0 |X1 ), X0 ∈ Mn,p0 , X1 ∈ Mn,p1 , p = p1 + p2 y β =
formada
β0
.
β1

Sean las hipótesis H0 : E(Y ) = X0 β0 contra H1 : E(Y ) = X1 β1 . Los conjuntos Ω y Ω0 son subespacios
vectoriales de IR p : Ω = Imagen(X) y Ω0 = Imagen(X0 ).
  n2
2 1 − 1
kY −µk2
L(Y |µ, σ ) = e 2σ2
2πσ2

Para el denominador:   n2
n n
máx L(Y |µ, σ ) = 2
e− 2
E(Y )=Xβ 2πkY − Xβk2
kY − Xβk2
dado que en este caso el estimador de σ2 es .
n
Para el numerador:   n2
n n
máx 2
L(Y |µ, σ ) = e− 2
E(Y )=X0 β0 2πkY − X0 β0 k2
kY − X0 β0 k2
dado que en este caso el estimador de σ2 es .
n
Si SΩ = kY − Xβk2 y SΩ0 = kY − X0 β0 k2 , entonces
  n2  − n2
SΩ SΩ0
Λ= = .
SΩ0 SΩ

SΩ SΩ − SΩ
Del teorema de Cochran se obtiene que 2
∼ χ2n−p y 0 2 ∼ χ2p1 son independientes entre si. De aquí
σ σ
obtenemos el estadístico  
n − p SΩ0 − SΩ
F= ∼ Fp1 ,n−p
p1 SΩ

33
bajo la hipótesis H0 y
 − n2
p1
Λ = 1+ F .
n− p
Es decir que
n − p −2/n
(Λ − 1) ∼ Fp1 ,n−p
p1
bajo la hipótesis nula H0 .

En estos dos casos se puede fácilmente deducir una región crítica, pero en casos más generales, para encon-
trar el valor cα y calcular la potencia del test se requiere conocer la distribución de Λ.

Teorema 1.8 Resultado asintótico: si H0 : θ = θ0 , con θ un parámetro de dimensión p, entonces


−2 ln(Λ) → χ2p .
Demostración: Se demostrará para p = 1 solamente. Sea θ̂ el estimador de M.V. de θ sobre Ω. Entonces
ln(Λ) = ln(L(x|θ0 )) − ln(L(x|θ̂)). El desarrollo en serie de Taylor de ln(L(x|θ0 )) permite escribir:

∂ ln(L(x|θ̂)) 1 ∂2 ln(L(x|θ̂))
ln(L(x|θ0 )) = ln(L(x|θ̂)) + (θ0 − θ̂) + (θ0 − θ̂)2 +...
∂θ 2 ∂θ2

∂ ln(L(x|θ̂)) 1 ∂2 ln(L(x|θ̂))
ln(Λ) = (θ0 − θ̂) + (θ0 − θ̂)2 +...
∂θ 2 ∂θ2
∂ ln(L(x|θ̂)) 1 ∂2 ln(L(x|θ∗ ))
ln(Λ) = (θ0 − θ̂) + (θ0 − θ̂)2 +... con |θ0 − θ∗ | < |θ0 − θ̂|.
∂θ 2 ∂θ2
∂ ln(L(x|θ̂))
Dado que θ̂ es el estimador de M.V. de θ, entonces = 0. Luego
∂θ

∂2 ln(L(x|θ∗ ))
−2 ln(Λ) ≈ −(θ0 − θ̂)2 .
∂θ2
c.s.
Si H0 : θ = θ0 , θ̂ → θ0 ⇒ θ∗ → θ0 .

∂2 ln( f (xi |θ∗ ))


n
−2 ln(Λ) = −(θ0 − θ̂)2 ∑
i=1 ∂θ2

√ 1 n ∂2 ln( f (xi |θ∗ ))


−2 ln(Λ) = −( n(θ0 − θ̂))2 ∑
n i=1 ∂θ2
Si n es suficientemente grande, entonces obtendremos

1 n ∂2 ln( f (xi |θ) ∂2 ln( f )


 
∑ ∂θ2 →E = I1 (θ).
n i=1 ∂θ2

34
en donde I1 (θ) es la cantidad de información de Fisher. Luego

ln(L(x|θ))
→ nI1 (θ) = In (θ).
∂θ2

Se deduce que
θ − θ̂
p0 → N(0, 1) ⇒ (θ0 − θ̂)2 In (θ) → χ21 .
1/In (θ)

1.7. Ejercicios.

1. Sea X ∈ M p,q . Si Y es un vector de IR p , encuentre el vector Z ∈ IR p de la forma Xb lo más cercano a


Y con respecto a la métrica N.

2. Sea un vector Y ∈ IR p normal de media E(Y ) = µ y de matriz de varianza-covarianza Var(Y ) = Γ


invertible (A = Γ−1 ). Sea {Y1 ,Y2 , . . . ,Yn } una muestra aleatoria de realizaciones independientes del
vector Y . Encuentre el estimador de máxima verosimilitud para µ y Γ.

uT Au
3. Sean A y B dos matrices simétricas del mismo orden, B invertible. Muestre que el cociente es
uT Bu
máximo para el vector propio u de B−1 A, asociado al mayor valor propio.

4. Sea Γ una matriz cuadrada no invertible de rango r. Muestre que existe una inversa generalizada de Γ
que puede escribirse como: " #
− A−1 0
Γ =
0 0
en donde A es una matriz cuadrada invertible de orden r.

5. Demuestre que existe una única inversa generalizada de Penrose para una matriz dada.

6. Muestre el teorema siguiente:

Teorema 1.9: Sea Y un vector aleatorio en IR p de matriz de varianza-covarianza Γ invertible. Consid-


eramos la descomposición en suma directa: IR p = E1 ⊕ E2 , Y = Y1 +Y2 , con Y1 ∈ E1 e Y2 ∈ E2 . Se lla-
man Γ1 y Γ2 las respectivas matrices de varianza-covarianza de Y1 e Y2 . Entonces las dos propiedades
siguientes son equivalentes:

a) Γ = Γ1 + Γ2 (Y1 e Y2 son no correlacionados)

b) E1 y E2 son Γ−1 -ortogonales.

35
7. Muestre que si Y ∼ Np (µ, Γ), A es una matriz simétrica de orden p, entonces

Var(Y T AY ) = 2Traza((AΓ)2 ) + 4µT AΓAµ.

8. Sea Y ∼ Np (µ, Γ), Γ regular, entonces si u y v ∈ IR p , A y B son dos matrices simétricas de orden p y
L ∈ Mm,p se tienen las siguientes propiedades de independencia:

a) uT Y y vT Y son independientes ⇐⇒ uT Γv = 0
b) LY e Y T AY son independientes ⇐⇒ LΓA = 0
c) Y T AY e Y T BY son independientes ⇐⇒ AΓB = 0.

Muestre la 3 proposiciones anteriores.

9. Aplique el teorema de Cochran para demostrar la independencia entre la media empírica y la varianza
empírica de una variable normal.

10. Sea X ∈ Mn,p la matriz que tiene en fila las realizaciones independientes Xi ∼ Np (µ, Γ). Muestre que

1 1
D = (X − 1n µT )T (X − 1n µT )
n n

es una estimación insesgada de Γ cuando el vector de medias µ es conocido y que

1
E(D−1 ) = Γ−1
n− p−1

si n − p − 1 > 0.

11. Muestre que la cantidad de información de Fisher dada por una v.a. de Bernoulli sobre su parámetro
1
p es I(p) = .
p(1 − p)
12. Muestre que la cantidad de información de Fisher dada por una v.a. X ∼ N(µ, σ2 ) sobre el parámetro
1
µ desconocido y la varianza σ2 conocida es I(µ) = 2 .
σ

1.8. BIBLIOGRAFÍA

ANDERSON T.W., An Introduction to Multivariate Statistical Analysis, Wiley.

BREIMAN L. et al (1993), Classification and Regression Trees, Chapman and Hall.

CHRISTENSEN R. (1990), Linear Models for Multivariate, Time Series and Spatial Data, Springer.

COX D.R., SNELL E.G. (1992), Analysis of Binary Data, Chapman and Hall.

36
DRAPER N., SMITH H. (1998), Applied Regression Analysis, Wiley.

FUKUNAGA K. (1972), Introduction to Statistical Pattern Recognition, Academic Press.

GOLDSTEIN M., DILLON W. (1978), Discrete Discriminante Analysis, Wiley.

GOURIEROUX C. (1984), Econométrie des Variables Qualitatives, Economica.

GRAYBILL F.A. (1961), An Introduction Linear Statistical Models, McGraw-Hill.

HASTIE T., TIBSHIRANI R., FRIEDMAN J. (2001), The Elements of Statistical Learning. Data Mining,
Inference and Prediction, Springer.

HOCKING R. (1996), Methods and Applications of Linear Models, Wiley.

HOSMER D. W., LEMESHOW S. (2000), Applied Logistic Regression, Wiley.

LEBART L. (1979), Traitement des Donnés Statistiques, Dunod.

MARDIA K. (1979) Multivariate Analysis, Academic Press.

MILLER R.G. (1986), Beyond ANOVA, Basics of Applied Statistics, Wiley.

MORRISON D.F. (1976), Multivariate Statistical Methods, McGraw-Hill.

RAO C.R. (1973), Linear Statistical Inference and its Applications, Wiley.

RAO C.R., TOUTENBURG H. (1995), Linear Models, Least squares and Alternatives, Springer

RAVISHANDER N, DIPAK K. D. (2002 ), A First Course in Linear Model Theory, Chapman and Hall.

SAPORTA G. (1990), Probabilités, Analyse des Données et Statistique, Editions Technip.

SCHEFFE H. (1959), The Analysis of Variance, Wiley.

SEARLE S.R. (1971), Linear Models, Wiley.

SEBER G.A.F. (1977), Linear Regression Analysis, Wiley.

TOMASSONE R. et al. (1988), Discrimination et Classement, Masson.

37

Potrebbero piacerti anche