Sei sulla pagina 1di 16

PROFESOR: LUIS E.

NIETO BARAJAS

3. La distribución normal multivariada

¾ ¿Por qué es importante la distribución normal multivariada?


o Muchas de las técnicas multivariadas suponen que los datos fueron
generados de una distribución normal multivariada.
o En la vida real algunos conjuntos de datos sí se comportan como una
normal multivariada.
o Algunas estadísticas multivariadas tienen distribución asintótica normal
multivariada debido al T.C.L.

¾ Definición: Sea X' = (X1 ,K, X p ) un vector aleatorio. Se dice que X tiene

una distribución normal multivariada si su función de densidad está dada


por
p
 1 
f (x ) = (2π ) exp− (x − µ ) Σ −1 (x − µ )∏ I ( −∞,∞ ) ( x i ) ,
−p / 2 −1 / 2 '
Σ
 2  i=1
donde µ ∈ ℜ p y Σp×p es una matriz definida positiva.

¾ Comentarios:
o En notación: X ∼ Np(µ,Σ)
o Se puede demostrar que
µ=E(X) y Σ=Var(X)
o (x − µ )' Σ −1 (x − µ ) es una medida de distancia entre “x” y “µ” en unidades
de “desviaciones estándar”.
 1
( ) 
o Si X ∼ Np(µ,Σ) ⇒ m X (t ) = E e t 'X = exp t ' µ + t ' Σt 
 2 

24
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

¾ Distribución normal bivariada:

o Sea X' = (X1 , X 2 ) un vector aleatorio de dimensión p=2, con µ1=E(X1),

µ2=E(X2), σ11=Var(X1), σ22=Var(X2) y ρ12=Corr(X1,X2). Entonces,


σ σ12  1  σ 22 − σ12 
Σ =  11  ⇒ Σ −1 = 2 
 
 σ12 σ 22  σ11σ 22 − σ12  − σ12 σ11 

det (Σ ) = σ11σ 22 − σ12


2 2
= σ11σ 22 − ρ12 2
σ11σ 22 = σ11σ 22 1 − ρ12 ( )
⇒ (x − µ ) Σ −1 (x − µ ) =
'

1  x1 − µ1   x 2 − µ 2   x1 − µ1  x 2 − µ 2 
2 2

2 
  
+  − 2ρ12   

1 − ρ12  σ11   σ 22   σ11  σ 22 

  

{
∴ f (x1 , x 2 ) = (2π ) σ11σ 22 1 − ρ12
−1 2
( )}−1 / 2  1 
exp− (x − µ ) Σ(x − µ )
'

 2 

o ¿Qué pasa si ρ12=0?


Si ρ12=0 ⇒ f(x1,x2) = f(x1)f(x2) ∴ X1 y X2 son independientes

o Nota: Ver gráficas anexas

¾ Curvas de nivel (contours): son cortes a una altura f(x) constante. Es decir,
{x : (x − µ) Σ ' −1
(x − µ ) = c 2 } = elipsoides centradas en µ

o Los ejes de la elipsoide van en dirección de los eigenvectores de Σ-1


o La longitud de los ejes son proporcionales al recíproco de la raíz de los
eigenvalores de Σ-1

25
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

‰ Resultado 0: Si Σ es definida positiva tal que Σ-1 existe, entonces


1
Σe = λe ⇔ Σ −1e = e,
λ
además Σ-1 es definida positiva.

o En resumen, las curvas de nivel de una distribución normal p−variada son


elipsoides definidos por x tal que
(x − µ )' Σ −1 (x − µ ) = c 2
Estas elipsoides están centradas en µ y tienen ejes ± c λ j e j , donde

Σe j = λ je j , j=1,2,...,p.

o Si σ11=σ22 y ρ12=0 ⇒ Las curvas de nivel son círculos


si σ11≠σ22 ó ρ12≠0 ⇒ Las curvas de nivel son elipses

¾ ¿Para qué me sirven las curvas de nivel de una distribución normal


multivariada?. Para construir IC multivariados (regiones de confianza) !!
{ }
P (X − µ ) Σ −1 (X − µ ) ≤ χ (2p ),α = 1 − α
'

Nota: Es posible demostrar que si Y = Σ −1/ 2 (X − µ ) y A es una matriz de

rango p entonces Y ' AY ∼ χ (2p ) .

3.1 Propiedades

¾ Resultado 1. Si X ∼ Np(µ,Σ), entonces cualquier combinación lineal


a ' X = a 1X1 + a 2 X 2 + L + a p X p ∼ N(a ' µ, a ' Σa ) .

26
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

También, si a ' X ∼ N(a ' µ, a ' Σa ) para toda a, entonces X ∼ Np(µ,Σ).


DEM.

¾ Resultado 2. Si X ∼ Np(µ, Σ) y A(q×p) entonces, las q combinaciones


lineales
 a 11X1 + La 1p X p 
 
AX =  M 
 a X + La X 
 q1 1 qp p 

tienen una distribución Nq(Aµ, AΣA’). Además X+d, donde d(p×1) es un


vector de constantes, tiene una distribución Np(µ+d, Σ).
DEM.

¾ Resultado 3. Todos los subconjuntos de X(p×1) tienen una distribución


normal. Si X ∼ Np(µ, Σ) y si particionamos X, µ y Σ como
 X1  ( q×1)  µ1  ( q×1)
   
X =  − − , µ =  − − ,
X  µ 
 2  (( p−q )×1)  2  (( p−q )×1)

( q×q )  Σ11 | Σ12  ( q×( p−q ))


 
Σ= − − | − −
 
(( p −q )×q )  Σ 21 | Σ 22  (( p −q )×( p −q ))

entonces, X1 ∼ Nq(µ1, Σ11).


DEM.

¾ Resultado 4.
a) Si X1( q1×1) y X 2( q 2 ×1) son independientes entonces Cov(X1 , X 2 ) = 0 ( q1×q 2 )

27
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

 X1   µ1   Σ11 | Σ12 
    
b) Si X =  − −  ∼ N q1 +q 2  − − ,  − − | − −  , entonces X1 y X2 son
X   µ   Σ 
 2  2   21 | Σ 22 
independientes si y solo si Σ12=0.
c) Si X1 ∼ N q1 (µ1 , Σ11 ) y X 2 ∼ N q 2 (µ 2 , Σ 22 ) además X1 y X2

independientes, entonces
 X1   µ1   Σ11 | 0 
    
 − −  ∼ N 
q1 + q 2  − − ,
 − − | − −  .
X   µ   0 | Σ 
 2  2   22  

¾ Ejemplo: X ∼ N3(µ, Σ), donde


 4 0 1
 
Σ =  0 2 0
 1 0 3
 
¿Qué variables son independientes?.

¾ Resultado 5. Sea
 X1   µ1   Σ11 | Σ12 
    
X =  − −  ∼ N p  − − ,  − − | − −  con Σ 22 > 0 .
X   µ   Σ 
 2  2   21 | Σ 22 
Entonces, la distribución condicional de X1 dado X2=x2 es normal con
parámetros
E(X1 | X 2 = x 2 ) = µ1 + Σ12 Σ 22
−1
(x 2 − µ 2 )
Var(X1 | X 2 = x 2 ) = Σ11 − Σ12 Σ 22
−1
Σ 21
DEM.

28
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

¾ Resultado 6. Sea X ∼ Np(µ, Σ) con |Σ|>0. Entonces,


a) (X − µ ) Σ −1 (X − µ ) ∼ χ (2p )
'

{
b) P (X − µ ) Σ −1 (X − µ ) ≤ χ (2p ),α = 1 − α
'
}
donde χ (2p ),α es el cuantil superior de orden α

DEM.

¾ Resultado 7. Sean X1,X2,...,Xn vectores independientes tal que Xi ∼ Np(µi,


Σ), con distinta media y misma matriz de var-cov. Entonces, para c1,...,cn
escalares constantes,
 n  n 2 
Y1 = c1X1 + Lc n X n ∼ N p  ∑ c i µ i ,  ∑ c i Σ  .

 i=1  i=1  
Más aún, Y1 y Y2 = b1X1 + L b n X n tienen distribución conjunta normal
multivariada con varianza
 (c' c )Σ (b' c)Σ 
 
 (b' c )Σ (b' b )Σ 

3.2 Estimación máximo verosímil

o Sean X1,X2,...,Xn una muestra aleatoria de una población X ∼ Np(µ, Σ). La


función de densidad de la muestra está dada por:
n
 1 
f X1 ,K,X n (x1 ,K, x n ) = ∏ (2π) exp− (x i − µ ) Σ −1 (x i − µ )
−p / 2 −1 / 2 '
Σ
i =1  2 
 1 n 
= (2π ) exp− ∑ (x i − µ ) Σ −1 (x i − µ )
− np / 2 −n / 2 '
Σ
 2 i=1 

29
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

o La función de verosimilitud para una muestra observada


(X1,...,Xn)=(x1,...,xn) está dada por,
L(µ, Σ | x ) = f X1 ,K,X n (x1 ,K, x n | µ, Σ )

vista como función de µ y Σ.

o Los estimadores máximo verosímiles de µ y Σ son aquellos valores µ̂ y Σ̂


que maximizan la función L(µ, Σ | x ) . Para poder obtener estos estimadores
necesitamos algunos resultados.

¾ Resultado 8. Sea A(k×k) simétrica y x(k×1) un vector. Entonces,


a) x’Ax = tr(x’Ax) = tr(Axx’)
k
b) tr (A ) = ∑ λ i , donde λi’s son los eigenvalores de A
i =1

o Se puede demostrar que la función de verosimilitud se puede rescribir


como
 1  −1 n ' n 
L(µ, Σ | x ) = (2π) exp − tr Σ ∑ (x i − x )(x i − x )  − (x − µ ) Σ −1 (x − µ )
− np / 2 −n / 2 '
Σ
 2  i=1  2 
DEM.

¾ Resultado 9. Dada una matriz B(p×p) simétrica positiva definida y un escalar


b>0 se sigue que

Σ
−b  1 
( )
exp− tr Σ −1B  ≤ B (2b ) e −pb
−b pb

 2 
para toda matriz definida positiva Σ(p×p) con igualdad si y solo si

Σ= 1 ( 2b)B .
30
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

DEM. Jonson & Wichern (2002).

¾ Teorema. Sean X1,...,Xn una muestra aleatoria de una población X ∼ Np(µ,


Σ), entonces los EMV de µ y Σ están dados por,
1 n n −1
µˆ = X y Σ = ∑ (X i − X )(X i − X ) =
'
ˆ S.
n i=1 n
DEM.

n
∑ (X i − X )(X i − X )
'
o Nota: Las estadísticas X y son estadísticas
i =1

suficientes.

¾ Teorema. Sean X1,...,Xn una muestra aleatoria de una población X ∼ Np(µ,


Σ). Entonces,
 1 
a) X ∼ N p  µ, Σ 
 n 
n
b) (n − 1)S = ∑ (X i − X )(X i − X ) ∼ Wn −1 (Σ )
'

i =1

Distribución Wishart con n−1 g.l. y parámetro Σ


c) X y S son independientes
DEM.

o Función de densidad Wishart. Sea A una matriz definida positiva. La


función de densidad Wishart con n−1 g.l. y parámetro Σ evaluada en A está
dada por,

31
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

w n −1 (A | Σ ) =
A
( n −p−2) / 2
{
exp − (1 2 )tr AΣ −1 ( )}
p
∏ Γ((n − i) 2)
p ( n −1) / 2 p ( p −1) / 4 ( n −1) / 2
2 π Σ
i =1

¾ Teorema. Teorema Central del Límite.


Sean X1,...,Xn una muestra aleatoria de una población p−variada con media
µ y matriz de var-cov Σ finita. Entonces,
 1 
a) X ≈ N p  µ, Σ  ó n (X − µ ) ≈ N p (0, Σ )
 n 

b) n (X − µ ) S−1 (X − µ ) ≈ χ (2p )
'

Si n es grande relativo a p.

o Nota: Para n pequeña relativo a p y si Xi ∼ Np(µ, Σ), la distribución exacta


en el punto (b) del Teorema anterior es:
(n − 1)p
T 2 = n (X − µ ) S−1 (X − µ ) ∼
'
F( p ,n −p ) ,
( n − p)
y es llamada distribución T2 de Hotelling.

¾ Intervalos de confianza simultáneos para el vector de medias µ. Sean


X1,...,Xn una muestra aleatoria de una población X ∼ Np(µ, Σ). Entonces,
las regiones de confianza al (1 − α )100% para µ son:

{ (
a) Si Σ es conocida µ : n x − µ Σ −1 x − µ ≤ χ (2p ),α) (
'
) }
 '
(
b) Si Σ es desconocida µ : n x − µ S−1 x − µ ≤
(n − 1)p
( n − p)
) ( 
F( p,n −p ),α  , )
 
donde χ (2p ),α y F( p,n −p ),α son cuantiles superiores de orden α.

32
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

c) Intervalos conjuntos de Bonferroni: Construir IC univariados para µj,


j=1,...,p, de nivel (1−α/p). De esta manera por la desigualdad de
Bonferroni la confianza conjunta de todos los intervalos es de al menos
(1−α).

3.3 Validación del supuesto de normalidad

¾ La validación del supuesto de normalidad es muy importante debido a que


la mayoría de las técnicas estadísticas multivariadas suponen que las
observaciones Xi provienen de una distribución normal multivariada.

¾ Para verificar este supuesto de normalidad nos basaremos en las


propiedades de la distribución normal multivariada:
⇒ Las distribuciones marginales son todas normales
⇒ Combinaciones lineales son también normales
⇒ Las curvas de nivel son elipsoides

¾ Nos concentraremos principalmente en validad normalidad univariada y


bivariada debido a que son pocos y raros los casos que cumplen con estas
dos condiciones y que no cumplen con la normalidad multivariada.

¾ VALIDACIÓN DE NORMALIDAD UNIVARIADA:

o Histogramas o diagramas de caja y brazos: buscamos simetría,


unimodalidad, etc.

33
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

o Regla empírica: Si Xj ∼ N (µj, σjj),


{ ( )}
P X j ∈ µ j ± σ jj = 0.683

P{X ∈ (µ
j j ±2 σ )}= 0.954
jj

⇒ Si n es grande uno esperaría que


(
p̂ j1 =proporción muestral de obs. en el intervalo x j ± s jj ≈ 0.68 )
p̂ j2 =proporción muestral de obs. en el intervalo (x j )
± 2 s jj ≈ 0.95

⇒ Más aún, usando la aproximación muestral a la distribución de muestreo


de p̂ j1 y p̂ j2 ,

(0.683)(0.317) 1.396
p̂ j1 − 0.683 > 3 = ,
n n
ó
(0.954)(0.046) 0.628
p̂ j2 − 0.954 > 3 =
n n
indicarían que las observaciones de la variable Xj no son normales.

o Gráfica de probabilidad normal (Q-Q plot). Para n≥20 de preferencia.


Sean X (1) ≤ X ( 2) ≤ L ≤ X ( n ) las estadísticas de orden de la variable Xj,

# X i ' s ≤ X (i )
P(X j ≤ X (i ) ) ≅
i

n n
que por razones analíticas de continuidad se puede aproximar por (i−1/2)/n.
Por otro lado, bajo normalidad
E (X (i ) ) = q (i ) ,

donde q(i) es un cuantil de orden (i−1/2)/n, i.e., q(i) es tal que


P(Z ≤ q (i ) ) = (i − 1 / 2) / n , con Z ∼ N(0,1).

34
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

La gráfica de probabilidad normal consiste en graficar x(i) vs. q(i).


⇒ Si los datos son normales, los pares (x(i) , q(i)) estarán relacionados
linealmente.
⇒ Una prueba de hipótesis basada en estos cuantiles es:
H0: Xj es normal vs. H1: Xj no es normal
RR = {rq ≤ k α },

donde, rq = coeficiente de correlación muestral entre (x(i) , q(i))


kα = punto crítico (ver copia pag. 182 de la referencia básica)

¾ VALIDACIÓN DE NORMALIDAD EN COMBINACIONES LINEALES:

o Combinaciones lineales de las p variables Xj da una v.a. univariada sobre


la cual se puede investigar su normalidad usando las técnicas presentadas
anteriormente.
¿Qué combinaciones lineales son de interés?
ê1 ' X i y ê p ' X i ,

donde, Sê j = λˆ jê j , j=1,...,p son los eigenvectores de la matriz S.

¾ VALIDACIÓN DE NORMALIDAD BIVARIADA (MULTIVARIADA):

o Gráficas de dispersión de dos variables: Las observaciones deben de


formar una elipse para indicar normalidad bivariada.

o Regla empírica: Recordemos, si X ∼ Np(µ, Σ) entonces,


(X − µ )' Σ −1 (X − µ ) ∼ χ (2p) ,

35
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

{ }
P (X − µ ) Σ −1 (X − µ ) ≤ χ (2p ),α = 1 − α
'

⇒ Si n es grande uno esperaría que (1−α)100% de las observaciones


cayeran en la elipse dada por

{ x : (x − x ) S ' −1
(x − x ) ≤ χ (2p),α }.
Lo más común es tomar α=0.5

o Gráfica de probabilidad Ji-cuadrada (Q-Q plot): Como en el caso de que


Xi ∼ Np(µ, Σ) ⇒ (X i − µ ) Σ −1 (X i − µ ) ∼ χ (2p )
'

⇒ Si n y n−p son grandes se esperaría que

d i2 = (X i − X ) S−1 (X i − X ) ≈ χ (2p ) , i=1,...,n


'

Una forma de verificar esto es graficando las estadísticas de orden d (2i )

contra su valor esperado bajo una distribución χ (2p ) , i.e.,

graficar d (2i ) vs. q(i),

donde q(i) es tal que P(J ≤ q (i ) ) = (i − 1 / 2) / n , con J ∼ χ (2p ) . Los puntos en

esta gráfica deben de estar sobre una línea recta que pasa por el origen
con pendiente uno para indicar normalidad multivariada.

o Detección de observaciones extremas:


Una observación multivariada Xi es extrema si

(X i − X )' S−1 (X i − X ) > χ (2p),α


con α pequeña (por lo general se toma α=0.001).
Por otro lado, una observación es extrema en una sola variable si

36
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

X ij − X j
Z ij = > 3.5
S jj

3.4 Transformaciones para conseguir normalidad

¾ Si los datos no satisfacen el supuesto de normalidad multivariada, es


necesario transformarlos.

¾ TRANSFORMACIONES UNIVARIADAS:

o Sugeridas por consideraciones teóricas:


1) Si X con conteos ⇒ X
 X 
2) Si X son proporciones ⇒ log 
1 − X 
1 + X 
3) Si X son correlaciones ⇒ log 
1 − X 

o Sugeridas por los datos:


Transformaciones potencia X λ , para λ entero o fraccionario. En particular,
si λ=0 ⇒ X 0 = log X .
a) Para acortar valores grandes de X: ... , X-1, X0, X1/4, X1/2
b) Para alargar valores grandes de X: X2, X3, ...

37
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

o Transformación de Box y Cox:


Xλ − 1
 , si λ ≠ 0
X (λ ) = λ
logX, si λ = 0

para λ real. La transformación X(λ) es continua en λ para X>0. El valor de
λ óptimo se puede estimar por máxima verosimilitud, i.e., λ̂ es tal que
maximiza la expresión
1 n
(
2
)
n
n
log L(λ ) = − log  ∑ x i( λ ) − x ( λ )  + (λ − 1)∑ log x i .
2  n i=1  i =1

La maximización se puede hacer numéricamente graficando logL(λ) vs. λ.


Un procedimiento alternativo para encontrar λ̂ es construir
x iλ − 1
y i(λ ) = ( λ −1) / n
, i=1,...,n,
 n 
λ ∏ x i 
 i=1 
calcular la varianza muestral de las y i( λ ) ’s y el mínimo de esta varianza

ocurre en el máximo de logL(λ).

o Nota: No hay garantía de que exista una transformación óptima que


convierta una variable no normal a normal.

o Transformaciones multivariadas: Usar la transformación de Box y Cox en


cada variable y maximizar simultáneamente la verosimilitud conjunta, i.e.,
p
log L(λ1 ,K, λ p ) = − log S(λ ) + ∑ (λ j − 1)∑ log x ij ,
n
n
2 j=1 i =1

donde S(λ) es la matriz de var-cov muestrales de

38
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS

λp
 x λ1 − 1 x − 1 
=  i1
' ip
x i( λ ) ,K , .
 λ1 λp 
 
Nota: Un punto inicial para la maximización son los valores λ̂ j , j=1,...,p

que maximizan la verosimilitud univariada.

39
Maestría: Administración de riesgos Análisis multivariado para riesgos

Potrebbero piacerti anche