Notas AMR2

PROFESOR: LUIS E.
NIETO BARAJAS
3. La distribución normal multivariada
¾ ¿Por qué es importante la distribución normal multivariada?

o Muchas de las técnicas multivariadas suponen que los datos fueron
generados de una distribución normal multivariada.
o En la vida real algunos conjuntos de datos sí se comportan como una
normal multivariada.
o Algunas estadísticas multivariadas tienen distribución asintótica normal
multivariada debido al T.C.L.
¾ Definición: Sea X' = (X1 ,K, X p ) un vector aleatorio. Se dice que X tiene
una distribución normal multivariada si su función de densidad está dada

por
p
 1 
f (x ) = (2π ) exp− (x − µ ) Σ −1 (x − µ )∏ I ( −∞,∞ ) ( x i ) ,
−p / 2 −1 / 2 '
Σ
 2  i=1
donde µ ∈ ℜ p y Σp×p es una matriz definida positiva.
¾ Comentarios:
o En notación: X ∼ Np(µ,Σ)
o Se puede demostrar que
µ=E(X) y Σ=Var(X)
o (x − µ )' Σ −1 (x − µ ) es una medida de distancia entre “x” y “µ” en unidades
de “desviaciones estándar”.
 1
( ) 
o Si X ∼ Np(µ,Σ) ⇒ m X (t ) = E e t 'X = exp t ' µ + t ' Σt 
 2 
24
Maestría: Administración de riesgos Análisis multivariado para riesgos
PROFESOR: LUIS E. NIETO BARAJAS
¾ Distribución normal bivariada:
o Sea X' = (X1 , X 2 ) un vector aleatorio de dimensión p=2, con µ1=E(X1),
µ2=E(X2), σ11=Var(X1), σ22=Var(X2) y ρ12=Corr(X1,X2). Entonces,

σ σ12  1  σ 22 − σ12 
Σ =  11  ⇒ Σ −1 = 2 
 
 σ12 σ 22  σ11σ 22 − σ12  − σ12 σ11 
det (Σ ) = σ11σ 22 − σ12

2 2
= σ11σ 22 − ρ12 2
σ11σ 22 = σ11σ 22 1 − ρ12 ( )
⇒ (x − µ ) Σ −1 (x − µ ) =
'
1  x1 − µ1   x 2 − µ 2   x1 − µ1  x 2 − µ 2 
2 2
2 
  
+  − 2ρ12   

1 − ρ12  σ11   σ 22   σ11  σ 22 

  
{
∴ f (x1 , x 2 ) = (2π ) σ11σ 22 1 − ρ12
−1 2
( )}−1 / 2  1 
exp− (x − µ ) Σ(x − µ )
'
 2 
o ¿Qué pasa si ρ12=0?

Si ρ12=0 ⇒ f(x1,x2) = f(x1)f(x2) ∴ X1 y X2 son independientes
o Nota: Ver gráficas anexas
¾ Curvas de nivel (contours): son cortes a una altura f(x) constante. Es decir,
{x : (x − µ) Σ ' −1
(x − µ ) = c 2 } = elipsoides centradas en µ
o Los ejes de la elipsoide van en dirección de los eigenvectores de Σ-1

o La longitud de los ejes son proporcionales al recíproco de la raíz de los
eigenvalores de Σ-1
25
Resultado 0: Si Σ es definida positiva tal que Σ-1 existe, entonces

1
Σe = λe ⇔ Σ −1e = e,
λ
además Σ-1 es definida positiva.
o En resumen, las curvas de nivel de una distribución normal p−variada son

elipsoides definidos por x tal que
(x − µ )' Σ −1 (x − µ ) = c 2
Estas elipsoides están centradas en µ y tienen ejes ± c λ j e j , donde
Σe j = λ je j , j=1,2,...,p.
o Si σ11=σ22 y ρ12=0 ⇒ Las curvas de nivel son círculos

si σ11≠σ22 ó ρ12≠0 ⇒ Las curvas de nivel son elipses
¾ ¿Para qué me sirven las curvas de nivel de una distribución normal

multivariada?. Para construir IC multivariados (regiones de confianza) !!
{ }
P (X − µ ) Σ −1 (X − µ ) ≤ χ (2p ),α = 1 − α
'
Nota: Es posible demostrar que si Y = Σ −1/ 2 (X − µ ) y A es una matriz de
rango p entonces Y ' AY ∼ χ (2p ) .
3.1 Propiedades
¾ Resultado 1. Si X ∼ Np(µ,Σ), entonces cualquier combinación lineal

a ' X = a 1X1 + a 2 X 2 + L + a p X p ∼ N(a ' µ, a ' Σa ) .
26
También, si a ' X ∼ N(a ' µ, a ' Σa ) para toda a, entonces X ∼ Np(µ,Σ).

DEM.
¾ Resultado 2. Si X ∼ Np(µ, Σ) y A(q×p) entonces, las q combinaciones

lineales
 a 11X1 + La 1p X p 
 
AX =  M 
 a X + La X 
 q1 1 qp p 
tienen una distribución Nq(Aµ, AΣA’). Además X+d, donde d(p×1) es un

vector de constantes, tiene una distribución Np(µ+d, Σ).
DEM.
¾ Resultado 3. Todos los subconjuntos de X(p×1) tienen una distribución

normal. Si X ∼ Np(µ, Σ) y si particionamos X, µ y Σ como
 X1  ( q×1)  µ1  ( q×1)
   
X =  − − , µ =  − − ,
X  µ 
 2  (( p−q )×1)  2  (( p−q )×1)
( q×q )  Σ11 | Σ12  ( q×( p−q ))

 
Σ= − − | − −
 
(( p −q )×q )  Σ 21 | Σ 22  (( p −q )×( p −q ))
entonces, X1 ∼ Nq(µ1, Σ11).

DEM.
¾ Resultado 4.
a) Si X1( q1×1) y X 2( q 2 ×1) son independientes entonces Cov(X1 , X 2 ) = 0 ( q1×q 2 )
27
 X1   µ1   Σ11 | Σ12 
    
b) Si X =  − −  ∼ N q1 +q 2  − − ,  − − | − −  , entonces X1 y X2 son
X   µ   Σ 
 2  2   21 | Σ 22 
independientes si y solo si Σ12=0.
c) Si X1 ∼ N q1 (µ1 , Σ11 ) y X 2 ∼ N q 2 (µ 2 , Σ 22 ) además X1 y X2
independientes, entonces
 X1   µ1   Σ11 | 0 
    
 − −  ∼ N 
q1 + q 2  − − ,
 − − | − −  .
X   µ   0 | Σ 
 2  2   22  
¾ Ejemplo: X ∼ N3(µ, Σ), donde

 4 0 1
 
Σ =  0 2 0
 1 0 3
 
¿Qué variables son independientes?.
¾ Resultado 5. Sea
 X1   µ1   Σ11 | Σ12 
    
X =  − −  ∼ N p  − − ,  − − | − −  con Σ 22 > 0 .
X   µ   Σ 
 2  2   21 | Σ 22 
Entonces, la distribución condicional de X1 dado X2=x2 es normal con
parámetros
E(X1 | X 2 = x 2 ) = µ1 + Σ12 Σ 22
−1
(x 2 − µ 2 )
Var(X1 | X 2 = x 2 ) = Σ11 − Σ12 Σ 22
−1
Σ 21
DEM.
28
¾ Resultado 6. Sea X ∼ Np(µ, Σ) con |Σ|>0. Entonces,

a) (X − µ ) Σ −1 (X − µ ) ∼ χ (2p )
'
{
b) P (X − µ ) Σ −1 (X − µ ) ≤ χ (2p ),α = 1 − α
'
}
donde χ (2p ),α es el cuantil superior de orden α
DEM.
¾ Resultado 7. Sean X1,X2,...,Xn vectores independientes tal que Xi ∼ Np(µi,

Σ), con distinta media y misma matriz de var-cov. Entonces, para c1,...,cn
escalares constantes,
 n  n 2 
Y1 = c1X1 + Lc n X n ∼ N p  ∑ c i µ i ,  ∑ c i Σ  .

 i=1  i=1  
Más aún, Y1 y Y2 = b1X1 + L b n X n tienen distribución conjunta normal
multivariada con varianza
 (c' c )Σ (b' c)Σ 
 
 (b' c )Σ (b' b )Σ 
3.2 Estimación máximo verosímil
o Sean X1,X2,...,Xn una muestra aleatoria de una población X ∼ Np(µ, Σ). La

función de densidad de la muestra está dada por:
n
 1 
f X1 ,K,X n (x1 ,K, x n ) = ∏ (2π) exp− (x i − µ ) Σ −1 (x i − µ )
−p / 2 −1 / 2 '
Σ
i =1  2 
 1 n 
= (2π ) exp− ∑ (x i − µ ) Σ −1 (x i − µ )
− np / 2 −n / 2 '
Σ
 2 i=1 
29
o La función de verosimilitud para una muestra observada

(X1,...,Xn)=(x1,...,xn) está dada por,
L(µ, Σ | x ) = f X1 ,K,X n (x1 ,K, x n | µ, Σ )
vista como función de µ y Σ.
o Los estimadores máximo verosímiles de µ y Σ son aquellos valores µ̂ y Σ̂

que maximizan la función L(µ, Σ | x ) . Para poder obtener estos estimadores
necesitamos algunos resultados.
¾ Resultado 8. Sea A(k×k) simétrica y x(k×1) un vector. Entonces,

a) x’Ax = tr(x’Ax) = tr(Axx’)
k
b) tr (A ) = ∑ λ i , donde λi’s son los eigenvalores de A
i =1
o Se puede demostrar que la función de verosimilitud se puede rescribir

como
 1  −1 n ' n 
L(µ, Σ | x ) = (2π) exp − tr Σ ∑ (x i − x )(x i − x )  − (x − µ ) Σ −1 (x − µ )
− np / 2 −n / 2 '
Σ
 2  i=1  2 
DEM.
¾ Resultado 9. Dada una matriz B(p×p) simétrica positiva definida y un escalar

b>0 se sigue que
Σ
−b  1 
( )
exp− tr Σ −1B  ≤ B (2b ) e −pb
−b pb
 2 
para toda matriz definida positiva Σ(p×p) con igualdad si y solo si
Σ= 1 ( 2b)B .
30
DEM. Jonson & Wichern (2002).
¾ Teorema. Sean X1,...,Xn una muestra aleatoria de una población X ∼ Np(µ,

Σ), entonces los EMV de µ y Σ están dados por,
1 n n −1
µˆ = X y Σ = ∑ (X i − X )(X i − X ) =
'
ˆ S.
n i=1 n
DEM.
n
∑ (X i − X )(X i − X )
'
o Nota: Las estadísticas X y son estadísticas
i =1
suficientes.
¾ Teorema. Sean X1,...,Xn una muestra aleatoria de una población X ∼ Np(µ,

Σ). Entonces,
 1 
a) X ∼ N p  µ, Σ 
 n 
n
b) (n − 1)S = ∑ (X i − X )(X i − X ) ∼ Wn −1 (Σ )
'
i =1
Distribución Wishart con n−1 g.l. y parámetro Σ

c) X y S son independientes
DEM.
o Función de densidad Wishart. Sea A una matriz definida positiva. La

función de densidad Wishart con n−1 g.l. y parámetro Σ evaluada en A está
dada por,
31
w n −1 (A | Σ ) =
A
( n −p−2) / 2
{
exp − (1 2 )tr AΣ −1 ( )}
p
∏ Γ((n − i) 2)
p ( n −1) / 2 p ( p −1) / 4 ( n −1) / 2
2 π Σ
i =1
¾ Teorema. Teorema Central del Límite.

Sean X1,...,Xn una muestra aleatoria de una población p−variada con media
µ y matriz de var-cov Σ finita. Entonces,
 1 
a) X ≈ N p  µ, Σ  ó n (X − µ ) ≈ N p (0, Σ )
 n 
b) n (X − µ ) S−1 (X − µ ) ≈ χ (2p )
'
Si n es grande relativo a p.
o Nota: Para n pequeña relativo a p y si Xi ∼ Np(µ, Σ), la distribución exacta

en el punto (b) del Teorema anterior es:
(n − 1)p
T 2 = n (X − µ ) S−1 (X − µ ) ∼
'
F( p ,n −p ) ,
( n − p)
y es llamada distribución T2 de Hotelling.
¾ Intervalos de confianza simultáneos para el vector de medias µ. Sean

X1,...,Xn una muestra aleatoria de una población X ∼ Np(µ, Σ). Entonces,
las regiones de confianza al (1 − α )100% para µ son:
{ (
a) Si Σ es conocida µ : n x − µ Σ −1 x − µ ≤ χ (2p ),α) (
'
) }
 '
(
b) Si Σ es desconocida µ : n x − µ S−1 x − µ ≤
(n − 1)p
( n − p)
) ( 
F( p,n −p ),α  , )
 
donde χ (2p ),α y F( p,n −p ),α son cuantiles superiores de orden α.
32
c) Intervalos conjuntos de Bonferroni: Construir IC univariados para µj,

j=1,...,p, de nivel (1−α/p). De esta manera por la desigualdad de
Bonferroni la confianza conjunta de todos los intervalos es de al menos
(1−α).
3.3 Validación del supuesto de normalidad
¾ La validación del supuesto de normalidad es muy importante debido a que

la mayoría de las técnicas estadísticas multivariadas suponen que las
observaciones Xi provienen de una distribución normal multivariada.
¾ Para verificar este supuesto de normalidad nos basaremos en las

propiedades de la distribución normal multivariada:
⇒ Las distribuciones marginales son todas normales
⇒ Combinaciones lineales son también normales
⇒ Las curvas de nivel son elipsoides
¾ Nos concentraremos principalmente en validad normalidad univariada y

bivariada debido a que son pocos y raros los casos que cumplen con estas
dos condiciones y que no cumplen con la normalidad multivariada.
¾ VALIDACIÓN DE NORMALIDAD UNIVARIADA:
o Histogramas o diagramas de caja y brazos: buscamos simetría,

unimodalidad, etc.
33
o Regla empírica: Si Xj ∼ N (µj, σjj),

{ ( )}
P X j ∈ µ j ± σ jj = 0.683
P{X ∈ (µ
j j ±2 σ )}= 0.954
jj
⇒ Si n es grande uno esperaría que

(
p̂ j1 =proporción muestral de obs. en el intervalo x j ± s jj ≈ 0.68 )
p̂ j2 =proporción muestral de obs. en el intervalo (x j )
± 2 s jj ≈ 0.95
⇒ Más aún, usando la aproximación muestral a la distribución de muestreo

de p̂ j1 y p̂ j2 ,
(0.683)(0.317) 1.396
p̂ j1 − 0.683 > 3 = ,
n n
ó
(0.954)(0.046) 0.628
p̂ j2 − 0.954 > 3 =
n n
indicarían que las observaciones de la variable Xj no son normales.
o Gráfica de probabilidad normal (Q-Q plot). Para n≥20 de preferencia.

Sean X (1) ≤ X ( 2) ≤ L ≤ X ( n ) las estadísticas de orden de la variable Xj,
# X i ' s ≤ X (i )
P(X j ≤ X (i ) ) ≅
i
≅
n n
que por razones analíticas de continuidad se puede aproximar por (i−1/2)/n.
Por otro lado, bajo normalidad
E (X (i ) ) = q (i ) ,
donde q(i) es un cuantil de orden (i−1/2)/n, i.e., q(i) es tal que

P(Z ≤ q (i ) ) = (i − 1 / 2) / n , con Z ∼ N(0,1).
34
La gráfica de probabilidad normal consiste en graficar x(i) vs. q(i).

⇒ Si los datos son normales, los pares (x(i) , q(i)) estarán relacionados
linealmente.
⇒ Una prueba de hipótesis basada en estos cuantiles es:
H0: Xj es normal vs. H1: Xj no es normal
RR = {rq ≤ k α },
donde, rq = coeficiente de correlación muestral entre (x(i) , q(i))

kα = punto crítico (ver copia pag. 182 de la referencia básica)
¾ VALIDACIÓN DE NORMALIDAD EN COMBINACIONES LINEALES:
o Combinaciones lineales de las p variables Xj da una v.a. univariada sobre

la cual se puede investigar su normalidad usando las técnicas presentadas
anteriormente.
¿Qué combinaciones lineales son de interés?
ê1 ' X i y ê p ' X i ,
donde, Sê j = λˆ jê j , j=1,...,p son los eigenvectores de la matriz S.
¾ VALIDACIÓN DE NORMALIDAD BIVARIADA (MULTIVARIADA):
o Gráficas de dispersión de dos variables: Las observaciones deben de

formar una elipse para indicar normalidad bivariada.
o Regla empírica: Recordemos, si X ∼ Np(µ, Σ) entonces,

(X − µ )' Σ −1 (X − µ ) ∼ χ (2p) ,
35
{ }
P (X − µ ) Σ −1 (X − µ ) ≤ χ (2p ),α = 1 − α
'
⇒ Si n es grande uno esperaría que (1−α)100% de las observaciones

cayeran en la elipse dada por
{ x : (x − x ) S ' −1
(x − x ) ≤ χ (2p),α }.
Lo más común es tomar α=0.5
o Gráfica de probabilidad Ji-cuadrada (Q-Q plot): Como en el caso de que

Xi ∼ Np(µ, Σ) ⇒ (X i − µ ) Σ −1 (X i − µ ) ∼ χ (2p )
'
⇒ Si n y n−p son grandes se esperaría que
d i2 = (X i − X ) S−1 (X i − X ) ≈ χ (2p ) , i=1,...,n

'
Una forma de verificar esto es graficando las estadísticas de orden d (2i )
contra su valor esperado bajo una distribución χ (2p ) , i.e.,
graficar d (2i ) vs. q(i),
donde q(i) es tal que P(J ≤ q (i ) ) = (i − 1 / 2) / n , con J ∼ χ (2p ) . Los puntos en
esta gráfica deben de estar sobre una línea recta que pasa por el origen
con pendiente uno para indicar normalidad multivariada.
o Detección de observaciones extremas:

Una observación multivariada Xi es extrema si
(X i − X )' S−1 (X i − X ) > χ (2p),α

con α pequeña (por lo general se toma α=0.001).
Por otro lado, una observación es extrema en una sola variable si
36
X ij − X j
Z ij = > 3.5
S jj
3.4 Transformaciones para conseguir normalidad
¾ Si los datos no satisfacen el supuesto de normalidad multivariada, es

necesario transformarlos.
¾ TRANSFORMACIONES UNIVARIADAS:
o Sugeridas por consideraciones teóricas:

1) Si X con conteos ⇒ X
 X 
2) Si X son proporciones ⇒ log 
1 − X 
1 + X 
3) Si X son correlaciones ⇒ log 
1 − X 
o Sugeridas por los datos:

Transformaciones potencia X λ , para λ entero o fraccionario. En particular,
si λ=0 ⇒ X 0 = log X .
a) Para acortar valores grandes de X: ... , X-1, X0, X1/4, X1/2
b) Para alargar valores grandes de X: X2, X3, ...
37
o Transformación de Box y Cox:

Xλ − 1
 , si λ ≠ 0
X (λ ) = λ
logX, si λ = 0

para λ real. La transformación X(λ) es continua en λ para X>0. El valor de
λ óptimo se puede estimar por máxima verosimilitud, i.e., λ̂ es tal que
maximiza la expresión
1 n
(
2
)
n
n
log L(λ ) = − log  ∑ x i( λ ) − x ( λ )  + (λ − 1)∑ log x i .
2  n i=1  i =1
La maximización se puede hacer numéricamente graficando logL(λ) vs. λ.

Un procedimiento alternativo para encontrar λ̂ es construir
x iλ − 1
y i(λ ) = ( λ −1) / n
, i=1,...,n,
 n 
λ ∏ x i 
 i=1 
calcular la varianza muestral de las y i( λ ) ’s y el mínimo de esta varianza
ocurre en el máximo de logL(λ).
o Nota: No hay garantía de que exista una transformación óptima que

convierta una variable no normal a normal.
o Transformaciones multivariadas: Usar la transformación de Box y Cox en

cada variable y maximizar simultáneamente la verosimilitud conjunta, i.e.,
p
log L(λ1 ,K, λ p ) = − log S(λ ) + ∑ (λ j − 1)∑ log x ij ,
n
n
2 j=1 i =1
donde S(λ) es la matriz de var-cov muestrales de
38
λp
 x λ1 − 1 x − 1 
=  i1
' ip
x i( λ ) ,K , .
 λ1 λp 
 
Nota: Un punto inicial para la maximización son los valores λ̂ j , j=1,...,p
que maximizan la verosimilitud univariada.
39

Notas AMR2

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Notas AMR2

Caricato da

Copyright:

Formati disponibili

PROFESOR: LUIS E.

3. La distribución normal multivariada

¾ ¿Por qué es importante la distribución normal multivariada?

una distribución normal multivariada si su función de densidad está dada

¾ Distribución normal bivariada:

o Sea X' = (X1 , X 2 ) un vector aleatorio de dimensión p=2, con µ1=E(X1),

µ2=E(X2), σ11=Var(X1), σ22=Var(X2) y ρ12=Corr(X1,X2). Entonces,

det (Σ ) = σ11σ 22 − σ12

o ¿Qué pasa si ρ12=0?

o Nota: Ver gráficas anexas

o Los ejes de la elipsoide van en dirección de los eigenvectores de Σ-1

 Resultado 0: Si Σ es definida positiva tal que Σ-1 existe, entonces

o En resumen, las curvas de nivel de una distribución normal p−variada son

o Si σ11=σ22 y ρ12=0 ⇒ Las curvas de nivel son círculos

¾ ¿Para qué me sirven las curvas de nivel de una distribución normal

Nota: Es posible demostrar que si Y = Σ −1/ 2 (X − µ ) y A es una matriz de

rango p entonces Y ' AY ∼ χ (2p ) .

¾ Resultado 1. Si X ∼ Np(µ,Σ), entonces cualquier combinación lineal

También, si a ' X ∼ N(a ' µ, a ' Σa ) para toda a, entonces X ∼ Np(µ,Σ).

¾ Resultado 2. Si X ∼ Np(µ, Σ) y A(q×p) entonces, las q combinaciones

tienen una distribución Nq(Aµ, AΣA’). Además X+d, donde d(p×1) es un

¾ Resultado 3. Todos los subconjuntos de X(p×1) tienen una distribución

( q×q )  Σ11 | Σ12  ( q×( p−q ))

entonces, X1 ∼ Nq(µ1, Σ11).

¾ Ejemplo: X ∼ N3(µ, Σ), donde

¾ Resultado 6. Sea X ∼ Np(µ, Σ) con |Σ|>0. Entonces,

¾ Resultado 7. Sean X1,X2,...,Xn vectores independientes tal que Xi ∼ Np(µi,

3.2 Estimación máximo verosímil

o Sean X1,X2,...,Xn una muestra aleatoria de una población X ∼ Np(µ, Σ). La

o La función de verosimilitud para una muestra observada

vista como función de µ y Σ.

o Los estimadores máximo verosímiles de µ y Σ son aquellos valores µ̂ y Σ̂

¾ Resultado 8. Sea A(k×k) simétrica y x(k×1) un vector. Entonces,

o Se puede demostrar que la función de verosimilitud se puede rescribir

¾ Resultado 9. Dada una matriz B(p×p) simétrica positiva definida y un escalar

DEM. Jonson & Wichern (2002).

¾ Teorema. Sean X1,...,Xn una muestra aleatoria de una población X ∼ Np(µ,

¾ Teorema. Sean X1,...,Xn una muestra aleatoria de una población X ∼ Np(µ,

Distribución Wishart con n−1 g.l. y parámetro Σ

o Función de densidad Wishart. Sea A una matriz definida positiva. La

¾ Teorema. Teorema Central del Límite.

o Nota: Para n pequeña relativo a p y si Xi ∼ Np(µ, Σ), la distribución exacta

¾ Intervalos de confianza simultáneos para el vector de medias µ. Sean

c) Intervalos conjuntos de Bonferroni: Construir IC univariados para µj,

3.3 Validación del supuesto de normalidad

¾ La validación del supuesto de normalidad es muy importante debido a que

¾ Para verificar este supuesto de normalidad nos basaremos en las

¾ Nos concentraremos principalmente en validad normalidad univariada y

¾ VALIDACIÓN DE NORMALIDAD UNIVARIADA:

o Histogramas o diagramas de caja y brazos: buscamos simetría,

o Regla empírica: Si Xj ∼ N (µj, σjj),

⇒ Si n es grande uno esperaría que

⇒ Más aún, usando la aproximación muestral a la distribución de muestreo

o Gráfica de probabilidad normal (Q-Q plot). Para n≥20 de preferencia.

donde q(i) es un cuantil de orden (i−1/2)/n, i.e., q(i) es tal que

La gráfica de probabilidad normal consiste en graficar x(i) vs. q(i).

donde, rq = coeficiente de correlación muestral entre (x(i) , q(i))

¾ VALIDACIÓN DE NORMALIDAD EN COMBINACIONES LINEALES:

o Combinaciones lineales de las p variables Xj da una v.a. univariada sobre

donde, Sê j = λˆ jê j , j=1,...,p son los eigenvectores de la matriz S.

¾ VALIDACIÓN DE NORMALIDAD BIVARIADA (MULTIVARIADA):

o Gráficas de dispersión de dos variables: Las observaciones deben de

o Regla empírica: Recordemos, si X ∼ Np(µ, Σ) entonces,

Resultado 0: Si Σ es definida positiva tal que Σ-1 existe, entonces