Sei sulla pagina 1di 25

TEORIA Y APLICACIÓNES DE VARIABLES ALEATORIAS Y SUS

DISTRIBUCIONES DE PROBABILIDAD
Oscar Alexander Manrique Salas
Jaime Yesith Valencia Galvan

ABSTRACT
In research data measurements are made, many times, measured data are random variables. To
save costs and time, working with the entire population, instead, is take random samples that are
representative of the population (for these samples are representative should be random).
Researchers and others interested in the analysis the outcome of the data, whether they are
concerned with data taken in the sample can inductions on people, and for that need to know if
the data distribution follows a distribution is already known, as this would facilitate the work in
large way, as being so, they may extrapolate from the sample to the population

0. INTRODUCCIÓN
El presente artículo nace como requisito dentro del proceso de aprendizaje para estudiantes de
Maestría en Ingeniería Industrial de la Universidad Industrial de Santander en Bucaramanga
(Colombia). Los parámetros para el mismo establecieron que debe abordarse los temas sobre
distribuciones multivariantes e inferencia a partir de datos de este tipo, localizados en los
capítulos 9 y 10 de Peña (2002).

El alcance temático definido en el párrafo anterior se acompaña con ejemplos, abordando el


objetivo pedagógico implícito definido por el docente. Para evitar que el documento se convierta
en una transcripción de temáticas y aporte novedad a la materia, se ha tomado como marco
metodológico la descripción comentada del tema, así como la presentación de ejemplos para
ayudar a la comprensión, algunos construidos por los autores, con un respectivo desarrollo en
Matlab1.

1. MARCO TEÓRICO

1.1. VARIABLE ALEATORIA VECTORIAL


Cuando se llevan a cabo estas investigaciones se miden variables aleatorias como puede ser la
estatura de una persona; la mayoría de veces en la investigación se tiene un conjunto de variables
aleatorias, por ejemplo, estatura, peso, edad,… cuando se presenta esta última situación, se dice
que se han observado n características en un elemento de la población, cuando son 2
características observadas se tiene una variable aleatoria bidimensional, cuando son 3, se llama
variable aleatoria tridimensional y, cuando se han medido n características se lama variable
aleatoria n-dimensional
Hay 3 tipos de variables aleatorias n-dimensionales:
a) Cuando cada una de las variables que la componen son discretas, por ejemplo el estado civil,
formación académica, etc.
b) Cuando cada una de las variables que la componen son continuas, por ejemplo el número de
hijos, edad, etc.
c) Cuando son una mezcla de las 2 anteriores, se llaman mixtas

1 Herramienta software para el tratamiento de las matemáticas


De acuerdo a lo anterior, se pueden hacer composiciones de variables aleatorias n-dimensionales,
por ejemplo: una variable aleatoria bidimensional mixta medida para un estudiante puede ser el
número de materias que toma en un semestre y el promedio acumulado; una variable aleatoria
tridimensional continua medida para una empresa puede ser la cantidad de activos, de pasivos y
de patrimonio.

1.2. DISTRIBUCIÓN CONJUNTA

1.2.1. Definición. Tal como existe una función de probabilidad para variables unidimensionales,
igualmente se puede definir una distribución de probabilidad conjunta para variables aleatorias n-
dimensionales, tal como , donde su función de probabilidad se establece por:
, es decir la probabilidad de que cada uno de los
componentes del vector aleatorio tome cierto valor máximo.

También existe la función de probabilidad para las variables discretas. La función de probabilidad
de una variable discreta es la función

Estas funciones también deben cumplir ciertas propiedades:


f ( x)  f ( x1 ,........, x p )  0
a)
  



f ( x)dx   ......  f ( x1 ,......, x p )d x1 ....dx p  1
 
b)

1.2.2. Distribución marginal. Si se desea conocer la probabilidad de que uno de los componentes
del vector aleatorio tome cierto valor sin considerar la condición que tomen los demás, se estará
hablando una probabilidad marginal, por lo cual se desaria tener disponible la función de densidad
de probabilidad para esta componente (o variable unidimensional), la cual puede obtenerse a
partir de:
 
f ( xi )   ......  f ( x1 ,......, x p )d x1 ..dxi 1dxi 1 ..dx p
 

Como se observa cada representa la función de densidad de cada variable sin tomar en
cuenta las demás variables

1.2.3. Distribución condicionada. Para el caso bidimensional, si , donde y son


variables vectoriales, la distribución condicionada de para un valor conocido de es:

1.2.4. Independencia. Para dos vectores de variables aleatorias y se dice que son vectores
independientes si el conocimiento de uno de ellos no aporta información respecto a los valores del
otro, es decir, que la distribución condicionada es idéntica a la marginal, matemáticamente:
O sea que dos vectores de variables aleatorias son independientes si su probabilidad conjunta es
el producto de las probabilidades individuales, dicho de otra forma, si su distribución conjunta es
el producto de las distribuciones marginales. Generalizando para m variables, se dice que son
variables aleatorias independientes si se cumple que:

1.3. PROPIEDADES DE VARIABLES ALEATORIAS

1.3.1 Vector de medias. La esperanza o vector de medias,  , de una variable multidimensional, x ,


es el vector cuyos componentes son las esperanzas o medias de los componentes de la variable
  E[ x]   xf ( x)dx
aleatoria.   E[x] , Si la variable es continua

Para cualquier matriz, A , y vector b se cumple: E[ Ax  b]  AE[ x]  b

Si x  ( x1 , x2 )' se tiene que para escalares a y b : E[ax1  bx2 ]  aE[ x1 ]  bE[ x2 ]


Y si x1 y x 2 son independientes: E[ x1 x2 ]  E[ x1 ]E[ x2 ]

1.3.2 Esperanza de una función. Si disponemos de una función escalar y  g (x) de un vector de
variables aleatorias, es valor medio de esta función esta dado por:

E ( y )   yf ( y )dy   ..... g ( x) f ( x1 ,......, x p )dx1 .......dx p

Si x  ( x1 , x2 )' , y definimos y1  g1 ( x1 ) , y2  g 2 ( x2 ) , si x1 e x 2 son independientes, entonces


E[ y1 y2 ]  E ( g1 ( x1 )) E ( g 2 ( x2 ))

( x ,......, x p )' Rp
1.3.3. La matriz de varianzas y covarianzas. Un vector aleatorio x = 1 , de , con
 '  ( ,......,  )
1 p V  E[( x   )( x   )' ]
vector de medias al ser aplicado x , establece una matríz
conocida como la matriz de varianzas y covarianzas. En su diagonal se encontraran las varianzas de
2 
los componentes, i , y fuera de ella las covarianzas entre los pares de variables, ij , la matriz de
covarianzas es simétrica y semidefinida positiva, es decir que para cualquier vector, w , se cumple:
w'Vx w  0
tr(Vx ) / p
Se define la varianza media como el promedio de las variaciones dado por , la
1/ p
Vx VE  Vx
varianza generalizada es y la varianza efectiva .
Rp
1.3.4. Transformaciones de vectores aleatorios. Sea x un vector de con función de densidad
fx x
, y sea otro vector aleatorio definido mediante la transformación uno a uno:
y1  g1 ( x1 ,......, x p )
 
y p  g p ( x1 ,......, x p )

Donde se supone la existencia de las funciones inversas


x1  h1 ( y1 ,......, y p ),.......x p  hp ( y1 ,......, y p )
, y que las funciones implicadas son
diferenciables, se puede demostrar que la función de densidad del vector y viene dada por:
dx
f y ( y )  f x ( x)
dy
,
fy fx
donde y representan las funciones de densidad de las variables y Y x . El término
dx
dy representa el Jacobiano de la transformación, el cual se asume que es diferente de cero en el

rango de la transformación. Si se tiene la transformación lineal y  Ax , donde A es una matriz


x  A1 y
cuadrada no singular, las derivadas de x respecto a y se obtienen de , y serán por tanto
1
A1 A 1 A
los elementos de la matriz , el jacobiano de la transformación será = y la función de
y
densidad de la nueva variable , es:
1
f y ( y)  f x ( A1 y) A

1.3.5. Esperanzas y varianzas de transformaciones lineales


Sea x un vector aleatorio de dimensión p y y otro vector aleatorio de dimensión m, (m  p) ,
y  Ax donde A es una matriz rectangular de dimensiones m x p . Designando  x ,  y , a sus

Vx V y
vectores de medias y , a las matrices de covarianzas, se verifica la relación:
 y  A x
Además

Vy  AVx A' .
1.4. DEPENDENCIA ENTRE VARIABLES ALEATORIAS

1.4.1. Esperanzas y varianzas condicionadas. La esperanza de un vector condicionada a un valor


concreto de otro vector , es la esperanza de la distribución condicionada dada por:
E[ x1 x 2 ]   x1 f ( x1 x 2 )dx1

La varianza de x1 condicionada a x 2 se define como la varianza de la distribución x1 condicionada


a x 2 , es decir:
Var ( x1 x 2 )  V1 / 2
Var ( x1 )  E[Var ( x1 x 2 ]  Var[ E ( x1 x 2 )]
Es posible demostrar que , expresión que se conoce como
descomposición de la varianza.

1.4.2. Matriz de correlación. Se define la matriz de correlación de un vector aleatorio x , con


matriz de covarianzas Vx , por:
Rx  D 1/ 2Vx D 1/ 2
D  diag (12 ,....,  p2 )
donde , es la matriz diagonal que contiene la varianza de la variables. La
matriz de correlación será una matriz cuadrada y simétrica con unos en la diagonal y los
coeficientes de correlación entre los pares de variables fuera de su diagonal. Los coeficientes de
correlación lineal están dados por:
 ij
ij 
i  j

1.5. LA DISTRIBUCIÓN MULTINOMIAL

Un experimento Multinomial es un experimento estadístico que tiene las siguientes propiedades:


a) El experimento consiste en n ensayos repetidos.
b) Cada prueba tiene un número discreto de los posibles resultados.
c) En cada intento, la probabilidad de que un resultado particular, va a ocurrir es constante.
d) Los ensayos son independientes, es decir, los resultados de un ensayo no afecta a los resultados
de otros ensayos.

Su función de probabilidad es:


n!
P( y1  n1 , yG  nG )  p1n1 ... pGnG n i n
n1!...nG !
Donde
El término combinatorio tiene en cuenta las permutaciones de n elementos cuando hay
n1 ,..., nG
. La esperanza de la variable está dada por:
E ( y )  np   y
Y la varianza es:
1
Var ( y )  n[diag ( p)  pp' ]  diag (  y )   y  ' y
n
Donde diag ( p ) es una matriz cuadrada con los elementos de p en la diagonal y ceros fuera de
ella.

1.6. DISTRIBUCIÓN DIRICHLET

La distribución de dirichlet es útil para representar datos que son proporciones, para ello usamos
variables que toman valores en el intervalo [0,1], supongamos que tenemos un vector de variables
continuas
x  ( x1 ,..., xG )' , donde cada x j representa una proporción asignada a cada variable de
0  xj 1
tal forma que y
G

x
j 1
j 1
La función de densidad de probabilidad de una distribución de dirichlet es:
( 0 )
f ( x1 ,..., xG )  x11 1...xG G 1
(1 )( 2 )...( G )
Donde (.) es la función gamma y
  (1 ,...,  G )' es el vector de parámetros que caracteriza la
distribución, y
G
 0   '1   j
j 1
La esperanza de una distribución de dirichlet está dada por:

E ( x)   x
0

j
Los parámetros indican la esperanza relativa de cada componente y
1 1 1
Var ( x)  ( diag ( )  2  ' )
( 0  1)  0 0
Lo que indica que la varianza de cada componente es:
 j ( 0   j )
var( x j ) 
 02 ( 0  1)

El parámetro 0 determina la varianza de los componentes, que decrecen rápidamente con 0 ,

las variables de tipo dirichlet están ligadas por una ecuación de restricción, con lo que no son
linealmente independientes y su matriz de covarianzas es singular. Las covarianzas entre dos
componentes está dada por:
 j i
cov( xi , x j ) 
 02 ( 0  1)
Donde la covarianzas también disminuyen con
 0 , pero aumentan al aumentar las esperanzas de
las variables.

1.7. LA NORMAL K-DIMENSIONAL

Un vector x tiene una distribución normal p-dimensional si su función de densidad es del tipo:
1 2 p 2
f ( x)  V 2 exp[(1 / 2)( x   )'V 1 ( x   )]
Propiedades:
a) La distribución es simétrica alrededor de  .
b) La distribución tiene un único máximo en  .
c) La media del vector aleatorio normal es  y su matriz de varianzas y covarianzas es V .
d) Si p variables tienen distribución conjunta normal y están incorreladas son independientes.
e) Cualquier vector x p-dimensional con matriz V no singular puede convertirse mediante una
transformación lineal en un vector z normal p-dimensional con vector de medias 0 (cero) y matriz
de varianzas y covarianzas igual a la identidad ( I ). Se define normal p-dimensional estándar a la
densidad de z que viene dada por:
1 1
p 2 exp[ (1 / 2) z ' z ]  
p
f ( z)  p 2 exp [ (1 / 2) z i ]
2

(2 ) i 1
(2 )
f) Las distribuciones marginales son normales.
g) Cualquier subconjunto de h  p variables es h-dimensional.
h) Si y es (k 1) , k  p , el vector y  Ax , donde A es una matriz de ( k  p ) , es normal k-
dimensional.
i) Al cortar con hiperplanos paralelos al definido por las p variables que forman la variable
vectorial , x , se obtienen las curvas de nivel

( x   )'V 1 ( x   )  Constante

Las curvas de nivel son elipsoide y definen una medida de la distancia de un punto al centro de la
distribución, esta medida se llama distancia de Mahalanobis y se representa por:
D 2  ( x  )'V 1 ( x   )
j) La distancia de Mahalanobis se distribuye como una  con p grados de libertad.
2
1.8. DISTRIBUCIONES ELIPTICAS
x  ( x ,...x )'
i p
Una variable vectorial sigue una distribución esférica si su función de densidad
depende de la variable solo por la distancia euclídea:
p
xx'   xi2
i 1
Lo cual implica que los contornos de equiprobabilidad de la distribución son esferas de centro en
el origen y que la distribución es invariante ante rotaciones. La función de densidad normal
estándar multivariante,
1 1
exp[ (1 / 2) x' x]  i1
p
f ( x)  exp[(1 / 2) xi2 ]
(2 ) (2 )
p 2 p 2

es una distribución esférica.

Si la variable x sigue una distribución esférica y A es una matriz cuadrada de dimensión p y


m un vector de dimensión p , la variable y  m  Ax sigue una distribución elíptica, una variable
esférica tiene media cero y matriz de covarianzas cI ,por lo tanto una variable elíptica tiene media
m y matriz de covarianzas V  cAA' . Las siguientes son propiedades de las distribuciones
elípticas:

a) La función de densidad depende de la variable a través de la distancia de Mahalanobis:


( y  m)'V 1 ( y  m) .
b) Los contornos de equiprobabilidad de la distribución son elipsoides con centro en el punto m .

1.9. DISTRIBUCIÓN DE WISHART

Consideremos un conjunto de vectores aleatorios


( x1 ,..., xm ) de dimensión p con igual
N p (0, I )
distribución , la estimación de la matriz de varianzas y covarianzas de este conjunto de
m
W   xi xi '
vectores se obtiene de W m dónde , que es una matriz cuadrada de p  p ,
i 1

simétrica y definida positiva, este conjunto de vectores sigue una distribución de Wishart con m
1
p( p  1)
grados de libertad. La distribución conjunta de los 2 elementos distintos de W es:
( m  p 1) / 2 1
f ( w11 ,..., w pp )  c W exp[  tr (W )]
2
W (m)
donde c es una constante. Se dice que W se distribuye p , donde p indica que se trata de la
distribución de los elementos de una matriz cuadrada y simétrica de orden p , y m son los grados
( x ,..., x ) N (0, )
de libertad. Supongamos m vectores aleatorios 1 m de una distribución p
en
donde  representa la matriz de covarianzas, la distribución de los elementos de la matriz
m
W   xi xi '
i 1
Es la distribución Wishart con m grados de libertad y matriz de parámetros  , dada por
( m  p 1) / 2 1
f ( w11 ,..., w pp )  c   m / 2 W exp[  tr 1W ]
2
Las siguientes propiedades se evidencian en la distribución de Wishart:

a) La esperanza de la distribución es E[W ]  m , lo cual implica que W m tiene esperanza  .

b) La suma de dos distribuciones  independientes es otra distribución  con grados de


2 2

libertad igual a la suma de ambas.


W ( m,  )
c) Si A es una matriz de orden h  p de constantes, y W se distribuye p , la distribución
1 1
de AWA' distribuye Wh (m, A A' ) .
1 1
S X ' PX P  I  11'
d) Si S es la matriz de varianzas y covarianzas muestral n donde n es
W ( n  1, )
indempotente, entonces nS se distribuye p .

1.10. LA T2 DE HOTELLING

N (  ,V )
, la variable ( x   )'V ( x   ) es una  con p grados
1 2
Si x es un vector aleatorio p

de libertad, si se sustituye V por su estimación S , la matriz de variabilidad muestral dividida por



N p (  ,V )
n 1, se obtiene una distribución T y (n  1) S se
2
de Hotelling, si x se distribuye
 1
W p (n  1, V )
, la distribución de la variable escalar T  ( x   )' S ( x   ) se
2
distribuye
de Hotelling con p y n  1 grados de libertad, T representa la distancia de
2 2
denomina T
Mahalanobis entre una variable y su media poblacional calculada con la matriz de covarianzas

estimada. Se dice que T se distribuye T ( p, n  1) , como S es V , T converge a la distancia


2 2 2

 p2
de mahalanobis y la distribución de Hotelling a una distribución , para n grande la
 p2
distribución de Hotellinmg es muy similar a una , para tamaños más pequeños tiene una
 p2
mayor variabilidad que la .
1
_ _ N p ( , V )
Si x es la media muestral, como x se distribuye n , la distribución:

_  1 _
S 1 _ _
( x  )' ( ) ( x  )  n( x  )' S ( x  )
n
es una T , si p  1 , la T se reduce a:
2 2

_
n ( x   )2
T2   t2
2
S
T 2 (1, m)  t 2
que es el estadístico t de student , se puede afirmar que m . La distribución de

Hotelling se puede transformar a la distribución F del análisis de varianza de Fisher:


n p 2
Fp ,n  p  T ( p, n  1)
p(n  1)
2
lo cual permite calcular la distribución T de a partir de las tablas de la distribución F .

1.11. FUNDAMENTOS DE LA ESTIMACIÓN MÁXIMO VEROSÍMIL

El método de máxima verosimilitud escoge como estimador de los parámetros el valor que haga
máxima la probabilidad de que el modelo a estimar genere la muestra observada. Supongamos
una muestra aleatoria simple de n elementos de una variable aleatoria p-dimensional, x , con
f ( x )
función de densidad ,donde   (1 ,...,r )' es un vector de parámetros que tienen

dimensión r  pn . Llamando
X  ( x1 ,..., xn ) , a los datos de la muestra, la función de densidad
conjunta de la muestra es:
f ( x  )  i 1 f ( xi  )
n

cuando el parámetro  es conocido, esta función determina la probabilidad de aparición de cada


muestra. En un ejercicio de estimación se tiene la muestra pero se desconoce  , considerando a
 como una variable en la función de densidad conjunta y particularizando esta función para los
datos observados, se obtiene la función de verosimilitud,
( X )  ( )  i 1 f ( xi  )
n

donde X es fijo y  variable. El estimador de máxima verosimilitud es el valor de  que hace


máxima la probabilidad de aparición de los valores muestrales observados y se obtiene calculando
el máximo de la función  ( ) . El máximo se obtiene resolviendo el sistema de ecuaciones:
( )
0
1
( )
0
 r
Suponiendo que la función es diferenciable y que su máximo no ocurre en un extremo de su

dominio de definición. El vector  que satisface este sistema de ecuaciones es un máximo si la


matriz hessiana de segundas derivadas H , evaluada en  , es definida negativa:



 2 ( )
H ( )  ( ) 
 i  j  

De esta manera  es el estimador de máxima verosimilitud, es más cómodo calcular el máximo


del logaritmo de la función de verosimilitud L( )  ln ( ) , conocida como función de soporte. Es
posible analizar el ajuste de un modelo a los datos mediante la desviación D( )  2 L( ) , donde
esta expresión mide la discrepancia entre el modelo y los datos.

1.12. ESTIMACION DE LOS PARÁMETROS DE VARIABLES NORMALES P-


DIMENSIONALES

Estimación de los parámetros de variables normales p-dimensionales


xi ,..., xn una muestra aleatoria simple donde xi N p (  ,V )
Sea se distribuye , se desea obtener
los estimadores de máxima verosimilitud  y V , para ello se construye la función de densidad
conjunta de las observaciones,
1 / 2 1
f ( X  , V )  i 1 V (2 )  p / 2 exp[  ( x   )'V 1 ( x   )]
n

2
La función de soporte, despreciando las constantes es:
n 1 n
L(  , V X )   log V   ( x   )'V 1 ( x   )
2 2 i 1
Esta función es posible transformarla a la siguiente expresión:
n n n
L( ,V X )   log V  trV 1S  ( x  )'V 1 ( x  )
2 2 2
Esta función solo depende de la muestra a través de los valores x y S , estimadores suficientes de
 y V . Para obtener el estimador del vector medias de la población asumimos que

( x   )'V 1 ( x   )  0 ya que V 1 es definida positiva, el valor de  que maximiza la función es


aquel que hace este término lo menor posible, y se hace cero si tomamos   x , esto permite
concluir que x es el estimador de máxima verosimilitud de  . Se puede demostrar que el

estimador de máxima verosimilitud de V es V  S .

1.13. EL MÉTODO DE LA RAZÓN DE VEROSIMILITUDES

Muchas veces se desea comprobar si una muestra proviene de una distribución con parámetros
conocidos, para ello es conveniente realizar un contraste de hipótesis con el objetivo de rechazar o
no la hipótesis planteada mediante los datos observados. La teoría de contraste de verosimilitudes
proporciona pruebas estadísticas que tienen ciertas propiedades óptimas para tamaños de
muestras grandes. Dado un parámetro vectorial,  , p-dimensional, que toma valores en  , que es
p
un subconjunto de R , supongamos que se desea contrastar la hipótesis:
H 0    0
frente a una hipótesis alternativa:
H1       0
El método de razón de verosimilitudes toma el valor que hace más probable obtener la muestra
observada y que es compatible con la hipótesis. Bajo la hipótesis
H 0 para encontrar la máxima

probabilidad de obtener la muestra se procede asi: Si


 0 determina un valor único para los

parámetros
   0 , se calcula la probabilidad de los datos supuesto  0 . Si  0 permite muchos
valores, se elige el valor del parámetro que haga máxima la probabilidad de obtener la muestra. La
probabilidad de la muestra observada es proporcional a la distribución conjunta de las
observaciones, esto hace que si sustituimos en esta función los datos disponibles obtenemos la
función de verosimilitud, el máximo de esta función en
 0 proporciona el máximo valor de la
f (H 0 )
verosimilitud compatible con la hipótesis. Para obtener la máxima probabilidad bajo la
hipótesis alternativa se calcula el máximo f ( H1 ) de la función sobre el conjunto
  0 .

Comparando
f ( H 0 ) y f ( H1 ) mediante la razón de verosimilitudes
f (H 0 )
RV  ,
f ( H1 )

rechazamos
H0 , cuando RV sea suficientemente pequeño, la región de rechazo de
H 0 , está
definida por RV  a , donde a es el nivel de significancia de la prueba. Para conocer el valor de
a es necesario conocer el tipo de distribución de RV cuando es cierta H 0 . Cuando el tamaño
muestral es grande, el doble de la diferencia de soportes entre la hipótesis alternativa y la nula,
H0
cuando es cierta se define mediante:
  2 ln RV  2[ L( H1 )  L( H 0 )]
donde
L( H i )  log f ( H i ) , con i  0,1 ,se distribuye como una  2 con grados de libertad igual a

la diferencia de dimensión entre los espacios  y 0 .Se rechaza
H 0 cuando el soporte de los
H
datos para H1 es significativamente mayor que para 0 .

1.14. CONTRASTE SOBRE LA MEDIA DE UNA POBLACIÓN NORMAL

( x1 ,..., xn ) de N p (  ,V )
Supongamos una muestra una población , vamos a contrastar la

hipótesis
H o :    o , V  cualquiera
con la hipótesis
H 1 :    o ,V  cualquiera
construyendo un contraste de razón de verosimilitudes, calculando el máximo de la función en

H o y H1 . Ya sabemos que para una población normal x y S son estimadores verosímiles,
reemplazando en la función de soporte, se tiene:
n np
L( H1 )   log S 
2 2
H 
En o el estimador de  es o , con algunas operaciones se puede escribir la función de soporte
de la siguiente manera:
n n
L(V X )   log S  trV 1S 0
2 2
1 n
S0   ( xi  o )( xi  o )'
n i 1 S
donde . Se puede demostrar que 0 es el estimador máximo
Ho S0 Ho
verosímil de V bajo , sustituyendo V por en la 13unción de soporte para se tiene:
n np
L( H o )   log S 0 
2 2
S0
  2( L( H1 )  L( H 0 ))  n log
S H0
La diferencia de soportes es , permitiendo rechazar , cuando
el soporte para H1 sea significativamente mayor que para 0 . La distribución de  es una  , con
2
H
grados de libertad igual a la diferencia de las dimensiones del espacio en que se mueven los
H0
parámetros de las dos hipótesis. La dimensión del espacio para es
p  p( p  1) / 2  p( p  1) / 2 , el numero de términos diferentes en V , y la dimensión del espacio

los grados de libertad del estadístico  .


2
en H1 es p  p ( p  1) / 2 . La diferencia es p,

S0 T2
 1  
S n 1 T 2  (n  1)(( x  o )' S 1 ( x  o )) , tiene una
Se tiene que , donde el estadístico
distribución T 2 de Hotelling con p y n  1 grados de libertad. Es posible usar la relación entre el
estadístico T2 y la distribución F,
para calcular los percentiles de T2. Rechazaremos
H 0 cuando T 2
T2
  n log(1  )
sea suficientemente grande, utilizando n 1 .

1.15. CONTRASTE SOBRE LA MATRIZ DE VARIANZAS DE UNA POBLACIÓN NORMAL

El contraste de la razón de verosimilitudes se aplica para hacer contrastes de matrices de


covarianzas de manera similar que como se hace para un vector de medias.

1.15.1. Contraste de un valor particular. Suponiendo que deseemos contrastar la hipótesis


con  cualquiera, frente a H1 :  y V cualquiera. Calculando el máximo de la función
H o : V  V0
H
de soporte en 0 y H1 , podemos construir un contraste de verosimilitudes.
 
n n
L(  , V x)   log V  trV 1S  ( x   )'V 1 ( x   )
Usando 2 2 como función de soporte, en

H o , el valor de V queda especificado, Vo y 
se estimaran mediante x , la función de soporte que
n n 1
L( H o )   log V0  trV0 S
da de la siguiente forma 2 2 , mientras que en H1 , los estimadores
n np
 L( H1 )   log S 
son x y S , entonces 2 2 y la diferencia de soportes es:
V0 n 1
  2( L( H1 )  L( H 0 ))  n log  trV0 S  np
S 2

El contraste consiste en comparar


V0 , el valor teórico y S, el estimado en la escala del
determinante y en la de la traza. La distribución de  es una  , con grados de libertad igual a la
2

diferencia de las dimensiones del espacio en que se mueven los parámetros de las dos hipótesis.
p ( p  1) / 2 , el numero de términos diferentes en V , Esta prueba sirve para contrastar si V0  I ,
n
  n log S  trS  np
con lo cual el estadístico se reduce a 2 .

1.15.2. Contraste de Independencia. Supongamos que:


H 0 : V  Diagonal 
, cualquiera
frente a la alternativa
H1 :  V
y cualquiera

Vo Vo  diag (S )
La estimación máximo verosímil de es , donde diag (S ) es una matriz diagonal
S ii S,
con términos iguales a los de la diferencia de soportes se reduce a
  n log
S ii

 ntr V01 S  np  
 1
R  V0 S
S 0
1
tr V S  tr V01/ 2 S V 0
1 / 2
 trR  p
, como y ,
  n log R
el contraste se reduce a . Este se puede escribir en términos de los valores propios
n
  n logi 
donde i son los valores propios. Su distribución es una  con grados
2
de R asi: i 1

de libertad p( p  1) / 2  p  p( p  1) / 2 .

1.15.3. Contraste de esfericidad. Si suponemos que todas las variables tienen la misma varianza y
están incorreladas, se puede plantear un contraste de esfericidad. Supongamos las hipótesis:
Ho :V   2I  cualquiera
Contra
H1 :  y V cualquiera

Al sustituir V0   I en la función de soporte para o se tiene:


2
H
np n
L( H o )   log  2  2 trS
2 2
2

y derivando respecto a  , se demuestra que el estimador máximo verosímil es   trS / p , la


2

varianza media. La función de soporte L( H1 ) es igual a la anterior, y la diferencia de soportes es:


2
 2
  n log  ntrS /   np
S
2 2
  np log   n log S
El contraste se reduce a si sustituimos   trS / p ,  se distribuye

asintóticamente como una  con p( p  1) / 2  1  p  2( p  1) / 2 .


2

1.15.4 Ajustes en la distribución. Cuando la muestra no es muy grande, la aproximación del


estadístico  a una distribución  puede mejorarse introduciendo factores de corrección, las
2

n
aproximaciones anteriores mejoran si se sustituye en los estadísticos anteriores n por c donde
nc
es menor que n y depende de p y del contraste. Estas correciones son significativa cuando el
tamaño de la muestra es pequeño, es grande y el estadístico obtenido esta cercano al valor critico,
pero pierden importancia cuando p / n es pequeño y el estadístico resultante es concluyente en
cualquiera de las direcciones.
2. SIMULACIÓN EXPERIMENTAL

2.1. DISTRIBUCIÓN CONJUNTA

2.1.1. El Caso Discreto. Una empresa desarrolla 2 tipos de productos: pantalones y camisas, hay 2
tipos de pantalones (a 100 y a 250 pesos) y 3 tipos de camisas (a 50, a 100 y a 200 pesos),
supongamos que se tiene un cliente que ha comprado un pantalón y una camisa, sea X=valor del
pantalón, y Y=valor de la camisa, las posibles parejas son:
(100,50),(100,100),(100,200);(250,50),(250,100),(250,200), cualquier otro par tiene probabilidad
cero, a continuación se muestra la tabla de probabilidad conjunta:

Tabla 1. Distribución de probabilidad para las variables X= precios de pantalones, y Y= precios de camisa
p(X,Y) Y
50 100 200
X 100 0.2 0.1 0.2
250 0.05 0.15 0.3
Fuente: [2]

Así que p(100,100) = P(X=100 y Y=100)= 0.1 y, P(Y≥100) = P(100,100) + P(100,200) + P(250,100) +
P(250,200) = 0.75
Los posibles valores de X son: X1=100 y X2=250, si se calculan los totales en las filas de la tabla de
probabilidad conjunta se tiene:
px(100) = p(100,50) + p(100,100) + p(100,200) = 0.5
px(250) = p(250,50) + p(250,100) + p(250,100) = 0.5
Así que la función de masa de probabilidad marginal de X es:
px(x) = 0.5 si x = 100,250; 0 de lo contrario
De la misma manera la función de probabilidad marginal de Y se obtiene sumando las columnas:
py(y) = 0.25 si y = 50,100; 0.5 si y = 200; 0 de lo contrario
Y así que P(Y≥100) = py(100) + py(200) = 0.75 igual que antes

2.1.2. El Caso Continuo. Un banco dispone de una ventanilla para automovilistas y una ventanilla
para el otro tipo de público, un día al azar, sea X= la cantidad de tiempo en que la ventanilla para
automovilistas está en uso (por lo menos un cliente está siendo atendido o esperando ser
atendido) y Y=la cantidad de tiempo que la ventanilla normal está en uso. Así que el conjunto de
los posibles valores de (X,Y) es el rectángulo D= { (x,y): 0≤x≤1, 0≤y≤1} suponga que la función de
densidad de probabilidad conjunta de (X,Y) está dada por:

Para verificar que la anterior es una función de densidad de probabilidad se deja a interés del
lector demostrar que:

La probabilidad de que ninguna ventanilla esté ocupada más de un cuarto del tiempo es:
2.2. PROPIEDADES DE LAS VARIABLES ALEATORIAS

Considere la matriz de datos:

-2 1 4
3 0 -1
5 1 2
-1 3 6
2 -7 4
-1 0 -1

Que tiene n=6 observaciones de un vector aleatorio X=(X1,X2,X3)


A: calcule el vector de medias de X y la matriz de varianza – covarianza
B: Calcule la matriz de varianza-covarianza muestrales de los datos estandarizados a media cero y
varianza unidad
C: sea el vector aleatorio Y=(Y1,Y2), dónde Y1=-X1+2X2-X3 e Y2=X1+X2, calcule el vector de medias
de Y y la matriz de varianza – covarianza de Y. calcule la matriz de observaciones de Y mediante
una operación matricial en la que aparezca la matriz de datos de X
D: calcule la matriz de varianza-covarianza del vector aleatorio Z=(Z1,Z1), dónde Z1=Y1/ ,
Z2=Y1/
E: calcule las matrices de correlaciones de X,Y,Z de la matriz de datos obtenida en el punto B
Desarrollo:
A: Para calcular el vector de medias se utiliza la siguiente función en Matlab: mean(), que aplicada
a un vector retorna el promedio del mismo, y al aplicarse a una matriz, retorna el promedio de
cada columna. Para calcular la matriz de varianza covarianza se usa la siguiente función de Matlab:
cov()
MediasX=mean(X)

VarX=cov(X)

B: Para estandarizar los datos de la forma indicada, utiliza el vector de medias calculado en el
numeral anterior: a cada Xij se le resta la media de la variable Xj y se divide por la desviación Sj
como se muestra a continuación:
% calculo desviacion estandar
DesvX=std(X);
% tamano de X
[filas columnas]=size(X);
% matriz identidad
I=ones(filas,1);
% Estandarizo los datos
EstandarX=(X-I*MediasX)./repmat(DesvX,filas,1)
La función B=repmat(A,M,N) crea una matriz B que es la copia de A de tamaño MxN. M es el
número de veces que se van a copiar las filas de A, y N es el número de veces que se van a copiar
las columnas de A, como se muestra en el siguiente ejemplo:
A =

2 3
2 3
5 4

repmat(A,1,1)

ans =

2 3
2 3
5 4

repmat(A,2,1)

ans =

2 3
2 3
5 4
2 3
2 3
5 4

repmat(A,1,2)

ans =

2 3 2 3
2 3 2 3
5 4 5 4

C: Para poder calcular la nueva matriz Y que se forma al realizar algunas operaciones sobre las
variables X1, X2 y X3, se necesita manipular todos los datos de cada variable (X1, X2 y X3), es decir,
se necesita acceder a todos los elementos de cada columna de la matriz X, para ello se usa la
siguiente notación: X(:,2) esto retorna la columna 2 de la matriz X, y X(3,:) retorna la fila 2 de la
matriz X. Para armar la matriz de datos Y, se introducen los vectores Y1 y Y2 en una matriz Y, luego
de esto, se calcula el correspondiente vector de medias:
% creo las nuevas variables Y1 y Y2
Y1=-X(:,1)+2*X(:,2)-X(:,3);
Y2=X(:,1)+X(:,2);

% Armo la matriz Y
Y=[Y1 Y2]
% vector de medias de Y
MediasY=mean(Y)

D: Para calcular la matriz de varianza-covarianza se utiliza de nuevo la función: cov(), y para


componer la nueva variable Z se utiliza la misma metodología de la parte C
%creo las nuevas variables Z1 y Z2
Z1=Y(:,1)/sqrt(6)
Z2=Y(:,1)/sqrt(2)

% Armo la matriz Z
Z=[Z1 Z2]

% matriz de varianza-covarianza
VarZ=cov(Z)

E: La función corrcoef(A) retorna los coeficientes de correlación de la matriz A, teniendo en cuenta


que cada columna de A es una variable, suponiendo que A es de mxn, la matriz que retorna esta
función, será una matriz de nxn. En este caso se van a calcular los coeficientes de correlación entre
las variables X1, X2, X3, Y1, Y2, Z1 y Z2 así que se debe crear una matriz con todas estas variables,
que tenga la siguiente estructura: [X1 X2 X3 Y1 Y2 Z1 Z2] para posteriormente usar la función de
Matlab, y que ésta retorne una matriz de 7x7, como se muestra a continuación:

% calculo coeficinetes de correlacion


CorrXYZ=corrcoef([EstandarX Y Z])

A continuación se muestra el resultado de la ejecución del programa:

MediasX =

1.0000 -0.3333 2.3333

VarX =

7.6000 -2.4000 -2.4000


-2.4000 11.8667 0.1333
-2.4000 0.1333 8.2667

EstandarX =

-1.0882 0.3871 0.5797


0.7255 0.0968 -1.1593
1.4510 0.3871 -0.1159
-0.7255 0.9676 1.2753
0.3627 -1.9353 0.5797
-0.7255 0.0968 -1.1593

Y =
0 -1
-2 3
-5 6
1 2
-20 -5
2 -1

MediasY =

-4.0000 0.6667

Z1 =

0
-0.8165
-2.0412
0.4082
-8.1650
0.8165

Z2 =

0
-1.4142
-3.5355
0.7071
-14.1421
1.4142

Z =

0 0
-0.8165 -1.4142
-2.0412 -3.5355
0.4082 0.7071
-8.1650 -14.1421
0.8165 1.4142

VarZ =

11.2667 19.5144
19.5144 33.8000

CorrXYZ =

1.0000 -0.2527 -0.3028 -0.4412 0.4925 -0.4412 -0.4412


-0.2527 1.0000 0.0135 0.9180 0.7176 0.9180 0.9180
-0.3028 0.0135 1.0000 -0.2369 -0.2059 -0.2369 -0.2369
-0.4412 0.9180 -0.2369 1.0000 0.5081 1.0000 1.0000
0.4925 0.7176 -0.2059 0.5081 1.0000 0.5081 0.5081
-0.4412 0.9180 -0.2369 1.0000 0.5081 1.0000 1.0000
-0.4412 0.9180 -0.2369 1.0000 0.5081 1.0000 1.0000

2.3. LA DISTRIBUCIÓN MULTINOMIAL

El siguiente ejemplo ilustra cómo utilizar la fórmula Multinomial para calcular la probabilidad de
un resultado de un experimento Multinomial.

Supongamos que una carta es extraída al azar de una baraja de naipes, y luego se ponerse de
nuevo en el fajo. Este ejercicio se repite cinco veces. ¿Cuál es la probabilidad de sacar 1 trébol, 1
corazón, 1 diamante, y 2 picas?
Solución: Para resolver este problema, se aplica la fórmula multinomial. Sabemos lo siguiente:
El experimento consta de 5 pruebas, por lo que n = 5.
Los 5 ensayos producir 1 trébol, 1 corazón, diamante de 1 y 2 picas; 1 para n = 1, n 2 = 1, n 3 = 1, y
n 4 = 2.
En cualquier juicio en particular, la probabilidad de sacar una pala, el corazón, diamante, o club es
de 0,25, 0,25, 0,25 y 0,25, respectivamente. Por lo tanto, p 1 = 0,25, p 2 = 0.25, p 3 = 0,25 y P 4 =
0.25.
Reemplazando en la fórmula Multinomial:
= P [n! / (N 1! * N 2! ... N k!)] * (1 p n 1 * p 2 n 2 *... * K k p n)

Y corriendo el siguiente programa en Matlab:


clear all
clc

prob = [0.25 0.25 0.25 0.25];


ocurrencias= [1 1 1 2];
f_ocurrencias=factorial(ocurrencias);
n_pruebas=sum(ocurrencias);

multiplicacion=1;
[fila columna]=size(f_ocurrencias);
for i=1:columna
multiplicacion=multiplicacion*f_ocurrencias(i);
end

temporal=prob.^ocurrencias;

multiplicacion2=1;
[fila columna]=size(temporal);
for i=1:columna
multiplicacion2=multiplicacion2*temporal(i);
end

Se tiene que:
Así, si sacamos cinco cartas y en cada ensayo se introduce la carta a la baraja (asegurando la
independencia del experimento), la probabilidad de sacar 1 trébol, 1 corazón, 1 diamante, y 2
picas es 0,0586

2.4. CONTRASTE SOBRE LA MEDIA Y VARIANZAS DE UNA POBLACIÓN NORMAL

La tabla presentada, contiene las medidas de 5 variables biométricas sobre gorriones hembra,
recogidos casi moribundos después de una tormenta. Los primeros 21 sobrevivieron mientras que
los 28 restantes no lo consiguieron. Las variables son X1 = Longitud total, X2= extensión del ala, X3
= longitud del pico de la cabeza, X4= longitud del húmero, y X5 = longitud del esternón. Realícense
comparaciones de medias y de covarianzas entre el grupo de supervivientes y el de no
supervivientes.

Tabla 2. Tabla de datos sobre medidas biométricas de gorriones hembra

Fuente: [4]
Llamamos X e Y a las matrices de datos del grupo de supervivientes y del de no supervivientes,
respectivamente. Mediante Matlab calculamos los vectores de medias y las matrices de
covarianzas de cada grupo

mx=mean(X); my=mean (Y); Sx=cov(X,1); Sy=cov(Y,1);

y obtenemos:

2.4.1. Comparación de covarianzas. Supondremos que X es una muestra aleatoria simple de


tamaño nx de una ley normal multivariante X distribuida N5(ux,Sigmax) y que Y es otra muestra
aleatoria simple independiente de la anterior y de tamañao ny de una ley normal multivariante Y
distribuida N5(uy,sigamy). Queremos contrastar la hipótesis de igualdad de covarianzas, es decir:
Ho: Sigmax = Sigma y = Sigma
Utilizaremos el contraste de la razón de verosimilitudes, en comandos de Matlab:

nx= 21; ny=28; n = nx + ny;


S = (nx * Sx + ny + Sy) / n;
logR = n*log(dt(S)) – (nx*log(det(Sx))+ny*log(det(Sy)))
percentil = chi2inv(0.95,15)
p_valor=1-chi2cdf(logR,15)

El valor que obtenemos para el estadístico es logR=12.5322. Rechazaremos la hipótesis si el valor


de este estadístico pertenece a la región crítica, donde para un nivel de significancia 0.05 la
instrucción chi2inv(0.95,15) calcula este percentil. También podemos calcular el p-valor del
contraste mediante 1-chi2cdf(logR,15) y comparar este valor directamente con el nivel de
significación. En ambos casos, concluimos que no podemos rechazar la hipótesis, y por tanto,
consideramos que las matrices de covarianzas poblacionales son iguales.

2.4.2. Comparación de medias. Suponiendo igualdad de covarianzas, queremos contrastar la


hipótesis
Ho: ux = uy
Se puede utilizar el estadístico baso en la distribución T2 de Hotelling

En matlab:
T2 = nx*ny/n*(mx-my)*inv(S)*(mx-my)’;
F= (nx+ny-p-1)/((nx+ny)*p)*T2
Percentil = finv(0.95, p, nx+ny-1)
P_valor= 1- fcdf(F, p, nx+ny-p-1)

Con un valor de T2= 0,923 y F = 2,3454, quedando en la zona de rechazo, por lo tanto no se puede
argüir con seguridad que las matrices de covarianzas sean iguales entre las dos poblaciones.

CONCLUSIONES
1) Muchos de los problemas que se presentan en la vida real implican más de una variable
aleatoria, de ahí la importancia en el conocimiento y manejo de las VAND
2) Los buenos estimadores son consistentes y eficientes cuando se les compara con otros
estimadores. Los más eficientes (los que poseen la varianza más pequeña) son funciones de los
estadísticos suficientes que mejor resumen la información respecto al parámetro de estudio
3) La técnica denominada método de máxima verosimilitud es un instrumento útil para encontrar
estimadores ya que éstos son consistentes y se les ajusta para que sean insesgados, y a menudo
proporcionan estimadores in sesgados de varianza mínima

BIBLIOGRAFIA

[1] Daniel (2002). “Análisis de Datos Multivariantes, Primera Edición”; McGraw_Hill


Interamericana de España, S. A. U.; 245-298.

[2] MEYER Paul L. (1973) Probabilidad y aplicaciones estadísticas. Versión en español por Calos
Prado Campos de libro Introductory probability and statistical applications. Fondo Educativo
Interamericano S. A.

[3] MARTIN F. Susana y otros (2001). Guía completa de Statgraphics, desde MS-Dos a Statgraphics
Plus. Editorial Diaz De Santos. Madrid (España).

[4] FLURY Bernard. (1997) A first Course in Multivariate Statistics. Editorial Board. New York.

[5] BAILLO M. Amparo, y GIRANÉ Ch. Aurea. (2008) 100 problemas resueltos de Estadística
Multivariante (Implementados en Matlab). Publicaciones Delta. Madrid (España)

CURRICULO

Oscar Alexander Manrique Salas. Magíster en Administración de Empresas


(USTA). Ingeniero Industrial (UIS). Ha laborado por seis años en empresas PYME del
sector comercial e industrial en Bucaramanga desempeñando cargos en las
funciones de Calidad, Ambiental, Planeación y Administración. Docente cátedra de
las universidades UPB Bucaramanga, USTA Bucaramanga, UDES Bucaramanga.
Trabajó como co-investigador en el grupo STI (Sistemas y Tecnologías de la
Información) de la UIS.
Jaime Yesith Valencia Galván. Estudiante de Maestría en Ingeniería Industrial de
la UIS, Ingeniero de Sistemas (UIS). Ha laborado como asesor en la oficina de
sistemas de la alcaldía de Bucaramanga, y como investigador de calidad y de
medición en el centro de investigación de ingeniería del software CIDLIS

Potrebbero piacerti anche