Casella Español

Inferencia Estadstica
Ms. Carlos Lpez de Castilla Vsquez

1
20 de enero de 2012
1
Si tienes comentarios envalos al siguiente correo electrnico:
clopez@lamolina.edu.pe
ndice general
1. Teora de la probabilidad 1
1.1. Teora de conjuntos . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Fundamentos de la teora de la probabilidad . . . . . . . . . . 4
1.2.1. Axiomas de la probabilidad . . . . . . . . . . . . . . . 4
1.2.2. Clculo de probabilidades . . . . . . . . . . . . . . . . 4
1.2.3. Conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.4. Puntos igualmente probables . . . . . . . . . . . . . . . 7
1.3. Probabilidad condicional e independencia . . . . . . . . . . . . 7
1.4. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5. Funcin de distribucin acumulada . . . . . . . . . . . . . . . 8
1.6. Funcin de probabilidad y densidad . . . . . . . . . . . . . . 9
2. Transformaciones y esperanza 10
2.1. Transformaciones para variables aleatorias . . . . . . . . . . . 10
2.1.1. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Valores esperados . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3. Momentos y funcin generatriz de momentos . . . . . . . . . . 19
2.4. Derivacin bajo el signo de la integral . . . . . . . . . . . . . . 26
3. Familias de distribuciones 31
3.1. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . . 31
3.2. Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . 36
3.3. Familias exponenciales . . . . . . . . . . . . . . . . . . . . . . 42
3.4. Familias de locacin y escala . . . . . . . . . . . . . . . . . . . 46
3.5. Desigualdades e identidades . . . . . . . . . . . . . . . . . . . 48
3.5.1. Desigualdades para probabilidades . . . . . . . . . . . 48
3.5.2. Identidades . . . . . . . . . . . . . . . . . . . . . . . . 48
i
NDICE GENERAL ii
4. Variables aleatorias mltiples 49
4.1. Distribucin conjunta y marginal . . . . . . . . . . . . . . . . 49
4.2. Distribuciones condicionales e independencia . . . . . . . . . . 54
4.3. Transformaciones bivariadas . . . . . . . . . . . . . . . . . . . 61
4.3.1. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . 61
4.3.2. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . 62
4.4. Modelos jerrquicos y distribuciones mixtas . . . . . . . . . . 66
4.5. Covarianza y correlacin . . . . . . . . . . . . . . . . . . . . . 71
4.6. Distribuciones multivariadas . . . . . . . . . . . . . . . . . . . 75
4.7. Transformaciones sobre un vector aleatorio . . . . . . . . . . . 80
4.8. Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.8.1. Desigualdades numricas . . . . . . . . . . . . . . . . . 81
5. Propiedades en una muestra aleatoria 83
5.1. Conceptos bsicos sobre muestras aleatorias . . . . . . . . . . 83
5.2. Sumas de variables aleatorias a partir de una muestra aleatoria 84
5.3. Muestreo desde la distribucin Normal . . . . . . . . . . . . . 88
5.3.1. Propiedades de la media y variancia muestral . . . . . 88
5.3.2. Distribuciones derivadas: t de Student y F de Snedecor 89
5.4. Estadsticas de orden . . . . . . . . . . . . . . . . . . . . . . 90
5.5. Conceptos de convergencia . . . . . . . . . . . . . . . . . . . . 94
5.5.1. Convergencia en probabilidad . . . . . . . . . . . . . . 94
5.5.2. Convergencia casi segura . . . . . . . . . . . . . . . . . 95
5.5.3. Convergencia en distribucin . . . . . . . . . . . . . . 96
6. Principios de reduccin de la data 100
6.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.2. El principio de suciencia . . . . . . . . . . . . . . . . . . . . 100
6.2.1. Estadstica suciente . . . . . . . . . . . . . . . . . . . 101
6.2.2. Estadstica minimal suciente . . . . . . . . . . . . . . 104
6.2.3. Estadstica ancillar . . . . . . . . . . . . . . . . . . . . 105
6.2.4. Estadstica suciente, ancillar y completa . . . . . . . . 106
7. Estimacin puntual 108
7.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
7.2. Mtodos para encontrar estimadores . . . . . . . . . . . . . . 108
7.2.1. Mtodos de momentos . . . . . . . . . . . . . . . . . . 108
7.2.2. Estimadores de mxima verosimilitud . . . . . . . . . . 110
NDICE GENERAL iii
7.3. Mtodos de evaluacin de estimadores . . . . . . . . . . . . . 112
7.3.1. Error cuadrtico medio . . . . . . . . . . . . . . . . . . 112
7.3.2. Mejores estimadores insesgados . . . . . . . . . . . . . 114
7.3.3. Suciencia e insesgabilidad . . . . . . . . . . . . . . . . 117
7.3.4. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . 119
7.4. Otras consideraciones . . . . . . . . . . . . . . . . . . . . . . . 121
7.4.1. Variancia asinttica de los estimadores de mxima verosimil-
itud . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.4.2. Aproximacin por series de Taylor . . . . . . . . . . . 121
8. Prueba de hiptesis 123
8.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
8.2. Mtodos para encontrar pruebas . . . . . . . . . . . . . . . . . 124
8.2.1. Prueba de razn de verosimilitud . . . . . . . . . . . . 124
8.3. Mtodos para evaluar pruebas . . . . . . . . . . . . . . . . . . 125
8.3.1. Probabilidades de error y potencia de prueba . . . . . . 125
8.4. Pruebas ptimas para hiptesis compuestas . . . . . . . . . . 126
8.4.1. Familias exponenciales . . . . . . . . . . . . . . . . . . 126
8.4.2. Familias con la propiedad de razn de verosimilitud
montona . . . . . . . . . . . . . . . . . . . . . . . . . 127
8.4.3. Distribucin asinttica de la prueba de razn de verosimil-
itud . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
9. Estimacin por intervalos 130
9.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
9.2. Mtodos para encontrar estimadores de intervalos . . . . . . . 131
9.2.1. Invirtiendo una prueba estadstica . . . . . . . . . . . . 131
9.2.2. Cantidades pivotales . . . . . . . . . . . . . . . . . . . 133
9.2.3. Garantizado un invervalo . . . . . . . . . . . . . . . . . 134
9.3. Mtodos de evaluacin de estimadores por intervalos . . . . . 136
9.3.1. Tamao y probabilidad de cobertura . . . . . . . . . . 136
9.4. Otras consideraciones . . . . . . . . . . . . . . . . . . . . . . . 137
9.4.1. Intervalos aproximados por mxima verosimilitud . . . 137
9.4.2. Otros intervalos aproximados . . . . . . . . . . . . . . 138
Captulo 1
Teora de la probabilidad
1.1. Teora de conjuntos
Denicin 1.1.1 El conjunto S de todos los posibles resultados de un exper-
imento aleatorio es llamado el espacio muestral. Un espacio muestral puede
ser numerable o no numerable.
Si los elementos del espacio muestral pueden ser puestos en correspon-
dencia 1-1 con algn subconjunto de los nmeros enteros entonces se dice
que es numerable, de otro modo el espacio muestral es no numerable.
Denicin 1.1.2 Un evento es cualquier coleccin de posibles resultados de
un experimento aleatorio, es decir cualquier subconjunto de S (incluyndolo).
Sean A y B eventos denidos en S:
A B x A x B
A = B A B y B A
La unin de A y B, denida como A B, es el evento formado por los
elementos de S que pertenecen por lo menos a uno de los eventos.
A B = {x : x A o x B}
La interseccin de A y B, denida como AB, es el evento formado por
los elementos de S que pertenecen a ambos eventos.
1
CAPTULO 1. TEORA DE LA PROBABILIDAD 2
A B = {x : x A y x B}
El complemento de A, denido como A
c
, es el evento formado por los
elementos de S que no pertenecen a A.
A
c
= {x : x / A}
Ejemplo 1.1.1 Considere el experimento que consiste en elegir al azar una
carta de una baraja. Si se est interesado en la gura obtenida en la carta el
espacio muestral es:
S = {, , , }
Algunos posibles eventos son:
A = {, } y B = {, , }
A partir de estos eventos se pueden formar:
A B = {, , , , }, A B = {} y A
c
= {, }
Adems, notar que A B = S y (A B)
c
= , que denota el conjunto
vaco.
Teorema 1.1.1 Sean A, B y C eventos denidos en un espacio muestral S,
a. Conmutatividad:
A B = B A
A B = B A
b. Asociatividad:
A (B C) = (A B) C
A (B C) = (A B) C
c. Leyes distributivas:
A (B C) = (A B) (A C)
A (B C) = (A B) (A C)
d. Leyes de DeMorgan:
(A B)
c
= A
c
B
c
(A B)
c
= A
c
B
c
Las operaciones de unin e interseccin pueden ser extendidas hacia colec-
ciones innitas de eventos. Si A
1
, A
2
, . . . es una coleccin innita de eventos
denidos sobre un espacio muestral S, entonces
_
i=1
A
i
= {x S : x A
i
para algn i}
i=1
A
i
= {x S : x A
i
para todo i}
Ejemplo 1.1.2 Sea S = (0, 1] y se dene A
i
= [(1/i) , 1]. Entonces
i=1
A
i
=
(0, 1] y

i=1
A
i
= {1}.
Tambin es posible denir uniones e intersecciones sobre una coleccin no
numerable de eventos. Si es un conjunto de ndices, entonces
_
= {x S : x A
para algn }
= {x S : x A
para todo }
Ejemplo 1.1.3 Si se toma = {Todos los nmeros reales positivos} y A
a
=
(0, a] entonces

= (0, ) es una unin no numerable.

Denicin 1.1.3 Dos eventos Ay B son disjuntos (o mutumente excluyentes)
si A B = . Los eventos A
1
, A
2
, . . . son disjuntos por pares si A
i
A
j
=
para todo i = j.
Ejemplo 1.1.4 La coleccin A
i
= [i, i + 1), i = 0, 1, . . . consiste de eventos
disjuntos por pares. Notar tambin que

i=0
A
i
= [0, ).
Denicin 1.1.4 Si A
1
, A
2
, . . . son disjuntos por pares y

i=1
A
i
= S en-
tonces la coleccin A
1
, A
2
, . . . forma una particin de S.
Ejemplo 1.1.5 Los eventos A
i
= [i, i + 1) foman una particin de S =
[0, ) para i = 0, 1, . . . .
1.2. Fundamentos de la teora de la probabil-
idad
1.2.1. Axiomas de la probabilidad
Para cada evento A denido en el espacio muestral S es posible asociarle
un nmero entre cero y uno llamado la probabilidad de A y denotado por
Pr (A).
Denicin 1.2.1 Una coleccin de subconjuntos de S es llamada un sigma
lgebra (o conjunto de Borel), denotada por B, si satisface las siguientes
propiedades:
1. B (el conjunto vaco es un elemento de B).
2. Si A B entonces A
c
B (B es cerrado bajo complementos).
3. Si A
1
, A
2
, . . . B entonces

i=1
A
i
B (B es cerrado bajo uniones
numerables).
Denicin 1.2.2 Dado un espacio muestral S y un sigma lgebra asociado
B, una funcin de probabilidad es una funcin Pr con dominio en B que
satisface:
1. Pr (A) 0 para todo A B.
2. Pr (S) = 1.
3. Si A
1
, A
2
, . . . B son eventos disjuntos por pares, entonces Pr (
i=1
A
i
) =
i=1
Pr (A
i
).
1.2.2. Clculo de probabilidades
Teorema 1.2.1 Si Pr es una funcin de probabilidad y A es cualquier evento
en B, entonces:
a. Pr () = 0 , donde es el conjunto vaco.
b. Pr (A) 1.
c. Pr (A
c
) = 1 Pr (A).
Teorema 1.2.2 Si Pr es una funcin de probabilidad, A y B son eventos en
B, entonces:
a. Pr (B A
c
) = Pr (B) Pr (A B).
b. Pr (A B) = Pr (A) + Pr (B) Pr (A B).
c. Si A B entonces Pr (A) Pr (B).
Teorema 1.2.3 Si Pr es una funcin de probabilidad, entonces:
a. Pr (A) =

i=1
Pr (A C
i
) para cualquier particin C
1
, C
2
, . . .
b. Pr (
i=1
A
i
)

i=1
Pr (A
i
) para eventos cualesquiera A
1
, A
2
, . . . (De-
sigualdad de Booles).
1.2.3. Conteo
Ejemplo 1.2.1 La Tinka es una modalidad de juego de lotera electrnica
que consiste en la extraccin de seis bolillas sin reemplazo desde un bolillero
cerrado que contiene cuarenta y cinco bolillas numeradas del 1 al 45. Para
calcular la probabilidad de ganar en este juego es necesario saber cuantos
grupos diferentes de seis nmeros pueden escogerse a partir de los cuarenta
y cinco.
Ejemplo 1.2.2 En un torneo de eliminacin simple, como el torneo abierto
de tenis, los participantes avanzan hacia la nal solo si ganan. Si se tienen
16 participantes se podra estar interesados en la secuencia de oponentes que
debe enfrentar un participante para llegar a la nal del torneo.
Teorema 1.2.4 Si un trabajo consistente en k actividades separadas, la
isima operacin puede realizarse de n
i
formas, i = 1, 2, , k, entonces el
trabajo completo puede realizarse de n
1
n
2
n
k
formas.
Denicin 1.2.3 Para un entero positivo n, el factorial de n, denotado por
n!, es el producto de todos los enteros positivos menores o iguales a n. Es
decir:
n! = n (n 1) (n 2) 3 2 1
Adems, se dene 0! = 1.
Denicin 1.2.4 Para dos enteros no negativos n y r, n r, se dene el
smbolo
_
n
r
_
como:
_
n
r
_
=
n!
r! (n r)!
Para saber el nmero total de jugadas necesarias para ganar el juego de
la Tinka podran considerarse las siguientes posibilidades:
1. Sin reemplazo y considerando que el orden es importante. Usando el
teorema 1.2.4 el primer nmero puede ser elegido de 45 formas, el se-
gundo de 44, etc. Es decir, existen:
45 44 43 42 41 40 = 5864443200
posibles jugadas.
2. Con reemplazo y considerando que el orden es importante. Como cada
nmero puede ser elegido de 45 formas, existen:
45 45 45 45 45 45 = 45
6
= 8303765625
posibles jugadas.
3. Sin reemplazo y considerando que el orden no es importante. Luego de
hallar el nmero de jugadas considerando que el orden es importante
hay que dividir el resultado entre las jugadas redundantes. Nuevamente
por el teorema 1.2.4 seis nmeros pueden ser dispuestos de 6 5 4
3 2 1 formas, luego el nmero total de jugadas es:
45 44 43 42 41 40
6 5 4 3 2 1
=
45!
6!39!
= 8145060
4. Con reemplazo y considerando que el orden no es importante. Para
realizar el proceso de conteo en este caso se puede considerar que hay
45 casilleros para los nmeros en los que hay que colocar 6 bolillas,
digamos B, tal como se muestra a continuacin:
Tabla 1.1: 45 casilleros y 6 bolillas
B BB B B B
1 2 3 4 5 42 43 44 45
El nmero de jugadas posibles es igual al nmero de formas en que
pueden colocarse las 6 bolillas en los 45 casilleros. El trabajo puede
resultar menos complicado si consideramos la disposicin de las bolillas
y las paredes de las cajas sin tomar en cuenta la de los extremos. Luego
debe contarse el nmero total de arreglos de 46 paredes y 6 bolillas. Se
tienen 52 objetos que pueden disponerse de 52! formas y para eliminar
los ordenamientos redundantes luego hay que dividir entre 6! y 46!
dando un total de:
52!
6!46!
= 20358520
Las cuatro situaciones anteriores se resumen a continuacin:
Tabla 1.2: Nmero de posibles arreglos de tamao r a partir de n objetos
Sin reemplazo Con reemplazo
El orden es importante
n!
(nr)!
n
r
El orden no es importante
_
n
r
_ _
n+r1
r
_
1.2.4. Puntos igualmente probables
Suponga que S = {s
1
, , s
N
} es un espacio muestral nito. Se dice que
los puntos en S son igualmente probables si Pr ({s
i
}) =
1
N
, para todo punto
s
i
. Luego, usando (3) de la denicin de probabilidad, se tiene que para todo
evento A:
Pr (A) =

s
i
A
1
N
=
Nmero de elementos en A
Nmero de elementos en S
1.3. Probabilidad condicional e independen-
cia
Denicin 1.3.1 Si A y B son eventos en S y Pr (B) > 0, entonces la
probabilidad condicional de A dado B, representada por Pr (A|B), es:
Pr (A|B) =
Pr (A B)
Pr (B)
(1.3.1)
Teorema 1.3.1 (Regla de Bayes) Sean A
1
, A
2
, una particin del es-
pacio muestral S y sea B un evento denido tambin en S. Entonces, para
cada i = 1, 2,
Pr (A
i
|B) =
Pr (B|A
i
) Pr (A
i
)
j=1
Pr (B|A
j
) Pr (A
j
)
Denicin 1.3.2 Dos eventos A y B son estadsticamente independientes
si:
Pr (A B) = Pr (A) Pr (B) (1.3.2)
Teorema 1.3.2 Si A y B son eventos independientes, entonces los siguientes
pares tambin lo son:
a. A y B
c
.
b. A
c
y B.
c. A
c
y B
c
.
Denicin 1.3.3 Una coleccin de eventos A
1
, , A
n
son mutuamente in-
dependientes si para cualquier subcoleccin A
i
1
, , A
i
k
se tiene:
Pr
_
k
i=1
A
i
j
_
=
k
j=1
Pr(A
i
j
)
1.4. Variables aleatorias
Denicin 1.4.1 Una variable aleatoria es una funcin que se dene desde
un espacio muestral S hacia los nmeros reales.
1.5. Funcin de distribucin acumulada
Denicin 1.5.1 La funcin de distribucin acumulada de una variable
aleatoria X, denotada por F
X
(x), se dene por:
F
X
(x) = Pr (X x) , para todo x
Teorema 1.5.1 La funcin F
X
(x) es una funcin de distribucin acumulada
si y solo si se cumplen las tres condiciones siguientes:
a. lm
x
F (x) = 0 y lm
x
F (x) = 1.
b. F (x) es una funcin no decreciente de x.
c. F (x) es contnua hacia la derecha; esto es, para todo nmero x
0
,
lm
xx
0
F (x) = F (x
0
).
Denicin 1.5.2 Una variable aleatoria X es contnua si F
X
(x) es una
funcin contnua de x. Una variable aleatoria X es discreta si F
X
(x) es una
funcin paso de x.
Denicin 1.5.3 Las variables aleatorias X y Y son identicamente dis-
tribuidas si para cada evento A B, Pr (X A) = Pr (Y A).
Teorema 1.5.2 Las dos armaciones siguientes son equivalentes:
a. Las variables aleatorias X y Y son identicamente distribuidas.
b. F
X
(x) = F
Y
(x), para todo x.
1.6. Funcin de probabilidad y densidad
Denicin 1.6.1 La funcin de probabilidad de una variable aleatoria disc-
reta X esta dada por:
f
X
(x) = Pr (X = x) , para todo x
Denicin 1.6.2 La funcin de densidad, f
X
(x) , de una variable aleatoria
contnua X es la funcin que satisface:
F
X
(x) =
x
f
X
(t) dt, para todo x
Teorema 1.6.1 Una funcin f
X
(x) es una funcin de probabilidad o funcin
de densidad para una variable aleatoria X si y solo si:
a. f
X
(x) 0 para todo x.
b.

x
f
X
(x) = 1 si X es variable aleatoria discreta y

f
X
(x) dx = 1
si X es variable aleatoria contnua.
Captulo 2
Transformaciones y esperanza
2.1. Transformaciones para variables aleato-
rias
Si X es una variable aleatoria con funcin de distribucin acumulada
F
X
(x), entonces cualquier funcin de X es tambin una variable aleatoria.
Si se dene Y = g(X) es posible describir el comportamiento probabilistico
de Y en trminos de X.
Formalmente, y = g(x) dene un mapa desde el espacio muestral de X ,
X, al espacio muestral de Y , Y. Es decir:
g (x) : X Y
Se asocia a g un mapa inverso, denotado por g
1
, denido por:
g
1
(A) = {x X : g (x) A} (2.1.1)
g
1
(A) es el conjunto de puntos en X tal que g (x) pertenece al conjunto
A. Si el conjunto A es unitario, digamos A = {y}, entonces:
g
1
({y}) = {x X : g (x) = y}
En este caso podria escribirse g
1
(y) en lugar de g
1
({y}). Si existe un
nico x tal que g (x) = y, entonces g
1
(y) es el conjunto unitario {x} y
adems g
1
(y) = x.
Si se dene Y = g (X), entonces para cualquier conjunto A Y:
10
CAPTULO 2. TRANSFORMACIONES Y ESPERANZA 11
Pr (Y A) = Pr (g (X) A)
= Pr ({x X : g (x) A}) (2.1.2)
= Pr
_
X g
1
(A)
_
2.1.1. Caso discreto
Si X es una variable aleatoria discreta entonces X es numerable. El espa-
cio muestral para Y = g(X) es Y = {y : y = g (x) , x X} el cual tambin es
un conjunto numerable. Usando la ecuacin 2.1.2 la funcin de probabilidad
de Y es:
f
Y
(y) = Pr (Y = y) =

xg
1
(y)
Pr (X = x) =

xg
1
(y)
f
X
(x)
Ejemplo 2.1.1 Sea X BI (n, p) cuya funcin de probabilidad es:
f
X
(x) = Pr (X = x) =
_
n
x
_
p
x
(1 p)
nx
, (2.1.3)
para x = 0, 1, , n y 0 p 1. Considere la variable aleatoria Y =
g (X) = n X, entonces X = {0, 1, , n} y Y = {0, 1, , n}. Luego
g
1
(y) es el conjunto unitario x = n y, tal que:
f
Y
(y) =

xg
1
(y)
f
X
(x)
= f
X
(n y)
=
_
n
n y
_
p
ny
(1 p)
n(ny)
=
_
n
y
_
(1 p)
y
p
ny
es decir, Y BI (n, 1 p).
2.1.2. Caso continuo
Si X y Y = g (X) son variables aleatorias continuas es posible encontrar
frmulas para obtener la funcin de distribucin acumulada y la funcin de
densidad de Y en trminos de F
X
, f
X
y la funcin g.
La funcin de distribucin acumulada de Y = g (X) es:
F
Y
(y) = Pr (Y y)
= Pr (g (X) y)
= Pr ({x X : g (x) y}) (2.1.4)
=
{xX:g(x)y}
f
X
(x) dx
Suelen existir algunas dicultades en identicar {x X : g (x) y} y ll-
evar a cabo el proceso de integracin de f
X
(x) sobre esta regin. Suele ser
conveniente utilizar:
X = {x : f
X
(x) > 0} y Y = {y : y = g (x) para algn x X} (2.1.5)
La funcin de densidad de la variable aleatoria X es positiva solo sobre
X llamado el conjunto soporte de la distribucin. Esta terminologa tambin
es aplicable a una funcin de probabilidad.
Es sencillo trabajar con funciones g (x) que son montonas, es decir, aque-
llas que satisfacen alguna de las siguientes relaciones:
u > v g (u) > g (v) (creciente) o u < v g (u) > g (v) (decreciente)
Si la transformacin x g (x) es montona entonces es uno a uno y
sobreyectiva. La transformacin es uno a uno si cada x permite obtener un
nico y y cada y se obtiene con a lo ms un x. La transformacin es sobreyec-
tiva si para cada y Y, denido en 2.1.5, existe un x X tal que g (x) = y.
Si g es montona, entonces g
1
es unitario; es decir, g
1
(y) = x si y solo si
y = g (x).
Si g es creciente, esto implica que:
{x X : g (x) y} =
_
x X : g
1
(g (x)) g
1
(y)
_
=
_
x X : x g
1
(y)
_
(2.1.6)
y usando 2.1.4, se tiene que:
F
Y
(y) =
{xX:xg
1
(y)}
f
X
(x) dx =
g
1
(y)
f
X
(x) dx = F
X
_
g
1
(y)
_
Si g es decreciente, entonces:
{x X : g (x) y} =
_
x X : g
1
(g (x)) g
1
(y)
_
=
_
x X : x g
1
(y)
_
(2.1.7)
se tiene que:
F
Y
(y) =
g
1
(y)
f
X
(x) dx = 1 F
X
_
g
1
(y)
_
Se resumen los resultados anteriores en el siguiente teorema.
Teorema 2.1.1 Sea X una variable aleatoria con funcin de distribucin
acumulada F
X
(x). Se dene Y = g (X) y los espacios muestrales X y Y
segn 2.1.5.
a. Si g es una funcin creciente sobre X, entonces F
Y
(y) = F
X
(g
1
(y))
para y Y.
b. Si g es una funcin decreciente sobre X y X es una variable aleatoria
continua, entonces F
Y
(y) = 1 F
X
(g
1
(y)) para y Y.
Ejemplo 2.1.2 Suponga que X tiene funcin de densidad f (x) = 1 si 0 <
x < 1, luego F
X
(x) = x. Si se realiza la transformacin Y = g (X) =
log X, entonces g (x) es una funcin decreciente y Y = (0, ). Para y > 0,
y = log x implica x = g
1
(y) = e
y
, luego:
F
Y
(y) = 1 F
X
_
g
1
(y)
_
= 1 F
X
_
e
y
_
= 1 e
y
adems F
Y
(y) = 0 para y 0.
La funcin de densidad de Y puede obtenerse derivando su funcin de
distribucin acumulada. La expresin resultante se presenta en el siguiente
teorema.
Teorema 2.1.2 Sea X con funcin de densidad f
X
(x) y sea Y = g (X),
donde g es una funcin montona. Sean X y Y tal como se denieron en 2.1.5.
Suponga que f
X
(x) es continua sobre X y que g
1
(y) tiene una derivada
continua sobre Y. Entonces la funcin de densidad de Y es:
f
Y
(y) =
_
_
_
f
X
(g
1
(y))
d
dy
g
1
(y)
y Y
0 de otro modo
(2.1.8)
Demostracin: Usando el teorema 2.1.1 y la regla de la cadena se tiene:
f
Y
(y) =
d
dy
F
Y
(y) =
_
_
_
f
X
(g
1
(y))
d
dy
g
1
(y) si g es creciente
f
X
(g
1
(y))
d
dy
g
1
(y) si g es decreciente
Ejemplo 2.1.3 Sea f
X
(x) la funcin de densidad gamma:
f
X
(x) =
1
(n 1)!
n
x
n1
e
x/
, 0 < x <
donde > 0 y n es un entero positivo. Suponga que se desea encontrar
la funcin de densidad de g (X) = 1/X. Notar que X = Y = (0, ). Si
y = g (x), entonces g
1
(y) = 1/y y
d
dy
g
1
(y) = 1/y
2
. Aplicando el teorema
anterior:
f
Y
(y) = f
X
_
g
1
(y)
_
d
dy
g
1
(y)
=
1
(n 1)!
n
_
1
y
_
n1
e
1/(y)
1
y
2
=
1
(n 1)!
n
_
1
y
_
n+1
e
1/(y)
se obtiene un caso especial de una funcin de densidad conocida como
gamma inversa.
En muchas aplicaciones la funcin g podra no ser creciente ni decre-
ciente, por consiguiente no prodrian aplicarse los resultados anteriores. Sin
embargo es comn el caso en el que la funcin g es montona sobre ciertos
subintervalos, los que permiten obtener una expresin para Y = g (X).
Ejemplo 2.1.4 Suponga que X es una variable aleatoria continua. La fun-
cin de distribucin acumulada de Y = X
2
, para y > 0, es:
F
Y
(y) = Pr (Y y) = Pr
_
X
2
y
_
= Pr (
y X
y)
Como X es variable aleatoria continua se tiene:
F
Y
(y) = Pr (
y < X
y)
= Pr (X
y) Pr (X
y)
= F
X
(
y) F
X
(
y)
La funcin de densidad de Y puede obtenerse derivando su funcin de
distribucin acumulada:
f
Y
(y) =
d
dy
F
Y
(y)
=
d
dy
[F
X
(
y) F
X
(
y)]
y usando la regla de la cadena para derivar F
X
(
y) y F
X
(
y) se tiene:
f
Y
(y) =
1
2
y
f
X
(
y) +
1
2
y
f
X
(
y) (2.1.9)
Notar que la funcin de densidad anterior esta expresada como la suma
de dos componentes sobre los intervalos donde g (x) = x
2
es montona.
Teorema 2.1.3 Sea X con funcin de densidad f
X
(x), Y = g (X) y el
espacio muestral X denido en 2.1.5. Suponga que existe una particin
A
0
, A
1
, , A
k
de X tal que Pr (X A
0
) = 0 y f
X
(x) es continua sobre
cada A
i
. Suponga adems que existen funciones g
1
(x) , , g
k
(x) denidas
sobre A
1
, , A
k
respectivamente, que satisfacen:
a. g (x) = g
i
(x) para x A
i
,
b. g
i
(x) es montona sobre A
i
,
c. El conjunto Y = {y : y = g
i
(x) para algn x A
i
} es el mismo para
cada i = 1, , k .
d. g
1
i
(y) tiene una derivada continua en Y, para cada i = 1, , k .
Entonces:
f
Y
(y) =
_
_
_
k
i=1
f
X
_
g
1
i
(y)
_
d
dy
g
1
i
(y)
y Y
0 de otro modo
Es importante notar que cada g
i
(x) es una transformacin uno a uno
desde A
i
hacia Y. Adems, g
1
i
(y) es una funcin uno a uno desde Y hacia
A
i
, tal que, para y Y, g
1
i
(y) permite obtener un nico x = g
1
i
(y) A
i
para el cual g
i
(x) = y.
Ejemplo 2.1.5 Sea X con distribucin normal estndar,
f
X
(x) =
1
2
e
x
2
/2
, < x <
Si Y = X
2
, la funcin g (x) = x
2
es montona sobre (, 0) y (0, )
con lo que Y = (0, ). Aplicando el teorema 2.1.3 se tiene A
0
= {0} y
A
1
= (, 0) g
1
(x) = x
2
g
1
1
(y) =
y
A
2
= (0, ) g
2
(x) = x
2
g
1
2
(y) =
y
La funcin de densidad de Y es:
f
Y
(y) =
1
2
e
(
y)
2
/2
1
2
+
1
2
e
(
y)
2
/2
1
2
=
1
2
1
y
e
y/2
, 0 < y <
la cual es conocida como la distribucin chi cuadrado con 1 grado de
libertad.
Teorema 2.1.4 Sea X cuya funcin de distribucin acumulada, F
X
(x), es
continua. Si se dene la variable aleatoria Y = F
X
(x), entonces Y tiene
distribucin uniforme en el intervalo (0, 1).
Demostracin: Si Y = F
X
(x) entonces 0 < y < 1,
Pr (Y y) = Pr (F
X
(X) y)
= Pr
_
F
1
X
[F
X
(X)] F
1
X
(y)
_
= Pr
_
X F
1
X
(y)
_
= F
X
_
F
1
X
(y)
_
= y
2.2. Valores esperados
Denicin 2.2.1 El valor esperado o media de una variable aleatoria g (X),
denotado por E[g (X)], es:
E[g (X)] =
_
_
_
xX
g (x) f
X
(x) si X es discreta
g (x) f
X
(x) dx si X es continua
(2.2.1)
siempre que la integral o suma exista. Si E[|g (X)|] = se dice que
E[g (X)] no existe.
Ejemplo 2.2.1 Suponga que X E () , entonces su funcin de densidad
es:
f
X
(x) =
1
e
x/
para 0 x < y > 0. Luego:
E[X] =
0
x
1
e
x/
dx =
Ejemplo 2.2.2 Si X BI (n, p), entonces:
E[X] =
n
x=0
x
_
n
x
_
p
x
(1 p)
nx
=
n
x=1
x
_
n
x
_
p
x
(1 p)
nx
Usando la identidad x
_
n
x
_
= n
_
n1
x1
_
se tiene:
E[X] =
n
x=1
n
_
n 1
x 1
_
p
x
(1 p)
nx
=
n1
y=0
n
_
n 1
y
_
p
y+1
(1 p)
n(y+1)
= np
n1
y=0
_
n 1
y
_
p
y
(1 p)
n1y
= np
Ejemplo 2.2.3 Un ejemplo clsico de una variable aleatoria cuyo valor es-
perado no existe corresponde a la distribucin de Cauchy cuya funcin de
densidad es:
f
X
(x) =
1
1
1 +x
2
, < x <
Es fcil vericar que

f
X
(x) dx = 1, pero con respecto a su valor
esperado:
E[|X|] =
|x|
1
1 +x
2
dx =
2

0
x
1 +x
2
dx
Para cualquier nmero positivo M,
M
0
x
1 +x
2
dx =
1
2
log
_
1 +x
2
_
M
0
=
1
2
log
_
1 +M
2
_
Luego,
E[|X|] = lm
M
2
M
0
x
1 +x
2
dx =
1
lm
M
log
_
1 +M
2
_
=
y por consiguiente el E[X] de esta distribucin no existe.
Teorema 2.2.1 Sea X una variable aleatoria y sean a, b y c constantes. En-
tonces para funciones cualesquiera g
1
(x) y g
2
(x) cuyo valor esperado exista,
a. E[ag
1
(X) +bg
2
(X) +c] = aE[g
1
(X)] +bE[g
2
(X)] +c.
b. Si g
1
(x) 0 para todo x, entonces E[g
1
(X)] 0.
c. Si g
1
(x) g
2
(x) para todo x, entonces E[g
1
(X)] E[g
2
(X)].
d. Si a g
1
(x) b para todo x, entonces a E[g
1
(X)] b.
Ejemplo 2.2.4 Suponga que se mide la distancia entre una variable aleato-
ria X y una constante b mediante (X b)
2
. Mientras ms cerca est b de X
ms pequea sera dicha cantidad. El objetivo es determinar el valor de b que
minimize E
_
(X b)
2
_
.
E
_
(X b)
2
_
= E
_
(X E[X] + E[X] b)
2
_
= E
_
((X E[X]) + (E[X] b))
2
_
= E
_
(X E[X])
2
_
+ E
_
(E[X] b)
2
_
ya que E[(X E[X])(E[X] b)] = 0. Adems (E[X] b) es una con-
stante. Luego:
E
_
(X b)
2
_
= E
_
(X E[X])
2
_
+ (E[X] b)
2
Como no se tiene control sobre el primer trmino del lado derecho y el
segundo trmino puede ser mayor o igual a 0, el menor valor se obtiene cuando
b = E[X]. Entonces:
mn
b
E
_
(X b)
2
_
= E
_
(X E[X])
2
_
2.3. Momentos y funcin generatriz de mo-
mentos
Denicin 2.3.1 Para cada entero n, el n-simo momento de X,
n
, es:
n
= E[X
n
]
El n-simo momento central de X,
n
, es:
n
= E[(X )
n
]
donde =
1
= E[X].
Denicin 2.3.2 La varianza de una variable aleatoria X es su segundo
momento central, Var (X) = E[(X )
2
]. La raz cuadrada positiva de la
varianza es conocida como desviacin estndar.
Ejemplo 2.3.1 Si X E (), entonces:
Var (X) = E
_
(X )
2
_
=
0
(x )
2
1
e
x/
dx =
2
Teorema 2.3.1 Si X es una variable aleatoria con varianza nita, entonces
para constantes cualesquiera a y b:
Var (aX +b) = a
2
Var (X)
Demostracin: Usando la denicin de varianza:
Var (aX +b) = E
_
((aX +b) E[(aX +b)])
2
_
= E
_
(aX aE[X])
2
_
= a
2
E
_
(X E[X])
2
_
= a
2
Var (X)
La siguiente forma de calcular la varianza es bastante til:
Var (X) = E
_
X
2
_
E
2
[X] (2.3.1)
E
_
X
2
_
=
n
x=0
x
2
_
n
x
_
p
x
(1 p)
nx
pero:
x
2
_
n
x
_
= x
n!
(x 1)!(n x)!
= xn
_
n 1
x 1
_
luego,
E
_
X
2
_
=
n
x=1
xn
_
n 1
x 1
_
p
x
(1 p)
nx
= n
n1
y=0
(y + 1)
_
n 1
y
_
p
y+1
(1 p)
n1y
= np(n 1)p +np
Finalmente:
Var [X] = n
2
p
2
np
2
+np (np)
2
= np(1 p)
.
Denicin 2.3.3 Sea X una variable aleatoria. La funcin generatriz de
momentos de X, denotada por M
X
(t), es:
M
X
(t) = E
_
e
tX
_
sujeto a que el valor esperado exista para t en alguna vecindad de 0. Es
decir, existe h > 0 tal que, para todo t en h < t < h, E
_
e
tX
_
existe.
Ms explcitamente:
M
X
(t) =
_
_
_
x
e
tx
f
X
(x) si X es discreta
e
tx
f
X
(x) dx si X es continua
Teorema 2.3.2 Si X tiene funcin generatrz de momentos M
X
(t) entonces:
E[X] = M
(1)
X
(0)
donde M
(n)
X
(0) =
d
n
dt
n
M
X
(t)
t=0
.
Prueba: Asumiendo que es posible intercambiar la derivada con la inte-
gral, se tiene:
d
dt
M
X
(t) =
d
dt
e
tx
f
X
(x)dx
=
_
d
dt
e
tx
_
f
X
(x)dx
=
xe
tx
f
X
(x)dx
= E
_
Xe
tX
_
luego
d
dt
M
X
(t)
t=0
= E
_
Xe
tX
_
t=0
= E[X]. Trabajando de manera anlo-
ga, se puede establecer que:
d
n
dt
n
M
X
(t)
t=0
= E
_
X
n
e
tX
_
t=0
= E[X
n
]
Ejemplo 2.3.3 En el ejemplo 2.1.3 se us un caso especial de la funcin de
densidad gamma:
f(x) =
1
()
x
1
e
x/
, 0 < x < , > 0, > 0
donde () denota la funcin gamma cuyas propiedades se mencionan en
la seccin 3.2. La funcin generatriz de momentos de la distribucin gamma
esta dada por:
M
X
(t) =
1
()

0
e
tx
x
1
e
x/
dx
=
1
()

0
x
1
e
x((1/)t)
dx
=
1
()

0
x
1
e
x/(

1t
)
dx
=
1
()
()
_

1 t
_
=
_
1
1 t
_

y existe solo si t < 1/. La media de la distribucin gamma es:
E[X] =
d
dt
M
X
(t)
t=0
=

(1 t)
+1
t=0
=
Los otros momentos pueden calcularse de forma similar.
M
X
(t) =
n
x=0
e
tx
_
n
x
_
p
x
(1 p)
nx
=
n
x=0
_
n
x
_
(pe
t
)
x
(1 p)
nx
= [pe
t
+ (1 p)]
n
recordando que

n
x=0
_
n
x
_
u
x
v
nx
= (u +v)
n
.
Si la funcin generatriz de momentos existe, entonces caracteriza un con-
junto innito de momentos. La pregunta natural es si la condicin anterior
determina una funcin de distribucin acumulada nica.
Ejemplo 2.3.5 Considere las siguientes funciones de densidad dadas por:
f
1
(x) =
1
2x
e
(log x)
2
/2
, 0 x <
f
2
(x) = f
1
(x) [1 + sin(2 log x)] , 0 x <
La funcin de densidad f
1
(x) es un caso especial de la funcin de densidad
lognormal. Se puede probar que si X
1
f
1
(x) entonces:
E[X
r
1
] = e
r
2
/2
, r = 0, 1, 2,
es decir, X
1
tiene todos sus momentos. Ahora si X
2
f
2
(x) se tiene:
E[X
r
2
] =

0
x
r
f
1
(x) [1 + sin(2 log x)] dx
= E[X
r
1
] +

0
x
r
f
1
(x) sin(2 log x)dx
La transformacin y = log(x) r muestra que la ltima integral sobre
una funcin impar en (, ) es igual a cero para r = 0, 1, 2, . Es decir,
que aunque X
1
y X
2
tienen diferentes funciones de densidad sus momentos
son iguales para todo r. Las dos funciones de densidad son gracadas en la
gura 2.1.
Teorema 2.3.3 Sean F
X
(x) y F
Y
(y) dos funciones de distribucin acumu-
lada tal que todos sus momentos existen.
a. Si F
X
y F
Y
tienen soporte acotado, entonces F
X
(u) = F
Y
(u) para todo
u si y solo si E[X
r
] = E[Y
r
] para todo entero r = 0, 1, 2, .
b. Si las funciones generatrices de momentos existen y M
X
(t) = M
Y
(t)
para todo t en alguna vecindad de cero, entonces F
X
(u) = F
Y
(u) para
todo u.
Teorema 2.3.4 Suponga {X
i
, i = 1, 2, } es una secuencia de variables
aleatorias cuya funcin generatriz de momentos es M
X
i
(t). Adems:
lm
i
M
X
i
(t) = M
X
(t) para todo t en una vencidad de cero
donde M
X
(t) es una funcin generatriz de momentos. Entonces existe una
nica funcin de distribucin acumulada F
X
cuyos momentos estan denidos
por M
X
(t) y, para todo x donde F
X
(x) es continua, se tiene:
lm
i
F
X
i
(x) = F
X
(x)
Es decir, la convergencia, para |t| < h, de funciones generatrices de mo-
mentos en una funcin generatriz de momentos implica convergencia de fun-
ciones de distribucin acumulada.
Figura 2.1: Dos funciones de densidad con los mismos momentos
Ejemplo 2.3.6 Una aproximacin usada en cursos elementales de estads-
tica permite aproximar las probabilidades binomiales usando la distribucin
de Poisson. Esta aproximacin es vlida cuando n es grande y np es pequeo.
La funcin de probabilidad de Poisson es:
Pr(Y = y) =
e
y
y!
, y = 0, 1, 2,
donde es una constante positiva. La aproximacion es tal que si X tiene
distribucin binomial(n, p) y Y tiene distribucin de Poisson() con = np,
entonces:
Pr(X = x) Pr(Y = x)
Recordar que:
M
X
(t) = [pe
t
+ (1 p)]
n
es la funcin generatriz de momentos de la distribucin binomial. Para
la distribucin de Poisson se puede demostrar que su funcin generatriz de
momentos es:
M
Y
(t) = e
(e
t
1)
Como = np, entonces:
M
X
(t) =
_
1 +p(e
t
1)
_
n
=
_
1 +
1
n
(e
t
1)
_
n
Lema 2.3.1 Sean a
1
, a
2
, una secuencia de nmeros que convergen hacia
a, es decir lm
n
a
n
= a, entonces:
lm
n
_
1 +
a
n
n
_
n
= e
a
Demostracin: La demostracin de este lema puede encontrarse en los
textos de clculo.
Luego, si se toma a
n
= (e
t
1) = a entonces:
lm
n
M
X
(t) = e
(e
t
1)
= M
Y
(t)
es la funcin generatriz de momentos de la distribucin de Poisson.
Teorema 2.3.5 Sean a y b constantes, la funcin generatriz de momentos
de la variable aleatoria aX +b est dada por:
M
aX+b
(t) = e
bt
M
X
(at)
Prueba: Por denicin:
M
aX+b
(t) = E
_
e
(aX+b)t
_
= E
_
e
(aX)t
e
bt
_
= e
bt
E
_
e
(aX)t
_
= e
bt
M
X
(at)
2.4. Derivacin bajo el signo de la integral
Teorema 2.4.1 (Regla de Leibnitz) Si f(x, ), a() y b() son diferen-
ciables con respecto a , entonces:
d
d
b()
a()
f(x, )dx = f(b(), )
d
d
b() f(a(), )
d
d
a() +
b()
a()
f(x, )dx
Notar que si a() y b() son constantes, se tiene un caso especial de la
regla anterior:
d
d
b
a
f(x, )dx =
b
a
f(x, )dx
El rango en la integral anterior es nito, en caso contrario podrian surgir
complicaciones.
Teorema 2.4.2 Suponga que la funcin h(x, y) es continua en y
0
para todo
x, y existe una funcin g(x) que satisface:
a. |h(x, y)| g(x) para todo x y y,
b.

g(x)dx < ,
entonces:
lm
yy
0
h(x, y)dx =
lm
yy
0
h(x, y)dx
Es posible aplicar el teorema anterior para el caso en que h(x, y) se iden-
tique con la diferencia (f(x, +) f(x, ))/.
Teorema 2.4.3 Suponga que f(x, ) es diferenciable en =
0
, es decir,
lm
0
f(x, +) f(x, )
f(x, )
=
0
para todo x, y que existen una funcin g(x,
0
) y una constante
0
> 0
tales que:
a.
f(x,+)f(x,)
g(x,
0
) para todo x y ||
0
,
b.

g(x,
0
)dx < ,
entonces:
d
d
f(x, )dx
=
0
=
f(x, )
=
0
_
dx (2.4.1)
A menudo no se hace hincapi en la distincin entre y
0
, luego 2.4.1 se
escribe como:
d
d
f(x, )dx =
f(x, )dx (2.4.2)

Corolario 2.4.1 Suponga f(x, ) es diferenciable en y existe una funcin
g(x, ) tal que:
f(x, )
=
/
g(x, )para todo

/
tal que

0
y

g(x, )dx < , entonces se cumple 2.4.2.

Ejemplo 2.4.1 Sea X E(). Suponga que se desea calcular:
d
d
E[X
n
] =
d
d

0
x
n
_
1
_
e
x/
dx
para n > 0 nmero entero. Si se desea intercambiar la derivada con la
integral, se tiene:
d
d
E[X
n
] =

0
d
d
x
n
_
1
_
e
x/
dx
=

0
x
n
2
_
x
1
_
e
x/
dx
=
1
2
E
_
X
n+1
_
E[X
n
]
Para justicar el intercambio anterior, se acota la derivada de x
n
_
1
_
e
x/
,
_
x
n
e
x/
=
x
n
e
x/
_
x
1
_
x
n
e
x/
2
_
x
1
_
desde que x/ > 0. Para alguna constante
0
que satisface 0 <
0
< , se
toma:
g(x, ) =
x
n
e
x/(+
0
)
(
0
)
2
_
x

0
+ 1
_
entonces:
_
x
n
e
x/
=
/
g(x, ) para todo

/
tal que

0
Como la distribucin exponencial tiene todos sus momentos, se cumple
g(x, )dx < siempre que

0
> 0, de manera que se justica el
cambio de la derivada con la integral.
La propiedad ilustrada para la distribucin exponencial se cumple para
una gran clase de densidades de la seccin 3.2.
Ejemplo 2.4.2 Sea X N(,
2
= 1) y considere su funcin generatriz de
momentos:
M
X
(t) = E
_
e
tX
_
=
1
e
tx
e
(x)
2
/2
dx
entonces:
d
dt
M
X
(t) =
d
dt
E
_
e
tX
_
= E
_

t
e
tX
_
= E
_
Xe
tX
_
Ejemplo 2.4.3 Sea X GE () tal que:
Pr(X = x) = (1 )
x
x = 0, 1, 0 < < 1
luego:
d
d
x=0
(1 )
x
=

x=0
d
d
(1 )
x
=

x=0
_
(1 )
x
x(1 )
x1
_
=
1
x=0
(1 )
x
1
1
x=0
x(1 )
x
como

x=0
(1 )
x
= 1, para todo 0 < < 1, su derivada es cero,
0 =
1

1
1
x=0
x(1 )
x
=
1

1
1
E[X]
entonces E[X] =
1
.
Teorema 2.4.4 Suponga que la serie

x=0
h(, x) converge para todo en
un intervalo (a, b) de nmeros reales y:
a.

h(, x) es continua en para cada x,

b.

x=0

h(, x) converge uniformemente sobre cada subintervalo cerrado

y acotado de (a, b),
entonces:
d
d
x=0
h(, x) =

x=0
h(, x)
Ejemplo 2.4.4 (Continuacin del ejemplo 2.4.3) Para aplicar el teore-
ma 2.4.4 se identica:
h(, x) = (1 )
x
y

h(, x) = (1 )
x
x(1 )
x1
para vericar que

x=0

h(, x)
converge uniformemente. Se dene S
n
() por:
S
n
() =

x=0
_
(1 )
x
x(1 )
x1
_
La convergencia ser uniforme en [c, d] (0, 1) si, dado > 0, se puede
encontrar N tal que:
n > N |S
n
() S
()| < para todo [c, d]

Recordar la suma parcial de la serie geomtrica. Si y = 1, entonces:
n
k=0
y
k
=
1 y
n+1
1 y
luego:
n
x=0
(1 )
x
=
1 (1 )
n+1
x=0
x(1 )
x1
=
n
x=0
(1 )
x
=
d
d
n
x=0
(1 )
x
=
d
d
_
1 (1 )
n+1
_
=
(1 (1 )
n+1
) (n + 1)(1 )
n

nalmente:
S
n
() =
1 (1 )
n+1

(1 (1 )
n+1
) (n + 1)(1 )
n
= (n + 1)(1 )
n
Es claro que, para 0 < < 1, S
= lm
n
S
n
() = 0. Como S
n
()
es continua la convergencia es uniforme sobre cualquier intervalo cerrado y
acotado. Luego, las series de derivadas convergen uniformemente y el inter-
cambio de la derivada con la integral est justicada.
Teorema 2.4.5 Suponga que la serie

x=0
h(, x) converge uniformemente
en [a, b] y que para cada x h(, x) es una funcin continua de , entonces:
b
a
x=0
h(, x)d =

x=0
b
a
h(, x)d
Captulo 3
Familias de distribuciones
3.1. Distribuciones discretas
Una variable aleatoria X se dice tiene una distribucin discreta si su rango
es numerable.
Distribucin uniforme discreta
Una variable aleatoria X tiene distribucin uniforme discreta (1, N) si:
Pr(X = x|N) =
1
N
, x = 1, 2, , N (3.1.1)
donde N es un nmero entero. La media y varianza de la distribucin
uniforme discreta son:
E[X] =
N + 1
2
Var (X) =
(N + 1)(N 1)
12
Si el espacio muestral es cualquier rango de enteros N
0
, N
0
+ 1, , N
1
,
entonces la funcin de probabilidad es:
Pr(X = x|N
0
, N
1
) =
1
N
0
N
1
+ 1
Distribucin hipergeomtrica
Una variable aleatoria X tiene distribucin hipergeomtrica (N, M, n) si:
31
CAPTULO 3. FAMILIAS DE DISTRIBUCIONES 32
Pr(X = x|N, M, n) =
_
M
x
__
N M
n x
_
_
N
n
_
(3.1.2)
La media y varianza de la distribucin hipergeomtrica son:
E[X] = n
M
N
Var (X) =
nM
N
_
(N M)(N n)
N(N 1)
_
Ejemplo 3.1.1 Un ingeniero de control de calidad inspecciona una muestra
tomada al azar de dos calculadoras manuales de cada lote de tamao 18.
El lote sera aceptado si ambas calculadoras estn en buenas condiciones de
trabajo de otra manera se inspecciona todo el lote y el costo se carga al
vendedor. Cul es la probabilidad de que un lote se acepte sin tener que
hacer una inspeccin total si ste contiene cuatro calculadoras que no estn
en buenas condiciones de trabajo? Aplicando la distribucin hipergeomtrica
con N = 18, M = 14 y n = 2. Usando R, se tiene:
> dhyper(x = 2, m = 14, n = 4, k = 2)
[1] 0.5947712
Notar que R considera los parmetros de la distribucion hipergeomtrica
(N, M, n) como (m+n, m, k).
Distribucin binomial
Una variable aleatoria tiene distribucin Bernoul li(p) si:
X =
_
_
_
1 con probabilidad p
0 con probabilidad 1 p
con 0 p 1. El valor de X = 1 es comunmente llamado xito y p la
probabilidad de xito. La media y varianza de la distribucin Bernoulli son:
E[X] = p Var (X) = p(1 p)
Si se tiene una secuencia de variables aleatorias con distribucin Bernoulli(p),
es decir X
1
, X
2
, , X
n
tal que:
X
i
=
_
_
_
1 con probabilidad p
0 con probabilidad 1 p
entonces la variable aleatoria Y =

n
i=1
X
i
tiene distribucin binomial(n, p)
y su funcin de probabilidad es :
Pr(Y = y|n, p) =
_
n
y
_
p
y
(1 p)
ny
, y = 0, 1, 2, , n (3.1.3)
La media y varianza de la distribucin binomial son:
E[X] = np Var (X) = np(1 p)
Ejemplo 3.1.2 Suponga que se esta interesado en calcular la probabilidad
de obtener al menos un seis en cuatro lanzamientos de un dado regular. Este
experimento puede ser modelado como una secuencia de cuatro ensayos de
Bernoulli con probabilidad de xito p = 1/6. Si se dene la variable aleatoria
como X = nmero de lanzamientos en los que se obtuvo seis, entonces X
binomial(n = 4, p = 1/6). Usando R, se tiene:
> 1-dbinom(x = 0, size = 4, prob = 1/6)
[1] 0.5177469
Distribucin Poisson
Una variable aleatoria X que toma valores en los enteros no negativos
tiene distribucin Poisson() si:
Pr(X = x|) =
e
x
x!
, x = 0, 1, 2, (3.1.4)
La media y varianza de la distribucin Poisson son:
E[X] = Var (X) =
Ejemplo 3.1.3 Considere un operador telefnico que recibe, en promedio,
cinco llamadas cada tres minutos segn un proceso de Poisson. Cual es
la probabilidad de no recibir llamadas en el siguiente minuto? Cual es la
probabilidad de recibir al menos dos llamadas? Sea X = nmero de llamadas
telefnicas recibidas en un minuto, entonces X P ( = 5/3). Usando R se
tiene:
> dpois(x=0, lambda=5/3)
[1] 0.1888756
> 1-ppois(q=1, lambda=5/3)
[1] 0.4963317
Distribucin binomial negativa
La distribucin binomial cuenta el nmero de xitos en un nmero jo
de ensayos de Bernoulli. Suponga que se desea contar el nmero de ensayos
necesarios para obtener un nmero jo de xitos.
En una secuencia de ensayos independientes de Bernoulli(p) sea la variable
aleatoria X denida como el ensayo en el que se obtiene el r-simo xito,
donde r es un entero, entonces:
Pr(X = x|r, p) =
_
x 1
r 1
_
p
r
(1 p)
xr
, x = r, r + 1, (3.1.5)
y se dice que X tiene distribucin binomial negativa(r, p).
La distribucin binomial negativa tambin se dene en trminos de la
variable aleatoria Y = nmero de fracasos antes del r-simo xito, es decir
Y = Xr. Luego, la frmula alternativa de la distribucin binomial negativa
es:
Pr(Y = y|r, p) =
_
r +y 1
y
_
p
r
(1 p)
y
, y = 0, 1, 2, (3.1.6)
A no ser que se indique lo contrario, nos referimos a la distribucin bi-
nomial negativa(r, p) usando la funcin de probabilidad anterior. La media
y varianza de la distribucin binomial negativa son:
E[Y ] = r
(1 p)
p
Var (Y ) =
r(1 p)
p
2
Ejemplo 3.1.4 Una tcnica conocida como muestreo binomial inverso suele
usarse en poblaciones biolgicas. Si la proporcin de individuos que posee
cierta caracterstica es p y se realiza el proceso de muestreo hasta observar
r de tales individuos, entonces el nmero de individuos muestreados es una
variable aleatoria con distribucin binomial negativa. Por ejemplo, suponga
que en una poblacin de moscas de la fruta se esta interesado en la proporcin
que tienen alas vestigiales y se decide muestrear hasta encontrar 100 de estas
moscas. La probabilidad que se tenga que examinar al menos N moscas es:
Pr (X N) =

x=N
_
x 1
99
_
p
100
(1 p)
x100
= 1
N1
x=100
_
x 1
99
_
p
100
(1 p)
x100
Dados p y N es posible evaluar la expresin anterior para determinar el
valor ms probable para la cantidad observada de moscas de la fruta.
Distribucin geomtrica
La distribucin geomtrica es un caso especial de la distribucin binomial
negativa. Si se toma r = 1 en 3.1.5 se tiene:
Pr(X = x|p) = p(1 p)
x1
, x = 1, 2, (3.1.7)
la que dene la funcin de probabilidad de una variable aleatoria X con
distribucin geomtrica(p) que se puede interpretar como el ensayo en el que
se obtiene el primer xito.
La media y varianza de X puede obtenerse usando las frmulas de la
binomial negativa cuando X = Y + 1. Luego:
E[X] = E[Y ] + 1 =
1
p
Var (X) =
1 p
p
2
La distribucin geomtrica tiene una propiedad interesante conocida como
la propiedad de falta de memoria. Para enteros s > t se tiene:
Pr(X > s|X > t) = Pr(X > s t) (3.1.8)
Ejemplo 3.1.5 La distribucin geomtrica es usada para modelar el tiempo
de falla de un componente. Por ejemplo, si la probabilidad que una bombilla
de luz falle en un dia cualquiera es 0.01, entonces la probabilidad que la
bombilla dure al menos 30 das es:
Pr (X 30) =

x=30
0,001 (0,999)
x1
y usando R, se tiene:
> 1-pgeom(q=29, prob=0.001)
[1] 0.970431
3.2. Distribuciones continuas
Distribucin uniforme
La distribucin uniforme continua se dene sobre el intervalo [a, b] con la
siguiente funcin de densidad:
f(x|a, b) =
_
_
_
1
ba
a x b
0 de otro modo
(3.2.1)
La media y varianza de la distribucin uniforme continua son:
E[X] =
a +b
2
Var (X) =
(b a)
2
12
Distribucin gamma
La distribucin gamma es una familia exible de distribuciones sobre
[0, ). Si es una constante positiva, la integral:

0
t
1
e
t
dt
es nita. Solo si es un entero positivo la integral anterior puede expre-
sarse en forma cerrada. En cualquier caso su valor dene la funcin gamma:
() =

0
t
1
e
t
dt (3.2.2)
Esta funcin satisface muchas relaciones tiles, en particular:
( + 1) = (), > 0 (3.2.3)
Combinando 3.2.3 se tiene que para cualquier entero n > 0:
(n) = (n 1)! (3.2.4)
como la integral en 3.2.2 es positiva, se tiene que:
f(t) =
t
1
e
t
()
, 0 < t < (3.2.5)
es una funcin de densidad. Si se dene la variable aleatoria X = T,
donde es una constante positiva se obtiene la familia gamma(, ):
f(x|, ) =
1
()
x
1
e
x/
, 0 < x < (3.2.6)
donde > 0 es llamado el parmetro de forma y > 0 el parmetro de
escala. La media y varianza de la distribucin gamma son:
E[X] = Var (X) =
2
La funcin generatriz de momentos de la distribucin gamma(, ) es:
M
X
(t) =
_
1
1 t
_
para t < 1/. Existe una relacin interesante entre la distribucin gamma
y Poisson. Si X es una variable aleatoria gamma(, ), donde es un entero,
entonces para todo X,
Pr(X x) = Pr(Y ) (3.2.7)
donde Y P(x/).
Existen dos casos importantes de la distribucin gamma. Si se toma =
p/2, donde p es un entero y = 2, entonces la funcin de densidad gamma
se convierte en:
f(x|p) =
1
(p/2)2
p/2
x
p/21
e
x/2
, 0 < x < (3.2.8)
que es conocida como la funcin de densidad chi-cuadrado con p grados
de libertad.
Otro caso especial se obtiene cuando = 1, es decir:
f(x|) =
1
e
x/
, 0 < x < (3.2.9)
conocida como la funcin de densidad exponencial con parmetro de es-
cala . La distribucin exponencial comparte la propiedad de prdida de
memoria de la geomtrica. Si X E () entonces para s > t 0:
Pr(X > s|X > t) = Pr(X > s t)
Otra distribucin relacionada a la familia gamma y exponencial es la
distribucin Weibull. Si X E () entonces Y = X
1/
tiene distribucin
Weibull(, ):
f
Y
(y|, ) =

y
1
e
y
/
, 0 < y < (3.2.10)
donde > 0 y > 0.
Distribucin normal
La funcin de densidad de la distribucin normal con media y varianza
2
es dada por:
f(x|,
2
) =
1
2
e
(x)
2
2
2
, < x < (3.2.11)
donde:
E[X] = Var (X) =
2
Si X N(,
2
) entonces la variable aleatoria Z = (X )/ tiene
distribucin N(0, 1) conocida como distribucin normal estndar.
Se puede probar que la funcin de densidad normal 3.2.11 toma su valor
mximo en x = y que sus puntos de ineccin (donde la curva cambia de
cncava a convexo) son x = . La probabilidad que X este contenida en
1, 2 3 desviaciones estndar alrededor de su media es:
Pr(|X | ) = Pr(|Z| 1) = 0,6826
Pr(|X | 2) = Pr(|Z| 2) = 0,9544
Pr(|X | 3) = Pr(|Z| 3) = 0,9974
La distribucin normal es usada como aproximacin de otras distribu-
ciones. Por ejemplo, si X BI(n, p) entonces E[X] = np, Var (X) = np(1
p) y bajo ciertas condiciones favorables, la distribucin de X puede aproxi-
marse a la distribucin normal con media = np y varianza
2
= np(1 p).
Estas condiciones son n grande y p no debe estar cerca de 0 1.
Si X BI(n, p) y Y N(np, np(1 p)) entonces:
Pr(X x) Pr(Y x + 1/2)
Pr(X x) Pr(Y x 1/2)
Figura 3.1: Aproximacin binomial a la distribucin normal
Distribucin beta
La familia de distribuciones beta es una familia continua en (0, 1) index-
ada por dos parmetros. La funcin de densidad beta(, ) es:
f(x|, ) =
1
B(, )
x
1
(1 x)
1
, 0 < x < 1 (3.2.12)
donde > 0, > 0 y B(, ) denota la funcin beta:
B(, ) =
1
0
x
1
(1 x)
1
dx
Figura 3.2: Densidades beta
La funcin beta est relacionada con la funcin gamma a travs de la
siguiente identidad:
B(, ) =
()()
( +)
(3.2.13)
El clculo de los momentos para esta distribucin se obtiene a travs de
la siguiente expresin:
E[X
n
] =
B( +n, )
B(, )
=
( +n)( +)
( + +n)()
(3.2.14)
Usando 3.2.3 y 3.2.14 con n = 1 y n = 2 se obtiene:
E[X] =

+
Var (X) =

( +)
2
( + + 1)
(3.2.15)
Distribucin Cauchy
La distribucin Cauchy es una distribucin simtrica con forma de cam-
pana sobre (, ) cuya funcin de densidad es:
f(x|) =
1
1
1 + (x )
2
, < x < (3.2.16)
Tal como se mencion en el captulo 2, la media de la distribucin de
Cauchy no existe, esto es:
E[|X|] =
|x|
1 + (x )
2
dx = (3.2.17)
por lo que tampoco existen los momentos para esta distribucin. En par-
ticular, la funcin generatriz de momentos no existe.
Distribucin log-normal
Si X es una variable aleatoria cuyo logaritmo tiene distribucin normal,
es decir log X N(,
2
) entonces X tiene distribucin log-normal. La fun-
cin de densidad de X se obtiene mediante una transformacin directa de la
funcin de densidad normal usando el teorema 2.1.2:
f(x|,
2
) =
1
2
1
x
e
(log x)
2
2
2
, < x < (3.2.18)
< < y > 0, conocida como la funcin de densidad log-
normal. Los momentos de X pueden obtenerse usando 3.2.18 o la relacin
con la distribucin normal:
E[X] = e
+
2
/2
Var (X) = e
2(+
2
)
e
2+
2
(3.2.19)
Distribucin doble exponencial
La distribucin doble exponencial se toma reejando la distribucin ex-
ponencial alrededor de su media. Su funcin de densidad esta dada por:
f(x|, ) =
1
2
e
|x|/
, < x < (3.2.20)
< < y > 0. La distribucin doble exponencial proporciona
una distribucin simtrica con colas ms pesadas. La media y varianza de
esta distribucin son:
E[X] = Var (X) = 2
2
3.3. Familias exponenciales
Una familia de funciones de densidad o probabilidad es llamada una fa-
milia exponencial si puede expresarse como:
f(x|) = h(x)c() exp
_
k
i=1
w
i
()t
i
(x)
_
(3.3.1)
donde h(x) 0, t
1
(x), , t
k
(x) son funciones de las observaciones x,
c () 0 y w
1
(), , w
k
() son funciones del vector de parmetros .
Muchas familias mencionadas en la seccin anterior son familias expo-
nenciales. Estas incluyen las familias continuas normal, gamma, beta y las
familias discretas binomial, Poisson y binomial negativa.
Para vericar si una familia de funciones de probabilidad o densidad es
una familia exponencial, se deben identicar las funciones h(x), c(), w
i
()
y t
i
(x) para demostrar que la familia tiene la forma 3.3.1.
Ejemplo 3.3.1 Considere la familia BI(n, p) con 0 < p < 1 y n conocido.
Entonces la funcin de probabilidad es:
f (x|p) =
_
n
x
_
p
x
(1 p)
nx
=
_
n
x
_
(1 p)
n
_
p
1 p
_
x
=
_
n
x
_
(1 p)
n
exp
_
log
_
p
1 p
_
x
_
=
_
n
x
_
(1 p)
n
exp
_
log
_
p
1 p
_
x
_
Se dene:
h(x) =
_
n
x
_
c (p) = (1 p)
n
w
1
(p) = log
_
p
1 p
_
y t
1
(x) = x
entonces se tiene:
f(x|p) = h(x)c(p) exp {w
1
(p)t
1
(x)} (3.3.2)
que es de la forma 3.3.1 con k = 1.
Ejemplo 3.3.2 Sea f(x|,
2
) la familia de distribuciones N(,
2
) donde
= (,
2
), < < y > 0. Entonces:
f(x|,
2
) =
1
2
exp
_
(x )
2
2
2
_
=
1
2
exp
_

2
2
2
_
exp
_
x
2
2
2
+
x
2
_
Se dene:
h(x) = 1
c() = c(,
2
) =
1
2
exp
_

2
2
2
_
w
1
(,
2
) =
1
2
w
2
(,
2
) =

2
t
1
(x) = x
2
/2 y t
2
(x) = x
luego f(x|,
2
) = h(x)c(, ) exp {w
1
(, )t
1
(x) +w
2
(, )t
2
(x)} tiene
la forma 3.3.1 con k = 2.
El rango de la distribucin no puede depender de en una familia ex-
ponencial. La denicin completa de la funcin de probabilidad o densidad
debe incluir el rango a travs del uso de una funcin indicadora.
Denicin 3.3.1 La funcin indicadora de un conjunto A, denotado por
I
A
(x), es la funcin:
I
A
(x) =
_
_
_
1 x A
0 x / A
As en el ejemplo 3.3.2 la funcin de densidad normal puede ser escrita
como:
f(x|,
2
) = h(x)c(, ) exp {w
1
(, )t
1
(x) +w
2
(, )t
2
(x)} I
(,)
(x)
ya que la funcin indicadora depende solo de x, puede incorporarse en
h(x) mostrando que la funcin de densidad tiene la forma de una familia
exponencial.
Ejemplo 3.3.3 La funcin de densidad dada por:
f(x|) =
1
exp {1 (x/)} , x > (3.3.3)
no es una familia exponencial an cuando pueda escribirse como:
exp {1}
1
exp
_
1
x
_
= h(x)c() exp {w()t(x)}
donde h(x) = exp {1}, c() =
1
, w() =
1
y t(x) = x, ya que:
f(x|) =
1
exp {1 (x/)} I
(,)
(x)
La funcin indicadora no puede incorporarse en ninguna de las funciones
de 3.3.1 desde que no es funcin solamente de x o . Luego la funcin de
densidad 3.3.3 no pertenece a una familia exponencial.
Una familia exponencial puede reparametrizarse como:
f(x|) = h(x)c
() exp
_
k
i=1
i
t
i
(x)
_
donde las funciones h(x) y t
i
(x) son las mismas en la parametrizacin original
3.3.1. El conjunto:
H = =
_
(
1
, ,
k
) :
h(x) exp
_
k
i=1
i
t
i
(x)
_
dx <
_
es llamado el espacio paramtrico natural de la familia. La integral se
reemplaza por la suma si X es discreta.
Para los valores de H, se tiene que:
c
() =
_
h(x) exp
_
k
i=1
i
t
i
(x)
_
dx
_
1
lo cual asegura que la integral de la funcin de densidad sea uno. Luego,
el conjunto:
{ = (w
1
(), , w
k
()) : }
debe ser un subconjunto del espacio natural de parmetros.
Ejemplo 3.3.4 Para determinar el espacio natural paramtrico de la familia
normal, se reemplaza w
i
(, ) con
i
en 3.3.2 y se obtiene:
f(x|
1
,
2
) =
2
exp
_

2
2
2
1
_
exp
_
1
x
2
2
+
2
x
_
=
2
exp
_
_
_
1
2
_
x

2
1
_
2
_
_
_
La integral ser nita si y solo si el trmino dentro de la funcin expo-
nencial es negativo lo cual signica que
1
debe ser positivo sin importar el
valor que tome
2
. Luego el espacio paramtrico natural es:
{(
1
,
2
) :
1
> 0, <
2
< }
.
Identicando, se tiene que
2
= /
2
y
1
= 1/
2
.
3.4. Familias de locacin y escala
En esta seccin se discutirn tres tcnicas para construir familias de dis-
tribuciones. Estos tipos son: familias de locacin, escala y locacin-escala.
Cada familia se construye especicando una funcin de densidad simple, dig-
amos f(x), llamada la funcin de densidad estndar de la familia. Luego
todas las funciones de densidad en la familia se generan transformando la
funcin de densidad estndar en la forma prescrita.
Teorema 3.4.1 Sea f(x) una funcin de densidad y sean y > 0 con-
stantes, entonces:
g(x|, ) =
1
f
_
x
_
es una funcin de densidad.
Denicin 3.4.1 Sea f(x) una funcin de densidad. Entonces la familia de
funciones de densidad f(x ) indexada por el parmetro < < ,
< < , es llamada la familia de locacin con funcin de densidad
estndar f(x) y es el parmetro de locacin para la familia.
Ejemplo 3.4.1 Sea f(x) = e
x
, x 0. Para formar la familia de locacin
se reemplaza x con x :
f(x|) =
_
_
_
e
(x)
x 0
0 x < 0
=
_
_
_
e
(x)
x
0 x <
Denicin 3.4.2 Sea f(x) una funcin de densidad. Entonces para todo
> 0, la familia de funciones de densidad (1/)f(x/) indexada por el
parmetro , es llamada la familia de escala con funcin de densidad estndar
f(x) y es el parmetro de escala de la familia.
Ejemplo 3.4.2 La distribucin gamma con jo y la distribucin normal
con = 0 son ejemplos de familias de escala. En cada caso la funcin de
densidad estndar se obtiene tomando el parmetro de escala igual a 1.
Denicin 3.4.3 Sea f(x) una funcin de densidad. Entonces la familia de
funciones de densidad (1/)f ((x )/), < < y > 0, indexada
por los parmetros (, ) es llamada la familia de locacin-escala con funcin
de densidad estndar f(x), es el parmetro de locacin y es el parmetro
de escala.
Ejemplo 3.4.3 La distribucin normal y la distribucin exponencial son
ejemplos de familias de locacin-escala.
Teorema 3.4.2 Sea f(.) una funcin de densidad. Si y > 0, en-
tonces X es una variable aleatoria con funcin de densidad (1/)f ((x )/)
si y solo si existe una variable aleatoria Z con funcin de densidad f(z) y
X = Z +.
Prueba: Se dene z = g(x) = (x )/ entonces g
1
(z) = z + y
|dg
1
(z)/dz| = . Aplicando el teorema 2.1.1 la funcin de densidad de Z es:
f
Z
(z) = f
X
(g
1
(z))
d
dz
g
1
(z)
=
1
f
_
(z +)
_
= f(z)
Se dene x = g(z) = z+ entonces g
1
(x) = (x)/, y |dg
1
(x)/dx| =
1/. Aplicando el teorema 2.1.1 la funcin de densidad de X es:
f
X
(x) = f
Z
(g
1
(x))
d
dx
g
1
(x)
= f
_
x
_
1
Teorema 3.4.3 Sea Z una variable aleatoria con funcin de densidad f(z).
Suponga que E[Z] y Var (Z) existen. Si X es una variable aleatoria con
funcin de densidad (1/)f((x )/), entonces:
E[X] = E[Z] + y Var (X) =
2
Var (Z)
En particular si, E[Z] = 0 y Var (Z) = 1 entonces E[X] = y Var (X) =
2
.
El clculo de una probabilidad para cualquier miembro de una familia de
locacin escala puede obtenerse en trminos de la variable estandarizada Z
ya que:
Pr(X x) = Pr
_
X
_
= Pr
_
Z
x
_
El clculo de las probabilidades para la distribucin normal usando la
distribucin normal estndar es un claro ejemplo.
3.5. Desigualdades e identidades
3.5.1. Desigualdades para probabilidades
Teorema 3.5.1 (Desigualdad de Chebyschev) Sea X una variable aleato-
ria y sea g(x) una funcin no negativa. Entonces, para todo r > 0:
Pr(g(X) r)
E[g(X)]
r
Ejemplo 3.5.1 Si Z tiene distribucin normal estndar, entonces para todo
t > 0:
Pr (|Z| t)
e
t
2
/2
t
3.5.2. Identidades
Teorema 3.5.2 Sea X
,
denota una variable aleatoria con distribucin
G (, ) con funcin de densidad f (x/, ), donde > 1. Entonces para
constantes cualesquiera a y b:
Pr(a < X
,
< b) = (f (a/, ) f (b/, )) + Pr(a < X
1,
< b)
Lema 3.5.1 (Lema de Stein) Sea X N (,
2
) y sea g una funcin
diferenciable que satisface E
_
g
/
(X)
_
< , entonces:
E[g (X) (X )] =
2
E
_
g
/
(X)
_
Teorema 3.5.3 Sea
2
p
que denota una variable aleatoria con distribucin
chi-cuadrado con p grados de libertad. Para toda funcin h(x), siempre que
su valor esperado exista:
E
_
h
_
2
p
__
= pE
_
_
h
_
2
p+2
_
2
p+2
_
_
Captulo 4
Variables aleatorias mltiples
4.1. Distribucin conjunta y marginal
Denicin 4.1.1 Un vector aleatorio n-dimensional es una funcin que va
de un espacio muestral S a un espacio euclediano n-dimensional
n
.
Ejemplo 4.1.1 Considere el experimento de lanzar 2 veces un dado. El es-
pacio muestral para este experimento tiene 36 puntos igualmente probables.
Sean las variables aleatorias X = suma de los dados, y Y =|diferencia de
los dados|, entonces el vector aleatorio (X, Y ) es llamado vector aleatorio
discreto ya que solo tiene un nmero nito de posibles valores.
Denicin 4.1.2 Sea (X, Y ) un vector aleatorio discreto bivariado. En-
tonces la funcin f(X, Y ), que va de
2
hacia , denido por f(x, y) =
Pr(X = x, Y = y) es llamado la funcin de probabilidad conjunta de (X, Y ).
Tabla 4.1: Valores de la funcin de probabilidad conjunta f(x, y)
x
2 3 4 5 6 7 8 9 10 11 12
0
1
36
1
36
1
36
1
36
1
36
1
36
1
1
18
1
18
1
18
1
18
1
18
y 2
1
18
1
18
1
18
1
18
3
1
18
1
18
1
18
4
1
18
1
18
5
1
18
49
CAPTULO 4. VARIABLES ALEATORIAS MLTIPLES 50
La funcin de probabilidad conjunta puede usarse en el clculo de prob-
abilidades para cualquier evento denido en trminos de (X, Y ). Sea A un
subconjunto de
2
. Entonces:
Pr ((X, Y ) A) =

(X,Y )A
f(x, y)
Ejemplo 4.1.2 Para (X, Y ) cuya funcin de probabilidad conjunta se en-
cuentra en la tabla 4.1, suponga que A = {(x, y) : x = 7, y 4}, entonces:
Pr(X = 7, Y 4) = Pr((X, Y ) A) = f(7, 1) +f(7, 3) =
1
18
+
1
18
=
1
9
Sea g(x, y) una funcin de valor real denido para todos los posibles val-
ores (x, y) de vector aleatorio discreto (X, Y ). Entonces g(X, Y ) es tambin
una variable aleatoria y su valor esperado se dene por:
E[g(X, Y )] =

(x,y)
2
g(x, y)f(x, y)
Ejemplo 4.1.3 Usando la tabla 4.1 el valor esperado de g(X, Y ) = XY,
E[g(X, Y )] =

xyf(x, y) = (2)(0)
1
36
+ + (7)(5)
1
18
= 13
11
18
Las propiedades vistas en el teorema 2.2.1 son vlidas al reemplazar x
por (x, y). Por ejemplo si g
1
(x, y), g
2
(x, y) son dos funciones; a, b y c son
constantes, entonces:
E[ag
1
(X, Y ) +bg
2
(X, Y ) +c] = aE[g
1
(X, Y )] +bE[g
2
(X, Y )] +c
La funcin de probabilidad conjunta del vector aleatorio (X, Y ) debe
cumplir con f(x, y) 0, para todo (x, y). Adems:
(x,y)
2
f(x, y) = Pr((X, Y )
2
) = 1.
Ejemplo 4.1.4 Se dene f(w, z) por:
f(0, 0) = f(0, 1) =
1
6
f(1, 0) = f(1, 1) =
1
3
f(w, z) = 0 para cualquier otro (w, z)
Si S es el espacio muestral formado por los 36 puntos que resultan de
lanzar dos dados. Sean:
W =
_
_
_
0 si el 1ero es como mximo 2
1 si el 1ero es ms de 2
Z =
_
_
_
0 si el 2do es impar
1 si el 2do es par
Luego f(w, z) es la funcin de probabilidad conjunta para (W, Z).
Teorema 4.1.1 Sea (X, Y ) un vector aleatorio discreto cuya funcin de
probabilidad conjunta es f(x, y), entonces la funcin de probabilidad marginal
de X, f
X
(x) = Pr(X = x), y de Y , f
Y
(y) = Pr(Y = y), estan dadas por:
f
X
(x) =

y
f(x, y) y f
Y
(y) =

x
f(x, y)
Prueba: Para todo x , sea A
x
= {(x, y) : < y < }. Es decir, A
x
es la lnea en el plano con primer coordenada igual a x. Entonces:
f
X
(x) = Pr(X = x)
= Pr(X = x, < y < )
= Pr ((X, Y ) A
x
)
=

(X,Y )Ax
f(x, y)
=

y
f(x, y)
Ejemplo 4.1.5 Usando el teorema 4.1.1 se puede calcular las distribuciones
marginales de X e Y a partir de la distribucin conjunta de la tabla 4.1:
f
Y
(0) =
1
6
f
Y
(1) =
5
18
f
Y
(2) =
2
9
f
Y
(3) =
1
6
f
Y
(4) =
1
9
f
Y
(5) =
1
18
Ejemplo 4.1.6 Usando la funcin de probabilidad marginal de Y se puede
calcular:
Pr(Y < 3) =
2
3
E[Y
3
] = 20
11
18
Denicin 4.1.3 Una funcin f(x, y) que va de
2
hacia es llamada fun-
cin de densidad conjunta del vector aleatorio bivariado continuo (X, Y ) si,
para todo A
2
:
Pr ((X, Y ) A) =
A
f(x, y)dxdy
Si g(x, y) es una funcin de valor real, entonces el valor esperado de
g(X, Y ) se dene por:
E[g(X, Y )] =
g(x, y)f(x, y)dxdy (4.1.1)

Las funciones de densidad marginales de X y Y son denidas, reem-
plazando las sumatorias por las integrales. Estas funciones pueden usarse
para calcular probabilidades o valores esperados que involucran solo a X o Y .
Simplicando, las funciones de densidad marginales de X y Y son denidas
por:
f
X
(x) =
f(x, y)dy, < x <

f
Y
(y) =
f(x, y)dx, < y <

(4.1.2)
Toda funcin f(x, y) que satisface f(x, y) 0, para todo (X, Y )
2
, y:
f(x, y)dxdy = 1
se dice que es la funcin de densidad conjunta para algn vector aleatorio
bivariado (X, Y ).
Ejemplo 4.1.7 Se dene la funcin de densidad conjunta por:
f(x, y) =
_
_
_
6xy
2
0 < x < 1, 0 < y < 1
0 de otro modo
Si se desea calcular Pr(X+Y 1), sea A = {(x, y) : x+y 1} entonces:
Pr(X +Y 1) =
A
f(x, y)dxdy =
y=1
y=0
x=1
x=1y
6xy
2
dxdy =
9
10
Usando 4.1.2 puede obtenerse la funcin de densidad marginal de X y Y :
f
X
(x) =
f(x, y)dxdy =
y=1
y=0
6xy
2
dy = 2xy
3
y=1
y=0
= 2x
Esta funcin de densidad de X puede ser usada para calcular probabili-
dades, por ejemplo:
Pr(1/2 < X < 3/4) =
x=3/4
x=1/2
2xdx =
5
10
Ejemplo 4.1.8 Sea f(x, y) = e
y
, 0 < x < y. Aparentemente f(x, y) no
depende de X sin embargo:
f(x, y) = e
y
I
{0<x<y}
(x, y)
Para calcular Pr(X + Y 1) se dene A = {(x, y) : x + y 1}. El
proceso de integracin es mucho ms sencillo si se hace sobre el conjunto
B = {(x, y) : x +y < 1}:
Pr(X +Y 1) = 1 Pr(X +Y < 1)
= 1
x=1/2
x=0
y=1x
y=x
e
y
dydx
= 1
1/2
0
(e
x
e
(1x)
)dx
= 0,845182
Figura 4.1: Regin para el ejemplo 4.1.8
La funcin de densidad conjunta de (X, Y ) puede describirse completa-
mente usando la funcin de distribucin acumulada conjunta F(x, y) denida
por:
F(x, y) = Pr(X x, Y y) =
f(s, t)dtds
para todo (x, y)
2
. Usando el teorema fundamental del clculo:
2
F(x, y)
xy
= f(x, y) (4.1.3)
para todos los puntos de continuidad de f(x, y).
4.2. Distribuciones condicionales e indepen-
dencia
Denicin 4.2.1 Sea (X, Y ) un vector aleatorio bivariado discreto con fun-
cin de probabilidad conjunta f(x, y) y funciones de probabilidad marginales
f
X
(x) y f
Y
(y). Para todo x tal que f
X
(x) > 0, la funcin de probabilidad
condicional de Y dado X = x es la funcin de y denotada por f(y|x) y
denida por:
f(y|x) = Pr(Y = y|X = x) =
f(x, y)
f
X
(x)
Para todo y tal que f
Y
(y) > 0, la funcin de probabilidad condicional de
x dado que Y = y es la funcin de x denotada por f(x|y) y denida por:
f(x|y) = Pr(X = x|Y = y) =
f(x, y)
f
Y
(y)
Ejemplo 4.2.1 Se dene la funcin de probabilidad conjunta de (X, Y ) por:
y
x 10 20 30 f
X
(x)
0
2
18
2
18
0
4
18
1
3
18
4
18
3
18
10
18
2 0 0
4
18
4
18
f
Y
(y)
5
18
6
18
7
18
f(Y = y|X = 0) =
_
_
1
2
si y = 10
1
2
si y = 20
0 de otro modo
f(Y = y|X = 1) =
_
_
3
10
si y = 10
4
10
si y = 20
3
10
si y = 30
0 de otro modo
f(Y = y|X = 2) =
_
_
_
1 si y = 30
0 de otro modo
Tambin puede calcularse probabilidades condicionales, por ejemplo:
Pr(Y > 10|X = 1) = f(20|1) +f(30|1) =
7
10
Pr(Y > 10|X = 0) = f(20|0) =
1
2
Denicin 4.2.2 Sea (X, Y ) un vector aleatorio continuo bivariado con fun-
cin de densidad conjunta f(x, y) y funciones de densidad marginales f
X
(x)
y f
Y
(y). Para todo x tal que f
X
(x) > 0, la funcin de densidad condicional
de Y dado que X = x es la funcin de y denotada por f(y|x) y denida por:
f(y|x) =
f(x, y)
f
X
(x)
Para todo y tal que f
Y
(y) > 0, la funcin de densidad condicional de X
dado que Y = y es la funcin de x denotada por f(x|y) y denida por:
f(x|y) =
f(x, y)
f
Y
(y)
Si g(Y ) es una funcin de Y , entonces el valor esperado condicional de
g(Y ) dado que X = x se denota por E[g(Y )|x] y se dene por:
E[g(Y )|x] =

y
g(y)f(y|x) y E[g(Y )|x] =
g(y)f(y|x)dy
El valor esperado condicional tiene todas las propiedades del valor esper-
ado vistas en el teorema 2.2.1.
Ejemplo 4.2.2 Como en el ejemplo 4.1.8, sea un vector aleatorio continuo
(X, Y ) con funcin de densidad conjunta f(x, y) = e
y
, 0 < x < y. Suponga
se desea calcular la funcin de densidad condicional de Y dado X = x. La
funcin de densidad marginal de X se puede calcular como sigue:
f
X
(x) =
f(x, y)dy =
y=
y=x
e
y
dy = e
x
, x > 0
entonces X E( = 1). Luego:
f(y|x) =
f(x, y)
f
X
(x)
=
e
y
e
x
= e
(yx)
, y > x
Dado X = x, la distribucin de Y es exponencial donde x es el parmetro
de locacin y = 1 es el parmetro de escala. La distribucin condicional de
Y es diferente para cada valor de x. Adems:
E[Y |X = x] =
y=
y=x
ye
(yx)
dy = 1 +x
La variancia de la funcin de densidad f(y|x) es llamada variancia condi-
cional de Y dado X = x. Usando la notacin Var(Y |X) se tiene:
Var (Y |X) = E[Y
2
|X] (E[Y |X])
2
=

x
y
2
e
(yx)
dy
_

x
ye
(yx)
dy
_
2
= 1
En este caso la variancia condicional de Y dado X = x es la misma para
todos los valores de x. Esta variancia condicional puede compararse con la
variancia no condicional de Y . La distribucin marginal de Y es G (2, 1), la
cual tiene Var(Y ) = 2. Dado el valor X = x, la variabilidad en Y se reduce
considerablemente.
Denicin 4.2.3 Sea (X, Y ) un vector aleatorio bivariado con funcin de
probabilidad o funcin de densidad conjunta f(x, y) y funciones de proba-
bilidad o densidad marginales f
X
(x) y f
Y
(y). Entonces X y Y son llamadas
variables aleatorias independientes si, para todo x y y ,
f(x, y) = f
X
(x)f
Y
(y) (4.2.1)
Si X y Y son independientes, la funcin de probabilidad o densidad condi-
cional Y dado X = x es:
f(x|y) =
f(x, y)
f
Y
(y)
=
f
X
(x)f
Y
(y)
f
Y
(y)
= f
X
(x)
para cualquier valor de x. As, para todo A y x ,
Pr(Y A|x) =
A
f(y|x)dy =
A
f
Y
(y)dy = Pr(Y A)
El saber que X = x no brinda informacin adicional acerca de Y .
Ejemplo 4.2.3 Sea el vector aleatorio bivariado discreto (X, Y ) con funcin
de probabilidad conjunta dada por:
y
x 1 2 3 f
X
(x)
10
1
10
1
5
1
5
5
10
20
1
10
1
10
3
10
5
10
f
Y
(y)
2
10
3
10
5
10
Las variables aleatorias X y Y no son independientes debido a que 4.2.1
no se cumple para todo(x, y). Por ejemplo:
f(3, 10) =
1
5
=
1
2

1
2
= f
X
(3)f
Y
(10)
Notar que f(10, 1) =
1
10
=
1
2

1
5
= f
X
(10)f
Y
(1). El hecho de que 4.2.1
sea verdadera para algunos valores de (x, y) no aseguran que X y Y sean
independientes.
Lema 4.2.1 Sea (X, Y ) un vector aleatorio bivariado con funcin de proba-
bilidad o densidad conjunta f(x, y). Entonces X y Y son variables aleatorias
independientes s y solo si existen funciones g(x) y h(y) tales que, para todo
x y y ,
f(x, y) = g(x)h(y)
Prueba: Si se dene g(x) = f
X
(x) y h(y) = f
Y
(y) y usando 4.2.1 es fcil
probar una de las direcciones. Para probar la otra direccin, suponga que
f(x, y) = g(x)h(y). Se dene

g(x)dx = c y

h(y)dy = d, donde las

constantes c y d satisfacen:
cd =
g(x)h(y)dxdy =
f(x, y)dxdy (4.2.2)

Adems, las funciones de densidad marginales estn dadas por:
f
X
(x) =
g(x)h(y)dy = g(x)d
f
Y
(y) =
g(x)h(y)dx = h(y)c
(4.2.3)
Luego, usando 4.2.2 y 4.2.3, se tiene:
f(x, y) = g(x)h(y) = g(x)h(y)cd = f
X
(x)f
Y
(y)
demostrando que X y Y son independientes. Reemplazando las integrales
por sumatorias se prueba el lema para vectores aleatorios discretos.
Ejemplo 4.2.4 Considere la funcin de densidad conjunta:
f(x, y) =
1
384
x
2
y
4
e
y(x/2)
, x > 0, y > 0
Si se denen:
g(x) =
_
_
_
x
2
e
x/2
x > 0
0 x 0
h(y) =
_
_
_
y
4
e
y
/384 y > 0
0 y 0
entonces f(x, y) = g(x)h(y) para todo x y y . Por el lema 4.2.1,
se concluye que X y Y son variables aleatorias independientes. Notar que no
fu necesario calcular las funciones de densidad marginales.
Teorema 4.2.1 Sean X y Y variables aleatorias independientes:
a. Para todo A y B , Pr(X A, Y B) = Pr(X A) Pr(Y
B), esto es, los eventos {X A} y {Y B} son independientes.
b. Sea g(x) una funcin que depende slo de x y h(y) una funcin que
depende slo y. Entonces:
E[g(X)h(Y )] = E[g(X)]E[h(Y )]
Prueba: Notar que:
E[g(X)h(Y )] =
g(x)h(y)f(x, y)dxdy
=
g(x)h(y)f
X
(x)f
Y
(y)dxdy
=
h(y)f
Y
(y)
g(x)f
X
(x)dxdy
=
_
g(x)f
X
(x)dx
__
h(y)f
Y
(y)dy
_
= E[g(X)]E[h(Y )]
Sea g(x) la funcin indicadora del conjunto A y sea h(y) la funcin in-
dicadora del conjunto B. Notar que g(x)h(y) es la funcin indicadora del
conjunto C
2
denido por C = {(x, y) : x A, y B}. Notar que
para una funcin indicadora como g(x), E[g(X)] = Pr(X A). Usando el
resultado anterior se tiene:
Pr(X A, Y B) = Pr ((X, Y ) C) = E[g(X)h(Y )]
= E[g(X)]E[h(Y )] = Pr(X A) Pr(Y B)
Ejemplo 4.2.5 Sean X y Y variables aleatorias independientes con dis-
tribucin E (1). Por el teorema 4.3.2 se tiene:
Pr(X 4, Y < 3) = Pr(X 4) Pr(Y < 3)
Sean g(x) = x
2
y h(y) = y, se tiene que:
E[X
2
Y ] = E[X
2
]E[Y ] =
_
Var (X) + E[X]
2
_
E[Y ] = (1 + 1
2
)1 = 2
Teorema 4.2.2 Sean X y Y variables aleatorias independientes con fun-
ciones generatrices de momentos M
X
(t) y M
Y
(t) respectivamente. Entonces
la funcin generatriz de momentos de la variable aleatoria Z = X +Y es:
M
Z
(t) = M
X
(t)M
Y
(t)
Prueba: Usando la denicin de funcin generatriz de momentos:
M
Z
(t) = E[e
tZ
] = E[e
t(X+Y )
] = E[e
tX
e
tY
] = E[e
tX
]E[e
tY
] = M
X
(t)M
Y
(t)
Ejemplo 4.2.6 Algunas veces el teorema 4.2.2 puede usarse para encontrar
fcilmente la distribucin de Z = X + Y a partir de las distribuciones de
X y Y . Por ejemplo, sea X N(,
2
) y Y N(,
2
) variables aleatorias
independientes. Las funciones generatrices de momentos de X y Y son:
M
X
(t) = exp
_
t +
2
t
2
/2
_
y M
Y
(t) = exp
_
t +
2
t
2
/2
_
Luego:
M
Z
(t) = M
X
(t)M
Y
(t) = exp
_
( +)t + (
2
+
2
)t
2
/2
_
La funcin generatriz de momentos de Z corresponde a una variable
aleatoria con distribucin normal con media ( +) y varianza (
2
+
2
).
4.3. Transformaciones bivariadas
Sea (X, Y ) un vector aleatorio bivariado con una distribucin conoci-
da. Considere un nuevo vector aleatorio bivariado (U, V ) denido por U =
g
1
(X, Y ) y V = g
2
(X, Y ) donde g
1
(x, y) y g
2
(x, y) son funciones espec-
cas. Si B es cualquier subconjunto de
2
, entonces (U, V ) B s y so-
lo si (X, Y ) A, donde A = {(x, y) : (g
1
(x, y), g
2
(x, y)) B}. Luego
Pr ((U, V ) B) = Pr(X, Y ) A) y la distribucin conjunta de (U, V ) se de-
termina completamente usando la distribucin conjunta de (X, Y ).
4.3.1. Caso discreto
Si (X, Y ) es un vector aleatorio bivariado discreto, entonces existe solo
un conjunto numerable de valores para los que la funcin de probabilidad
conjunta de (X, Y ) es positiva, digamos el conjunto A. Se dene el conjunto
B = {(u, v) : u = g
1
(x, y), v = g
2
(x, y) para algn (x, y) A}. Entonces B
es el conjunto numerable de posibles valores para el vector aleatorio discreto
(U, V ). Si para todo (u, v) B, A
uv
se dene como {(x, y) A : g
1
(x, y) =
u, g
2
(x, y) = v} entonces la funcin de probabilidad conjunta de (U, V ),
f
U,V
(u, v), puede calcularse a partir de la funcin de probabilidad conjunta
de (X, Y ) por:
f
U,V
(u, v) = Pr((x, y) A
uv
) =

(x,y)Auv
f
X,Y
(x, y) (4.3.1)
Ejemplo 4.3.1 Sean X P () y Y P () variables aleatorias indepen-
dientes. La funcin de probabilidad conjunta de (X, Y ) es:
f
X,Y
(x, y) =

x
e
x!
y
e
y!
, x = 0, 1, 2, ; y = 0, 1, 2,
El conjunto A = {(x, y) : x = 0, 1, 2 ; y = 0, 1, 2, }. Se dene U =
X + Y y V = Y . El conjunto B = {(u, v) : v = 0, 1, ; u = v, v + 1, } .
Para todo (u, v) B, el nico valor (x, y) que satisface x +y = u y y = v es
x = uv e y = v. El conjunto A
uv
consiste de los puntos (uv, v), entonces:
f
U,V
(u, v) = f
X,Y
(u v, v) =

uv
e
(u v)!
v
e
v!
, v = 0, 1, ; u = v, v + 1,
En este ejemplo sera interesante calcular la funcin de probabilidad marginal
de U. Para todo entero no negativo u, f
U,V
(u, v) > 0 solo si v = 0, 1, , u.
Es decir:
f
U
(u) =
u
v=0
uv
e
(u v)!
v
e
v!
= e
(+)
u
v=0
uv
(u v)!
v
v!
, u = 0, 1, 2,
Lo anterior puede simplicarse multiplicando y dividiendo cada trmino entre
u! y usando el teorema binomial:
f
U
(u) =
e
(+)
u!
u
v=0
_
u
v
_
uv
=
e
(+)
u!
( +)
u
, u = 0, 1, 2,
Luego U P ( +).
Teorema 4.3.1 Si X P () y Y P () son variables aleatorias indepen-
dientes, entonces X +Y P ( +).
4.3.2. Caso continuo
Si (X, Y ) es un vector aleatorio continuo con funcin de densidad conjunta
f
X,Y
(x, y), entonces la funcin de densidad conjunta de (U, V ) puede espre-
sarse en trminos de f
X,Y
(x, y), en forma anloga a 2.1.1. Sea A = {(x, y) :
f
X,Y
(x, y) > 0} y B = {(u, v) : u = g
1
(x, y), v = g
2
(x, y) para todo (x, y)
A}. La funcin de densidad conjunta f
U,V
(u, v) ser positiva sobre el conjunto
B. Si se asume que u = g
1
(x, y) y v = g
2
(x, y) denen transformaciones uno a
uno de A hacia B entonces dichas transformaciones seran sobreyectivas segn
la denicin de B. Entonces para todo (u, v) B existe solo un (x, y) A
tal que (u, v) = (g
1
(x, y), g
2
(x, y)). Para cada transformacin uno a uno y
sobreyectiva, se pueden resolver las ecuaciones u = g
1
(x, y) y v = g
2
(x, y)
para x y y en trminos de u y v. Denotemos estas transformaciones inversas
por x = h
1
(u, v) y y = h
2
(u, v).
El rol que tuvo la derivada en el caso univariado ahora lo asume una
cantidad llamada el Jacobiano de la transformacin. Esta funcin de (u, v),
denotada por J, es el determinante de la matriz de derivadas parciales. Se
dene por:
J =
x
u
x
v
y
u
y
v
=
x
u
y
v

y
u
x
v
donde:
x
u
=
h
1
(u, v)
u
,
x
v
=
h
1
(u, v)
v
,
y
u
=
h
2
(u, v)
u
y
y
v
=
h
2
(u, v)
v
Se asume que J es diferente de cero sobre B. Entonces la funcin de
densidad conjunta de (U, V ) est dada por:
f
U,V
(u, v) = f
X,Y
(h
1
(u, v), h
2
(u, v)) |J| (4.3.2)
donde |J| es el valor absoluto de J.
Ejemplo 4.3.2 Sea X BE (, ) y Y BE( + , ) variables aleatorias
independientes. La funcin de densidad conjunta de (X, Y ) es:
f
X,Y
(x, y) =
( +)
()()
x
1
(1 x)
1
( + +)
( +)()
y
+1
(1 y)
1
Considere las transformaciones U = XY y V = X. Estas transfor-
maciones van de A = {(x, y) : 0 < x < 1, 0 < y < 1} al conjunto
B = {(u, v) : 0 < u < v < 1} y son uno a uno. Para todo (u, v) B, las ecua-
ciones u = xy y v = x puede resolverse unicamente para x = h
1
(u, v) = v y
y = h
2
(u, v) = u/v.
J =
0 1
1
v

u
v
2
=
1
v
Luego por 4.3.2 la funcin de densidad conjunta es:
f
U,V
(u, v) =
( + +)
()()()
v
1
(1 v)
1
_
u
v
_
+1
_
1
u
v
_
1
1
v
para 0 < u < v < 1. La distribucin marginal de V = X es BE(, ). La
distribucin de U tambin lo es:
f
U
(u) =
1
u
f
U,V
(u, v)dv
=
( + +)
()()()
u
1
1
u
_
u
v
u
_
1
_
1
u
v
_
1
_
u
v
2
_
dv
Sea w = (u/v u) /(1 u) tal que dw = u/[v
2
(1 u)]dv
f
U
(u) =
( + +)
()()()
u
1
(1 u)
+1
1
0
w
1
(1 w)
1
dw
=
( + +)
()()()
u
1
(1 u)
+1
()()
( +)
=
( + +)
()( +)
u
1
(1 u)
+1
, 0 < u < 1
Luego U BE (, +).
tribucin Z. Hallar f(u, v) si U = X + Y , V = X Y y probar que son
variables aleatorias independientes.
Teorema 4.3.2 Sean X y Y variables aleatorias independientes. Sea g(x)
una funcin que depende slo de x y h(y) una funcin que slo depende de y.
Entonces las variables aleatorias U = g(X) y V = h(Y ) son independientes.
Prueba: Asumiendo que U y V son variables aleatorias continuas. Para
todo u y v se dene:
A
u
= {x : g(x) u} y B
v
= {y : h(y) v}
La funcin de distribucin acumulada conjunta de (U, V ) es:
F
U,V
(u, v) = Pr(U u, V v)
= Pr(X A
u
, Y B
v
)
= Pr(X A
u
) Pr(Y B
v
)
La funcin de densidad conjunta de (U, V ) es:
f
U,V
(u, v) =

2
uv
F
U,V
(u, v) =
_
d
du
Pr(X A
u
)
__
d
dv
Pr(Y B
v
)
_
Luego U y V son independientes.
En muchas situaciones las transformaciones de inters no son uno a uno.
Sea A = {(x, y) : f
X,Y
(x, y) > 0}. Suponga que A
0
, A
1
, , A
k
forma una
particin de A. El conjunto A
0
, que podra ser vacio, satisface Pr((X, Y )
A
0
) = 0. Las transformaciones U = g
1
(X, Y ) y V = g
2
(X, Y ) son uno a uno,
desde A
i
hacia B para cada i = 1, 2, , k. Entonces para cada i se pueden
hallar las funciones inversas desde B hacia A
i
. Si se denotan las i-simas
inversas por x = h
1i
(u, v) e y = h
2i
(u, v), stas dan para (u, v) B un nico
(x, y) A
i
tal que (u, v) = (g
1
(x, y), g
2
(x, y)). Sea J
i
el Jacobiano calculado
a partir de las i-simas inversas. Entonces se tiene la siguiente representacin
de la funcin de densidad conjunta f
U,V
(u, v):
f
U,V
(u, v) =
k
i=1
f
X,Y
(h
1i
(u, v), h
2i
(u, v)) |J
i
| (4.3.3)
tribucin Z. Considere las transformaciones U = X/Y y V = |Y |. Sean:
A
1
= {(x, y) : y > 0}, A
2
= {(x, y) : y < 0} y A
0
= {(x, y) : y = 0}
A
0
, A
1
y A
2
forman una particin de A =
2
y Pr((X, Y ) A
0
) =
Pr(Y = 0) = 0. Para cada A
1
o A
2
, si (x, y) A
i
, v = |y| > 0 y u = x/y .
Luego, B = {(u, v) : v > 0} es la imagen de A
1
y A
2
bajo la transformacin.
Adems las transformaciones inversas desde B hacia A
1
y desde B hacia
A
2
son: x = h
11
(u, v) = uv, y = h
21
(u, v) = v, y x = h
12
(u, v) = uv,
y = h
22
(u, v) = v. Luego:
f
X,Y
(x, y) =
1
2
e
x
2
/2
e
y
2
/2
Usando 4.3.3
f
U,V
(u, v) =
1
2
e
(uv)
2
/2
e
v
2
/2
|v| +
1
2
e
(uv)
2
/2
e
(v)
2
/2
|v|
=
v
e
(u
2
+1)v
2
/2
para < u < y 0 < v < . La distribucin marginal de U es:
f
U
(u) =

0
v
e
(u
2
+1)v
2
/2
dv
=
1
2

0
e
(u
2
+1)z/2
dz
=
1
2
2
(u
2
+ 1)
=
1
(u
2
+ 1)
para < u < , entonces U C (0, 1).
4.4. Modelos jerrquicos y distribuciones mix-
tas
Ejemplo 4.4.1 Un insecto pone un nmero grande de huevos, cada uno
con probabilidad de supervivencia p. En promedio, cuntos huevos sobre-
vivirn? Sean X = Nmero de huevos sobrevivientes, y Y = Nmero de
huevos puestos. Luego se tiene el siguiente modelo jerrquico:
X|Y BI(Y, p), Y P()
La variable de inters, X = Nmero de huevos sobrevivientes, tiene la
siguiente distribucin:
Pr(X = x) =

y=0
Pr(X = x, Y = y)
=

y=0
Pr(X = x|Y = y) Pr(Y = y)
=

y=x
__
y
x
_
p
x
(1 p)
yx
_ _
e
y
y!
_
ya que la probabilidad condicional es cero si y < x, entonces:
Pr(X = x) =
(p)
x
e
x!
y=x
((1 p))
yx
(y x)!
=
(p)
x
e
x!
t=0
((1 p))
t
t!
=
(p)
x
e
x!
e
(1p)
=
(p)
x
e
p
x!
es decir que X P(p). Luego, todo proceso de inferencia marginal sobre
X se hace a travs de la distribucin de Poisson, en la que Y no es parte
del proceso. La respuesta a la pregunta inicial es E[X] = p, es decir, en
promedio, sobrevivirn p huevos.
Teorema 4.4.1 Si X y Y son variables aleatorias, entonces:
E[X] = E[E[X|Y ]] (4.4.1)
siempre que los esperados existan.
Prueba: Sea f(x, y) la funcin de densidad de X y Y . Por denicin se
tiene:
E[X] =
x
xf(x, y)dxdy
=
y
_
x
xf(x|y)dx
_
f
Y
(y)dy
=
y
E[X|Y ] f
Y
(y)dy
= E
Y
[E
X
[X|Y ]]
Volviendo al ejemplo anterior:
E[X] = E[E[X|Y ]] = E[Y p] = pE[Y ] = p
Denicin 4.4.1 Una variable aleatoria X se dice que tiene distribucin
mixta si la distribucin de X depende de una cantidad que tambin tiene
distribucin.
En el ejemplo 4.4.1 la distribucin P(p) es una distribucin mixta ya
que es el resultado de combinar una BI(Y, p) con Y P(). En general, se
puede armar que los modelos jerrquicos dan lugar a distribuciones mixtas.
Ejemplo 4.4.2 Considere una generalizacin del ejemplo 4.4.1:
X|Y BI(Y, p), Y | P() E()
Entonces:
E[X] = E[E[X|Y ]] = E[pY ] = pE[E[Y |]] = pE[] = p
Notar que este modelo de tres niveles puede ser expresado como uno
de dos jerarquas combinando los ltimos dos estados. Si Y | P() y
E(), luego:
Pr(Y = y) =

0
f(y, )d
=

0
f(y|)f()d
=

0
e
y
y!
1
e
/
d
=
1
y!
y
e
(1+
1
)
d
=
1
y!
(y + 1)
_
1
1 +
1
_
y+1
=
1
1 +
_

1 +
_
y
La expresin para la funcin de probabilidad de Y es de la familia 3.1.5, es
decir, binomial negativa. Luego, la jerarqua de tres estados de este ejemplo
es equivalente a la jerarqua de dos estados:
X|Y BI(Y, p) Y BN(p =
1
1 +
, r = 1)
Una mixtura til es la Poisson-gamma, que es una generalizacin de una
parte del modelo anterior. Si se toma la jerarqua:
Y | P(), G(, )
entonces Y BN.
Los modelos jerrquicos pueden hacer ms sencillos los clculos. Por ejem-
plo, una distribucin que aparece con frecuencia en estadstica es la distribu-
cin chi-cuadrado no central con p grados de libertad y parmetro de no
centralidad cuya funcin de densidad es:
f(X|, p) =

k=0
x
p/2+k1
e
x/2
(p/2 +k)2
p/2+k
k
e
k!
(4.4.2)
Calcular el E[X] puede ser tarea complicada. Sin embargo, si se examina
detenidamente la funcin de densidad puede observarse que se trata de una
distribucin mixta, obtenida de una densidad chi-cuadrado central y una
distribucin de Poisson. Es decir:
X|K
2
p+2K
, K P()
entonces la distribucin marginal de X est dada por 4.4.2. Luego:
E[X] = E[E[X|K]] = E[p + 2K] = p + 2
un clculo bastante directo. La variancia puede ser calculada de la misma
forma.
Ejemplo 4.4.3 Una generalizacin para ensayos de Bernoulli considera que
la probabilidad de xito no sea constante de ensayo a ensayo, manteniendo
los ensayos independientes. Un modelo estndar para esta situacin es:
X
i
|p
i
B(p
i
), i = 1, 2, , n p
i
BE(, )
Este modelo puede ser apropiado, por ejemplo, si se mide el xito de una
droga en n pacientes y debido a que cada paciente es diferente no es posible
asumir que la probabilidad de xito sea constante. Una variable aleatoria de
inters es Y =

n
i=i
X
i
, el nmero de xitos, cuya media es:
E[Y ] =
n
i=1
E[X
i
] =
n
i=1
E[E[X
i
|p
i
]] =
n
i=1
E[p
i
] =
n
i=1
+
=
n
+
Teorema 4.4.2 Sean X y Y dos variables aleatorias, entonces:
Var (X) = E[Var (X|Y )] + Var (E[X|Y ]) (4.4.3)
Prueba: Por denicin:
Var[X] = E
_
(X E[X])
2
_
= E
_
(X E[X|Y ] + E[X|Y ] E[X])
2
_
= E
_
(X E[X|Y ])
2
_
+ E
_
(E[X|Y ] E[X])
2
_
+2E[(X E[X|Y ])(E[X|Y ] E[X])]
= E[(X E[X|Y ])
2
] + E
_
(E[X|Y ] E[X])
2
_
= E[Var (X|Y )] + Var (E[X|Y ])
Ejemplo 4.4.4 Para calcular Var(Y ) del ejemplo 4.4.3:
Var(Y ) = Var
_
n
i=1
X
i
_
=
n
i=1
Var (X
i
)
ya que las X
i
son independientes. Usando 4.4.3:
Var(X
i
) = Var (E[X
i
|p
i
]) + E[Var(X
i
|p
i
)]
como E(X
i
|p
i
) = p
i
y p
i
BE(, ):
Var (E[X
i
|p
i
]) = Var(p
i
) =

( +)
2
( + + 1)
Tambin, X
i
|p
i
B(p
i
), Var(X
i
|p
i
) = p
i
(1 p
i
):
E[Var(X
i
|p
i
)] = E[p
i
(1 p
i
)]
=
( +)
()()
1
o
p
i
(1 p
i
)p
1
i
(1 p
i
)
1
dp
i
=
( +)
()()
( + 1)( + 1)
( + + 2)
=

( +)( + + 1)
Como Var(X
i
) no depende de i, entonces:
Var(Y ) =
n
( +)
2
4.5. Covarianza y correlacin
Denicin 4.5.1 La covarianza de X y Y es el nmero denido por:
Cov(X, Y ) = E[(X
X
)(Y
Y
)]
Denicin 4.5.2 La correlacin de X y Y es el nmero denido por:
XY
=
Cov(X, Y )
Y
El valor
XY
tambin es llamado coeciente de correlacin.
Teorema 4.5.1 Sean X y Y dos variables aleatorias, entonces:
Cov(X, Y ) = E[XY ]
X
Y
Ejemplo 4.5.1 Sea la funcin de densidad conjunta:
f(x, y) = 1 0 < x < 1 x < y < x + 1
La distribucin marginal de X es U (0, 1), luego
X
= 1/2 y
2
X
= 1/12. La
distribucin marginal de Y es:
f
Y
(y) =
_
_
_
y 0 < y < 1
2 y 1 y < 2
con
Y
= 1 y
2
Y
= 1/6. Adems:
E[XY ] =
1
0
x+1
x
xydydx =
7
12
Luego Cov(X, Y ) =
7
12
(
1
2
)(1) =
1
12
. El coeciente de correlacin es:
XY
=
Cov(X, Y )
Y
=
1/12
_
1/12
_
1/6
=
1
2
Teorema 4.5.2 Si X y Y son variables aleatorias independientes, entonces
Cov(X, Y ) = 0 y
XY
= 0.
Teorema 4.5.3 Si X y Y son variables aleatorias, a y b son constantes,
entonces:
Var(aX +bY ) = a
2
Var(X) +b
2
Var(Y ) + 2abCov(X, Y )
Si X y Y son variables aleatorias independientes, entonces:
Var(aX +bY ) = a
2
Var(X) +b
2
Var(Y )
Teorema 4.5.4 Para dos variables aleatorias X y Y :
a. 1
XY
1
b. |
XY
| = 1 s y solo si existen nmeros a = 0 y b tales que Pr(Y =
aX +b) = 1. Si
XY
= 1 entonces a > 0 y si
XY
= 1 entonces a < 0.
Ejemplo 4.5.2 Sean X U(0, 1) y Z U(0, 1/10) variables aleatorias
independientes. Sea Y = X + Z y considere el vector aleatorio (X, Y ). La
distribucin conjunta de (X, Y ) puede obtenerse a partir de la funcin de
densidad conjunta de (X, Z) usando las tcnicas de la seccin 4.3. La funcin
de densidad conjunta de (X, Y ) es:
f(x, y) = 10 0 < x < 1 x < y < x +
1
10
El resultado anterior tambien puede justicarse como sigue. Dados X = x,
Y = x + Z, la distribucin condicional de Z dado X = x es U(0,
1
10
) ya que
X y Z son independientes. As x sirve como parmetro de locacin en la
distribucin condicional de Y dado X = x, y esta distribucin marginal
es U(x, x +
1
10
). Multiplicando esta funcin de densidad condicional por la
funcin de densidad marginal de X, que es U(0, 1), se obtiene la funcin de
densidad conjunta anterior.
Esta representacin Y = X + Z hace fcil el clculo de la covariancia y
el coeciente de correlacin :
E[X] =
1
2
E[Y ] = E[X +Z] = E[X] + E[Z] =
1
2
+
1
20
=
11
20
Cov(X, Y ) = E[XY ] E[X]E[Y ]
= E[X(X +Z)] E[X]E[X +Z]
= E[X
2
] + E[XZ] (E[X])
2
E[X]E[Z]
=
2
X
=
1
12
Adems
2
Y
= Var(X +Z) = Var (X) + Var (Z) =
1
12
+
1
1200
. Luego:
XY
=
1
12
_
1
12
_
1
12
+
1
1200
=
100
101
que es mucho mayor que
XY
= 1/
2 del ejemplo 4.5.1. Por qu?

Figura 4.2: Regiones para las que f(x, y) > 0 de los ejemplos 4.5.1 y 4.5.2
Ejemplo 4.5.3 Sean X U(1, 1) y Z U(0, 1/10) variables aleatorias
independientes. Sea Y = X
2
+ Z y considere el vector aleatorio (X, Y ).
Tal como en el ejemplo 4.5.2, dado X = x, Y = x
2
+ Z y la distribucin
condicional de Y dado X = x es U(x
2
, x
2
+
1
10
). La funcin de densidad
conjunta de X y Y , el producto de esta condicional y la funcin de densidad
marginal de X, es:
f(x, y) = 5 1 < x < 1 x
2
< y < x
2
+
1
10
El conjunto sobre el que f(x, y) > 0 se muestra en la gura 4.5.3. Existe
una fuerte relacin entre X y Y , tal como lo indica la distribucin condicional
de Y dado X = x, pero la relacin no es lineal.
Figura 4.3: Regin donde f(x, y) > 0 del ejemplo 4.5.3
Como X U(1, 1) entonces E[X] = E[X
3
] = 0 y como X y Z son
independientes, E[XZ] = E[X]E[Z]. Luego:
Cov(X, Y ) = E[X(X
2
+Z)] E[X]E[X
2
+Z]
= E[X
3
] + E[XZ] E[X]E[X
2
+Z]
= 0
y
X,Y
= 0.
Denicin 4.5.3 Sean <
X
< , <
Y
< , 0 <
X
, 0 <
Y
,
y 1 < < 1 nmeros reales. La funcin de densidad normal bivariada con
medias
X
,
Y
varianzas
2
X
,
2
Y
y coeciente de correlacin esta dada
por:
f(x, y) =
1
2
X
1
2
exp
_
_
_
1
2(1
2
)
_
_
_
x
X
X
_
2
2
_
x
X
X
__
y
Y
Y
_
+
_
y
Y
Y
_
2
_
_
_
_
_
para < x < , < y < . Algunas de las propiedades de la
funcin de densidad conjunta anterior son:
a. La distribucin marginal de X es N(
X
,
2
X
).
b. La distribucin marginal de Y es N(
Y
,
2
Y
).
c. El coeciente de correlacin entre X y Y es
X,Y
= .
d. Para a y b constantes, la distribucin de aX +bY es:
N(a
X
+b
Y
, a
2
2
X
+b
2
2
Y
+ 2ab
X
Y
)
e. Todas las distribuciones condicionales tambin son normales. Por ejem-
plo:
f(Y/X = x) N
_
Y
+
_
X
_
(x
X
),
2
Y
(1
2
)
_
4.6. Distribuciones multivariadas
El vector aleatorio X = (X
1
, , X
n
) tiene un espacio muestral que es
subconjunto de
n
. Si (X
1
, , X
n
) es un vector aleatorio discreto (el espa-
cio muestral es numerable) entonces la funcin de probabilidad conjunta de
(X
1
, , X
n
) es la funcin denida por f(x) = f(x
1
, , x
n
) = Pr(X
1
=
x
1
, , X
n
= x
n
) para cada (x
1
, , x
n
)
n
. Entonces para todo A
n
,
Pr(X A) =

xA
f(x) (4.6.1)
si (X
1
, , X
n
) es un vector aleatorio continuo, entonces la funcin de
densidad conjunta de (x
1
, , x
n
) es la funcin f(x
1
, , x
n
) que satisface:
Pr(X A) =
A
f(x)dx =
A
f(x
1
, , x
n
)dx
1
dx
n
(4.6.2)
Sea g(x) = g(x
1
, , x
n
) una funcin de valor real denida sobre el espacio
muestral de X. Entonces g(X) es una variable aleatoria y su valor esperado
es:
E[g(X)] =

x
n
g(x)f(x) y E[g(X)] =
g(x)f(x)dx (4.6.3)
en el caso discreto y continuo respectivamente.
La funcin de probabilidad marginal o funcin de densidad marginal para
algn subconjunto de coordenadas de (X
1
, , X
n
) puede calcularse suman-
do o integrando la funcin de probabilidad o funcin de densidad conjun-
ta sobre las otras coordenadas. Por ejemplo, la distribucin marginal de
(X
1
, , X
k
), las primeras k-coordenadas de (X
1
, , X
n
), est dada por
la funcin de probabilidad o funcin de densidad:
f(x
1
, , x
k
) =

(x
k+1
, ,xn)
nk
f(x
1
, , x
n
) (4.6.4)
f(x
1
, , x
k
) =
f(x
1
, , x
n
)dx
k+1
dx
n
(4.6.5)
para todo (x
1
, , x
k
)
k
. La funcin de probabilidad o funcin de den-
sidad condicional de un subconjunto de coordenadas de (x
1
, , x
n
), dados
los valores de las coordenadas restantes, se obtiene dividiendo la funcin de
probabilidad o funcin de densidad conjunta por la funcin de probabilidad
o funcin de densidad marginal de las coordenadas restantes. As, por ejem-
plo, si f(x
1
, , x
n
) > 0, la funcin de probabilidad o funcin de densidad
condicional de (x
k+1
, , x
n
) dados X
1
= x
1
, , X
k
= x
k
es la funcin de
(x
k+1
, , x
n
) denida por:
f(x
k+1
, , x
n
|x
1
, , x
k
) =
f(x
1
, , x
n
)
f(x
1
, , x
k
)
(4.6.6)
Ejemplo 4.6.1 Sea la funcin de densidad conjunta:
f(x
1
, x
2
, x
3
, x
4
) =
_
_
_
3
4
(x
2
1
+x
2
2
+x
2
3
+x
2
4
) 0 < x
i
< 1
0 de otro modo
del vector aleatorio (X
1
, , X
4
). Se puede obtener la funcin de densidad
marginal de (X
1
, X
2
) integrando las variables X
3
y X
4
:
f(x
1
, x
2
) =
f(x
1
, , x
4
)dx
3
dx
4
=
1
0
1
0
3
4
(x
2
1
+x
2
2
+x
2
3
+x
2
4
)dx
3
dx
4
=
3
4
(x
2
1
+x
2
2
) +
1
2
para 0 < x
1
< 1, 0 < x
2
< 1. Cualquier probabilidad o valor esperado que
incluya solo X
1
y X
2
puede calcularse usando esta funcin de distribucin
marginal. Por ejemplo:
E[X
1
X
2
] =
x
1
x
2
f(x
1
, x
2
)dx
1
dx
2
=
1
0
1
0
x
1
x
2
_
3
4
(x
2
1
+x
2
2
) +
1
2
_
dx
1
dx
2
=
5
16
Para todo (x
1
, x
2
) con 0 < x
1
< 1, 0 < x
2
< 1, f(x
1
, x
2
) > 0 y la
funcin de densidad condicional de (X
3
, X
4
) dados X
1
= x
1
y X
2
= x
2
puede
obtenerse usando 4.6.6:
f(x
3
, x
4
|x
1
, x
2
) =
f(x
1
, x
2
, x
3
, x
4
)
f(x
1
, x
2
)
=
3
4
(x
2
1
+x
2
2
+x
2
3
+x
2
4
)
3
4
(x
2
1
+x
2
2
) +
1
2
=
x
2
1
+x
2
2
+x
2
3
+x
2
4
x
2
1
+x
2
2
+
2
3
Denicin 4.6.1 Sean n y m enteros positivos y sean p
1
, , p
n
nmeros
tales que 0 p
i
1, i = 1, , n y

n
i=1
p
i
= 1. Entonces el vector aleatorio
(X
1
, , X
n
) tiene distribucin multinomial con m ensayos y probabilidades
de celda p
1
, , p
n
si su funcin de probabilidad conjunta es:
f(x
1
, x
n
) =
m!
x
1
! x
n
!
p
x
1
1
p
xn
n
= m!
n
i=1
p
x
i
i
x
i
!
sobre el conjunto de (x
1
, , x
n
) tal que cada x
i
es un entero no negativo y
n
i=1
x
i
= m. El factor m!/(x
1
! x
n
!) es llamado coeciente multinomial.
Ejemplo 4.6.2 Considere el experiento aleatorio que consiste en lanzar 10
veces un dado. Suponga que el dado no se encuentra balanceado, tal que la
probabilidad de observar i es
i
21
. Sea el vector aleatorio (X
1
, , X
6
) tal que
X
i
representa el nmero de lanzamientos en los que se observ el nmero
i, entonces su distribucin es multinomial con m = 10 lanzamientos, n = 6
posibles resultados y probabilidades de celda p
1
=
1
21
, p
2
=
2
21
, , p
6
=
6
21
.
La frmula anterior puede usarse para calcular la probabilidad de obtener
el nmero 6 en cuatro lanzamientos, el nmero 5 en tres lanzamientos, el
nmero 4 en dos lanzamientos y el nmero 3 en solo un lanzamiento:
f(0, 0, 1, 2, 3, 4) =
10!
0!0!1!2!3!4!
_
1
21
_
0
_
2
21
_
0
_
3
21
_
1
_
4
21
_
2
_
5
21
_
3
_
6
21
_
4
=
59
10000
Teorema 4.6.1 (Teorema Multinomial) Sean m y n enteros positivos.
Sea A el conjunto de vectores x = (x
1
, , x
n
) tal que cada x
i
es un entero
no negativo y

n
i=1
x
i
= m. Entonces, para nmeros reales p
1
, p
2
, , p
n
:
(p
1
+ +p
n
)
m
=

xA
m!
x
1
! x
n
!
p
x
1
1
p
xn
n
Denicin 4.6.2 Sean X
1
, , X
n
vectores aleatorios con funcin de prob-
abilidad o funcin de densidad conjunta f(x
1
, , x
n
). Sea f
X
i
(x
i
) la funcin
de probabilidad o funcin de densidad marginal de X
i
. Entonces X
1
, , X
n
son vectores aleatorios mutuamente independientes si, para todo (x
1
, , x
n
):
f(x
1
, , x
n
) = f
X
1
(x
1
) f
Xn
(x
n
) =
n
i=1
f
X
i
(x
i
)
si todas las X
i
s son unidimensionales, entonces X
1
, , X
n
son llamadas
variables aleatorias mutuamente independientes.
Teorema 4.6.2 Sean X
1
, , X
n
variables aleatorias mutuamente indepen-
dientes. Sean g
1
, , g
n
funciones de valor real tales que g
i
(x
i
) es una funcin
solo de x
i
, i = 1, 2, , n, entonces:
E[g
1
(X
1
) g
n
(X
n
)] = E[g
1
(X
1
)] E[g
n
(X
n
)]
Teorema 4.6.3 (Generalizacin del teorema 4.2.2) Sean X
1
, , X
n
variables aleatorias mutuamente independientes con funciones generatrices
de momentos M
X
1
(t), , M
Xn
(t). Si Z = X
1
+ +X
n
, entonces la funcin
generatriz de momentos de Z es:
M
Z
(t) = M
X
1
(t) M
Xn
(t)
En particular, si las variables aleatorias X
1
, , X
n
tienen la misma distribu-
cin, con funcin generatriz de momentos M
X
(t), entonces:
M
Z
(t) = [M
X
(t)]
n
Ejemplo 4.6.3 Suponga X
1
, , X
n
son variables aleatorias mutuamente
independientes y la distribucin de X
i
G(
i
, ). La funcin generatriz de
momentos de una G(, ) es M
X
(t) = (1 t)
. Si Z = X
1
+ + X
n
su
funcin generatriz de momentos es:
M
Z
(t) = M
X
1
(t) M
Xn
(t)
= (1 t)
1
(1 t)
n
= (1 t)
(
1
++n)
entonces Z G(
1
+ +
n
, ).
Corolario 4.6.1 Sean X
1
, , X
n
variables aleatorias mutuamente inde-
pendientes con funciones generatrices de momentos M
X
1
(t), , M
Xn
(t). Si
a
1
, , a
n
y b
1
, , b
n
son constantes, entonces la funcin generatriz de mo-
mentos de Z = (a
1
X
1
+b
1
) + + (a
n
X
n
+b
n
) es:
M
Z
(t) =
_
e
t(
b
i)
_
M
X
1
(a
1
t) M
Xn
(a
n
t)
Ejemplo 4.6.4 Sean X
1
, , X
n
variables aleatorias mutuamente indepen-
dientes con X
i
N(
i
,
2
i
) . Si a
1
, , a
n
y b
1
, , b
n
son constantes, en-
tonces:
Z =
n
i=1
(a
i
X
i
+b
i
) N
_
n
i=1
(a
i
i
+b
i
),
n
i=1
a
2
i
2
i
_
Teorema 4.6.4 (Generalizacin del teorema 4.3.2) Sean X
1
, , X
n
vectores aleatorios independientes. Sea g
i
(x
i
) una funcin que solo depende
de x
i
, i = 1, , n. Entonces las variables aleatorias U
i
= g
i
(X
i
) son mutua-
mente independientes.
4.7. Transformaciones sobre un vector aleato-
rio
Sea (X
1
, , X
n
) un vector aleatorio con funcin de densidad f
X
(x).
Sea A = {x : f
X
(x) > 0}. Considere un nuevo vector aleatorio (U
1
, , U
n
)
denido por U
i
= g
i
(X
1
, , X
n
), i = 1, , n. Suponga que A
0
, A
1
, , A
k
forman una particin de A. El conjunto A
0
, el cual podra ser vacio, satisface
Pr((X
1
, , X
n
) A
0
) = 0. La transformacin (U
1
, , U
n
) es una trans-
formacin 1 - 1 desde A
i
hacia B . Entonces para cada i, se puede obtener
las funciones inversas desde B hacia A
i
.
Denote la i-sima inversa por x
1
= h
1i
(u
1
, , u
n
), x
2
= h
2i
(u
1
, , u
n
), , x
n
=
h
ni
(u
1
, , u
n
). Estas inversas dan un nico (x
1
, , x
n
) A
i
tal que (u
1
, , u
n
) =
(g
1
(x
1
, , x
n
), , g
n
(x
1
, , x
n
)). Sea J
i
el jacobiano calculado desde la
i-sima inversa, es decir:
J
i
=
x
1
u
1
x
1
u
2

x
1
un
x
2
u
1
x
2
u
2

x
2
un
.
.
.
.
.
.
.
.
.
.
.
.
xn
u
1
xn
u
2

xn
un
h
1i
(u)
u
1
h
1i
(u)
u
2

h
1i
(u)
un
h
2i
(u)
u
1
h
2i
(u)
u
2

h
2i
(u)
un
.
.
.
.
.
.
.
.
.
.
.
.
h
ni
(u)
u
1
h
ni
(u)
u
2

h
ni
(u)
un
es el determinante de la matriz nn. Luego la funcin de densidad conjunta,

f
U
(u
1
, , u
n
) para u B es:
f
U
(u
1
, , u
n
) =
k
i=1
f
X
(h
i1
(u
1
, , u
n
)) , , (h
n1
(u
1
, , u
n
)) |J
i
| (4.7.1)
Ejemplo 4.7.1 Sea (X
1
, X
2
, X
3
, X
4
) con funcin de densidad conjunta:
f
X
(x
1
, x
2
, , x
4
) = 24e
x
1
x
2
x
3
x
4
, 0 < x
1
< x
2
< x
3
< x
4
<
Considere las transformaciones:
U
1
= X
1
, U
2
= X
2
X
1
, U
3
= X
3
X
2
, U
4
= X
4
X
3
que van del conjunto A sobre el conjunto B = {u : 0 < u
i
< } para i =
1, 2, 3, 4. Adems son transformaciones 1 - 1, luego k = 1 y la inversa es:
X
1
= U
1
, X
2
= U
1
+U
2
, X
3
= U
1
+U
2
+U
3
, X
4
= U
1
+U
2
+U
3
+U
4
El Jacobiano de la inversa es:
J =
1 0 0 0
1 1 0 0
1 1 1 0
1 1 1 1
= 1
Luego:
f
U
(u
1
, , u
4
) = 24e
u
1
(u
1
+u
2
)(u
1
+u
2
+u
3
)(u
1
+u
2
+u
3
+u
4
)
= 24e
4u
1
3u
2
2u
3
u
4
sobre B
Adems f
U
(u
i
) = (5 i)e
(5i)u
i
, u
i
> 0, es decir U
i
E(1/(5 i)). Del
teorema 4.3.2 se puede observar que U
1
, U
2
, , U
4
son variables aleatorias
mutuamente independientes.
4.8. Desigualdades
4.8.1. Desigualdades numricas
Lema 4.8.1 Sean a, b nmeros positivos y p, q nmeros positivos mayores
que 1 que satisfacen:
1
p
+
1
q
= 1 (4.8.1)
entonces:
1
p
a
p
+
1
q
b
q
ab (4.8.2)
Teorema 4.8.1 (Desigualdad de Holder) Sean X y Y son variables
aleatorias que satisfacen 4.8.1, entonces:
|E[XY ]| E[|XY |] (E[|X|
p
])
1/p
(E[|Y |
q
])
1/q
(4.8.3)
Teorema 4.8.2 (Desigualdad de Cauchy-Schwarz) Si X y Y son vari-
ables aleatorias, entonces:
|E[XY ]| E[|XY |]
_
E
_
|X|
2
__
1/2
_
E
_
|Y |
2
__
1/2
(4.8.4)
Captulo 5
Propiedades en una muestra
aleatoria
5.1. Conceptos bsicos sobre muestras aleato-
rias
Denicin 5.1.1 X
1
, , X
n
son llamadas una muestra aleatoria de tamao
n de una poblacin f(x) si son variables aleatorias mutuamente independi-
entes y la funcin de probabilidad o densidad marginal de cada X
i
es f(x).
Alternativamente, X
1
, , X
n
son llamadas variables aleatorias independi-
entes e identicamente distribuidas con funcin de probabilidad o densidad
f(x).
Si la funcin de probabilidad o densidad es miembro de una familia
paramtrica f(x|), entonces la funcin de probabilidad o densidad conjunta
es:
f(x
1
, , x
n
|) =
n
i=1
f(x
i
|) (5.1.1)
Ejemplo 5.1.1 Sea X
1
, , X
n
una muestra aleatoria de una poblacin
E() que corresponden al tiempo de funcionamiento (en aos) de n circuitos
idnticos sometidos a prueba. La funcin de densidad conjunta de la muestra
es:
83
CAPTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA 84
f(x
1
, , x
n
|) =
n
i=1
f(x
i
|) =
n
i=1
1
e
x
i
/
=
1
n
e
(x
1
++xn)/
La probabilidad que todos los circuitos funcionen al menos dos aos es:
Pr(X
1
> 2, , X
n
> 2) =

2
1
n
e
(x
1
++xn)/
dx
1
dx
n
= e
2/

2
1
n1
e
(x
2
++xn)/
dx
2
dx
n
= (e
2/
)
n
= e
2n/
Usando independencia:
Pr(X
1
> 2, , X
n
> 2) = Pr(X
1
> 2) Pr(X
n
> 2)
= (e
2/
)
n
= e
2n/
Ejemplo 5.1.2 Suponga {1, , 1000} es una poblacin nita, es decir N =
1000. Si se elige una muestra sin reemplazo de tamao n = 10, cul es
la probabilidad que los 10 valores sean mayores a 200? Si se asume que
X
1
, , X
10
son independientes:
Pr(X
1
> 200, , X
10
> 200) = Pr(X
1
> 200) Pr(X
10
> 200)
=
_
800
1000
_
10
= 0,107374
Sea Y = nmero de valores en la muestra que son mayores a 200, entonces
Y H(N = 1000, M = 800, k = 10). Luego:
Pr(X
1
> 200, , X
10
> 200) = Pr(Y = 10)
=
_
800
10
__
200
0
_
_
1000
10
_
= 0,106164
5.2. Sumas de variables aleatorias a partir de
una muestra aleatoria
Denicin 5.2.1 Sea X
1
, , X
n
una muestra aleatoria de tamao n de una
poblacin y sea T(X
1
, , X
n
) una funcin cuyo dominio incluye el espacio
muestral de (X
1
, , X
n
), entonces la variable aleatoria Y = T(X
1
, , X
n
)
es llamada una estadstica cuya distribucin es llamada la distribucin de
muestreo de Y .
Denicin 5.2.2 La media muestral es el promedio aritmtico de los valores
en la muestra aleatoria. Usualmente se denota por:
X =
X
1
+ +X
n
n
=
1
n
n
i=1
X
i
Denicin 5.2.3 La varianza muestral es la estadstica denida por:
S
2
=
1
n 1
n
i=1
(X
i
X)
2
La desviacin estndar muestral es la estadstica denida por S =
S
2
.
Teorema 5.2.1 Sean x
1
, , x
n
nmeros cualesquiera y x = (x
1
+ +
x
n
)/n, entonces:
a. mn
n
i=1
(x
i
a)
2
=

n
i=1
(x
i
x)
2
b. (n 1)s
2
=

n
i=1
(x
i
x)
2
=

n
i=1
x
2
i
nx
2
Lema 5.2.1 Sea X
1
, , X
n
una muestra aleatoria de una poblacin y sea
g(x) una funcin tal que E[g(X
1
)] y Var (g(X
1
)) existen, entonces:
E
_
n
i=1
g(X
i
)
_
= nE[g(X
1
)] y Var
_
n
i=1
g(X
i
)
_
= nVar (g(X
1
)) (5.2.1)
Teorema 5.2.2 Sea X
1
, , X
n
una muestra aleatoria de una poblacin con
media y varianza
2
< , entonces:
a. E[X] =
b. Var
_
X
_
=

2
n
c. E[S
2
] =
2
Teorema 5.2.3 Sea X
1
, , X
n
con funcin generatriz de momentos M
X
(t), entonces la funcin generatriz
de momentos de la media muestral es:
M
X
(t) = [M
X
(t/n)]
n
Ejemplo 5.2.1 Sea X
1
, , X
n
N(,
2
). La funcin generatriz de momentos de la media muestral es:
M
X
(t) =
_
exp
_
t
n
+

2
(t/n)
2
2
__
n
= exp
_
t +
(
2
/n)t
2
2
_
entonces, X N(,
2
/n).
Ejemplo 5.2.2 Sea X
1
, , X
n
G(, ). La funcin generatriz de momentos de la media muestral es:
M
X
(t) =
__
1
1 (t/n)
_
_
n
=
_
1
1 (/n)t
_
n
entonces, X G(n, /n).
Si el teorema 5.2.3 no es aplicable puede usarse el mtodo de la transfor-
macin para hallar la funcin de densidad de Y = (X
1
+ + X
n
) y luego
la de X. En estos casos la siguiente frmula es til.
Teorema 5.2.4 Si X y Y son variables aleatorias continuas independientes
con funcin de densidad f
X
(x) y f
Y
(y), entonces la funcin de densidad de
Z = X +Y es:
f
Z
(z) =
f
X
(w)f
Y
(z w)dw (5.2.2)
Ejemplo 5.2.3 Suponga que desea obtener la distribucin de Z, la media de
Z
1
, , Z
n
observaciones independientes e identicamente distribuidas segn
C(0, 1). Aplicando 5.2.2 se puede demostrar que Z
1
+ + Z
n
tiene dis-
tribucin C(0, n) y Z C(0, 1), es decir la media muestral tiene la misma
distribucin de las observaciones individuales.
Suponga X
1
, , X
n
es una muestra de (1/)f((x)/) un miembro de
una familia de locacin-escala. Entonces la distribucin de X tiene relacin
con la distribucin de Z, la media muestral a partir de la funcin de densidad
estndar f(z). Recordar que segn el teorema 3.4.2 existen variables aleato-
rias Z
1
, , Z
n
tales que X
i
= Z
i
+ y la funcin de densidad de cada Z
i
es f(z). Adems se tiene que Z
1
, , Z
n
son mutuamente independientes por
lo que se trata de una muestra aleatoria de f(z). Las medias muestrales X y
Z estan relacionadas por:
X =
1
n
n
i=1
X
i
=
1
n
n
i=1
(Z
i
+) = Z +
Luego, aplicando nuevamente el teorema 3.4.2, se tiene que si g(z) es la fun-
cin de densidad de Z, entonces (1/)g((x)/) es la funcin de densidad
de X.
Ejemplo 5.2.4 Si Z
1
, , Z
n
es una muestra aleatoria de una distribucin
de C(0, 1), entonces Z C(0, 1). Luego si X
1
, , X
n
C(, ) entonces
X C(, ). Es importante notar que la dispersin de X medida por , es la
misma sin tomar en cuenta el tamao de muestra n, lo cual entra en aparente
contradiccin con el teorema 5.2.2 ya que la distribucion de Cauchy no tiene
varianza nita.
Cuando se muestrea a partir de una familia exponencial la distribucin
de muestreo de la suma es fcil de encontrar. Las estadsticas T
1
, , T
k
en
el siguiente teorema son medidas de resumen importantes, tal como se ver
ms adelante.
Teorema 5.2.5 Suponga X
1
, , X
n
es una muestra aleatoria tomada de
una funcin de probabilidad o densidad f(x|) donde:
f(x|) = h(x)c() exp
_
k
i=1
w
i
()T
i
(x)
_
es un miembro de una familia exponencial. Se denen las estadsticas
T
1
, , T
k
por:
T
i
(X
1
, , X
n
) =
n
j=1
T
i
(X
j
), i = 1, , k.
Suponga que:
{(w
1
(), , w
k
() : }
y
{(T
1
(x
1
, , x
n
), , T
k
(x
1
, , x
n
)) : x
j
X}
donde n k, es el espacio parmetrico y X es el espacio muestral de X
j
.
Luego, la distribucin de (T
1
, . . . , T
k
) es miembro de una familia exponencial
de la forma:
f
T
(t
1
, , t
k
|) = H(t
1
, , t
k
)[c()]
n
exp
_
k
i=1
w
i
()t
i
_
Ejemplo 5.2.5 Suponga que X
1
, , X
n
es una muestra aleatoria de una
distribucin B(p) que pertenece a una familia exponencial con k = 1, c(p) =
(1 p), w
1
(p) = log(p/(1 p)) y t
1
(x) = x. Luego T
1
= X
1
+ + X
n

BI(n, p) que pertenece a una familia exponencial con w
1
(p) y c(p) = (1 p).
5.3. Muestreo desde la distribucin Normal
5.3.1. Propiedades de la media y variancia muestral
Teorema 5.3.1 Sea X
1
, , X
n
una muestra aleatoria de la distribucin
N(,
2
) y sean X =
1
n
n
i=1
X
i
y S
2
=
1
n1
n
i=1
(X
i
X)
2
. Entonces:
a. X y S
2
son variables aleatorias independientes.
b. X N(,
2
/n).
c. (n 1)S
2
/
2

2
n1
.
Lema 5.3.1 Sea
2
p
una variable aleatoria con distribucin chi-cuadrado con
p grados de libertad.
a. Si Z N(0, 1) entonces Z
2

2
1
.
b. Si X
1
, , X
n
son independientes y X
i

2
p
i
entonces X
1
+ +X
n

2
p
1
++pn
.
Lema 5.3.2 Sea X
j
N(
j
,
2
j
), j = 1, , n independientes. Para con-
stantes a
ij
y b
rj
(i = 1, , k; r = 1, , m) donde k +m n, se dene:
U
i
=
n
j=1
a
ij
X
j
, i = 1, , k
V
r
=
n
j=1
b
rj
X
j
, r = 1, , m
a. Las variables aleatorias U
i
y V
r
son independientes si y solo si Cov(U
i
, V
r
) =
n
j=1
a
ij
b
rj
2
j
= 0.
b. Los vectores aleatorios (U
1
, , U
k
) y (V
1
, , V
m
) son independientes
s y solo si U
i
es independiente de V
r
para todos los pares i, r (i =
1, , k; r = 1, , m).
5.3.2. Distribuciones derivadas: t de Student y F de
Snedecor
Si X
1
, , X
n
es una muestra aleatoria de la distribucin N(,
2
) se
sabe que:
X
/
n
(5.3.1)
tiene distribucin N(0, 1). Muchas veces no se conoce, en este caso el
proceso de inferencia se realiza sobre:
X
S/
n
(5.3.2)
Denicin 5.3.1 Sea X
1
, , X
n
es una muestra aleatoria de una distribu-
cin N(,
2
). La cantidad
X
S/
n
tiene distribucin t-student con n1 grados
de libertad. Equivalentemente, una variable aleatoria T tiene distribucin t
de student con p grados de libertad, y se denota por T t
p
, si tiene la
siguiente funcin de densidad:
f
T
(t) =
(
p+1
2
)
(
p
2
)
1
(p)
1/2
1
(1 +t
2
/p)
(p+1)/2
, < t < (5.3.3)
Si p = 1 entonces 5.3.3 se convierte en la distribucin Cauchy, lo cual ocurre
cuando el tamao de muestra es 2.
La distribucin t de student no tiene funcin generatriz de momentos ya
que no todos sus momentos existen. De hecho, si existen p grados de libertad,
entonces solo existen p 1 momentos. Por lo tanto, t
1
no tiene media, t
2
no
tiene variancia, etc. Es fcil chequear que si T
p
es una variable aleatoria con
distribucin t
p
entonces:
E[T
p
] = 0 si p > 1
Var (T
p
) =
p
p 2
si p > 2
(5.3.4)
Denicin 5.3.2 Sea X
1
, , X
n
N(
X
,
2
X
) y sea Y
1
, Y
m
una muestra aleatoria de una poblacin inde-
pendiente N(
Y
,
2
Y
). La variable aleatoria F = (S
2
X
/
2
X
)/(S
2
Y
/
2
Y
) tiene
distribucin F de Snedecor con n 1 y m 1 grados de libertad. Equiva-
lentemente, la variable aleatoria F tiene distribucin F con p y q grados de
libertad, si su funcin de densidad es:
f
F
(x) =
(
p+q
2
)
(
p
2
)(
q
2
)
_
p
q
_
p/2
x
(p/2)1
[1 + (p/q)x]
(p+q)/2
, 0 < x < (5.3.5)
Teorema 5.3.2 Usando la tcnica de la transformacin es posible establecer
los siguientes resultados:
a. Si X F
p,q
entonces 1/X F
q,p
.
b. Si X t
q
entonces X
2
F
1,q
.
c. Si X F
p,q
entonces (p/q)X/(1 + (p/q)X) BE(p/2, q/2).
5.4. Estadsticas de orden
Denicin 5.4.1 Las estadsticas de orden de una muestra X
1
, , X
n
son
los valores puestos en orden ascendente y se denotan por X
(1)
, , X
(n)
.
Las estadsticas de orden son variables aleatorias que satisfacen X
(1)

X
(n)
. En particular:
X
(1)
= mn
1in
X
i
X
(2)
= segundo valor ms pequeo X
i
.
.
.
X
(n)
= m ax
1in
X
i
El rango muestral, R = X
(n)
X
(1)
es la diferencia entre la observacin
ms grande y pequea. La mediana muestral, denotada por M, es el nmero
tal que aproximadamente la mitad de las observaciones son menores que M
y la otra mitad es mayor. En trminos de las estadsticas de orden, M se
dene por:
M =
_
_
_
X
((n+1)/2)
si n es impar
(X
(n/2)
+X
(n/2+1)
)/2 si n es par
(5.4.1)
Para todo nmero p entre 0 y 1, el percentil muestral 100p es la obser-
vacin tal que aproximadamente np de las observaciones son menores que el
mencionado percentil y n(1 p) de las observaciones restantes son mayores.
El percentil muestral 50 es la mediana muestral. Para otros valores de p, se
puede denir de forma precisa los percentiles muestrales en trminos de las
estadsticas de orden.
Denicin 5.4.2 La notacin {b}, cuando aparezca como subndice, se de-
ne como el nmero b redondeado al entero ms cercano, es decir, si i es un
nmero entero y i 0,5 b < i + 0,5, entonces {b} = 1.
El percentil 100p es X
({np})
si
1
2n
< p < 0,5 y X
(n+1{n(1p)})
si 0,5 <
p < 1
1
2n
. Por ejemplo, si n = 12 y se desea hallar el percentil 65, se tiene
12(1 0,65) = 4,2 y 12 + 1 4 = 9. Luego el percentil 65 es X
(9)
.
Teorema 5.4.1 Sea X
1
, , X
n
una muestra aleatoria de una distribucin
discreta con funcin de probabilidad f
X
(x
i
) = p
i
donde x
1
< x
2
< son
los posibles valores de X en orden ascendente. Se denen:
P
0
= 0
P
1
= p
1
P
2
= p
1
+p
2
.
.
.
P
i
= p
1
+p
2
+ +p
i
Sean X
(1)
, , X
(n)
las estadsticas de orden de la muestra, entonces:
Pr(X
(j)
x
i
) =
n
k=j
_
n
k
_
P
k
i
(1 P
i
)
nk
(5.4.2)
y
Pr(X
(j)
= x
i
) =
n
k=j
_
n
k
_
_
P
k
i
(1 P
i
)
nk
P
k
i1
(1 P
i1
)
nk
_
(5.4.3)
(1)
, , X
(n)
las estadsticas de orden de una muestra
aleatoria de una poblacin continua con funcin de distribucin acumulada
F
X
(x) y funcin de densidad f
X
(x). Entonces la funcin de densidad de X
(j)
es:
f
X
(j)
(u) =
n!
(j 1)!(n j)!
f
X
(u)[F
X
(u)]
j1
[1 F
X
(u)]
nj
(5.4.4)
1
, , X
n
variables aleatorias independientes e iden-
ticamente distribuidas como U(0, 1), tal que f
X
(x) = 1 y F
X
(x) = x para
x (0, 1). Usando el teorema 5.4.2 se tiene que la funcin de densidad de la
j-sima estadstica de orden es:
f
X
(j)
(u) =
n!
(j 1)!(n j)!
u
j1
(1 u)
nj
=
(n + 1)
(j)(n j + 1)
u
j1
(1 u)
(nj+1)1
Es decir, X
(j)
BE(j, n j + 1). Luego:
E[X
(j)
] =
j
n + 1
y Var
_
X
(j)
_
=
j(n j + 1)
(n + 1)
2
(n + 2)
(1)
, , X
(n)
las estadsticas de orden de una mues-
tra aleatoria X
1
, , X
n
de una poblacin continua con funcin de distribu-
cin acumulada F
X
(x) y funcin de densidad f
X
(x). Entonces la funcin de
densidad conjunta de X
(i)
y X
(j)
, 1 i < j n, es:
f
X
(i)
,X
(j)
(u, v) =
n!
(i 1)!(j 1 i)!(n j)!
f
X
(u)f
X
(v)[F
X
(u)]
i1
[F
X
(v) F
X
(u)]
j1i
[1 F
X
(v)]
nj
(5.4.5)
para < u < v < .
Es posible obtener la funcin de densidad conjunta de tres o ms estadsti-
cas de orden usando argumentos similares pero ms complicados. La funcin
de densidad conjunta de todas las estadsticas de orden est dada por:
f
X
(1)
, ,X
(n)
(x
1
, , x
n
) =
_
_
_
n!f
X
(x
1
) f
X
(x
n
) < x
1
< < x
n
<
0 de otro modo
1
, , X
n
ticamente distribuidas segn U(0, a) y sean X
(1)
, , X
(n)
las estadsticas de
orden. El rango muestral fue denido como R = X
(n)
X
(1)
. El rango medio o
semirango es una medida de localizacin como la mediana o media muestral,
y se dene por S = (X
(1)
+ X
(n)
)/2. Se pide hallar la funcin de densidad
conjunta de R y S a partir de la funcin de densidad conjunta de X
(1)
y X
(n)
.
De 5.4.5 se tiene que:
f
X
(1)
,X
(n)
(u, v) =
n(n 1)(v u)
n2
a
n
, 0 < u < v < a
Resolviendo para X
(1)
y X
(n)
se obtiene:
X
(1)
= S R/2
X
(n)
= S +R/2
Las transformaciones anteriores son 1-1 y van desde A = {(u, v) : 0 <
u < v < a} hacia B = {(r, s) : 0 < r < a, r/2 < s < a r/2}. El jacobiano
es:
J =
1
1
2
1
1
2
= 1
La funcin de densidad conjunta de (R, S) es:
f
R,S
(r, s) =
n(n 1)r
n2
a
n
, 0 < r < a, r/2 < s < a r/2
La funcin de densidad marginal de R es:
f
R
(r) =
ar/2
r/2
n(n 1)r
n2
a
n
ds =
n(n 1)r
n2
(a r)
a
n
(5.4.6)
Si a = 1, se tiene que r BE(n 1, 2). Se puede probar que R/a tiene
distribucin beta, donde a es el parmetro de escala. La funcin de densidad
marginal de S es:
f
S
(s) =
2s
0
n(n 1)r
n2
a
n
dr =
n(2s)
n1
a
n
, 0 < s a/2
y
f
S
(s) =
2(as)
0
n(n 1)r
n2
a
n
dr =
n[2(a s)]
n1
a
n
, a/2 < s a
5.5. Conceptos de convergencia
5.5.1. Convergencia en probabilidad
Denicin 5.5.1 Una secuencia de variables aleatorias X
1
, X
2
, converge
en probabilidad hacia la variable aleatoria X, si para todo > 0
lm
n
Pr (|X
n
X| ) = 0 lm
n
Pr (|X
n
X| < ) = 1
Las variables aleaorias X
1
, X
2
, en la denicin 5.5.1, y en las otras
deniciones de esta seccin, no son necesariamente independientes e identi-
camente distribuidas como en una muestra aleatoria.
Frecuentemente se tiene que la secuencia de variables aleatorias corre-
sponde a medias muestrales y que la variable aleatoria lmite es constante.
El resultado ms famoso es el siguiente.
Teorema 5.5.1 (Ley dbil de los grandes nmeros) Sean X
1
, X
2
,
variables aleatorias independientes e identicamente distribuidas con E[X
i
] =
y Var(X
i
) =
2
< . Si se dene X
n
= (1/n)
n
i=1
X
i
entonces, para todo
> 0:
lm
n
Pr
_
X
n
<
_
= 1
es decir, X
n
converge en probabilidad hacia .
Ejemplo 5.5.1 Suponga se tiene la secuencia X
1
, X
2
, de variables aleato-
rias independientes e identicamente distribuidas con E[X
i
] = y Var (X
i
) =
2
< . Si se dene:
S
2
n
=
1
n 1
n
i=1
(X
i
X
n
)
2
Si se desea probar la ley dbil de los grandes nmeros para S
2
n
se usa la
desigualdad de Chebychev:
Pr
_
S
2
n
E[(S
2
n
2
)
2
]
2
=
Var (S
2
n
)
2
Una condicin suciente para que S
2
n
converja en probabilidad a
2
es
que Var (S
2
n
) 0 conforme n .
Teorema 5.5.2 Si X
1
, X
2
, converge en probabilidad hacia la variable
aleatoria X y h es una funcin continua, entonces h(X
1
), h(X
2
), converge
en probabilidad hacia h(X).
5.5.2. Convergencia casi segura
Denicin 5.5.2 Una secuencia de variables aleatorias, X
1
, X
2
, converge
de manera casi segura hacia la variable aleatoria X si, para todo > 0
Pr
_
lm
n
(|X
n
X| )
_
= 1
Ejemplo 5.5.2 Sea el espacio muestral S = [0, 1] con distribucin de prob-
abilidad uniforme. Se denen las variables aleatorias X
n
(s) = s + s
n
y
X(s) = s. Para todo s [0,1], s
n
0 conforme n y X
n
(s) s = X(s).
Sin embargo, X
n
(1) = 2 para todo n tal que X
n
(1) no converge a X(1) = 1.
Pero como la convergencia ocurre en el conjunto [0, 1] y Pr ([0, 1]) = 1, X
n
converge de forma casi segura hacia X.
Teorema 5.5.3 (Ley fuerte de los grandes nmeros) Sean X
1
, X
2
,
variables aleatorias independientes e identicamente distribuidas con E[X
i
] =
y Var (X
i
) =
2
< y se dene X
n
= (1/n)
n
i=1
X
i
. Entonces, para todo
> 0,
Pr
_
lm
n
X
n
<
_
= 1
es decir, X
n
converge de forma casi segura hacia .
5.5.3. Convergencia en distribucin
Denicin 5.5.3 Una secuencia de variables aleatorias, X
1
, X
2
, converge
en distribucin a la variable aleatoria X si:
lm
n
F
Xn
(x) = F
X
(x)
en todos los puntos x donde F
X
(x) es continua.
1
, X
2
, variables aleatorias con distribucin U(0, 1)
y sea X
(n)
= m ax
1in
{X
i
}. Conforme n se espera que X
(n)
se encuen-
tre cerca de 1, entonces para todo > 0:
Pr
_
X
(n)
1

_
= Pr
_
X
(n)
1 +
_
+ Pr
_
X
(n)
1
_
= Pr
_
X
(n)
1
_
= Pr (X
i
1 , i = 1, , n)
= (1 )
n
luego X
(n)
converge en probabilidad hacia 1. Adems, si se toma = t/n
se tiene:
Pr
_
X
(n)
1 t/n
_
= (1 t/n)
n
e
t
lo cual es equivalente a:
Pr
_
n
_
1 X
(n)
_
t
_
1 e
t
es decir, la variable aleatoria n
_
1 X
(n)
_
converge en distribucin a la
variable aleatoria E (1).
Teorema 5.5.4 (Teorema central del lmite) Sea X
1
, X
2
, variables
aleatorias independientes e identicamente distribuidas cuyas funciones gener-
atrices de momentos existen en alguna vecindad de 0 (esto es, M
X
i
(t) existe
para |t| < h para algn h positivo). Sea E[X
i
] = y Var (X
i
) =
2
> 0 ( y
2
son nitos desde que la funcin generatriz de momentos existe). Se dene
X
n
= (1/n)
n
i=1
X
i
y sea G
n
(x) la funcin de distribucin acumulada de
n(X
n
)/. Entonces para < x < :
lm
n
G
n
(x) =
2
e
y
2
/2
dy
esto es,

n(X
n
)/ tiene distribucin lmite normal estndar.
Prueba: Se probar que para| t |< h, la funcin generatriz de momentos
de

n(X
n
)/ converge hacia e
t
2
/2
, la funcin generatriz de momentos
de una variable aleatoria N(0, 1). Se dene Y
i
= (X
i
)/ y sea M
Y
(t) la
funcin generatriz de momentos de las Y
i
s, las cuales existen para | t |< h.
Sea W tal que:
W =
n(X )
=
1
n
n
i=1
Y
i
Luego:
M
W
(t) = M 1
n
i=1
Y
i
(t) = M
n
i=1
Y
i
(t/
n) =
_
M
Y
(t/
n)
_
n
Se expande M
Y
(t/
n) en una serie de potencias de Taylor alrededor de

0. Entonces:
M
Y
(t/
n) =

k=0
M
(k)
Y
(0)
(t/
n)
k
k!
donde M
(k)
Y
(0) =
d
k
dt
k
M
Y
(t)
t=0
Como la funcin generatriz de momento existe para | t |< h, la expresin
en serie de potencias es vlida si t <

nh. Usando el hecho que M
(0)
Y
= 1,
M
(1)
Y
= 0 y M
(2)
Y
= 1, ya que por construccin la media y varianza de Y son
0 y 1 respectivamente. Entonces:
M
Y
(t/
n) = M
(0)
Y
(0)
(t/
n)
0
0!
+ +M
(2)
Y
(0)
(t/
n)
2
2!
+R
Y
(t/
n)
= 1 +
(t/
n)
2
2
+R
Y
(t/
n)
donde R
Y
es el residuo en la expansin de Taylor. Una aplicacin del
teorema 7.4.1 de Taylor muestra que , para t = 0 jo, se tiene:
lm
n
R
Y
(t/
n)
(t/
n)
2
= 0 entonces lm
n
nR
Y
(t/
n) = 0
Luego:
lm
n
_
M
Y
(t/
n)
_
n
= lm
n
_
1 +
(t/
n)
2
2
+R
Y
(t/
n)
_
n
= lm
n
_
1 +
1
n
_
t
2
2
+nR
Y
(t/
n)
__
n
y usando el lema 2.3.1 se tiene:
lm
n
_
M
Y
(t/
n)
_
n
= e
t
2
/2
que es la funcin generatriz de momentos de la distribucin N(0, 1).
Teorema 5.5.5 (Forma fuerte del teorema central del lmite) Sean
X
1
, X
2
, variables aleatorias independientes e identicamente distribuidas
con E[X
i
] = y Var[X
i
] =
2
< . Se dene X
n
= (1/n)
n
i=1
X
i
y sea
G
n
(x) la funcin de distribucin acumulada de

n(X
n
)/. Entonces
para < x < :
lm
n
G
n
(x) =
2
e
y
2
/2
dy
esto es,

n(X
n
)/ tiene distribucin lmite normal estndar.
1
, , X
n
es una muestra aleatoria de una
distribucin BN(r, p). Recordar que:
E[X] =
r(1 p)
p
y Var (X) =
r(1 p)
p
2
El teorema central del lmite dice que:
n(X r(1 p)/p)

_
r(1 p)/p
2
tiene distribucin aproximada N(0, 1). Por ejemplo si r = 10, p = 1/2 y
n = 30 entonces:
Pr(X 11) = Pr
_
30
i=1
X
i
330
_
=
330
i=1
_
300 +x 1
x
_
_
1
2
_
300
_
1
2
_
x
= 0,8916
ya que

n
i=1
X
i
BN(nr, p). Usando el teorema central de lmite:
Pr(X 11) = Pr
_
30(X 10)
20

30(11 10)
20
_
= Pr(Z 1,2247)
= 0,8888
Teorema 5.5.6 (Teorema de Slutsky) Si X
n
X en distribucin y
Y
n
a en probabilidad, donde a es constante, entonces:
a. Y
n
X
n
aX en distribucin.
b. X
n
+Y
n
X +a en distribucion.
Ejemplo 5.5.5 Suponga que:
n(X
n
)
N(0, 1)
pero el valor de no se conoce. Como se vi en el ejemplo 5.5.1, si lm
n
S
2
n
=
0, entonces S
2
n

2
en probabilidad. Se puede probar que /S
n
1 en
probabilidad y segn el teorema de Slutsky:
n(X
n
)
S
n
=

S
n
n(X
n
)
N(0, 1)
Captulo 6
Principios de reduccin de la
data
6.1. Introduccin
Un experimentador usa la informacin en una muestra X
1
, , X
n
para
realizar el proceso de inferencia sobre algun parmetro desconocido . Si el
tamao de muestra es grande entonces los valores observados en la mues-
tra x
1
, , x
n
podran ser difciles de interpretar de forma individual. Es
necesario resumir la informacin en la muestra para determinar algunas car-
actersticas de inters a travs del clculo de estadsticas como la media, la
varianza, el mximo, el mnimo, la mediana, etc.
6.2. El principio de suciencia
Una estadstica suciente para un parmetro es una estadstica que,
de cierta forma, captura toda la informacion acerca de contenida en la
muestra. No es posible obtener informacin adicional en la muestra, adems
del valor de la estadstica suciente. Estas consideraciones nos llevan a la
tcnica de reduccin de datos conocida como el principio de suciencia: si
T(X) es una estadstica suciente para , entonces el proceso de inferencia
sobre depende de la muestra X solo a travs del valor T(X).
100
CAPTULO 6. PRINCIPIOS DE REDUCCIN DE LA DATA 101
6.2.1. Estadstica suciente
Denicin 6.2.1 Una estadstica T(X) es una estadstica suciente para
si la distribucin de la muestra X dado el valor de T(X) no depende de .
Teorema 6.2.1 Si f(x|) es la funcin de probabilidad o densidad conjunta
de X, y q(t|) es la funcin de probabilidad o densidad de T(X), entonces
T(X) es una estadstica suciente para si y solo si:
f(x|)
q (T(x|))
no depende de para todo X.
1
, , X
n
ticamente distribuidas segn B(), 0 < < 1. Para probar que T(X) =
X
1
+X
2
+ +X
n
es una estadstica suciente para hay que recordar que
T(X) BI(n, ). Si se dene t =

x
i
:
f(x|)
q (T(x|))
=
n
i=1
x
i
(1 )
1x
i
_
n
t
_
t
(1 )
nt
=

x
i
(1 )
n
x
i
_
n
t
_
t
(1 )
nt
=
1
_
n
t
_
entonces T(X) = X
1
+X
2
+ +X
n
es una estadstica suciente para .
1
, , X
n
ticamente distribuidas segn N(,
2
), donde
2
es conocido. Se desea probar
si T(X) = X es una estadstica suciente para , entonces:
f(x|) =
n
i=1
(2
2
)
1/2
exp
_
1
2
2
(x
i
)
2
_
= (2
2
)
n/2
exp
_
1
2
2
n
i=1
(x
i
)
2
_
= (2
2
)
n/2
exp
_
1
2
2
n
i=1
(x
i
x + x )
2
_
= (2
2
)
n/2
exp
_
1
2
2
_
n
i=1
(x
i
x)
2
+n( x )
2
__
adems X N(,

2
n
), luego:
f(x|)
q(T(x|))
=
(2
2
)
n/2
exp
_
1
2
2
(
n
i=1
(x
i
x)
2
+n( x )
2
)
_
n
1/2
(2
2
)
1/2
exp
_
n( x)
2
2
2
_
= n
1/2
(2
2
)
(n1)/2
exp
_
1
2
2
n
i=1
(x
i
x)
2
_
entonces X es una estadstica suciente para .
Teorema 6.2.2 (Teorema de Factorizacin) Sea f(x|) la funcin de
probabilidad o densidad conjunta de la muestra X. La estadstica T(X) es
suciente para si y solo si existen funciones g(t|) y h(x) tales que:
f(x|) = g(T(x)|)h(x) (6.2.1)
Ejemplo 6.2.3 Considere nuevamente el ejemplo 6.2.2:
f(x|) = (2
2
)
n/2
exp
_
1
2
2
n
i=1
(x
i
x)
2
_
exp
_
n( x )
2
2
2
_
= h(x)g(T(x)|)
entonces X es una estadstica suciente para .
1
, , X
n
ticamente distribuidas segn U(0, ) cuya funcin de densidad es:
f(x|) =
1
, 0 x
luego:
f(x|) =
n
i=1
1
I
(0,)
(x
i
)
=
1
n
n
i=1
I
(0,)
(x
i
)
=
1
n
I
(0,)
(x
(n)
)
entonces T(X) = X
(n)
Ejemplo 6.2.5 Nuevamente asuma que X
1
, , X
n
son variables aleatorias
independientes e identicamente distribuidas segn N(,
2
), donde ambos
parmetros son desconocidos, es decir = (,
2
). Segn el teorema de fac-
torizacin:
f(x|,
2
) = (2
2
)
n/2
exp
_
1
2
2
_
n
i=1
(x
i
x)
2
+n( x )
2
__
= (2
2
)
n/2
exp
_
1
2
2
_
n( x )
2
+ (n 1)s
2
_
_
Si T
1
(x) = x y T
2
(x) = s
2
, entonces:
f(x|,
2
) = (2
2
)
n/2
exp
_
1
2
2
_
n(t
1
)
2
+ (n 1)t
2
_
_
= g(T
1
(x), T
2
(x)|,
2
)h(x)
luego T(x) = (T
1
(x), T
2
(x)) = (X, S
2
) es una estadstica suciente para
el modelo normal.
1
, , X
n
observaciones independientes e identica-
mente distribuidas segn la funcin de probabilidad o densidad f(x|). Supon-
ga que f(x|) proviene de una familia exponencial dada por:
f(x|) = h(x)c() exp
_
k
i=1
w
i
()t
i
(x)
_
donde = (
1
,
2
, ,
d
), d k. Entonces:
T(X) =
_
_
n
j=1
t
1
(X
j
), ,
n
j=1
t
k
(X
j
)
_
_
1
, , X
n
mente distribuidas segn P() cuya funcin de probabilidad pertenece a una
familia exponencial:
f(x|) =
e
x
x!
=
1
x!
e
exp {x log }
entonces T(X) =

n
i=1
X
i
6.2.2. Estadstica minimal suciente
Como es posible encontrar muchas estadsticas sucientes en un mismo
problema sera necesario establecer cul es la mejor. Recordar que el propsito
de una estadstica suciente es lograr resumir la data sin prdida de informa-
cin acerca del parmetro , es decir que se debe buscar aquella estadstica
que logre la mayor reduccin de data reteniendo an toda la informacin
sobre .
Denicin 6.2.2 Una estadstica suciente T(X) es llamada estadstica min-
imal suciente si, para cualquier otra estadstica suciente T
(X), T(x) es
funcin de T
(x).
1
, , X
n
independientes e identicamente distribuidas
segn N(,
2
) donde
2
es conocido. Se sabe que T(X) = X es una estads-
tica suciente para y T
(X) = (X, S
2
) es una estadstica suciente para
en el mismo problema. Claramente T(X) logra una mayor reduccin de
data que T
(X). Puede escribirse T(X) como funcin de T
(X) a travs de
r(a, b) = a entonces:
T(x) = x = r(x, s
2
) = rT
(x)
Teorema 6.2.4 Sea f(x|) la funcin de probabilidad o densidad de una
muestra X. Suponga que existe una funcin T(X) tal que, para dos puntos
muestrales x y y, el ratio f(x|)/f(y|) no depende de si y solo si T(x) =
T(y). Entonces T(X) es una estadstica minimal suciente para .
1
, , X
n
segn N(,
2
) ambos parmetros desconocidos. Sean x y y dos muestras
tales que ( x, s
2
X
) y ( y, s
2
Y
) son las medias y varianzas muestrales respectiva-
mente. Entonces, usando 6.2.4:
f(x|,
2
)
f(y|,
2
)
=
(2
2
)
n/2
exp
_
1
2
2
(n( x )
2
+ (n 1)s
2
X
)
_
(2
2
)
n/2
exp
_
1
2
2
(n( y )
2
+ (n 1)s
2
Y
)
_
= exp
_
1
2
2
_
n( x
2
y
2
) + 2n( x y) (n 1)(s
2
X
s
2
Y
)
_
_
El ratio anterior no depender de y
2
si y solo si x = y y s
2
X
= s
2
Y
.
Luego por el teorema 6.2.4 (X, S
2
) es una estadstica minimal suciente para
(,
2
).
1
, , X
n
independientes e identicamente dis-
tribuidas segn U(, + 1), < < entonces la funcin de densidad
conjunta de X es:
n
i=1
I
(,+1)
(x
i
) = I
(x
(n)
1,x
(1)
)
()
Luego:
f(x|)
f(y|)
=
I
(x
(n)
1,x
(1)
)
()
I
(y
(n)
1,y
(1)
)
()
no depende de si x
(n)
= y
(n)
y x
(1)
= y
(1)
. Luego T(X) = (X
(1)
, X
(n)
) es
una estadstica minimal suciente.
Una estadstica minimal suciente no es nica. Cualquier funcin uno a
uno de una estadstica minimal suciente es tambin una estadstica minimal
suciente. Luego, T
(X) = (X
(n)
X
(1)
, (X
(1)
+X
(n)
)/2) es tambin una es-
tadstica minimal suciente en el ejemplo 6.2.9 y T
(X) = (
n
i=1
X
i
,
n
i=1
X
2
i
)
es tambin una estadstica minimal suciente en el ejemplo 6.2.8.
6.2.3. Estadstica ancillar
En las secciones anteriores se consideraron las estadsticas sucientes que
contienen toda la informacin sobre en la muestra. En esta seccin se intro-
duce un tipo diferente de estadstica que tiene un propsito complementario.
Denicin 6.2.3 Una estadstica S(X) cuya distribucin no depende del
paramtro es llamada estadstica ancil lar.
1
, , X
n
segn U(, +1). Sean X
(1)
< < X
(n)
las estadsticas de orden de la mues-
tra. Si R = X
(n)
X
(1)
se tiene que:
F(x|) =
_
_
0 x
x < x < + 1
1 x + 1
La funcin de densidad conjunta de X
(1)
y X
(n)
es:
f
X
(1)
,X
(n)
(u, v|) =
_
_
_
n(n 1)(v u)
n2
< u < v < + 1
0 de otro modo
Usando las transformaciones R = X
(n)
X
(1)
y M = (X
(1)
+ X
(n)
)/2 se
tiene X
(1)
= (2M R)/2 y X
(n)
= (2M +R)/2 tal que J = 1. Luego:
f
R,M
(r, m|) =
_
_
_
n(n 1)r
n2
+ (r/2) < m < + 1 (r/2)
0 de otro modo
La distribucin marginal:
f
R
(r|) =
+1(r/2)
+(r/2)
n(n 1)r
n2
dm = n(n 1)r
n2
(1 r), 0 < r < 1
Es decir, R tiene distribucin BE( = n 1, = 2) y no depende de
por lo que R es una estadstica ancillar.
6.2.4. Estadstica suciente, ancillar y completa
Denicin 6.2.4 Sea f(t|) una familia con funcin de probabilidad o den-
sidad para una estadstica T(X). La familia de distribucin de probabilidad es
llamada completa si E
[g(T)] = 0 para todo implica que Pr
[g(T) = 0] = 1
para todo . Equivalentemente, T(X) es llamada una estadstica completa.
Ejemplo 6.2.11 Sea T BI(n, p), 0 < p < 1. Sea g una funcin tal que
E
p
[g(T)] = 0, es decir:
E
p
[g(T)] =
n
t=0
g(t)
_
n
t
_
p
t
(1 p)
nt
= (1 p)
n
n
t=0
g(t)
_
n
t
__
p
1 p
_
t
luego

n
t=0
g(t)
_
n
t
_
(
p
1p
)
t
= 0 entonces g(t) = 0 para t = 0, 1, 2, , n y
Pr
p
(g(T) = 0) = 1, para todo p. Luego T es una estadstica completa.
1
, , X
n
mente distribuidas como U(0, ), 0 < < . Se tiene que T(X) = X
(n)
es
una estadstica suciente y que su funcin de densidad es:
f(t/) =
_
_
_
nt
n1
0 < t <
0 de otro modo
Suponga g(t) es una funcin que satisface E
[g(T)] = 0 para todo .

Como E
[g(T)] = 0 es una funcin constante su derivada con respecto a es

cero, entonces se tiene:
0 =
d
d
E
[g(T)] =
d
d
0
g(t)nt
n1
n
dt
Para toda funcin Riemman integrable
d
d
0
g(t)dt = g(). Luego:
=
d
d
0
g(t)nt
n1
=
n
d
d
0
g(t)nt
n1
dt + (
d
d
n
)
0
ng(t)t
n1
dt
= (
n
)g()n
n1
+ 0
=
1
g()n = 0
entonces g() = 0, luego T es una estadstica completa.
1
, , X
n
mente distribuidas de una familia exponencial con funcin de probabilidad o
densidad o funcin de probabilidad de la forma:
f(x|) = h(x)c() exp
_
_
_
k
j=1
w
j
()t
j
(x)
_
_
_
donde = (
1
,
2
, ,
k
), entonces la estadstica
T(X) =
_
n
i=1
t
1
(X
i
), ,
n
i=1
t
k
(X
i
)
_
es completa si {(w
1
() , , w
k
() : )} contiene un conjunto abier-
to en
k
.
Ejemplo 6.2.13 En el ejemplo 6.2.6 T(X) =

n
i=1
X
i
es una estadstica
suciente y completa para .
Captulo 7
Estimacin puntual
7.1. Introduccin
Denicin 7.1.1 Un estimador puntual es cualquier funcin W(X
1
, , X
n
)
de la muestra. Es decir, cualquier estadstica es una estimador puntual.
Se debe tener clara la diferencia entre estimador y estimacin. Un esti-
mador es una funcin de una muestra, mientras que una estimacin es el
valor obtenido al aplicar un estimador a los datos de una muestra. Es decir,
un estimador es una funcin de las variables aleatorias X
1
, , X
n
mientras
que una estimacin es una funcin de los valores muestrales x
1
, , x
n
.
7.2. Mtodos para encontrar estimadores
En muchos casos habr un candidato evidente o natural para ser el es-
timador puntual de un parmetro particular y a menudo la intuicin puede
inducirnos a obtener buenos estimadores. Por ejemplo, la media muestral es
un candidato natural para estimar la media poblacional.
7.2.1. Mtodos de momentos
Sea X
1
, , X
n
una muestra de una poblacin con funcin de probabili-
dad o densidad f(x|
1
, ,
k
). Los estadsticos por el mtodo de momentos
se encuentran igualando los k primeros momentos muestrales a sus corre-
spondientes k momentos poblacionales y resolviendo simultneamente las
108
CAPTULO 7. ESTIMACIN PUNTUAL 109
ecuaciones. Es decir, se denen:
m
1
=
1
n
n
i=1
X
1
i
,
1
= E[X
1
]
m
2
=
1
n
n
i=1
X
2
i
,
2
= E[X
2
]
.
.
.
m
k
=
1
n
n
i=1
X
k
i
,
k
= E[X
k
]
El momento poblacional
j
es, por lo general, una funcin de
1
, ,
k
digamos
j
(
1
, ,
k
). El estimador por el mtodo de momentos (
1
,
k
)
de (
1
, ,
k
) se obtiene resolviendo el siguiente sistema de ecuaciones en
trminos de (m
1
, , m
k
):
m
1
=
1
(
1
, ,
k
)
m
2
=
2
(
1
, ,
k
)
.
.
.
m
k
=
k
(
1
, ,
k
)
1
, , X
n
tribuidas segn N(,
2
). Se tiene m
1
= X =
1
, m
2
=
1
n
n
i=1
X
2
i
=
2
y resolviendo:
= X y
2
=
1
n
n
i=1
(X
i
X)
2
En este caso, el estimador por el mtodo de momentos coincide con nues-
tra intuicin sobre el candidato natural para .
1
, , X
n
tribuidas segn BI(k, p), ambos parmetros desconocidos:
m
1
=
1
n
n
i=1
X
i
= kp = E[X]
m
2
=
1
n
n
i=1
X
2
i
= kp(1 p) +k
2
p
2
= E[X
2
]
resolviendo :
k =
X
2
X
1
n
n
i=1
(X
i
X)
2
y p =
X
k
7.2.2. Estimadores de mxima verosimilitud
Denicin 7.2.1 Sea f(x|) que denota la funcin de probabilidad o den-
sidad conjunta de la muestra X = (X
1
, , X
n
). Entonces, dado que X = x
es observado, la funcin de denida por:
L(|x) = f(x|)
es llamada funcin de verosimilitud.
Si X
1
, , X
n
es una muestra independiente e identicamente distribuida
de una poblacin con funcin de probabilidad o densidad f(x|
1
, ,
k
), la
funcin de verosimilitud se dene por:
L(|x) = L(
1
, ,
k
|x
1
, , x
n
) =
n
i=1
f(x
i
|
1
, ,
k
) (7.2.1)
Denicin 7.2.2 Para cada punto muestral x, sea

(x) el valor del parmetro
en que L(|x) toma su mximo valor como funcin de , con x jo. Un esti-
mador de mxima verosimilitud del parmetro basado en la muestra X es
(X).
Si la funcin de verosimilitud es diferenciable en
i
, los posibles candidatos
para estimadores de mxima verosimilitud son los valores de (
1
, ,
k
) que
resuelven:
i
L(|x) = 0, i = 1, , k (7.2.2)
1
, , X
n
tribuidas segn N(,
2
= 1) entonces:
L(|x) =
n
i=1
1
(2)
1/2
e
1
2
(x
i
)
2
=
1
(2)
n/2
e
1
2
n
i=1
(x
i
)
2
Como
d
d
L(|x) = 0 se reduce a

n
i=1
(x
i
) = 0 entonces

= x es un
posible candidato. Luego vericando que:
d
2
d
2
L(|x)
=x
< 0
se concluye que

= X es el estimador de mxima verosimilitud.
En muchos casos es fcil trabajar con el logaritmo natural de L(|x)
conocido como logaritmo de la verosimilitud. Lo anterior es posible debido a
que la funcin log-verosimilitud es estrictamente decreciente sobre (0, ).
Ejemplo 7.2.4 Sea X
1
, , X
n
segn B(p):
L(p|x) =
p
i=1
p
x
i
(1 p)
1x
i
= p
n
i=1
x
i
(1 p)
n
n
i=1
x
i
El logaritmo de la verosimilitud es:
log L(p|x) =
n
i=1
x
i
log p + (n
n
i=1
x
i
) log(1 p)
Luego
d
dp
log L(p|x) = 0, entonces p = x es el candidato a estimador de
mxima verosimilitud. Luego, vericando que:
d
2
dp
2
log L(p|x)
p=x
< 0
se concluye que p = X es el estimador de mxima verosimilitud.
Teorema 7.2.1 (Propiedad de invariancia) Si

es el estimador de mx-
ima verosimilitud de , entonces para toda funcin (), su estimador de
mxima verosimilitud es (
) .
Usando el teorema anterior, se puede establecer que en el problema 7.2.3
el estimador de mxima verosimilitud de
2
es X
2
. Adems, el estimador de
mxima verosimilitud de
_
p(1 p) es
_
X(1 X) en el problema 7.2.4.
1
, , X
n
tribuidas segn N(,
2
), ambos parmetros desconocidos. Entonces:
L(,
2
|x) = (2
2
)
n/2
e
1
2
2
n
i=1
(x
i
)
2
log L(,
2
|x) =
n
2
log(2)
n
2
log
2
1
2
2
n
i=1
(x
i
)
2
las derivadas parciales con respecto a y
2
son:
log L =
1
2
n
i=1
(x
i
) = 0 y

2
log L =
n
2
2
+
1
2
4
n
i=1
(x
i
)
2
= 0
entonces

= x y
2
= n
1
n
i=1
(x
i
x)
2
, pero se trata de un mximo
global? Para eso al menos una derivada parcial de segundo orden deber ser
negativa:
2
log L
=x
=
1
2
n
i=1
(1) =
n
2
< 0
y adems el Jacobiano debe ser positivo:
2
log L

2
log L
2
log L

(
2
)
2
log L
Luego:
=
2

1
n
i=1
(x
i
)
2
n
i=1
(x
i
)
2 n
4

1
n
i=1
(x
i
)
2
=

,
2
=
2
=
1
6
n
2
2
=

,
2
=
2
=
1

6
n
2
2
> 0
Finalmente,

= X y
2
= n
1
n
i=1
(X
i
X)
2
son los estimadores de
mxima verosimilitud.
7.3. Mtodos de evaluacin de estimadores
7.3.1. Error cuadrtico medio
Denicin 7.3.1 El error cuadrtico medio del estimador W de un parmetro
se dene por E
[(W )
2
]. Se puede probar que:
E
[(W )
2
] = Var
(W) + Sesgo
2
[W] (7.3.1)
Denicin 7.3.2 El sesgo del estimador puntual W del parmetro , es la
diferencia entre su valor esperado y . Es decir, Sesgo
[W] = E
[W] .
Un estimador cuyo sesgo es cero es llamado insesgado. Para estimadores
insesgados se tiene E
[(W )
2
] = Var
(W).
1
, , X
n
tribuidas segn N(,
2
). Las estadsticas X y S
2
son ambos estimadores
insesgados ya que:
E[X] = y E[S
2
] =
2
Lo anterior es cierto an sin el supuesto de normalidad. El error cuadrtico
medio de estos estadsticos es:
E[(X )
2
] = Var
_
X
_
=

2
n
E[(S
2
2
)
2
] = Var
_
S
2
_
=
2
4
n 1
un estimador alternativo para
2
es el estimador de mxima verosimilitud

2
=
1
n
n
i=1
(x
i
x)
2
=
(n1)
n
s
2
, entonces:
E[
2
] = E
_
n 1
n
S
2
_
=
n 1
n

2
es decir,
2
es un estadstico sesgado de
2
. La variancia de
2
puede
calcularse como:
Var
_

2
_
= Var
_
n 1
n
S
2
_
=
_
n 1
n
_
2
Var
_
S
2
_
=
2(n 1)
n
2

4
Luego:
ECM[
2
] = E[(
2
2
)
2
]
= Var
_

2
_
+ Sesgo
2
[
2
]
=
2(n 1)
n
2

4
+
_
n 1
n

2
2
_
2
=
_
2n 1
n
2
_
4
Finalmente:
ECM[
2
] =
_
2n 1
n
2
_
4
<
_
2
n 1
_
4
= ECM[S
2
]
7.3.2. Mejores estimadores insesgados
Denicin 7.3.3 Un estimador W
es el mejor estimador insesgado de ()

si satisface que E
[W
] = (), para todo y para cualquier otro estimador

W con E
[W] = () se tiene Var
(W
) Var
(W) para todo . W
tambin
es llamado estimador insesgado uniforme de mnima variancia de ().
1
, , X
n
segn P() y sean X y S
2
. Recordar que para la funcin de probabilidad de
Poisson, la media y la varianza son iguales a . Luego aplicando el teorema
5.2.2 se tiene:
E
[X] =
E
[S
2
] =
es decir que ambos son estimadores insesgados de . Para determinar cul
es mejor se comparan las varianzas, aplicando nuevamente el teorema 5.2.2,
obteniendose que Var
_
X
_
Var
(S
2
). An considerando que X es mejor
que S
2
, considere la siguiente clase de estimadores:
W
a
(X, S
2
) = aX + (1 a)S
2
para toda constante a, E
[W
a
(X, S
2
)] = , es decir se tienen innitos
estimadores insesgados de . La pregunta es, an siendo X mejor estimador
que S
2
, X es mejor que W
a
(X, S
2
) para todo a?
Teorema 7.3.1 (Cramr-Rao) Sea X
1
, X
n
una muestra con funcin
de probabilidad o densidad f(x|) y sea W(X) = W(X
1
, , X
n
) algn
estimador donde E
[W(X)] es una funcin diferenciable de . Suponga que

la funcin de densidad conjunta f(x|) = f(x
1
, , x
n
|) satisface:
d
d
h(x)f(x|)dx
1
dx
n
=
h(x)

f(x|)dx
1
dx
n
(7.3.2)
para cualquier funcin h(x) con E
[|h(X)|] < . Entonces:

Var
(W(X))
_
d
d
E
[W(X)]
_
2
E
_
_

log f(X|)
_
2
_
(7.3.3)
Corolario 7.3.1 (Crmer-Rao caso independiente e identicamente
distribuido) Sean X
1
, , X
n
independientes e identicamente distribuidos
con funcin de probabilidad o densidad f(x|) y sea W(X) = W(X
1
, , X
n
)
cualquier estadstica tal que E
[W(X)] es una funcin diferenciable de . Si

la funcin de densidad conjunta f(x|) =

f(x
i
|) satisface 7.3.2 :
Var
(W(X))
_
d
d
E
[W(X)]
_
2
nE
_
_

log f(X|)
_
2
_
La cantidad E
log
n
i=1
f(X
i
|))
2
] es llamada nmero de informacin
o informacin de Fisher de la muestra.
Lema 7.3.1 Si f(x|) satisface:
d
d
E
log f(X|)
_
=
__

log f(x|)f(x|)
__
dx
lo cual es verdadero para una familia exponencial, entonces:
E
_
_
_

log f(X|)
_
2
_
_
= E
_

2
2
log f(X|)
_
Ejemplo 7.3.3 Volviendo al ejercicio de la distribucin de Poisson:
Var
(W(X))
_
d
d
E
[W(X)]
_
2
nE
_
(

log f(X|))
2
_
Si consideramos cualquier estimador insesgado:
Var
(W(X))
_
d
d
()
_
2
nE
_
(

log f(X|))
2
_
1
nE
_
(

log f(X|))
2
_
y como la distribucin de Poisson pertenece a una familia exponencial:
Var
(W(X))
1
nE
_

2
2
log f(X|)
_
1
n(
1

n
Como Var
_
X
_
= /n, entonces X es el mejor estimador insesgado de
.
Es importante recordar que un supuesto clave en el teorema de Crmer-
Rao es la posibilidad de derivar bajo el signo de la integral, algo que es en
cierto modo restrictivo pero que se satisface si la densidad pertenece a una
familia exponencial.
1
, , X
n
independientes e identicamente distribui-
dos segn N(,
2
). Considere el problema de estimar
2
cuando es cono-
cido. La funcin de densidad cumple con las condiciones del teorema de
Crmer-Rao y el lema 7.3.2, luego:
2
(
2
)
2
log f =
1
2
4

(x )
2
6
E
_

2
(
2
)
2
log f
_
= E
_
1
2
4

(X )
2
6
_
=
1
2
4
Para todo estimador insesgado W de
2
se tiene:
Var(W|,
2
)
2
4
n
En el ejemplo 7.3.1 se vi que:
Var(S
2
|,
2
)
2
4
n 1
es decir que S
2
no alcanza la cota inferior de Crmer-Rao. La pregunta
ahora es, existe algn estimador insesgado de
2
cuya varianza alcance la
cota mencionada?
Corolario 7.3.2 Sean X
1
, , X
n
independientes e identicamente distribui-
dos como f(x|) tal que satisface las condiciones del teorema Crmer-Rao.
Sea L(|x) =

n
i=1
f(x
i
|) denota la funcin de verosimilitud. Si W(X) =
W(X
1
, , X
n
) es cualquier estimador insesgado de (), entonces W(X)
alcanza la cota inferior real de Crmer-Rao s y solo si:
a()[W(x) ()] =

log L(|x) (7.3.4)

para alguna funcin a().
Ejemplo 7.3.5 Retomando el ejemplo 7.3.4 se tiene:
L(,
2
|x) =
1
(2
2
)
n/2
e
1
2
2

n
i=1
(x
i
)
2
y adems:
2
log L(,
2
|x) =
n
2
4
_
n
i=1
(x
i
)
2
n

2
_
Luego:
a(
2
)
_
n
i=1
(x
i
)
2
n

2
_
=
n
2
4
_
n
i=1
(x
i
)
2
n

2
_
entonces:
a(
2
) =
n
2
4
Es decir, el mejor estimador insesgado de
2
es

(x
i
)
2
/n y puede ser
calculado solo si es conocido, en caso contrario no puede alcanzarse la cota.
7.3.3. Suciencia e insesgabilidad
Recordar que si X y Y son dos variables aleatorias cualesquiera entonces,
siempre que los esperados existan, se tiene:
E[X] = E[E[X|Y ]]
Var[X] = Var (E[X|Y ]) + E[Var(X/|Y )]
Teorema 7.3.2 (Rao-Blackwell) Sea W un estimador insesgado de ()
y sea T una estadstica suciente para . Se dene (T) = E[W|T]. Entonces
E
[(T)] = () y Var
((T)) Var
(W) para todo , es decir, (T) es el

mejor estimador insesgado uniforme de () .
Teorema 7.3.3 Si W es el mejor estimador insesgado de (), entonces W
es nico.
Teorema 7.3.4 Sea T una estadstica suciente y adems completa para un
parmetro y sea (T) algn estimador basado slo en T. Entonces (T) es
el nico mejor estimador insesgado de su valor esperado.
1
, , X
n
ticamente distribuidas segn BI(k, ). Se desea estimar la probabilidad de
obtener un xito, es decir:
() = Pr
(X = 1) = k(1 )
k1
Adems
n
i=1
X
i
BI(kn, ) es una estadstica suciente y completa. El
siguiente estimador:
h(X
1
) =
_
_
_
1 si X
1
= 1
0 de otro modo
satisface E
[h(X
1
)] = k(1 )
k1
por lo que se trata de un estimador
insesgado de (). Luego:
_
n
i=1
X
i
_
= E
_
h(X
1
)|
n
i=1
X
i
_
es el mejor estimador insesgado de (). Suponga que se observa
n
i=1
X
i
=
t, entonces:
(t) = E
_
h(X
1
)|
n
i=1
X
i
= t
_
= Pr
(X
1
= 1|
n
i=1
X
i
= t)
aplicando la denicin de probabilidad condicional:
(t) =
Pr
(X
1
= 1,
n
i=1
X
i
= t)
Pr
n
i=1
X
i
= t)
=
Pr
(X
1
= 1,
n
i=2
X
i
= t 1)
Pr
n
i=1
X
i
= t)
=
Pr
(X
1
= 1) Pr
n
i=2
X
i
= t 1)
Pr
n
i=1
X
i
= t)
Adems X
i
BI(k, ) y

n
i=2
X
i
BI(k(n 1), ). Entonces:
(t) =
_
k(1 )
k1
_ _
k(n1)
t1
_
t1
(1 )
k(n1)(t1)
_
kn
t
_
t
(1 )
knt
= k
_
k(n1)
t1
_
_
kn
t
_
es el mejor estimador insesgado de () = Pr(X = 1).
7.3.4. Consistencia
Denicin 7.3.4 Una secuencia de estimadores W
n
= W
n
(X
1
, , X
n
) es
una secuencia consistente de estimadores del parmetro si, para todo > 0
y todo :
lm
n
Pr
(| W
n
|< ) = 1 (7.3.5)
1
, , X
n
segn N(, 1) y considere la secuencia:
X
n
=
1
n
n
i=1
X
i
recodando que X
n
N(,
1
n
) se tiene:
Pr
_
| X
n
|<
_
=
xn=+
xn=
(
n
2
)
1
2
e
n
2
( xn)
2
d x
n
=
y=
y=
_
n
2
_1
2
e
n
2
y
2
dy (y = x
n
)
=
t=
t=
n
_
1
2
_
1
2
e
1
2
t
dt (t = y
n)
= Pr
n < Z <
n) 1
cuando n . Luego X
n
es una secuencia consistente de estimadores
de .
Teorema 7.3.5 Si W
n
es una secuencia de estimadores del parmetro que
satisfacen
a. lm
n
Var
[W
n
] = 0.
b. lm
n
Sesgo
[W
n
] = 0 .
entonces W
n
es una secuencia consistente de estimadores de .
Ejemplo 7.3.8 Como:
E
[X
n
] = y Var
_
X
n
_
=
1
n
satisfacen las condiciones del teorema 7.3.5, luego la secuencia X
n
es consis-
tente. Adems, del teorema 5.2.2, X
n
proveniene de un muestreo independi-
ente e identicamente distribuido de cualquier poblacin con media por lo
que es consistente para dicho parmetro siempre que la varianza sea nita.
Teorema 7.3.6 Si W
n
una secuencia consistente de estimadores del parmetro
. Sean a
1
, a
2
, y b
1
, b
2
, secuencias de constantes que satisfacen:
a. lm
n
a
n
= 1.
b. lm
n
b
n
= 0 .
entonces, U
n
= a
n
W
n
+b
n
es una secuencia consistente de estimadores de .
Teorema 7.3.7 (Consistencia de los estimadores de mxima verosimil-
itud) Sean X
1
, , X
n
variables aleatorias independientes e identicamente
distribuidas de f(x|), y sea L(|x) =

n
i=1
f(x
i
|) la funcin de verosimil-
itud. Sea

el estimador de mxima verosimilitud de y () una funcin
continua de . Bajo ciertas condiciones de reguralidad sobre f(x|), y por
consiguiente L(|x), para todo > 0 y ,
lm
n
Pr
_
| (
) () |
_
= 0
es decir, (
) es un estimador consistente de ().

7.4. Otras consideraciones
7.4.1. Variancia asinttica de los estimadores de mx-
ima verosimilitud
Denicin 7.4.1 Una secuencia de estimadores W
n
es asintticamente e-
ciente para un parmetro () si:
lm
n
Var
(W
n
)
_
[
()]
2
nE
[(

log f(x|))
2
]
_
= 1
esto es, W
n
alcanza la cota inferior de Crmer-Rao conforme n .
7.4.2. Aproximacin por series de Taylor
Denicin 7.4.2 Si una funcin g(x) tiene derivadas de orden r, es decir que
existe g
(r)
(x) =
d
r
dx
r
g(x), entonces para cualquier constante a, la polinomial
de Taylor de orden r alrededor de a es:
T
r
(x) =
r
i=0
g
(i)
(a)
i!
(x a)
i
Teorema 7.4.1 (Taylor) Si g
(r)
(a) =
d
r
dx
r
g(x) |
x=a
existe, entonces:
lm
xa
g(x) T
r
(x)
(x a)
r
= 0
Captulo 8
Prueba de hiptesis
8.1. Introduccin
Denicin 8.1.1 Una hiptesis es una armacin acerca de un parmetro.
Denicin 8.1.2 Las dos hiptesis complementarias en un problema de
prueba de hiptesis son llamadas hiptesis nula e hiptesis alternativa y se
denotan por H
0
y H
1
respectivamente.
El objetivo de una prueba de hiptesis es decidir, en base a una muestra
extrada a partir de la poblacin, cul de las dos hiptesis complementarias
es verdadera.
Denicin 8.1.3 Una prueba de hiptesis es una regla que especifca:
a. Para que valores muestrales la decisin es no rechazar H
0
y suponer
que es verdadera.
b. Para que valores muestrales la decisin es rechazar H
0
y aceptar H
1
como verdadera.
El subconjunto del espacio muestral para el que se rechaza H
0
se denomina
regin de rechazo o regin critica. El complemento de la regin de rechazo es
llamado la regin de no rechazo.
123
CAPTULO 8. PRUEBA DE HIPTESIS 124
8.2. Mtodos para encontrar pruebas
8.2.1. Prueba de razn de verosimilitud
Si X
1
, , X
n
es una muestra aleatoria de una poblacin con funcin de
probabilidad o funcin de densidad f(x|) entonces la funcin de verosimili-
tud es:
L(|x
1
, , x
n
) = L(|x) =
n
i=1
f(x
i
|)
Denicin 8.2.1 La prueba estadstica de razn de verosimilitud para pro-
bar H
0
:
0
versus H
1
:
c
0
es:
(x) =
sup
0
L(|x)
sup
L(|x)
donde denota el espacio paramtrico completo. Una prueba de razn
de verosimilitud es aquella con regin de rechazo de la forma {x : (x) c},
donde 0 c 1.
Suponga que

es el estimador de mxima verosimilitud de sin restric-
cin. Considerar adems que

0
es el estimador de mxima verosimilitud
de asumiendo que el espacio paramtrico restringido es
0
, es decir

0
es
el valor de
0
que maximiza L(|x). Entonces, la prueba de razn de
verosimilitud es:
(x) =
L(
0
|x)
L(
|x)
Ejemplo 8.2.1 Sea X
1
, , X
n
N(, 1). Considerar la hiptesis H
0
: =
0
versus H
1
: =
0
donde
0
es una constante especcada a priori por el experimentador. Como existe un
solo valor de especicado por H
0
el numerador de (x) es L(
0
|x). El esti-
mador de mxima verosimilitud no restringido de es x, entonces la prueba
de razon de verosimilitud es:
(x) =
(2)
n/2
exp {
n
i=1
(x
i
0
)
2
/2}
(2)
n/2
exp {
n
i=1
(x
i
x)
2
/2}
= exp
_
1
2
_
i=1
(x
i
0
)
2
+
n
i=1
(x
i
x)
2
__
adems:
n
i=1
(x
i
0
)
2
=
n
i=1
(x
i
x)
2
+n( x
0
)
2
Luego,
(x) = exp
_
n( x
0
)
2
/2
_
La regin de rechazo {x : (x) c} se puede escribir como:
_
x :| x
0
|
_
2 log c/n
_
8.3. Mtodos para evaluar pruebas
8.3.1. Probabilidades de error y potencia de prueba
Una prueba de hiptesis para H
0
:
0
vs H
1
:
c
0
puede conducir
a dos tipos de error.
Decisin
Hiptesis verdadera No se rechaza H
0
Se rechaza H
0
H
0
Decisin correcta Error tipo I
H
1
Error tipo II Decisin correcta
Suponga que R denota la regin de rechazo de una prueba, entonces:
Pr
(X R) =
_
_
_
Pr (Cometer error tipo I) si
0
1 Pr (Cometer error tipo II) si
c
0
Denicin 8.3.1 La funcin potencia de una prueba de hiptesis con regin
de rechazo R es la funcin de denida por () = Pr
(X R).
Ejemplo 8.3.1 Sea X
1
, , X
n
N(,
2
),
2
conocido. Una prueba de razn de verosimilitud para H
0
:
0
versus H
1
: >
0
rechaza H
0
si ( x
0
)/(/
n) > c . La constante c puede

ser cualquier nmero positivo. La funcin potencia para esta prueba es:
() = Pr
_
X
0
/
n
> c
_
= Pr
_
X
/
n
> c +

0
n
_
= Pr
_
Z > c +

0
n
_
Conforme se incrementa desde a es fcil ver que esta probabili-
dad se incrementa de cero a uno, es decir que () es una funcin creciente
de con:
lm
() = 0, lm
() = 1 y (
0
) = si Pr (Z > c) =
donde es la probabilidad de cometer error tipo I o nivel de signicacin
de la prueba. El grco de () para c = 1,28 se muestra a continuacin.
8.4. Pruebas ptimas para hiptesis compues-
tas
8.4.1. Familias exponenciales
Teorema 8.4.1 Sea X
1
, , X
n
una muestra aleatoria de una funcin de
probabilidad o densidad de la forma f (x|) = h(x)c() exp {w()t(x)}. Si
T (x) =

n
i=1
t (x
i
) y se desea probar H
0
:
0
versus H
1
: >
0
.
a. Si w() es montona creciente entonces:
(x) =
_
_
_
1 si T (x) c
0 otro modo
es una prueba uniformemente ms poderosa.
b. Si w() es montona decreciente entonces:
(x) =
_
_
_
1 si T (x) c
0 otro modo
Teorema 8.4.2 Sea X
1
, , X
n
probabilidad o densidad de la forma f (x|) = h(x)c() exp {w()t(x)}. Si
T (x) =

n
i=1
t (x
i
) y se desea probar H
0
:
0
versus H
1
: <
0
.
a. Si w() es montona creciente entonces:
(x) =
_
_
_
1 si T (x) c
0 otro modo
b. Si w() es montona decreciente entonces:
(x) =
_
_
_
1 si T (x) c
0 otro modo
Ejemplo 8.4.1 Sea X
1
, , X
5
una muestra aleatoria a partir de la dis-
tribucin N (2, ). Hallar la prueba uniformemente ms poderosa de tamao
= 0,05 para probar las hiptesis H
0
: 0,8 versus H
1
: > 0,8.
8.4.2. Familias con la propiedad de razn de verosimil-
itud montona
Denicin 8.4.1 Una familia de densidades tiene la propiedad de razn de
verosimilitud montona si para todo
1
<
2
:
=
n
i=1
f (x
i
|
1
)
n
i=1
f (x
i
|
2
)
es una funcin creciente o decreciente en T (x).
Teorema 8.4.3 Sea X
1
, , X
n
densidad que pertenece a una familia con la propiedad de razn de verosimil-
itud montona en T (x) y se desea probar H
0
:
0
versus H
1
: >
0
.
a. Si la razn de verosimilitud montona es creciente en T (x) entonces:
(x) =
_
_
_
1 si T (x) c
0 otro modo
b. Si la razn de verosimilitud montona es decreciente en T (x) entonces:
(x) =
_
_
_
1 si T (x) c
0 otro modo
Teorema 8.4.4 Sea X
1
, , X
n
densidad que pertenece a una familia con la propiedad de razn de verosimil-
itud montona en T (x) y se desea probar H
0
:
0
versus H
1
: <
0
.
a. Si la razn de verosimilitud montona es creciente en T (x) entonces:
(x) =
_
_
_
1 si T (x) c
0 otro modo
b. Si la razn de verosimilitud montona es decreciente en T (x) entonces:
(x) =
_
_
_
1 si T (x) c
0 otro modo
Ejemplo 8.4.2 Sea X
1
, , X
n
tribucin f (x|) = 2x/
2
, 0 < x < . Hallar la prueba uniformemente
ms poderosa de tamao para probar las hiptesis H
0
:
0
versus
H
1
: <
0
.
8.4.3. Distribucin asinttica de la prueba de razn de
verosimilitud
Teorema 8.4.5 Sea X
1
, , X
n
probabilidad o densidad f(x|). Bajo ciertas condiciones de regularidad so-
bre el modelo f(x|) y si
0
entonces la distribucin del estadstico
2 log (X) converge a la distribucin
2
conforme n . Los grados
de libertad de la distribucin lmite se obtienen como la diferencia entre
el nmero de parmetros libres especicados por
0
y el nmero de
parmetros libres especicados por .
Ejemplo 8.4.3 Sea X
1
, , X
n
tribucin N (, 1). Use la prueba de razn de verosimilitud montona de
tamao = 0,05 para probar las hiptesis H
0
: = 3 versus H
1
: = 3.
Captulo 9
Estimacin por intervalos
9.1. Introduccin
Denicin 9.1.1 Una estimacin por intervalo de un parmetro es algn
par de funciones de la muestra, L(x
1
, , x
n
) y U(x
1
, , x
n
), que satisfacen
L(x) U(x) para todo x X. El intervalo aleatorio [L(X), U(X)] es llamado
un estimador por intervalo.
Ejemplo 9.1.1 Para una muestra X
1
, , X
4
de la distribucin N(, 1) un
estimador por intervalo de es [X 1, X + 1].
Denicin 9.1.2 Sea [L(X), U(X)] un estimador por intervalo de , la prob-
abilidad de cobertura de [L(X), U(X)] es la probabilidad que el intervalo
aleatorio cubra al paramtro , es decir, Pr
( [L(X), U(X)]) .
Ejemplo 9.1.2 En el ejemplo anterior la probabilidad que sea cubierto
por [X 1, X + 1] es 0,9544.
Denicin 9.1.3 Sea [L(X), U(X)] un estimador por intervalo para , el
coeciente de conanza es el nmo de las probabilidades de cobertura, es
decir nf
Pr
( [L(X), U(X)]).
Los estimadores de intervalo junto con una medida de conanza, usual-
mente un coeciente de conanza, son conocidos como intervalos de conan-
za.
130
CAPTULO 9. ESTIMACIN POR INTERVALOS 131
Ejemplo 9.1.3 Sea X
1
, , X
n
unifome(0, ) y sea X
(n)
el mximo. Se est interesado en un estadstico por
intervalo de . Si consideramos los siguientes candidatos:
[aX
(n)
, bX
(n)
]
1a<b
y [X
(n)
+c, X
(n)
+d]
0c<d
donde a, b, c y d son constantes. Notar que es necesariamente mayor
que X
(n)
. Para el primer intervalo se tiene:
Pr
_
[aX
(n)
, bX
(n)
]
_
= Pr
_
aX
(n)
bX
(n)
_
= Pr
_
1
b

X
(n)

1
a
_
= Pr
_
1
b
T
1
a
_
=
_
1
a
_
n
_
1
b
_
n
y no depende del parmetro. Para el segundo intervalo:
Pr
_
[X
(n)
+c, X
(n)
+d]
_
= Pr
_
X
(n)
+c X
(n)
+d
_
= Pr
_
1
d
T 1
c
_
=
_
1
c
_
n
_
1
d
_
n
y depende del parmetro.
9.2. Mtodos para encontrar estimadores de
intervalos
9.2.1. Invirtiendo una prueba estadstica
1
, , X
n
segn N(,
2
). Considere las hiptesis H
0
: =
0
versus H
1
: =
0
. Para
un nivel , se tiene la regin de rechazo {x :| x
0
|> z
1/2
/
n}. Notar
que H
0
no se rechaza si | x
0
| z
1/2
/
n, o equivalentemente:
x z
1/2
n

0
x +z
1/2
n
Como la prueba tiene tamao , esto signica que Pr(H
0
se rechaza / =
0
) = , o visto de otra forma Pr(No rechazar H
0
/ =
0
) = 1 . Luego:
Pr
_
X z
1/2
n

0
X +z
1/2
=
0
_
= 1
Pero lo anterior es verdadero para todo
0
, entonces:
Pr
_
X z
1/2
n
X +z
/2
n
_
= 1
Teorema 9.2.1 Para todo
0
, sea A(
0
) la regin de no rechazo para
una prueba con nivel de H
0
: =
0
. Para cada x X se dene el conjunto
C(x) en el espacio paramtrico por:
C(x) = {
0
: x A(
0
)} (9.2.1)
Entonces el conjunto aleatorio C(X) es un conjunto de conanza 1 .
Inversamente, sea C(X) un conjunto de conanza 1 . Para todo
0
,
se dene:
A(
0
) = {x :
0
C(x)}
Entonces A(
0
) es la regin de no rechazo de una prueba a un nivel de
H
0
: =
0
.
Ejemplo 9.2.2 Suponga que se desea un intervalo de conanza para la me-
dia de una poblacin exponencial usando la prueba H
0
: =
0
versus
H
1
: =
0
a un nivel :
(x) =
1
n
0
e
x
i
/
0
sup
n
e
x
i
/
=
1
n
0
e
x
i
/
0
1
(
x
i
/n)
n e
n
=
_
x
i
n
0
_
n
e
n
e
x
i
/
0
Para
0
jo la regin de no rechazo es:
A(
0
) =
_
x :
_
x
i
n
0
_
n
e
x
i
/
0
c
_
donde c es la constante que satisface Pr
0
(x A(
0
)) = 1 . Invirtiendo
la regin de no rechazo se obtiene el conjunto de conanza 1 :
C(x) =
_
:
_
x
i
_
n
e
x
i
/
c
_
9.2.2. Cantidades pivotales
Denicin 9.2.1 Una variable aleatoria Q(X, ) = Q(X
1
, , X
n
, ) es una
cantidad pivotal, o pivote, si la distribucin de Q(X, ) es independiente de
todo parmetro. Es decir, si X F(x/) entonces Q(X, ) tiene la misma
distribucin para todos los valores de .
Ejemplo 9.2.3 En los casos de las familias de locacin y escala existen
muchas cantidades pivotales
Forma Tipo Cantidad pivotal
f(x ) Locacin X
1
f
_
x
_
Escala
X
f
_
x
_
Locacin-escala
X
S
1
, , X
n
son independientes e identicamente
distribuidos segn la exponencial(). Entonces T =

X
i
es una estadstica
suciente para y T gamma(n, ), luego Q(T, ) = 2T/ X
2
2n
es un
pivote. Recordar adems que la distribucin gamma es una familia de escala.
Ejemplo 9.2.5 En el ejemplo 9.2.2 se obtuvo un intervalo de conanza para
la media invirtiendo la prueba de nivel , H
0
: =
0
versus H
1
: =
0
. Si se tiene una muestra aleatoria X
1
, , X
n
y se dene T = X
i
y
Q(T, ) = 2T/
2
2n
, pueden escogerse las constantes a y b que satisfacen
Pr(a
2
2n
b) = 1 , entonces:
Pr(a Q(T, ) b) = Pr
_
a
2t
b
_
= Pr
_
2t
b

2t
a
_
= 1
Ejemplo 9.2.6 Si X
1
, , X
n
son independientes e identicamente distribuidas
segn N(,
2
), entonces
X
/
n
es un pivote cuando
2
es conocido y puede
utilizarse para calcular un intervalo de conanza para :
Pr
_
a
X
/
n
a
_
= Pr(a Z a)
entonces:
_
: x a

n
x +a

n
_
9.2.3. Garantizado un invervalo
Teorema 9.2.2 Sea T una estadstica con funcin de distribucin acumula-
da F
T
(t/) y 0 < < 1 una constante ja. Suponga que para cada t T,
las funciones
L
(t) y
U
(t) se denen como:
a. Si F
T
(t/) es una funcin decreciente de para cada t, se dene
L
(t)
y
U
(t) por:
F
T
(t/
U
(t)) = /2, F
T
(t/
L
(t)) = 1 /2
b. Si F
T
(t/) es una funcin creciente de para cada t, se dene
L
(t) y
U
(t) por:
F
T
(t/
U
(t)) = 1 /2, F
T
(t/
L
(t)) = /2
Entonces, el intervalo aleatorio [
L
(T),
U
(T)] es un intervalo de conanza
1 para .
Ejemplo 9.2.7 Si X
1
, , X
n
son independientes con funcin de densidad
f(x
i
/) = e
(x)
I
[,)
(x), entonces T = X
(1)
es una estadstica suciente
para con funcin de densidad:
f
T
(t/) = ne
n(t)
I
[,)
(t)
cuya funcin de distribucin acumulada:
F
T
(t/) = 1 e
n(t)
es una funcin decreciente de . Entonces, jado y denidos
L
(t) y
U
(t) que satisfacen las ecuaciones:
F
T
(t/
U
(t)) = 1e
n(t
U
(t))
=

2
, F
T
(t/
L
(t)) = 1e
n(t
L
(t))
= 1/2
cuyas soluciones son:
U
(t) = t +
1
n
log
_
1

2
_
,
L
(t) = t +
1
n
log
_
2
_
Luego:
C(X
(1)
) =
_
: X
(1)
+
1
n
log
_
2
_
X
(1)
+
1
n
log
_
1

2
__
es un intervalo de conanza (1 ) para .
Teorema 9.2.3 Sea T una estadstica discreta con funcin de probabilidad
acumulada F
T
(t/) = Pr(T t/) y 0 < < 1 un valor jo. Suponga que
para todo t T,
L
(t) y
U
(t) pueden denirse como sigue:
a. Si F
T
(t/) es una funcin decreciente de para cada t, se dene
L
(t)
y
U
(t) por:
Pr(T t/
U
(t)) = /2, Pr(T t/
L
(t)) = /2
b. Si F
T
(t/) es una funcin creciente de para cada t, se dene
L
(t) y
U
(t) por:
Pr(T t/
U
(t)) = /2, Pr(T t/
L
(t)) = /2
Entonces, el intervalo aleatorio [
L
(T),
U
(T)] es un intervalo de conanza
1 para .
Ejemplo 9.2.8 Sea X
1
, , X
n
Poisson con parmetro y se dene la estadstica suciente Y =

X
i
cuya distribucin es Poisson(n). Aplicando el mtodo anterior si se observa
Y = y
0
esto conduce a resolver las ecuaciones:
y
0
k=0
e
n
(n)
k
k!
=

2
y

k=y
0
e
n
(n)
k
k!
=

2
Recordando la identidad 3.2.7 entre las familias Poisson y gamma se tiene:
2
=
y
0
k=0
e
n
(n)
k
k!
= Pr(Y y
0
/) = Pr(
2
2(y
0
+1)
> 2n)
cuya solucin es =
1
2n
2
2(y
0
+1),/2
. De manera similar para la segunda
ecuacin se obtiene:
2
=

k=y
0
e
n
(n)
k
k!
= Pr(Y y
0
/) = Pr(
2
2(y
0
+1)
< 2n)
Finalmente, el intervalo de conanza 1 para es:
_
:
1
2n
2
2y
0
,1/2

1
2n
2
2(y
0
+1),/2
_
Si y
0
= 0, se dene
2
0,1/2
= 0.
9.3. Mtodos de evaluacin de estimadores
por intervalos
9.3.1. Tamao y probabilidad de cobertura
1
, , X
n
independientes y distribuidas segn N(,
2
)
donde
2
es conocida. Usando el mtodo de la seccin 9.2.2 y adems:
Z =
X
/
n
es un pivote con distribucin normal estndar. Considerando a y b que
satisfacen:
Pr(a Z b) = 1
permite obtener el intervalo de conanza 1
_
: x b

n
x a

n
_
Qu eleccin a y b es la mejor? que eleccin de a y b minimiza la longitud
del intervalo de conanza manteniendo la cobertura 1 ?
Teorema 9.3.1 Sea f(x) una funcin de densidad unimodal. Si el intervalo
[a, b] satisface:
a.

b
a
f(x)dx = 1 .
b. f(a) = f(b) > 0, y
c. a x
b, donde x
es una moda de f(x).

entonces [a, b] es el ms pequeo entre todos los intervalos con cobertura
1 .
Ejemplo 9.3.2 Para intervalos de la distribucin normal basados en la can-
tidad pivotal
X
S/
n
se sabe que el intervalo de conanza 1 de longitud
ms pequea es de la forma:
x b
s
n
x a
s
n
La longitud del intervalo es una funcin de s:
Longitud(s) = (b a)
s
n
Aplicando el teorema 9.3.1 se llega a que a = t
n1;/2
y b = t
n1;/2
permite obtener el intervalo ptimo.
9.4. Otras consideraciones
9.4.1. Intervalos aproximados por mxima verosimili-
tud
Si X
1
, , X
n
son independientes distribuidas segn f(x/) y

es el
estimador de mxima verosimilitud para , entonces de 7.4.1 la varianza de
una funcin h(
) puede ser aproximada por:
Var(h(
)/)
[h
()]
2
|
=
2
log L(/x) |
=
Luego, para un valor de arbitrario pero jo y bajo condiciones generales

de regularidad se tiene:
h(
) h()
_
Var(h(
)/)
N(0, 1)
lo cual permite obtener el intervalo aproximado de conanza:
h(
) z
/2
_
Var(h(
)/) h() < h(
) +z
/2
_
Var(h(
)/)
Ejemplo 9.4.1 Se tiene un muestra aleatoria X
1
, X
n
de una poblacin
Bernoulli(p). Si se desea estimar la razn de odds p/(1 p) puede utilizarse
p/(1 p) donde p es el estimador de mxima verosimilitud. Luego:
Var
_
p
1 p
_
[h
()]
2
|
=
2
log L(/x) |
=
=
_
1
(1 p)
2
_
2
n
p(1 p)
=
p
n(1 p)
3
Finalmente, se puede construir el intervalo de conanza aproximado:
p
1 p
z
/2
_
Var
_
p
1 p
_
p
1 p

p
1 p
+z
/2
_
Var
_
p
1 p
_
9.4.2. Otros intervalos aproximados
Si se tienen las estadsticas W ,V y un paramtro tal que cuando n
,
W
V
N(0, 1)
entonces se puede construir un intervalo de conanza aproximado para
por:
W z
/2
V W +z
/2
V

Casella Español

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Casella Español

Caricato da

Copyright:

Formati disponibili

Inferencia Estadstica

Ms. Carlos Lpez de Castilla Vsquez

= (0, ) es una unin no numerable.

CAPTULO 2. TRANSFORMACIONES Y ESPERANZA 22

f(x, )dx (2.4.2)

g(x, )para todo

g(x, )dx < , entonces se cumple 2.4.2.

g(x, ) para todo

g(x, )dx < siempre que

h(, x) es continua en para cada x,

h(, x) converge uniformemente sobre cada subintervalo cerrado

()| < para todo [c, d]

CAPTULO 2. TRANSFORMACIONES Y ESPERANZA 30

g(x, y)f(x, y)dxdy (4.1.1)

f(x, y)dy, < x <

f(x, y)dx, < y <

h(y)dy = d, donde las

f(x, y)dxdy (4.2.2)

2 del ejemplo 4.5.1. Por qu?

es el determinante de la matriz nn. Luego la funcin de densidad conjunta,

n) en una serie de potencias de Taylor alrededor de

n(X r(1 p)/p)

(X). Puede escribirse T(X) como funcin de T

[g(T)] = 0 para todo implica que Pr

[g(T)] = 0 para todo .

[g(T)] = 0 es una funcin constante su derivada con respecto a es

es el mejor estimador insesgado de ()

] = (), para todo y para cualquier otro estimador

[W] = () se tiene Var

(W) para todo . W

[W(X)] es una funcin diferenciable de . Suponga que

[|h(X)|] < . Entonces:

[W(X)] es una funcin diferenciable de . Si

log L(|x) (7.3.4)

(W) para todo , es decir, (T) es el

) es un estimador consistente de ().

n) > c . La constante c puede

es una moda de f(x).

) puede ser aproximada por:

Luego, para un valor de arbitrario pero jo y bajo condiciones generales

)/) h() < h(

Potrebbero piacerti anche